Está en la página 1de 112

Serie Monografas EASP N 54

Descubriendo R-Commander
Ricardo Ocaa Riola
Descubriendo R-Commander

R es un lenguaje de programacin muy flexible orientado a la


estadstica computacional, el anlisis de datos y el desarrollo de
grficos, caractersticas que lo ha convertido en un lenguaje muy
popular entre estadsticos y matemticos especializados en
estadstica computacional.

A pesar de sus cualidades tcnicas, el uso de R puede resultar complejo para


personas que no estn familiarizadas con los lenguajes de programacin. Por
MONOGRAFAS EASP

este motivo, John Fox, profesor de Sociologa de la Universidad McMaster


(Canad), desarroll en 2005 el paquete Rcmdr, una Interfaz Grfica de
Usuario denominada R-Commander que permite trabajar en un entorno de
ventanas similar al de otros programas estadsticos como SPSS.

Durante los ltimos aos ha habido un inters creciente entre profesionales de


Ciencias de la Salud por el uso del lenguaje de programacin R y de la interfaz
R-Commander en sus investigaciones, ms debido al carcter gratuito de los
mismos que a la necesidad de programar complejos algoritmos para el anlisis
estadstico de la informacin. En la actualidad existe una amplia bibliografa
sobre el lenguaje de programacin R y sus procedimientos para el anlisis de
datos. Sin embargo, la documentacin sobre R-Commander es escasa,
especialmente en lengua castellana.

El propsito de esta monografa es proporcionar una gua de ayuda sencilla


para el anlisis estadstico de datos mediante la interfaz R-Commander,
dirigida a profesionales no especializados en Estadstica que utilizan esta
aplicacin durante el desarrollo de actividades formativas bsicas o de forma
puntual en sus investigaciones. No se tratan, por tanto, cuestiones
relacionadas con la programacin en R o el uso de secuencias de comandos,
cuyo abordaje requerira conocimientos computacionales ms avanzados y
estara orientado a especialistas que utilizan mtodos estadsticos de forma
intensiva en su labor profesional diaria.
Descubriendo R-Commander

Ricardo Ocaa Riola


Doctor en Ciencias Matemticas
Profesor de Estadstica
Escuela Andaluza de Salud Pblica
Usted es libre de: distribuir y comunicar pblicamente la obra, bajo las condiciones siguientes:
Reconocimiento Debe reconocer los crditos de la obra de la manera especificada por el autor o el
licenciador (pero no de una manera que sugiera que tiene su apoyo o apoyan el uso que hace de su obra).
No comercial No puede utilizar esta obra para fines comerciales.
No obras derivadas No se permite la generacin de obras derivadas a partir de este original.

Edita: Escuela Andaluza de Salud Pblica (www.easp.es)


ISBN: 978-84-617-3296-8

Ricardo Ocaa Riola, 2014


ndice
PRLOGO ............................................................................................................................................................ 7

1. INTRODUCCIN ............................................................................................................................................ 9

EL CONCEPTO DE SOFTWARE LIBRE ....................................................................................................... 10


EL LENGUAJE DE PROGRAMACIN R ...................................................................................................... 11
LA INTERFAZ GRFICA R-COMMANDER.................................................................................................. 13
FORTALEZAS Y DEBILIDADES DE R-COMMANDER ............................................................................... 13
Salida de resultados ....................................................................................................................................... 13
Grficos ......................................................................................................................................................... 14
Mtodos estadsticos ..................................................................................................................................... 15
Gestin de bases de datos .............................................................................................................................. 16
Errores ........................................................................................................................................................... 16
SON FIABLES R Y R-COMMANDER? ........................................................................................................ 16

2. INSTALACIN DE R-COMMANDER ....................................................................................................... 20

SISTEMA OPERATIVO WINDOWS .............................................................................................................. 20


Descarga de R ............................................................................................................................................... 20
Instalacin de R ............................................................................................................................................. 24
Instalacin de R-Commander ........................................................................................................................ 25
Comenzar una sesin de trabajo con R-commander ..................................................................................... 27

SISTEMA OPERATIVO MAC OS X ................................................................................................................ 29


Descarga de R ............................................................................................................................................... 29
Instalacin de R ............................................................................................................................................. 31
Instalacin de R-Commander ........................................................................................................................ 31
Comenzar una sesin de trabajo con R-commander ..................................................................................... 32

NOCIONES BSICAS ..................................................................................................................................... 32


Explorar el men de opciones y las ventanas de R-Commander .................................................................. 32
Definir el directorio de trabajo ...................................................................................................................... 34
Limpiar la ventana de trabajo ........................................................................................................................ 34
Salir de R-Commander y de R ...................................................................................................................... 35
ndice

3. GESTIN DE BASES DE DATOS CON R-COMMANDER..................................................................... 36

CONCEPTOS BSICOS .................................................................................................................................. 37


Estructura de una base de datos..................................................................................................................... 37
Tipos de variables ......................................................................................................................................... 38

ELABORACIN DE UNA BASE DE DATOS................................................................................................ 39

IMPORTAR UNA BASE DE DATOS ELABORADA CON OTRO SOFTWARE ......................................... 42


Archivos Excel, Access, dBase o Minitab .................................................................................................... 43
Archivos SPSS .............................................................................................................................................. 43
Archivos STATA .......................................................................................................................................... 44
Archivos de texto .......................................................................................................................................... 44
Captura de la base de datos ........................................................................................................................... 46

COMPLETAR INFORMACIN DE VARIABLES CUALITATIVAS........................................................... 47

OPERACIONES USUALES CON BASES DE DATOS ACTIVAS EN R-COMMANDER ................................ 50


Visualizar y editar la informacin de una base de datos ............................................................................... 50
Obtener nuevas variables a partir de las existentes: Calcular, recodificar y segmentar ................................ 50
Seleccionar registros y variables ................................................................................................................... 58
Eliminar variables y registros........................................................................................................................ 59
Guardar la base de datos activa en un archivo R-Commander ...................................................................... 61
Abrir una base de datos en formato R-Commander ...................................................................................... 61
Exportar la base de datos activa a un archivo con formato texto .................................................................. 62

4. ANLISIS DESCRIPTIVO UNIVARIANTE .............................................................................................. 64

DESCRIPCIN INICIAL DE VARIABLES .................................................................................................... 64


DESCRIPCIN DE VARIABLES CUALITATIVAS ..................................................................................... 66
Tabla de frecuencias ...................................................................................................................................... 66
Grfico de barras ........................................................................................................................................... 68
Diagrama de sectores .................................................................................................................................... 71

DESCRIPCIN DE VARIABLES CUANTITATIVAS................................................................................... 73


Resmenes numricos ................................................................................................................................... 73
Histograma .................................................................................................................................................... 74
Grfico de caja .............................................................................................................................................. 76

PRESENTACIN DE RESULTADOS ............................................................................................................ 78

iv
ndice

5. ANLISIS DESCRIPTIVO BIVARIANTE ................................................................................................. 81

VARIABLE DEPENDIENTE CUALITATIVA ............................................................................................... 82


Tabla de contingencia con variable independiente cualitativa ...................................................................... 83
Tabla de contingencia con variable independiente cuantitativa .................................................................... 86
Reordenar las categoras en una tabla de contingencia ................................................................................. 89
Presentacin de resultados ............................................................................................................................ 91
VARIABLE DEPENDIENTE CUANTITATIVA ............................................................................................ 92
Comparacin de los grupos definidos por una variable independiente cualitativa........................................ 92
Diagrama de dispersin con variable independiente cuantitativa ................................................................. 97
Presentacin de resultados .......................................................................................................................... 101

COMENTARIOS ADICIONALES ................................................................................................................ 102


Relaciones entre variables cualesquiera ...................................................................................................... 102
Limitaciones del anlisis descriptivo bivariante.......................................................................................... 102

6. CASOS PRCTICOS ................................................................................................................................... 104

ACCIDENTES POR PINCHAZO EN PROFESIONALES DE ENFERMERA ............................................ 104


VOLUMEN ESPIRATORIO EN PROFESIONALES DE LA MINERA ...................................................... 106

v
PRLOGO

D urante los ltimos aos ha habido un inters creciente entre los profesionales de
Ciencias de la Salud por el uso del lenguaje de programacin R y de la interfaz R-
Commander en sus investigaciones, ms debido al carcter gratuito de los mismos que a la
necesidad de programar complejos algoritmos para el anlisis estadstico de la informacin.

En la actualidad existe una amplia bibliografa sobre el lenguaje de programacin R y sus


procedimientos para el anlisis de datos. Sin embargo, la documentacin sobre R-Commander
es escasa, especialmente en lengua castellana. Por ello, el propsito de esta monografa es
elaborar una gua de ayuda sencilla para el anlisis estadstico de datos mediante la interfaz R-
Commander, dirigida a profesionales no especializados en Estadstica que utilizan esta
aplicacin durante el desarrollo de actividades formativas bsicas. A no ser que sea
estrictamente necesario no se tratarn, por tanto, cuestiones relacionadas con la programacin
en R o el uso de secuencias de comandos, cuyo abordaje requiere conocimientos informticos
ms avanzados y est orientado a especialistas que utilizan mtodos estadsticos de forma
intensiva en su labor profesional diaria.

Los procedimientos descritos a continuacin estn basados en R-Commander 1.7-0, incluido


en la versin 2.14.0 de R que fue publicada el 31/10/2011. Anualmente, el nmero de nuevas
versiones y actualizaciones suele ser superior a cuatro, por lo que es posible que algunos
procedimientos no estn disponibles o hayan sido modificados en otras versiones. Dada la
rapidez con la que se producen las revisiones de este software, es conveniente visitar con
frecuencia la web de la R Foundation for Statistical Computing (www.r-project.org) e instalar
la versin ms actualizada.

Salvo excepciones, los captulos siguientes no exponen el fundamento estadstico en el que se


basa el procedimiento de anlisis de R-Commander. Por ello, es aconsejable que el usuario de
esta monografa tenga nociones bsicas de estadstica o bien utilice su contenido como
complemento a los conocimientos adquiridos en actividades formativas de Estadstica.

Las bases de datos y los casos prcticos utilizados estn descritos en el ltimo captulo,
permitiendo as la reproduccin de los anlisis en cualquier ordenador personal.

7
Descubriendo R-Commander

1
INTRODUCCIN

E n el lenguaje comn, el azar es sinnimo de casualidad. Sucesos impredecibles que no


se pueden anticipar ni evitar. Durante siglos, la ciencia clsica ha negado la presencia de
este tipo de sucesos en la Naturaleza. El principio de causalidad, en el que se basa el
determinismo cientfico, afirma que cualquier fenmeno est provocado por una causa en la
que el azar no tiene cabida. Esta relacin entre la causa y el efecto siempre puede
representarse a travs de ecuaciones matemticas capaces de predecir el comportamiento
cualquier fenmeno natural una vez cuantificadas las causas que lo provocan. Para el
determinismo cientfico, decir que un suceso ha ocurrido por azar es equivalente a decir que
desconocemos las causas que lo provocan.

Si bien es cierto que muchos fenmenos de la Naturaleza pueden predecirse con exactitud, la
mayora de las teoras cientficas actuales aceptan la existencia de otros fenmenos que no
pueden explicarse mediante modelos puramente deterministas. Fenmenos que, de manera
intrnseca, llevan asociados un componente aleatorio en su desarrollo. La propagacin de una
epidemia, las fluctuaciones burstiles o el desplazamiento de un cicln son algunos de los
sucesos analizados en diferentes campos cientficos en los que el azar juega un papel
importante. Aunque pertenezcan a mbitos distintos, todos estos sucesos tienen en comn la
imposibilidad de determinar con certeza cul ser su resultado final de entre todos los
posibles. Su estudio requiere el uso de un tipo especial de modelos matemticos denominados
aleatorios, cuyo desarrollo tiene en cuenta el efecto del azar.

La Estadstica es la ciencia que estudia este tipo de fenmenos. Desde su origen, a mediados
del siglo XVII, los mtodos estadsticos han permanecido en continuo desarrollo,
contribuyendo a la toma de decisiones, al establecimiento de modelos causales y a la
descripcin de los fenmenos naturales ms complejos. No en vano, la Estadstica es
actualmente un elemento clave en el proceso de investigacin de cualquier disciplina,
llegando a consolidarse el lenguaje universal de la ciencia del siglo XXI.

La Estadstica no estudia a cada sujeto particular, sino a la poblacin o grupo al que


pertenecen esos sujetos. Por ello, es necesario disponer de tcnicas que, partiendo de la
informacin individual, sean capaces de extraer conclusiones generales del conjunto. Para este
propsito, el desarrollo de mltiples programas informticos, tanto libres como propietarios,
ha permitido durante las ltimas dcadas la aplicacin de complejos modelos estadsticos en

9
Descubriendo R-Commander

diferentes mbitos, siendo herramientas fundamentales para el avance del conocimiento


cientfico.

El concepto de software libre

El trmino software libre se refiere a la libertad de los usuarios para copiar, distribuir, ejecutar
y modificar un programa informtico accediendo al cdigo fuente del mismo. Sin embargo, el
concepto libre no es sinnimo de gratuito o no comercial. Cualquier software libre puede
tener un uso y distribucin comercial, de manera que, a veces, el mismo software libre puede
conseguirse de forma gratuita o pagando un precio determinado. De hecho, el uso comercial
de software libre es cada vez ms frecuente, siendo lcito la venta de copias o el desarrollo de
software comercial a partir de l. 1 De la misma forma, un software gratuito no tiene que ser
necesariamente libre, ya que el autor o autores pueden distribuir el producto sin permitir que
los usuarios accedan al cdigo fuente para modificarlo o generar nuevas versiones.

A modo de ejemplo, Openbravo, un programa informtico para la planificacin de recursos


empresariales, ha sido diseado como software libre. Su cdigo es abierto, accesible a todo el
mundo y el cliente puede modificarlo segn sus necesidades, sin embargo no es un software
gratuito. Existe un modelo de suscripcin de pago segn uso. Por otro lado, QuickTime,
sistema de reproduccin multimedia desarrollado por Apple, es gratuito, pero no es software
libre puesto que el usuario no tiene acceso a su cdigo fuente ni puede modificarlo.

La mayora de usuarios finales, sin experiencia en programacin, no decide utilizar software


libre por contribuir a su desarrollo, corregir errores o ampliar sus prestaciones mediante la
programacin del cdigo abierto. El motivo suele estar ms relacionado con la reduccin de
costes que supone prescindir del pago de licencias, de manera que el software libre ser
atractivo para este tipo de usuarios siempre que sea gratuito. Aunque esta es una ventaja
importante, el software libre tambin presenta desventajas relacionadas generalmente con la
complejidad de instalacin, la dificultad de aprendizaje, la ausencia de soporte tcnico oficial
y la escasez de manuales que permitan una formacin slida estructurada. Por ello, la
implicacin de la comunidad que utiliza el software es fundamental para su mejora, ya que
suelen ser los propios usuarios los que elaboran documentacin, informan de errores y
comparten conocimiento a travs de foros, listas de distribucin o redes sociales.

El software libre gratuito puede ser una alternativa al software propietario de pago, sin
embargo el coste econmico no debe ser el principal factor que decida su utilizacin. En cada
caso particular ser necesario realizar una valoracin del perfil profesional del usuario final,

1
GNU Operating System. La definicin de software libre. Disponible en: www.gnu.org/philosophy/free-sw.es.html

10
Introduccin

los objetivos a alcanzar, las necesidades que se han de cubrir y las prestaciones que ofrecen
las diferentes alternativas de software, ya sea libre, propietario, gratuito o de pago.

EL LENGUAJE DE PROGRAMACIN R

R es un lenguaje de programacin muy flexible orientado a la estadstica computacional, el


anlisis de datos y el desarrollo de grficos. Es un software libre y gratuito desarrollado bajo
las condiciones GNU General Public License (www.gnu.org) por el equipo central de la R
Foundation for Statistical Computing (www.r-project.org).

Como en cualquier lenguaje de programacin, el usuario debe conocer bien el entorno de


trabajo y las funciones bsicas implementadas en R para, a partir de ellas, realizar el anlisis
estadstico deseado o desarrollar nuevas funciones. En el mbito informtico, una funcin es
un grupo de instrucciones que procesa los datos introducidos y devuelve un valor final. As,
para calcular la media de una serie de valores en R ser necesario programar una funcin que
contenga las siguientes instrucciones:

function (x, trim = 0, na.rm = FALSE, ...)


{
if (!is.numeric(x) && !is.complex(x) && !is.logical(x))
{
warning("argument is not numeric or logical: returning NA")
return(as.numeric(NA))
}
if (na.rm)
x <- x[!is.na(x)]
trim <- trim[1]
n <- length(x)
if (trim > 0 && n > 0)
{
if (is.complex(x))
stop("trimmed means are not defined for complex data")
if (trim >= 0.5)
return(median(x, na.rm = FALSE))
lo <- floor(n * trim) + 1
hi <- n + 1 - lo
x <- sort(x, partial = unique(c(lo, hi)))[lo:hi]
n <- hi - lo + 1
}
if (is.integer(x))
sum(as.numeric(x))/n
else sum(x)/n
}

11
Descubriendo R-Commander

Todas estas instrucciones forman una funcin denominada mean, que por defecto ya viene
implementada en R. Cuando el usuario hace uso de ella, la funcin solicita unos datos y
devuelve el valor medio de los mismos. As, al escribir mean(c(0,2,4)) se procesarn
automticamente las instrucciones anteriores y se obtendr como resultado 2, media
aritmtica de los valores 0, 2 y 4.

Al igual que mean, existen otras funciones que ya han sido programadas por el equipo de
desarrollo de R y estn disponibles para su uso inmediato, como las funciones min y max que
devuelven respectivamente el valor mnimo y mximo de los datos introducidos. As,
min(c(0,2,4)) dar como resultado 0 y max(c(0,2,4)) devolver el valor 4. Estas funciones
forman parte de procedimientos estadsticos bsicos, por lo que estn agrupadas en un paquete
de funciones denominado Base. Este paquete, junto a otros que contienen funciones ms
avanzadas, ha sido desarrollado por el equipo central de R y viene incorporado en su
instalacin.

En general, las instrucciones que permiten realizar un clculo determinado se programan en


una funcin y a su vez las funciones se agrupan en paquetes temticos para facilitar su
localizacin. La estructura es similar a la descrita en el siguiente grfico:

Paquete Base Paquete A

Funcin mean Funcin min Funcin A.1 Funcin A.2


Instrucciones Instrucciones Instrucciones Instrucciones

Funcin max Funcin abs Funcin A.3 Funcin A.4


Instrucciones Instrucciones Instrucciones Instrucciones

Actualmente, quiz R sea uno de los lenguajes de programacin con ms funciones


implementadas para el anlisis de datos. Adems, su flexibilidad permite programar e
incorporar nuevos modelos que han sido desarrollados en el campo de la teora matemtica,
cualidad que lo ha convertido en un software muy popular entre estadsticos y matemticos
especializados en estadstica computacional.

A pesar de sus cualidades tcnicas, el uso de R puede resultar complejo para personas que no
estn familiarizadas con los lenguajes de programacin. La necesidad de escribir
instrucciones y comandos para realizar anlisis estadsticos simples hace que R no sea el

12
Introduccin

software elegido por profesionales no especializados en estadstica para llevar a cabo


proyectos de investigacin aplicada.

LA INTERFAZ GRFICA R-COMMANDER

En general, el nmero de personas que usa un software libre no est determinado


exclusivamente por cunto puede hacer el software. La facilidad de uso ha de ser tambin una
de sus caractersticas principales, ya que la mayora de usuarios rehusarn utilizarlo si el
software libre no permite realizar de forma sencilla todos los trabajos que necesitan llevar a
cabo. 2

Por este motivo, John Fox, profesor de Sociologa de la Universidad McMaster (Canad),
desarroll en 2005 el paquete Rcmdr, una Interfaz Grfica de Usuario denominada R-
Commander que permita a sus alumnos trabajar en un entorno de ventanas similar al de otros
programas estadsticos como SPSS. 3 De esta forma se ha facilitado el manejo de R en cursos
de estadstica bsica, de manera que actualmente el usuario puede elegir el entorno en el que
desea trabajar, ya sea mediante la interfaz R-Commander o a travs de la consola de
instrucciones y comandos de programacin R.

FORTALEZAS Y DEBILIDADES DE R-COMMANDER

La implementacin de esta interfaz al software R ha mejorado mucho su apariencia,


permitiendo que nuevos usuarios no especializados en lenguajes de programacin lo utilicen
para el anlisis estadstico de datos. Desde su introduccin en 2005, R-Commander ha tenido
varias actualizaciones que han aumentado sus posibilidades de forma progresiva. Esta
caracterstica, junto a su distribucin gratuita, constituyen sus principales fortalezas. Sin
embargo, an presenta algunas debilidades que conviene conocer.

Salida de resultados

Uno de los principales inconvenientes de R-Commander es que la ventana de resultados no


estructura las salidas en tablas que se puedan copiar, pegar o exportar a documentos de
paquetes ofimticos estndar, como Microsoft Office, Open Office o iWork, por citar algunos.
Por ello, es aconsejable que el usuario vaya configurando sus propias tablas de resultados en

2
GNU Operating System. La definicin de software libre. Disponible en: www.gnu.org/philosophy/free-sw.es.html
3 Fox J. The R Commander: A Basic-Statistics Graphical User Interface to R. Journal of Statistical Software 2005; 11(9): 1-
42.

13
Descubriendo R-Commander

un procesador de textos, transcribiendo la informacin que R-Commander ofrece en la


ventana. Aunque el proceso puede resultar tedioso, es la nica forma de organizar la
informacin y conseguir un documento final comprensible para personas que no han
participado en el anlisis de datos o no estn familiarizadas con las salidas de resultados de
esta interfaz.

Grficos

Los grficos realizados con R-Commander se visualizan en una ventana independiente


denominada ventana grfica. Cada uno de ellos podr guardarse en diferentes formatos desde
el men principal de esta ventana, pulsando la opcin Archivo Guardar como. Tambin
ser posible copiarlo pulsando la secuencia Archivo Copiar para el rea de transferencia y
a continuacin pegarlo directamente en un documento de trabajo. Sin embargo, antes de
guardar un grfico o incorporarlo a un documento, es aconsejable mejorar su apariencia y
modificar algunos aspectos para que sea autoexplicativo.

Si bien las capacidades grficas de R son enormes, las opciones de R-Commander son muy
limitadas. Esta interfaz no dispone de un editor de grficos que permita, entre otros, cambiar
el ttulo, la leyenda o el color del grfico antes de exportarlo a un documento, por lo que
habitualmente su aspecto original no es el idneo para informes o presentaciones
profesionales. Para modificar su apariencia ser necesario recurrir a la sintaxis de
programacin en R, modificando manualmente el cdigo de la grfica bsica, aadiendo
nuevos parmetros o ejecutando determinados comandos. Este procedimiento requiere
conocer algo ms sobre el funcionamiento de este lenguaje, lo que supondr un esfuerzo
adicional para algunos usuarios. En los sucesivos captulos se explicar como realizar esta
tarea para cada grfico particular, aunque existen ciertos parmetros comunes que se suelen
incorporar en la mayora de las lneas de comandos. La siguiente tabla describe los ms
usuales:

14
Introduccin

Parmetro Descripcin Ejemplo

main=Ttulo Inserta en la cabecera del grfico el ttulo main=Distribucin de la variable sexo


entrecomillado.

xlab=Etiqueta Inserta en el eje horizontal de un grfico la xlab=Sexo


etiqueta entrecomillada.

ylab=Etiqueta Inserta en el eje vertical de un grfico la etiqueta ylab=Nmero de sujetos


entrecomillada.

col=color Pinta el grfico del color especificado entre col=darkblue (azul oscuro)
comillas. Se puede elegir entre 657 nombres de col=blue (azul)
colores, todos en ingls. col=lightblue (azul claro)

col=nmero Pinta el grfico del color especificado en el col=0 (transparente)


nmero. Este nmero puede estar entre 0 y 8, col=1 (negro) col=5 (turquesa)
repitindose cclicamente los mismos colores a col=2 (rojo) col=6 (violeta)
partir del valor 9. col=3 (verde) col=7 (amarillo)
col=4 (azul) col=8 (gris)

Mtodos estadsticos

Aunque la mayor parte de las tcnicas estadsticas bsicas se encuentran incorporadas en la


interfaz de ventanas R-Commander, algunos mtodos ms avanzados o determinadas medidas
epidemiolgicas, como el riesgo relativo o la odds ratio, no estn implementadas. En estos
casos ser necesario recurrir a la sintaxis y comandos de R o a algn software externo que
permita realizar el anlisis.

Como complemento puede ser til disponer de la calculadora estadstica OpenEpi


(www.openepi.com), un software gratuito que permite realizar clculos estadsticos y
epidemiolgicos sencillos. Puede utilizarse desde un servidor web o bien descargarse y
ejecutarse posteriormente sin conexin a Internet. Entre sus opciones se encuentran medidas
epidemiolgicas para estudios descriptivos y analticos, tablas de contingencia, anlisis
estratificado, anlisis de datos apareados, clculo del tamao de muestra, nmeros aleatorios,
medidas de sensibilidad y especificidad, test de hiptesis e intervalos de confianza, entre
otras.

15
Descubriendo R-Commander

Gestin de bases de datos

R-Commander no ha sido diseado para gestionar de forma fcil y eficaz grandes bases de
datos, motivo por el que no es aconsejable su uso para registrar y almacenar la informacin.
En su lugar, los desarrolladores de esta interfaz recomiendan utilizar un sistema gestor de
bases de datos externo, similar a Microsoft Access o dBase, y capturar posteriormente la
informacin con R-Commander para llevar a cabo el anlisis estadstico.

Errores

Algunos fallos de programacin hacen que la interfaz no funcione correctamente durante el


proceso de edicin de datos, produzca resultados errneos o se bloquee en determinados
procedimientos. Quiz estas incidencias queden solucionadas en versiones posteriores de R-
Commander, al igual que ocurri en el pasado con otras.

Como advierte la ventana de inicio del programa, R es un software libre y viene sin garanta
alguna. Por extensin, esta caracterstica tambin afecta a R-Commander, de manera que en
ocasiones habr que recurrir a las listas de distribucin o los foros de usuarios para solicitar
asistencia sobre incidencias que no se hayan podido resolver. Puesto que estas listas de ayuda
son voluntarias no se podr exigir soluciones a los usuarios ni una respuesta inmediata al
problema planteado, lo que en ocasiones puede retrasar el trabajo que se est llevando a cabo.

SON FIABLES R Y R-COMMANDER?

La concepcin de R como software libre ha permitido que muchas personas programen


nuevas funciones y paquetes que se aaden peridicamente a los implementados
originalmente por el equipo central de desarrollo de R. Estos paquetes se van incorporando a
la red CRAN (Comprehensive R Archive Network), un repositorio web utilizado por los
usuarios para distribuir sus trabajos de forma gratuita. 4 En 2014 haba disponibles alrededor
de 6.000 paquetes en este sitio web. Algunos de ellos han sido desarrollados por especialistas
con experiencia en estadstica computacional. Otros, por personas ajenas a esta rea de
conocimiento y alumnos universitarios no especializados en estadstica. Por ello, no todos los
paquetes tienen la misma fiabilidad. Ninguno de ellos est exento de posibles errores, ni
existe garanta alguna sobre su eficiencia. Es el propio usuario quien debe decidir si utiliza o

4
Hornik K. The R FAQ. 2011. Disponible en: http://cran.r-project.org/doc/FAQ/R-FAQ.pdf

16
Introduccin

no un determinado paquete, establecer los procedimientos de control de calidad apropiados y


valorar la forma de utilizarlo durante el proceso de investigacin.

La normativa que regula los ensayos clnicos es muy estricta en los aspectos ticos y
metodolgicos de la investigacin. En 1998, el Comit Directivo de la Conferencia
Internacional sobre Armonizacin (ICH) configur la directriz E9 sobre mtodos estadsticos
en ensayos clnicos, que se aadi a otras directrices ICH desarrolladas con anterioridad. 5
Esta gua fue adoptada por la EMEA (European Medicines Agency) y la FDA (U.S. Food and
Drug Administration) y actualmente es la base de la normativa europea vigente, estableciendo
los estndares estadsticos para la investigacin sobre nuevos medicamentos. Adems de ser
un documento clave en este campo, su aplicacin se ha extendido a la investigacin clnica en
general, siendo de gran importancia para todos los profesionales que realicen anlisis
estadsticos de datos en investigacin bsica o aplicada.

La ICH-E9 recoge en el apartado Integridad de los datos y validez del software lo siguiente:
El software utilizado para la gestin de datos y el anlisis estadstico debe ser fiable y la
documentacin sobre los procedimientos empleados para chequear el software debe estar
disponible. En respuesta a esta normativa, The R Foundation for Statistical Computing
public en 2008 el documento R: Cumplimiento normativo y cuestiones de validacin. Un
documento orientativo para el uso de R en entornos de ensayos clnicos regulados. 6 En l se
explicita que no todos los paquetes de R estn validados por los creadores de este software y,
por tanto, no todos cumplen con la directriz ICH-E9. As, de los ms de 6.000 paquetes que
actualmente estn disponibles en el repositorio CRAN los creadores de R slo garantizan la
fiabilidad de 26, aquellos que han sido desarrollados por el equipo central de R. Para el resto,
la Fundacin R no ofrece ninguna garanta. Esta declaracin afecta a R-Commander, ya que
no es uno de los paquetes base que vienen instalados por defecto en R ni aparece entre los
denominados Paquetes Recomendados. El documento est disponible en la pgina principal
de la web del proyecto (www.r-project.org) dentro del enlace certification, mencionando lo
siguiente en su apartado 2:

5
Lewis JA. Statistical principles for clinical trials (ICH E9): An introductory note on an international guideline. Statistics in
Medicine 1999; 18: 1903-1942.

6
The R Foundation for Statistical Computing. R: Regulatory Compliance and Validation Issues. A Guidance Document for
the Use of R in Regulated Clinical Trial Environments. Viena: The R Foundation, 2008. Disponible en: http://www.r-
project.org/doc/R-FDA.pdf

17
Descubriendo R-Commander

Es importante aclarar que este documento [R: cumplimiento normativo y


cuestiones de validacin] es NICAMENTE aplicable a los paquetes de R
que se suministran junto con R y que llevan el copyright de la Fundacin
R. Este software se conoce comnmente como R Base ms Paquetes
Recomendados y se publican tanto en cdigo fuente como en formato
binario ejecutable bajo Licencia Pblica GNU de la Fundacin para el
Software Libre.

Al escribir estas lneas, R Base incluye los siguientes paquetes: Base,


datasets, graphics, grDevices, grid, methods, splines, stats, stats4, tcltk,
tools, utils. Y Paquetes Recomendados incluye los siguientes paquetes:
Boot, cluster, codetools, foreign, KernSmooth, lattice, mgcv, nlme, rpart,
survival, VR (un lote que consta de los paquetes MASS, class, nnet,
spatial).

Este documento NO es de ninguna manera aplicable a otro software


relacionado con R, ni a paquetes adicionales disponibles a travs de
terceros, como los usuarios o miembros del Equipo Central de Desarrollo
de R, que pueden, de vez en cuando, hacer disponible su software a travs
de CRAN u otros repositorios de distribucin de software.

Este documento no pretende ser prescriptivo, no presta una opinin legal y


no confiere o comunica ninguna obligacin legal o de otra ndole. Debe ser
utilizado por el lector y su organizacin como un componente en el
proceso de toma de decisiones informadas sobre la mejor manera para
cumplir con la normativa y las obligaciones pertinentes dentro de su
propio entorno de trabajo profesional.

La Fundacin R para la Estadstica Computacional no ofrece ninguna


garanta, expresa o implcita, en este documento.

Segn esta informacin el 99% de los paquetes incorporados a la librera CRAN no se ajustan
a las directrices ICH-E9 sobre principios estadsticos para ensayos clnicos. Como solucin, el
informe elaborado por el equipo central de R traslada al investigador y a su organizacin la
obligacin de definir los procesos de control de calidad adecuados para cumplir con el marco
normativo vigente cuando utilice cualquier paquete elaborado por otros usuarios, incluido R-
Commander, lo que supone implementar y hacer pblicos los procedimientos operativos

18
Introduccin

estndar de control que realizan los ingenieros de informtica antes de lanzar cualquier
software al mercado. Evidentemente, este propsito est fuera del alcance de la mayora de
los profesionales no especializados en estadstica computacional, por lo que tanto
investigadores como instituciones han de tener en cuenta estas consideraciones, y no slo el
carcter gratuito de la aplicacin, antes de tomar una decisin sobre el uso de R y R-
Commander. Este y otros aspectos cobran especial relevancia para las organizaciones que
necesitan adquirir un software estadstico para uso oficial, debiendo elegir aquel que mejor se
adapte a sus capacidades, necesidades y actividades profesionales. Actualmente, la oferta de
productos que coexisten en el mercado es muy amplia y su evaluacin debe formar parte de
un proceso de toma de decisiones asesorado por especialistas con experiencia en el uso de
programas estadsticos. Tanto el software libre como el privativo presentan ventajas e
inconvenientes que sern diferentes para cada actividad, profesin e institucin, 7 por ello no
es aconsejable ni apropiado recomendar el uso indiscriminado del lenguaje de programacin
R o la interfaz R-Commander a cualquier organizacin o profesional, especialmente si su
actividad principal no es la estadstica computacional.

Actualmente, el ensayo clnico es el nico tipo de diseo epidemiolgico que cuenta con una
normativa sobre principios estadsticos y validacin de software. Sin embargo, todo lo
mencionado anteriormente se hace extensible de forma natural a cualquier diseo
epidemiolgico, estudio e investigacin que requiera llevar a cabo un anlisis estadstico de la
informacin.

7
Culebro M, Gmez WG, Torres S. Software libre vs software propietario: Ventajas y desventajas. Mxico, 2006.

19
Descubriendo R-Commander

2
INSTALACIN DE R-COMMANDER

R -Commander es una interfaz grfica que permite trabajar con R a travs de un entorno
de ventanas similar al de otros programas estadsticos. Para utilizarlo es necesario
instalar previamente R y configurar algunas opciones que faciliten su manejo. Los siguientes
apartados muestran el procedimiento para descargar R desde Internet, instalar tanto el
software como la interfaz y comenzar una sesin de trabajo con el entorno de ventanas.

El programa dispone de varias versiones que permiten trabajar en sistemas operativos


Windows, MacOS X y Linux. Este apartado describe cmo realizar la descarga e instalacin
bajo Windows y MacOS X por ser los ms habituales.

SISTEMA OPERATIVO WINDOWS

Descarga de R

Algunas de las siguientes capturas de pantalla podran variar dependiendo de la versin de


Windows, sin embargo el procedimiento de descarga siempre se realiza mediante los
hiperenlaces descritos a continuacin:

20
Instalacin de R-Commander

1. Desde el explorador de Internet, entrar en www.r-project.org. A continuacin hacer clic


con el botn izquierdo del ratn en el enlace download R, situado en la parte inferior de la
ventana dentro del recuadro Getting Started.

2. Localizar Espaa en el listado de Servidores y pinchar sobre el enlace correspondiente a


Madrid, habitualmente dado por http://cran.es.r-project.org/

21
Descubriendo R-Commander

3. En el cuadro Download and Install R, seleccionar la opcin Windows.

4. Hacer clic sobre el enlace base.

22
Instalacin de R-Commander

5. En el cuadro superior de la pantalla aparecer un enlace que lleva a la ltima versin de R.


Hacer clic sobre este enlace, titulado Download R () for Windows. En lugar de los
puntos suspensivos aparecer la numeracin de la versin de R disponible.

6. Pulsar el botn Guardar para almacenar el archivo R-()-win en la carpeta Mis


documentos o en cualquier otra que el usuario decida. Este archivo ejecutable se utilizar
posteriormente para instalar R en el ordenador.

23
Descubriendo R-Commander

Instalacin de R

Una vez descargado el archivo ejecutable R-()-win, la instalacin de R es muy sencilla.


Bastar con ir a la carpeta donde se almacen el archivo, hacer doble clic sobre l y seguir las
instrucciones que aparecern en pantalla.

La configuracin que aparece por defecto es la ms frecuente, aunque es aconsejable asegurar


la instalacin de un parmetro en particular. Para ello, cuando el cuadro de dilogo de la
instalacin pregunte si se desea utilizar las opciones de configuracin se responder S. Tras
pulsar el botn Siguiente aparecer la ventana Modo de display. En ella es conveniente marcar
siempre la opcin SDI (ventanas separadas), ya que la seleccin MDI alternativa suele tener
algunos problemas de compatibilidad con R-Commander. El resto de opciones puede quedar
como aparece por defecto.

24
Descubriendo R-Commander

Instalacin de R-Commander

Tras la instalacin del software R aparecern en el escritorio dos iconos con la forma . Uno
de ellos llevar a pie de imagen el nombre Rx32 y el otro Rx64, haciendo referencia
respectivamente a la versin 32-bit o 64-bit de R. Para la mayora de usuarios, el equipo de
desarrollo de R sugiere trabajar con la versin 32-bit, motivo por el que en adelante siempre
se usar sta. 8

Fase 1: Procedimiento de instalacin obligatorio

Para instalar R-Commander se seleccionar la pestaa Paquetes del men principal y


posteriormente la opcin Instalar paquetes(s). Se abrir una nueva ventana que contiene los
servidores desde los que se pueden descargar nuevos paquetes. En ella habr que hacer clic
sobre la opcin Spain (Madrid) y pulsar el botn OK, como muestran las siguientes imgenes:

8
Ripley BD, Murdoch. R for Windows FAQ (Version for R-2.13.0). Disponible en: www.r-project.org.

25
Descubriendo R-Commander

A continuacin aparecer en orden alfabtico un listado con los paquetes disponibles. En esta
ventana debern seleccionarse con el ratn todos los que comiencen por Rcmdr. La accin
puede realizarse de forma rpida haciendo clic nicamente sobre el primer y ltimo paquete a
la vez que se presiona la tecla Shift () del teclado.

> utils:::menuInstallPkgs()

--- Please select a CRAN mirror for use in this session ---

Por ltimo, pulsando sobre el botn OK de la ventana de paquetes quedar instalado el


entorno de ventanas R-Commander.

26
Instalacin de R-Commander

Fase 2: Procedimiento de instalacin adicional optativo

Una vez efectuada la instalacin descrita en la Fase 1, es posible programar algunas


instrucciones para que R-Commander se abra automticamente al iniciar una sesin de trabajo
e incorpore algunas utilidades para el anlisis de datos. Aunque no es obligatorio, realizar este
paso adicional es aconsejable para agilizar la entrada a R-Commander, especialmente si se va
a utilizar con frecuencia.

Para llevar a cabo este procedimiento se ejecutar en primer lugar el Bloc de Notas,
disponible en la carpeta de accesorios de Windows, o cualquier otro editor de texto.
Utilizando uno de estos editores se abrir el archivo Rprofile.site, situado en la carpeta
C:\Archivos de programa\R\R-()\etc (o bien C:\Program Files\R\R-()\etc), y a
continuacin se escribirn las siguientes instrucciones al final del contenido de este archivo:

local({
old <- getOption("defaultPackages")
options(defaultPackages = c(old, "Rcmdr"))
options(Rcmdr=list(plugins=c("RcmdrPlugin.survival")))
})

Es muy importante escribir el texto tal como aparece, respetando las letras maysculas y
minsculas, sin olvidar ningn parntesis, corchete o entrecomillado.

Por ltimo se guardar el archivo Rprofile.site en formato texto dentro de la misma carpeta,
reemplazando al archivo original, teniendo en cuenta que su extensin ha de ser .site y no .txt
o .dat como puede aparecer por defecto en algunos editores de texto.

Comenzar una sesin de trabajo con R-Commander

Si en la instalacin de R-Commander se realiz el procedimiento adicional optativo descrito


en la Fase 2, bastar con hacer doble clic en el icono del escritorio para comenzar una
sesin de trabajo con R-Commander.

Si durante el procedimiento de instalacin de R-Commander slo se realiz la Fase 1,


entonces tras pulsar el icono se abrir la consola de R pero no la de R-Commander. En este
caso, para activar R-Commander habr que escribir library(Rcmdr) en la consola de R y
pulsar la tecla Intro del teclado. Otra opcin es pulsar la secuencia de pestaas Paquetes -
Cargar paquete del men principal. Se abrir entonces una ventana con los paquetes

27
Descubriendo R-Commander

disponibles, sobre la que habr que seleccionar Rcmdr y pulsar el botn OK. Este
procedimiento tendr que repetirse en cada sesin de trabajo, siempre que se desee trabajar
con R-Commander.

En ambos casos, la nueva ventana abierta ser el entorno de trabajo R-Commander, que podr
maximizarse para tener un campo visual ms amplio.

28
Instalacin de R-Commander

SISTEMA OPERATIVO Mac OS X

Descarga de R

1. Desde el explorador de Internet, entrar en www.r-project.org. A continuacin hacer clic


con el botn izquierdo del ratn en el enlace download R, situado en la parte inferior de la
ventana dentro del recuadro Getting Started.

2. Localizar Espaa en el listado de Servidores y pinchar sobre el enlace correspondiente a


Madrid, habitualmente dado por http://cran.es.r-project.org

29
Descubriendo R-Commander

3. En el cuadro Download and Install R, seleccionar la opcin MacOSX.

4. En el apartado Files de la pantalla, hacer clic sobre el enlace R-().pkg (latest version).
En lugar de los puntos suspensivos aparecer la numeracin de la ltima versin de R.

30
Instalacin de R-Commander

Instalacin de R

Una vez descargado el archivo R-().pkg, el paquete se abrir automticamente para proceder
a la instalacin de R. Si no es as, ser necesario ir a la carpeta donde se almacen el archivo,
hacer doble clic sobre l y seguir las instrucciones que aparecern en pantalla.

Tras la instalacin de R ser necesario volver a la misma pgina web en la que estaba el
archivo R-().pkg y pulsar el hiperenlace the tools directory, situado a la derecha de la
pantalla. All, habr que descargar e instalar la aplicacin Tcltk-8.5.5-x11.dmg o alguna
versin superior.

Instalacin de R-Commander

Tras la instalacin del lenguaje de programacin R aparecer en la carpeta Aplicaciones del


Finder un icono con la forma . Haciendo doble clic sobre este icono se acceder a la
consola o pantalla de inicio de R, cuya apariencia es similar esta:

El smbolo >, en color rojo, indica que R est preparado para recibir instrucciones y comenzar
a trabajar utilizando los comandos del lenguaje de programacin.

R-Commander es un paquete adicional que deber instalarse a continuacin para trabajar en


un entorno de ventanas ms sencillo. Para ello debern ejecutarse las siguientes instrucciones
de forma secuencial. Estas tres instrucciones han de escribirse en la consola de R tal como

31
Descubriendo R-Commander

aparecen a continuacin, respetando maysculas y minsculas, y pulsando la tecla Intro tras


escribir cada una de ellas:

install.packages("Rcmdr", dependencies=TRUE)
install.packages("rgl", dependencies=TRUE)
install.packages("RcmdrPlugin.survival")

Comenzar una sesin de trabajo con R-Commander

Con los pasos seguidos anteriormente, R-Commander quedar instalado en el Mac de forma
permanente. Sin embargo, siempre que se pulse el icono se abrir por defecto la consola de
R pero no la de R-Commander. Para activar esta interfaz habr que escribir library(Rcmdr) en
la pantalla de inicio de R y pulsar la tecla Intro del teclado. Este procedimiento tendr que
repetirse en cada sesin de trabajo, siempre que se desee trabajar con R-Commander.

La nueva ventana abierta ser el entorno de trabajo R-Commander, que podr maximizarse
para tener un campo visual ms amplio.

NOCIONES BSICAS

Explorar el men de opciones y las ventanas de R-Commander

La barra de men de R-Commander, situada en la parte superior de la pantalla, es similar a la


de otros programas estadsticos, intuitiva y relativamente sencilla de manejar.

32
Instalacin de R-Commander

En el men principal se visualizan diferentes pestaas, cuya utilidad es la siguiente:

Fichero Permite cambiar el directorio de trabajo, guardar archivos de


instrucciones y resultados y salir del programa, entre otras opciones.

Editar Realiza las funciones propias de cualquier editor de texto.

Datos Crea una base de datos en formato R o importa bases de datos de otros
programas (SPSS, Minitab, Stata, Excel, Access y Dbase). Adems,
contiene opciones para calcular variables nuevas o recodificar,
tipificar y modificar las variables activas.

Estadstico Cubre la mayora de los anlisis estadsticos bsicos, incluyendo


modelos de regresin multivariante para variables dependientes
cuantitativas y cualitativas.

Grficas Realiza anlisis exploratorio de datos y descripcin de la informacin


mediante grficos.

Modelos Contiene opciones para realizar el diagnstico de los modelos y


comprobar su bondad de ajuste.

Distribuciones Muestra la funcin de densidad o la funcin de probabilidad de las


distribuciones continuas y discretas ms usuales.

Herramientas Modifica la configuracin por defecto de R-Commander, carga


nuevos paquetes de R e instala complementos de R-Commander
(plugins) para realizar anlisis estadsticos que no estn incorporados
por defecto.

Ayuda Ofrece ayuda sobre el funcionamiento de R-Commander, incluyendo


la versin en Castellano del documento Iniciacin a R-Commander
elaborado por John Fox.

Bajo el men principal hay un submen con dos botones, uno para editar y otro para
visualizar la base de datos activa. Junto a ellos se muestran dos etiquetas en las que aparecer
el nombre del conjunto de datos y el nombre del modelo estadstico que el usuario est
utilizando en cada momento.

33
Descubriendo R-Commander

Por ltimo, debajo del submen, se encuentra la ventana de trabajo dividida en tres partes. La
primera corresponde a la ventana de instrucciones, donde automticamente aparecern la
sintaxis y los comandos de todos los anlisis realizados. La segunda es la ventana de
resultados, espacio donde se mostrarn sucesivamente los resultados de cada anlisis
estadstico. Finalmente, la parte inferior recoger los mensajes que el software genere durante
la sesin de trabajo. Esta ltima es especialmente importante para monitorizar los mensajes de
error, localizar su procedencia y proceder a la correccin.

Definir el directorio de trabajo

Habitualmente, los archivos que se utilizan en una investigacin suelen estar almacenados en
una carpeta de proyecto. Para facilitar la bsqueda de estos archivos durante una sesin de
trabajo con R-Commander es aconsejable definir la carpeta o directorio de trabajo en el que se
encuentran. De esta forma, R-Commander buscar y guardar all, agilizando el proceso de
anlisis. Esta accin se realiza desde el men principal a travs de la secuencia:

Fichero Cambiar directorio de trabajo

La carpeta correspondiente se buscar en el cuadro de dilogo abierto. Una vez localizada


quedar activada en memoria pulsando el botn Aceptar.

Limpiar la ventana de trabajo

A menudo, las ventanas de instrucciones, resultados y mensajes se llenan de informacin que


deja de ser necesaria una vez que se ha realizado el anlisis de datos y los resultados se han
pasado a un procesador de textos. Para limpiar cualquiera de estas ventanas bastar con hacer
clic con el ratn sobre ella y pulsar la siguiente secuencia desde del men principal:

Editar Limpiar ventana

Esta accin borrar toda la informacin de la ventana, aunque tambin es posible seleccionar
slo una parte del texto con el ratn y pulsar posteriormente la tecla Suprimir (Supr) del
teclado para eliminarlo.

El procedimiento se repetir para borrar el contenido del resto de ventanas. En caso de limpiar
una ventana por error es posible restaurar su informacin pulsando Editar Deshacer.

34
Instalacin de R-Commander

Salir de R-Commander y de R

En ocasiones, antes de salir del programa es til guardar el entorno de trabajo mediante la
secuencia:

Fichero Guardar el entorno de trabajo R como

Esta opcin almacenar en un nico archivo todas las bases de datos que se encuentren
abiertas en la sesin de trabajo. Para recuperar esta sesin en el punto en que se dej bastar
con abrir de nuevo el archivo mediante la secuencia Datos Cargar conjunto de datos.
En el entorno de trabajo slo se almacenan las bases de datos, no los resultados.

Para salir del programa, hacer clic sobre:

Fichero Salir De Commander y R

Automticamente, el programa preguntar si se desea guardar la informacin contenida en la


ventana de instrucciones y en la ventana de resultados. Si no se almacenan en un archivo se
perdern los contenidos de ambas, aunque esto no ser un problema si las salidas de inters se
van incorporando a un documento externo a medida que se realiza el anlisis de datos.

35
3

GESTIN DE BASES DE DATOS CON R-COMMANDER

H abitualmente, el diseo, elaboracin y gestin de bases de datos se realiza mediante


programas informticos especficos que permiten el procesamiento de la informacin
de forma rpida y estructurada. Este tipo de software se denomina sistema gestor de bases de
datos, siendo Microsoft Access, dBase o FileMaker algunos de los ms populares.

El propsito de un sistema gestor de bases de datos es almacenar y organizar la informacin,


sin embargo no permite realizar anlisis estadsticos avanzados con los datos disponibles.
Para ello es necesario disponer de otro programa informtico que capture la informacin
procedente del sistema gestor de bases de datos y realice el anlisis estadstico apropiado.
Actualmente existe una oferta muy amplia de software estadstico. De ellos, quiz SPSS, Stata
y SAS sean los ms utilizados.

Muchas veces, la gestin de bases de datos consume una parte importante del tiempo
invertido en un proyecto de investigacin, por lo que contar con una herramienta potente que
ayude a procesar eficazmente la informacin es tan importante como disponer del software
estadstico apropiado para analizar los datos. Conscientes de esta necesidad, los principales
desarrolladores de software estadstico disean sus programas para que cumplan la doble
funcin de gestionar grandes bases de datos y analizar estadsticamente la informacin en una
fase posterior. De esta forma se evita que el usuario necesite aprender dos sistemas
informticos diferentes.

R-Commander no ha sido diseado para funcionar como sistema gestor de bases de datos, por
lo que no es aconsejable su uso para almacenar la informacin. En su lugar, es preferible
utilizar un sistema gestor de bases de datos externo y capturar posteriormente la informacin
para llevar a cabo el anlisis estadstico. En cualquier caso, el uso del editor de datos R-
Commander puede ser de utilidad para introducir directamente pequeos conjuntos de datos,
motivo por el que los siguientes apartados describen cmo realizar este proceso adems de
importar bases de datos elaboradas con otros programas informticos.

Los contenidos de este captulo estn basados en el caso prctico Accidentes por pinchazo en
profesionales de enfermera.

36
Gestin de Bases de Datos con R-Commander

CONCEPTOS BSICOS
La informacin correspondiente a cada uno de los profesionales que particip en el estudio de
accidentes por pinchazo se recogi en una ficha individual con un cdigo personal de
identificacin. En ella se registraron, adems, las siguientes caractersticas del profesional:
grupo al que haba sido asignado (formacin o no formacin), estado al final del seguimiento
(accidentado o no accidentado), edad y sexo (hombre o mujer). La principal hiptesis de
investigacin era que el programa de formacin implementado es eficaz para disminuir los
accidentes por pinchazo, de manera que la proporcin de accidentes sera menor en el grupo
de profesionales que recibi formacin sobre medidas preventivas. La comprobacin de esta
hiptesis requerir el uso de mtodos estadsticos concretos, sin embargo, antes de proceder
con el anlisis de datos es necesario organizar, procesar y almacenar la informacin en una
base de datos electrnica.

Estructura de una base de datos


Aunque existen muchos tipos y modelos de bases de datos, las utilizadas para el anlisis
estadstico de la informacin tienen estructura rectangular, con una apariencia similar a esta:

Cdigo Grupo Estado Edad Sexo


00004 Formacin No accidentado 45 Hombre
00006 No Formacin No accidentado 50 Hombre
00014 No Formacin No accidentado 55 Hombre
00015 Formacin No accidentado 26 Mujer
00018 Formacin No accidentado 58 Mujer
00019 Formacin No accidentado 20 Mujer
00022 Formacin No accidentado 52 Mujer
00024 Formacin No accidentado 51 Mujer
00001 Formacin Accidentado 18 Hombre
00002 No Formacin Accidentado 19 Hombre
00003 No Formacin Accidentado 22 Hombre
00005 Formacin Accidentado 30 Hombre
00007 Formacin Accidentado 34 Hombre
00008 Formacin Accidentado 23 Hombre
00009 No Formacin Accidentado 28
00010 No Formacin Accidentado 21 Hombre
00011 No Formacin Accidentado 40 Hombre
00012 Formacin Accidentado 30 Hombre
00013 No Formacin Accidentado 35 Hombre
00016 No Formacin Accidentado Mujer
00017 No Formacin Accidentado 50 Mujer
00020 No Formacin Accidentado 25 Mujer
00021 Formacin Accidentado 47 Mujer
00023 No Formacin Accidentado 23 Mujer
00025 No Formacin Accidentado 23 Mujer

Base de datos con informacin numrica y caracteres de texto.

37
Descubriendo R-Commander

Cada columna de la base de datos corresponde a una caracterstica de los individuos incluidos
en el estudio de accidentes por pinchazo. En esta investigacin se recogi informacin sobre
cinco caractersticas de los profesionales, siendo el cdigo de identificacin la situada en la
primera columna y el sexo de los sujetos en la quinta. El nombre de cada una de ellas aparece
en la cabecera de la base de datos, sombreada en color. El orden en el que se disponen las
columnas es indiferente para organizar la base de datos.

Debajo de la cabecera de la base de datos aparece la informacin registrada, donde cada fila
almacena las caractersticas de un nico sujeto. As, la primera fila de la base de datos
muestra la informacin del profesional con cdigo de identificacin 00004, perteneciente al
grupo que recibi formacin, no accidentado al finalizar el seguimiento, 45 aos de edad y
sexo masculino. Cuando no se tiene informacin de alguna caracterstica la celda
correspondiente de la base de datos queda vaca, como el valor del sexo para el sujeto con
cdigo 00009 o la edad para el sujeto 00016. Es lo que se conoce como un valor perdido, dato
faltante o missing.

Tipos de variables

Los valores de cada caracterstica difieren de un sujeto a otro. As, la edad del profesional de
la primera fila es diferente a la edad del profesional de la segunda fila. Debido a esta
variabilidad de los valores registrados, las caractersticas se denominan variables.

Habitualmente existen dos tipos de variables que pueden ser utilizadas en un anlisis
estadstico de datos: Cualitativas y cuantitativas.

Una variable es cualitativa cuando sus valores recogen una cualidad del individuo que no
puede medirse con un instrumento ni lleva asociada unidades de medida. As, el sexo es una
variable cualitativa con dos valores, hombre y mujer, denominados categoras. Estas
categoras deben estar definidas de tal forma que cada sujeto de la base de datos pueda
incluirse slo en una de ellas, de forma exclusiva e inequvoca. El sexo es una variable
cualitativa nominal porque sus categoras, hombre y mujer, no tienen un orden natural
preestablecido. Si se hubiese recogido la variable gravedad del accidente, con categoras leve,
moderado y grave, se tendra una variable cualitativa ordinal, ya que registra una cualidad
cuyos valores o categoras pueden ordenarse de forma natural de menor a mayor severidad.
Aunque no es la terminologa usual, R-Commander denomina a las variables cualitativas
factores y a sus categoras niveles.

Una variable cuantitativa es una caracterstica de los sujetos que puede expresarse mediante
valores numricos, con una unidad de medida asociada a ellos. La edad es una variable
cuantitativa cuya unidad de medida es el ao. Adems, esta variable es continua, ya que el
valor de la edad asignada a cada individuo puede tener tantos decimales como se desee

38
Gestin de Bases de Datos con R-Commander

dependiendo de la precisin requerida. Otras variables cuantitativas, como el nmero de hijos,


se denominan discretas porque sus valores solo pueden ser nmeros enteros, sin decimales. R-
Commander denomina numrica a cualquier tipo de variable cuantitativa.

Esta clasificacin de las variables no slo es importante para procesar y registrar


adecuadamente la informacin. Tambin lo es para aplicar el anlisis estadstico apropiado en
funcin del tipo de variable analizada, ya que requerir tcnicas diferentes.

En el estudio de accidentes por pinchazo, las variables grupo, con categoras formacin-no
formacin, estado al final del seguimiento, con categoras accidentado-no accidentado y sexo,
con categoras hombre-mujer, son variables cualitativas, mientras que la edad es cuantitativa.
Aunque la variable cdigo de identificacin es una variable numrica, no cuantifica ninguna
medicin. Slo se utiliza para identificar a los sujetos de estudio, cumpliendo la misma
funcin que podra hacer el DNI o el nmero de Seguridad Social. Por este motivo no tiene
inters utilizarla en un anlisis estadstico de datos.

ELABORACIN DE UNA BASE DE DATOS

El aspecto del editor de datos de R-Commander es similar al de una hoja de clculo. El acceso
para crear una nueva base de datos se realiza desde el men principal, seleccionando:

Datos Nuevo conjunto de datos

A continuacin se abrir un cuadro de dilogo que solicita el nombre de la base de datos que
se va a crear. Por defecto R-Commander asigna el nombre Datos, de manera que el usuario
puede mantenerlo o escribir otro que considere ms apropiado. El nombre de la base de datos
puede ser cualquiera, siempre que comience por una letra y no contenga espacios ni smbolos.
Para introducir la informacin correspondiente al estudio de accidentes por pinchazo se
escribir Accidentes como nombre de la base de datos, pulsando posteriormente el botn
Aceptar.

El editor de datos se abrir en una ventana independiente, mostrando en la cabecera el nombre


de las variables var1,, var6 asignado por defecto.

39
Descubriendo R-Commander

Para introducir el nombre de la primera variable habr que hacer doble clic con el botn
izquierdo del ratn sobre el texto var1. Esta accin abrir un cuadro de dilogo en el que se
escribir el nombre de la primera variable, en este caso Cdigo, y se seleccionar el tipo de
variable que le corresponde, en este caso numrica.

Pulsando la tecla Intro () del teclado, o cerrando directamente el cuadro de dilogo, se


volver al editor de datos. Este mismo procedimiento se repetir para definir los nombres de
las variables Grupo, Estado, Edad y Sexo, asignando el tipo numeric (numrico) a las
variables cuantitativas y el tipo character (caracteres) a las cualitativas. Como norma general,
el nombre de las variables no puede comenzar con un valor numrico ni contener espacios o
smbolos diferentes al punto (.) o guin bajo (_).

40
Gestin de Bases de Datos con R-Commander

Una vez definidas las variables, los datos se introducen en las celdas de la base de datos
teniendo en cuenta que cada fila corresponde a la informacin de un sujeto. Para ello bastar
con situar el cursor en la celda correspondiente con ayuda del ratn y escribir. La introduccin
del siguiente valor puede hacerse presionando Intro (el cursor se desplazar entonces hacia
la celda inferior), la tecla de tabulacin (el cursor se desplazar hacia la celda derecha) o las
flechas del teclado, que desplazarn el cursor en la direccin indicada. Habitualmente R-
Commander seala la celda en la que est situado el cursor con un borde rojo ms intenso. Sin
embargo, esta sealizacin no siempre funciona correctamente, de manera que el cursor
podra estar situado en una celda diferente a la que marca la interfaz. Si esto ocurriera, la
forma de ir a la celda correcta es haciendo doble clic con el ratn sobre ella. Es posible que
este fallo de consola se corrija en futuras actualizaciones.

Si la variable est definida como cuantitativa, las celdas situadas en su columna slo
admitirn valores numricos. Si la variable est definida como cualitativa, el valor de la celda
ser el nombre de la categora a la que pertenece el sujeto. Este texto deber ir sin
entrecomillar, utilizando siempre la misma combinacin de letras maysculas y minsculas,
ya que R-Commander distingue entre ambos tipos de caracteres y tomar como categoras
diferentes los textos No accidentado y no accidentado. El nombre de cada categora
puede estar formado por varias palabras separadas por espacios y smbolos. Las celdas
correspondientes a valores faltantes pueden quedar vacas, o bien se puede escribir NA si la

41
Descubriendo R-Commander

variable es cuantitativa o <NA> si es cualitativa. Este smbolo corresponde a las iniciales


inglesas del trmino No Available (no disponible).

El editor de datos presenta un men en la parte superior con las opciones Archivo, Editar y
Ayuda. La primera opcin se utilizar para cerrar el editor de datos cuando la base de datos
est completa, la segunda para copiar, pegar o borrar la celda en la que est situado el cursor y
la tercera para solicitar ayuda sobre la navegacin por el editor.

Una vez finalizado el proceso de definicin de variables e introduccin de datos, el editor de


datos podr cerrarse pulsando en la opcin del men Archivo-Cerrar o bien cerrando
directamente la ventana haciendo clic con el ratn sobre el aspa de la esquina superior derecha
(). Esta accin har que la base de datos se guarde en la memoria del ordenador para
proceder al anlisis estadstico de datos. De hecho, R-Commander mostrar su nombre en
color azul junto al texto Conjunto de datos, debajo del men principal, indicando que esta
base de datos es el conjunto de datos activo que utilizar para analizar.

IMPORTAR UNA BASE DE DATOS ELABORADA CON OTRO SOFTWARE

Cuando se manejan grandes cantidades de informacin y se desea realizar el anlisis con R-


Commander, lo habitual es disear y elaborar la base de datos utilizando un Sistema Gestor de
Base de Datos (Microsoft Access o dBase), una hoja de clculo (Excel) u otro software
estadstico (SPSS, Minitab o STATA) e importar posteriormente los datos con R-Commander
para su anlisis.

La captura de una base de datos externa puede hacerse desde la opcin del men principal

Datos Importar datos

A continuacin se seleccionar el tipo de archivo que se desea importar y aparecer un cuadro


de dilogo en el que se especificarn las opciones de importacin. Este cuadro siempre
muestra, al menos, la opcin Introducir el nombre del conjunto de datos. En el espacio
reservado a la derecha de este texto se introducir el nombre de la base de datos que se va a
crear. Por defecto R-Commander asigna el nombre Datos, pero puede escribirse otro ms
apropiado que comience por una letra y no contenga espacios ni smbolos. Este nombre no es
el archivo en el que est almacenada la base de datos, sino el nombre interno que usar R-
Commander para trabajar con ella. Para capturar la informacin correspondiente al estudio de
accidentes por pinchazo se escribir Accidentes. El resto de opciones del cuadro de dilogo
depender del tipo de archivo a importar, como se muestra a continuacin.

42
Gestin de Bases de Datos con R-Commander

Archivos Excel, Access, dBase o Minitab

Los archivos procedentes de Excel, Access o dBase o del software estadstico Minitab no
requieren ms informacin que el nombre del conjunto de datos. Una vez escrito, bastar con
pulsar el botn Aceptar.

En los archivos Excel, la base de datos debe estar grabada en una hoja de clculo con una
estructura similar a la definida en el apartado Estructura de una base de datos. Es aconsejable
que la primera fila de la hoja contenga el nombre de las variables. De esta forma se evitar
tener que definirlas posteriormente en R-Commander.

No importa si las celdas de la hoja de clculo o base de datos estn definidas con formato
texto o numrico. R-Commander siempre importar los nmeros como variable numrica
(cuantitativa) y el texto como variable carcter (cualitativa).

Archivos SPSS

Si el archivo fue almacenado con el software estadstico SPSS, es importante activar la opcin
Convertir etiquetas de valores en niveles de factor para que R-Commander reconozca e
importe el nombre de las categoras de cada variable cualitativa. En caso contrario, slo
capturar el valor numrico de cada categora, sin su etiqueta.

43
Descubriendo R-Commander

La opcin Nmero mximo de etiquetas de valores para conversin a factor hace


referencia al mximo de categoras que puede tener una variable cualitativa para proceder a
importar sus etiquetas. En principio, este valor suele dejarse en Infinito, como aparece en el
cuadro de dilogo por defecto. Si este valor fuese 2, las etiquetas de las variables cualitativas
con tres o ms categoras no se importaran.

Archivos STATA

Al igual que en SPSS, cuando la base de datos est grabada con el software estadstico
STATA es importante activar la opcin Convertir etiquetas de valores en niveles de
factor. De esta forma R-Commander reconocer el nombre de las categoras de cada
variable cualitativa cuando importe la informacin. El resto de opciones suelen dejarse
activadas por defecto.

Archivos de texto

En ocasiones, la base de datos que se desea importar puede estar almacenada en un formato de
archivo que R-Commander no reconoce directamente. En ese caso, la base de datos ha de ser
capturada con el software que se utiliz para su diseo, exportarla en formato texto (.txt) y
posteriormente importar este archivo con R-Commander.

44
Gestin de Bases de Datos con R-Commander

Es aconsejable que la primera fila del archivo de texto contenga el nombre de las variables y
activar la opcin Nombre de las variables en el fichero del cuadro de dilogo para que R-
Commander las reconozca. Adems, el separador de campos deben ser comas y no espacios
en blanco o tabuladores, especialmente cuando los valores de las variables cualitativas son
textos que ya contienen espacios. As, si el separador de campos fuese un espacio en blanco y
el primer registro es un sujeto con los siguientes valores:

00004 Formacin No accidentado 45 Hombre

R-Commander interpretara No accidentado como dos valores de dos variables cualitativas


diferentes: Por un lado No y por otro accidentado porque estn separados por un espacio.
En cambio, si el separador de campos fuese una coma y el primer registro estuviese definido
de la siguiente forma

00004, Formacin, No accidentado, 45, Hombre

R-Commander interpretara que hay 5 variables y No accidentado es una categora de la


tercera variable.

45
Descubriendo R-Commander

Captura de la base de datos

Una vez definidas las opciones del cuadro de dilogo, dependiendo del tipo de archivo a
importar, se pulsar el botn Aceptar. Se abrir entonces una ventana en la que podr
localizarse la carpeta y el archivo que contiene la base de datos, denominado en este caso
Accidentes por pinchazo. El nombre de este archivo puede ser cualquiera y contener espacios
o smbolos. Una vez capturado, R-Commander almacenar su informacin con el nombre
definido inicialmente en el cuadro de dilogo de importacin. Este nombre aparecer en color
azul junto al texto Conjunto de datos, debajo del men principal. Pulsando la opcin
Visualizar conjunto de datos, situada a la derecha del men, se puede comprobar si la
captura de la base de datos se ha realizado correctamente.

Las celdas que no contengan valores en la base de datos original se considerarn como valores
perdidos. Estos casos sern identificados por R-Commander con el smbolo NA en las
variables cuantitativas y <NA> en las cualitativas.

46
Gestin de Bases de Datos con R-Commander

COMPLETAR INFORMACIN DE VARIABLES CUALITATIVAS

En la base de datos Accidentes por pinchazo los valores de las variables cuantitativas son
numricos y las categoras de las variables cualitativas se definen mediante caracteres de
texto, como se mostr en los apartados anteriores. Aunque este suele ser el procedimiento
habitual, ocasionalmente las bases de datos tambin se elaboran o importan en R-Commander
utilizando nicamente valores numricos tanto para las variables cuantitativas como para las
cualitativas. La siguiente imagen muestra una situacin de este tipo, donde las categoras de la
variable Grupo estn definidas con los valores 1 y 2, haciendo referencia a las categoras
Formacin y No formacin respectivamente. De la misma forma, las categoras de la variable
Estado estn representadas por los valores 1 (Accidentado) y 2 (No accidentado) y las
categoras de la variable Sexo por los valores 1 (Hombre) y 2 (Mujer):

Cdigo Grupo Estado Edad Sexo


00004 1 2 45 1
00006 2 2 50 1
00014 2 2 55 1
00015 1 2 26 2
00018 1 2 58 2
00019 1 2 20 2
00022 1 2 52 2
00024 1 2 51 2
00001 1 1 18 1
00002 2 1 19 1
00003 2 1 22 1
00005 1 1 30 1
00007 1 1 34 1
00008 1 1 23 1
00009 2 1 28
00010 2 1 21 1
00011 2 1 40 1
00012 1 1 30 1
00013 2 1 35 1
00016 2 1 2
00017 2 1 50 2
00020 2 1 25 2
00021 1 1 47 2
00023 2 1 23 2
00025 2 1 23 2

Base de datos elaborada slo con informacin numrica.

Cuando se tiene una base de datos de este tipo, R-Commander interpretar que todas las
variables son cuantitativas, puesto que sus valores son de tipo numrico.

47
Descubriendo R-Commander

Para evitar errores en la definicin de variables y aplicar posteriormente las tcnicas


estadsticas apropiadas, es necesario especificar que las variables Grupo, Estado y Sexo son
cualitativas y asignar una etiqueta de texto a cada una de sus categoras. Este proceso se
realiza desde el men principal pulsando la secuencia:

Datos - Modificar variables del conjunto de datos activo Convertir


variable numrica en factor

A continuacin se abrir un cuadro de dilogo que muestra a la izquierda, en orden alfabtico,


el listado de variables que pueden ser transformadas en cualitativas. Haciendo clic con el
ratn sobre Estado se marcar en azul, indicando que es la variable seleccionada.

A la derecha de la ventana, bajo el ttulo Niveles del factor, aparecen dos opciones para
asignar un nombre a cada categora de la variable Estado. La opcin Asignar nombres a los
niveles permitir escribir una etiqueta de texto para cada categora, mientras que la opcin
Utilizar nmeros usar los valores numricos de la variable (1 y 2) como nombres de sus
categoras. La primera opcin es la ms recomendable y la utilizada por defecto por R-
Commander.

Por ltimo, en la opcin Nuevo nombre o prefijo para variables mltiples, situada en la
parte inferior de la ventana, se puede especificar un nombre nuevo para la variable que
incorporar ya los nombres de las categoras. Por ejemplo, se podra escribir en el recuadro
blanco el nombre Estado.etiquetas. Esto permitir mantener en la base de datos la variable
Estado original, definida como cuantitativa, y aadir otra columna que contendr la nueva
variable Estado.etiquetas con una etiqueta para cada categora. En general, esta opcin no es
muy recomendable, puesto que duplica variables y aumenta innecesariamente el tamao de la
base de datos. Por ello, a no ser que haya alguna razn especial, es conveniente dejar este
espacio sin cumplimentar, en cuyo caso R-Commander incorporar directamente el nombre de
las categoras a la variable Estado original, sin duplicarla.

48
Gestin de Bases de Datos con R-Commander

Una vez definidas las opciones se pulsar el botn Aceptar. Si no se ha especificado un nuevo
nombre para la variable, R-Commander mostrar un aviso en el que recuerda que la variable
Estado ya existe y preguntar si se desea aadir el nombre de las categoras sobre ella. Una
respuesta afirmativa dar paso a una nueva ventana en la que se podr escribir el nombre de
cada categora: Accidentado para el valor numrico 1 y No accidentado para el valor
numrico 2.

Si la variable tuviese ms categoras, sus valores numricos apareceran ordenados uno debajo
de otro para introducir sucesivamente los nombres. Tras pulsar el botn Aceptar la variable
Estado quedar definida como cualitativa, incorporando las etiquetas que definen cada una de
sus categoras.

El mismo procedimiento se repetir para nombrar las categoras del resto de variables
cualitativas.
Este proceso, iniciado en la ventana Convertir variables numricas en factores, permite
seleccionar varias variables a la vez dejando pulsada la tecla Control (Ctrl) del teclado. De
esta forma R-Commander solicitar los nombres de las categoras de cada variable de forma
sucesiva, permitiendo ahorrar algunos pasos con respecto a tratar las variables de una en una.
Sin embargo, cuando las variables seleccionadas tienen el mismo nmero de categoras, R-
Commander asignar a todas ellas los nombres de las categoras definidas para la primera
variable.

49
Descubriendo R-Commander

OPERACIONES USUALES CON BASES DE DATOS ACTIVAS EN


R-Commander

Una vez que la base de datos se encuentra activa en memoria, R-Commander ofrece varios
procedimientos adicionales para gestionar su informacin, la mayora de ellos localizados en
el desplegable Datos del men principal. A continuacin se describen los ms utilizados antes
de comenzar el anlisis estadstico o durante el desarrollo del mismo.

Visualizar y editar la informacin de una base de datos

Debajo del men principal de R-Commander hay dos botones: Visualizar conjunto de datos
y Editar conjunto de datos. Pulsando sobre la primera opcin se puede ver el contenido de
la base de datos activa sin alterar su contenido. La segunda opcin permite cambiar el nombre
de las variables, modificar datos o incluir nuevos registros. En caso de utilizar esta ltima
opcin ser necesario guardar la base de datos en formato R-Commander para poder
recuperarla posteriormente en otras sesiones de trabajo.

Si la base de datos procede de un archivo importado de SPSS se podr visualizar, pero no


editar con R-Commander. Para incluir nuevos registros o modificar informacin ser
necesario hacerlo en SPSS, o mediante algn Sistema Gestor de Bases de Datos externo, y
volver a importar la base de datos modificada.

Obtener nuevas variables a partir de las existentes: Calcular, recodificar y


segmentar

En ocasiones, el anlisis de la informacin requiere modificar las unidades de medida de una


variable cuantitativa, calcular ndices mediante la combinacin de diferentes mediciones o
crear una nueva variable cualitativa que agrupe a los individuos en determinadas categoras.
Estos y otros procedimientos pueden realizarse utilizando uno de los siguientes mtodos:

Calcular una nueva variable

Permite generar nuevos valores a partir de la informacin de una o ms variables. As, a partir
de la edad de los profesionales, expresada en aos, podra calcularse una nueva variable
denominada Edad.meses que contuviera la misma edad expresada en meses. Para ello, desde
el men principal se activar la secuencia:

50
Gestin de Bases de Datos con R-Commander

Datos - Modificar variables del conjunto de datos activo Calcular una nueva variable

El cuadro de dilogo abierto mostrar la siguiente apariencia, apareciendo en primer lugar el


listado de variables originales.

Haciendo doble clic con el botn izquierdo del ratn sobre la variable Edad, sta pasar al
rectngulo blanco situado en la parte inferior derecha de la ventana, bajo el ttulo Expresin
a calcular. La expresin para transformar la edad de aos a meses es Edad*12, donde el
asterisco equivale al signo de multiplicacin.

En el rectngulo blanco situado a la izquierda de la ventana se escribir el nombre de la nueva


variable, Edad.meses. Este nombre puede contener cualquier combinacin de letras
maysculas, minsculas, puntos (.) y guin bajo (_), pero no puede comenzar con un valor
numrico ni contener cualquier otro smbolo diferente a los mencionados.

La nueva variable se aadir automticamente en la ltima columna de la base de datos tras


pulsar el botn Aceptar.

La definicin de la expresin a calcular puede usar todos los operadores aritmticos y


funciones implementadas en el lenguaje R. Entre los ms comunes estn los operadores suma
(+), resta (-), multiplicacin (*), divisin (/) y elevacin a una potencia (^), adems de los
recogidos en la tabla que aparece a continuacin. De esta forma, si se hubiesen registrado las
variables Peso (expresada en kilogramos) y Altura (expresada en metros), la expresin para
calcular el ndice de Masa Corporal (IMC) a partir de ellas sera Peso/(Altura^2).

51
Descubriendo R-Commander

(*)
Operador Smbolo Expresin a calcular
Suma + x+y
Resta - xy
Multiplicacin * x*y
Divisin / x/y
Elevacin a una potencia ^ x^y

Funcin Nombre Expresin a calcular(*)


Logaritmo
neperiano log log(x)
en base 10 log10 log10(x)
Raz cuadrada sqrt sqrt(x)

(*)
x e y pueden ser variables o valores numricos

a) Recodificar variables cualitativas y cuantitativas utilizando valores


prefijados

Con este procedimiento es posible modificar los nombres de las categoras de una variable
cualitativa o convertir una variable cuantitativa en cualitativa, agrupando a los individuos en
las categoras que generen unos puntos de corte prefijados por el usuario.

A modo de ejemplo, para sustituir las etiquetas Hombre y Mujer por Masculino y
Femenino en la variable Sexo se realizar la siguiente secuencia del men principal:

Datos - Modificar variables del conjunto de datos activo Recodificar variables

En el listado de variables que muestra el cuadro de dilogo abierto se seleccionar la variable


Sexo. Esta variable se marcar en azul tras hacer clic sobre ella con el botn izquierdo del
ratn.

52
Gestin de Bases de Datos con R-Commander

En el espacio situado a la derecha del ttulo Nuevo nombre o prefijo para variables mltiples
recodificadas se escribir el nombre de la variable que contendr las categoras del sexo con
las nuevas etiquetas, en este caso Gnero. De esta forma se conservar en la base de datos la
variable Sexo original, con categoras Hombre y Mujer, y se crear otra variable Gnero con
categoras Masculino y Femenino. Si este rectngulo se deja vaco, los nombres de las
categoras originales de Sexo se sustituirn por los nuevos y no se crear una variable
adicional. Esta ltima opcin es recomendable cuando no se desea seguir utilizando las
etiquetas originales, evitando la duplicidad de variables en la base de datos.

Bajo el ttulo Introducir directrices de recodificacin se especificarn las transformaciones


que R-Commander deber realizar para modificar los valores de la variable. Estas
transformaciones tienen siempre el mismo formato de escritura: A la izquierda el valor de la
variable original, a la derecha el nuevo valor de la variable y ambos valores separados por el
signo igual. Cuando los valores de la variable sean texto, como es el caso de los nombres de
las categoras, stos debern ir entrecomillados. As, las expresiones mostradas en la ventana
anterior significan que la etiqueta Hombre ser sustituida por Masculino y la etiqueta
Mujer por Femenino.

Habitualmente, la opcin Convertir cada nueva variable en factor estar siempre activada,
puesto que la nueva variable que se genera es cualitativa.

Tras pulsar el botn Aceptar, la nueva variable Gnero se aadir en la ltima columna de la
base de datos. En caso de no haber especificado un nuevo nombre de variable, los nombres de
las categoras de la variable Sexo se habrn modificado automticamente sin duplicar la
variable.

Otra situacin frecuente en la recodificacin de variables es la transformacin de una variable


cuantitativa en otra cualitativa, creando dos o ms categoras que agrupen a los individuos. A
modo de ejemplo, a partir de la variable Edad se podran crear tres intervalos que clasifiquen
a los profesionales en las siguientes categoras: 25 aos o menos, entre 26 y 40 aos y Ms de
40 aos. De esta forma, dos puntos de corte preestablecidos en 25 y 40 aos generarn tres
intervalos o categoras diferentes.

El procedimiento a seguir es similar al caso anterior, partiendo de la siguiente secuencia del


men principal:

Datos - Modificar variables del conjunto de datos activo Recodificar variables

Tras seleccionar la variable Edad en el cuadro de dilogo, se escribir Edad.categorizada


como nuevo nombre de la variable en el espacio correspondiente. Esta nueva variable ser
cualitativa con tres categoras, por tanto, la opcin Convertir cada nueva variable en factor
deber estar activada.

53
Descubriendo R-Commander

Las directrices de recodificacin son ahora un poco diferentes a las anteriores, como muestra
la imagen superior. Puesto que la variable a recodificar es cuantitativa, la parte izquierda de la
expresin ya no son valores individuales sino intervalos o rangos de valores. La parte situada
a la derecha del signo igual es el nombre o etiqueta de cada categora, que al ser texto deber
ir entrecomillada.

Las letras lo constituyen la abreviacin de la palabra inglesa lower (el ms bajo), mientras que
hi es la abreviacin de higher (el ms alto). As, la expresin lo:25=25 o menos significa
que los valores de la variable Edad comprendidos entre el valor ms bajo de la base de datos y
los 25 aos formarn una categora denominada 25 o menos. En este intervalo se incluye el
valor 25.

La expresin 25:40=26 a 40 indica que todos los profesionales con edad superior a 25 aos
e inferior o igual a 40 aos formarn parte de la categora 26 a 40. Aunque est presente en
la expresin, el valor 25 no se incluir en este intervalo. R-Commander lo excluir
automticamente al detectar que ya forma parte del primer intervalo. En este caso, una
expresin equivalente para definir esta categora sera 26:40=26 a 40, ya que la edad est
recogida mediante nmeros enteros. Sin embargo, si hubiera decimales, el valor 25.36 no
quedara recogido ni en el primer intervalo ni en el segundo. Para evitar errores de este tipo es
aconsejable definir siempre el intervalo mediante la expresin 25:40=26 a 40.

Por ltimo, 40:hi=Ms de 40 expresa que todos los profesionales con edad superior a 40
aos constituirn la categora Ms de 40. Como antes, R-Commander excluir
automticamente el valor 40 de este intervalo al detectar que ya forma parte del intervalo
anterior.

54
Gestin de Bases de Datos con R-Commander

Pulsando Aceptar, la nueva variable Edad.categorizada se aadir en la ltima columna de la


base de datos. La siguiente imagen muestra el resultado obtenido tras accionar el botn
Visualizar conjunto de datos bajo la barra de men principal.

En caso de haber dejado en blanco el espacio Nuevo nombre o prefijo para variables
mltiples recodificadas, los valores originales de la variable Edad seran sustituidos por las
nuevas categoras. Esta opcin no es muy recomendable, ya que impedir trabajar con la
variable original en posteriores sesiones de trabajo.

b) Segmentar variables cuantitativas mediante puntos de corte automticos

La recodificacin de variables vista en el apartado anterior permite transformar una variable


cuantitativa en otra cualitativa, agrupando a los individuos en categoras que generen unos
puntos de corte prefijados por el usuario. Cuando no se dispone de informacin sobre los
puntos de corte ms adecuados, R-Commander permite realizar un procedimiento de
segmentacin utilizando puntos de corte automticos, no preestablecidos previamente. Para
ello, desde el men principal se activar la secuencia:

55
Descubriendo R-Commander

Datos - Modificar variables del conjunto de datos activo Segmentar variable numrica

El cuadro de dilogo abierto mostrar slo las variables cuantitativas de la base de datos, ya
que este procedimiento nicamente es vlido para valores numricos.

Para categorizar o segmentar la variable Edad en tres grupos, utilizando puntos de corte
automticos, se seleccionar del listado de variables haciendo clic sobre ella con el botn
izquierdo del ratn. R-Commander la marcar en azul, pudiendo escribir a continuacin el
nombre de la nueva variable en la parte superior derecha de la ventana.

El botn Nmero de clases permite definir el nmero de categoras de la nueva variable


Edad.categorizada, en este caso tres.

Como mtodo de segmentacin, R-Commander ofrece los siguientes:

Segmentos equidistantes
Permite realizar una particin de la variable en intervalos de igual longitud. Es el mtodo ms
sencillo para categorizar una variable cuantitativa, de manera que el segmento a dividir estar
dado por la diferencia entre el valor mayor y el valor menor de la variable. En este caso, la
edad menor es 18 aos y la mayor 58, por lo que la amplitud de cada uno de los tres intervalos
ser (58-18)/3=13.33 aos. As, el primer grupo de profesionales estar formado por aquellos

56
Gestin de Bases de Datos con R-Commander

con edades comprendidas entre 18 y 31.3 aos, el segundo grupo entre 31.3 y 44.7 aos y el
tercer grupo entre 44.7 y 58.

Segmentos de igual cantidad


Realiza una particin de la variable de forma que en cada intervalo haya el mismo nmero de
sujetos.

Segmentos naturales (mediante agrupacin por K-medias)


Es un algoritmo ms complejo que divide a la variable en los intervalos especificados bajo la
condicin de que los sujetos de cada grupo tengan valores parecidos, minimizando la
distancia entre cada uno de ellos y el valor medio del intervalo al que pertenecen.

Por ltimo, las opciones del bloque Nombres de niveles permitirn poner nombre a cada
uno de los intervalos o categoras generadas. La opcin Especificar nombres se utilizar
para escribir el texto que el usuario desee, mientras que las opciones Nmeros y Rangos
harn que R-Commander asigne automticamente las etiquetas de las categoras, utilizando
respectivamente nmeros consecutivos o el mismo rango de valores del intervalo.

Tras pulsar el botn Aceptar y visualizar la base de datos, el mtodo de segmentos


equidistantes y el etiquetado mediante rangos mostrar el siguiente resultado:

57
Descubriendo R-Commander

Seleccionar registros y variables

En ocasiones es necesario filtrar la base de datos para elegir determinadas variables o


seleccionar slo aquellos casos o registros que verifiquen una determinada condicin. Este
procedimiento puede hacerse desde el men principal de R-Commander siguiendo la
secuencia:

Datos Conjunto de datos activo Filtrar el conjunto de datos activo

Las opciones mostradas en el cuadro de dilogo permitirn generar una nueva base de datos
que contenga slo las variables y los registros especificados. Por defecto, la opcin Incluir
todas las variables se encuentra activada, sin embargo es posible desactivarla y elegir slo
aquellas variables que se deseen trasladar a la nueva base de datos. Para ello bastar con
marcarlas usando el botn izquierdo del ratn a la vez que se pulsa la tecla Control (Ctrl) del
teclado.

En el cuadro Expresin de seleccin se insertar la condicin que deben cumplir los


registros de la base de datos para ser seleccionados. As, para filtrar por la variable Sexo
eligiendo slo a los hombres se escribir Sexo==Hombre.

58
Gestin de Bases de Datos con R-Commander

Obsrvese que la condicin de igualdad se expresa con el doble signo == y no con = como
suele ser habitual. Adems, puesto que Sexo es una variable cualitativa, la categora
especificada como filtro ha de ir entre comillas. Es muy importante que las expresiones de
seleccin respeten el lenguaje R-Commander para que el filtro se realice correctamente. Estas
son las expresiones y operadores lgicos ms frecuentes:

Expresiones lgicas Descripcin


< Menor que
<= Menor o igual que
> Mayor que
>= Mayor o igual que
== Igual a
!= Distinto a

Operadores lgicos Descripcin


& Y
| O
! No

De esta forma, para seleccionar a los sujetos con edades comprendidas entre 25 y 40 aos,
ambas inclusive, la expresin de seleccin ser 25<=Edad & Edad<=40.

Por ltimo, la opcin Nombre del nuevo conjunto de datos permitir almacenar el filtro en
una nueva base de datos, que pasar a ser la base de datos activa.

Eliminar variables y registros

El editor de bases de datos de R-Commander no permite borrar variables o registros


directamente. Estos procedimientos han de realizarse desde el men principal, de manera que
para eliminar una variable de la base de datos se pulsar la secuencia:

Datos - Modificar variables del conjunto de datos activo Eliminar variables del
conjunto de datos

Para eliminar una nica variable se pulsar sobre ella en el cuadro de dilogo abierto y a
continuacin el botn Aceptar. Es posible borrar varias variables a la vez dejando pulsada la
tecla Control (Ctrl) del teclado mientras se seleccionan del listado todas las variables que se
desean eliminar.

59
Descubriendo R-Commander

Para eliminar uno o varios registros de la base de datos se pulsar la secuencia:

Datos Conjunto de datos activo Borrar fila(s) del conjunto de datos activo

En el cuadro de dilogo abierto se especificar el nmero de la fila que se desea eliminar,


justo debajo del ttulo ndices o nombres de la(s) fila(s) para borrar.

Para borrar slo la dcima fila se escribir el valor 10, mientras que para borrar todas las filas
comprendidas entre la nmero 10 y la 22 se escribir 10:22.

La nueva base de datos puede guardarse con otro nombre cumplimentando el espacio
Nombre del nuevo conjunto de datos. De esta forma se mantendr intacta la base de datos
original en la memoria de R-Commander y se crear una copia de ella en la que se eliminarn
los registros. Si no se especifica ningn nombre, los registros sern borrados directamente en
la base de datos activa en memoria.

60
Gestin de Bases de Datos con R-Commander

Guardar la base de datos activa en un archivo R-Commander

Cuando se elabora o importa una base de datos, se crean nuevas variables o se modifican
datos, R-Commander guarda la nueva informacin en memoria, pero no la almacena
fsicamente en el disco duro del ordenador. Esto supone que al cerrar una sesin de trabajo y
salir del programa se perder toda la informacin junto con los cambios realizados, siendo
necesario volver a introducir, importar o modificar los datos en la siguiente sesin.

Para evitar este problema, es aconsejable guardar la base de datos en un archivo R-


Commander, de manera que sea posible recuperar la informacin en sesiones posteriores. Para
ello se seguir la siguiente secuencia desde el men principal:

Datos Conjunto de datos activo Guardar el conjunto de datos activo

En la ventana abierta a continuacin se deber seleccionar la carpeta en la que se quiere


guardar la base de datos, especificar el nombre del archivo y pulsar el botn Guardar. El
archivo tendr extensin .rda, un tipo de formato que slo podr leerse posteriormente con R-
Commander.

Abrir una base de datos en formato R-Commander

Al comenzar una sesin de trabajo ser necesario cargar en memoria la base de datos que se
desea analizar. Si sta ya fue elaborada o importada en una sesin de trabajo anterior y se
guard posteriormente como archivo R-Commander, ser posible recuperarla pulsando la
siguiente secuencia del men principal:

Datos Cargar conjunto de datos

Cuando se abra la ventana de seleccin de archivos bastar con buscar la base de datos en la
carpeta correspondiente y hacer doble clic sobre ella. Para facilitar la bsqueda es conveniente
seleccionar la opcin Archivos de datos de R (*.rda, *.Rda, *.RDA), situada en la esquina
inferior derecha de la ventana, en lugar de la opcin Todos los archivos (*.*) que aparece por
defecto. De esta forma se mostrarn slo las bases de datos previamente grabadas en formato
R-Commander.

Una vez capturada la base de datos, R-Commander mostrar su nombre en color azul junto al
texto Conjunto de datos, debajo del men principal. Pulsando la opcin Visualizar
conjunto de datos, situada a la derecha del men, se puede comprobar si la captura de la
base de datos se ha realizado correctamente.

61
Descubriendo R-Commander

Exportar la base de datos activa a un archivo con formato texto

Las bases de datos guardadas en archivos R-Commander (con extensin .rda) slo pueden
abrirse con este software. Para compartir la informacin con otros usuarios que no utilicen R-
Commander o trabajar con otros programas estadsticos ser necesario exportar la
informacin a un archivo de texto, formato universal que puede leer cualquier software.

Este proceso puede realizarse desde el men principal, pulsando la secuencia:

Datos Conjunto de datos activo Exportar el conjunto de datos activo

A continuacin se abrir una ventana con diferentes opciones que podrn ser activadas o
desactivadas dependiendo del formato con el que se desee exportar la informacin.

62
Gestin de Bases de Datos con R-Commander

En general, es aconsejable seguir estas indicaciones:

Escribir los nombres de las variables

Activado Esta opcin registrar el nombre de las variables en el archivo de texto,


facilitando la comprensin de la informacin almacenada.

Escribir el nombre de las filas

Desactivado Si se deja activada, esta opcin aadir una variable adicional con
nmeros correlativos. En principio no suele ser til y aumenta
innecesariamente el volumen de la base de datos, por lo que es preferible
desactivarla.

Entrecomillar valores tipo carcter

Desactivado De esta forma se facilitar la importacin de datos desde otro software


que no utilice las comillas para identificar valores de tipo carcter.

Valores ausentes

Dejar en blanco Sin escribir el valor por defecto NA.

Separador de campos

Usar comas Si hay variables cualitativas en las que el nombre de alguna categora
tenga espacios, no es aconsejable usar a su vez el espacio como separador
de campos.

Tras pulsar el botn Aceptar se deber seleccionar la carpeta en la que se quiere guardar la
base de datos, especificar el nombre del archivo y pulsar el botn Guardar. El archivo deber
tener extensin .txt, .TXT, .dat, .DAT, .csv o .CSV, formato de texto universal compatible con
cualquier software.

63
4

ANLISIS DESCRIPTIVO UNIVARIANTE

E l objetivo del Anlisis Descriptivo es resumir la informacin recogida en la base de


datos, describir las caractersticas del grupo estudiado y detectar posibles anomalas que
hayan podido producirse durante el registro de la informacin. Suele ser el primer anlisis
estadstico de cualquier investigacin, ya que sus resultados son esenciales para conocer los
datos y planificar anlisis ms complejos. A veces, un anlisis descriptivo adecuado cubre,
por s solo, el objetivo principal de algunos estudios.

Los contenidos de este captulo exponen las tcnicas ms frecuentes para la descripcin de
cada una de las variables que componen una base de datos, usando para ello el caso prctico
Accidentes por pinchazo en profesionales de enfermera.

DESCRIPCIN INICIAL DE VARIABLES

Las tcnicas que se utilizan para describir variables cualitativas son diferentes a las utilizadas
para la descripcin de variables cuantitativas. Usualmente, una variable cualitativa se describe
a travs de una tabla de frecuencias, mostrando el nmero de sujetos que constituye cada
categora y su porcentaje con respecto al total de sujetos. Por contra, la descripcin de una
variable cualitativa se realiza mediante un resumen numrico, que habitualmente incorpora
los valores mnimo, mximo, media y desviacin tpica de la variable.

Parte de esta informacin se puede obtener con R-Commander en un anlisis exploratorio


inicial, realizando la siguiente secuencia desde el men principal:

Estadsticos Resmenes Conjunto de datos activo

La ventana de resultados mostrar el nombre de cada variable de la base de datos y debajo del
l un recuento del nmero de sujetos por categora, si la variable es cualitativa, o un resumen
numrico, dado por los valores mnimo, primer cuartil, mediana, media, tercer cuartil y

64
Anlisis descriptivo univariante

mximo, si la variable es cuantitativa. La ltima informacin de cada variable es el nmero de


sujetos con valores perdidos, identificados con la etiqueta NAs.

Los resultados obtenidos muestran una distribucin de sujetos aproximadamente equilibrada


entre las categoras de cada variable cualitativa, exceptuando el estado al final del
seguimiento, donde la mayora de profesionales se encuentra en el grupo Accidentado.
La edad de los profesionales oscila entre 18 y 58 aos, con una edad media de 34.38 aos. La
media es un representante del grupo, un valor central en torno al que se sita la edad de los
profesionales.

En general, los cuartiles no suelen incorporarse a un resumen descriptivo bsico, aunque sern
tiles para comprender el significado y la utilidad de un grfico de caja, descrito ms adelante.
Estos parmetros dividen a la variable en cuatro partes iguales, de manera que, una vez
ordenados los datos de menor a mayor, cada intervalo contiene al 25% de los valores
registrados. En este caso, el primer cuartil se sita en 23 aos, indicando que el 25% de los
profesionales tienen una edad inferior a 23 aos. La mediana o segundo cuartil, localizada en
30 aos, indica que el 50% de los sujetos tiene menos de 30 aos. Por ltimo, el tercer cuartil,
situado en 47.75 aos, seala que el 75% de los profesionales tiene una edad inferior a 47.75
aos.

65
Descubriendo R-Commander

DESCRIPCIN DE VARIABLES CUALITATIVAS

Tabla de frecuencias

La descripcin de variables realizada en el apartado anterior muestra el nmero de sujetos que


componen las categoras de cada variable cualitativa. Esta informacin deber transcribirse a
una tabla de tres columnas, confeccionada con un procesador de textos, para obtener la
siguiente tabla de frecuencias:

Variable Nmero de sujetos Porcentaje de sujetos

Grupo
Formacin 12 48%
No formacin 13 52%
Estado
Accidentado 17 68%
No accidentado 8 32%
Sexo
Hombre 13 52%
Mujer 11 44%
Valores perdidos 1 4%

Puesto que la salida anterior de R-Commander no ofrece el porcentaje de sujetos


correspondiente a cada categora, ser necesario obtenerlos a travs de una calculadora, una
hoja de clculo o utilizando la ventana de instrucciones de la propia interfaz. As, el
porcentaje de profesionales que recibieron formacin ser (12/25) x 100=48, mientras que el
porcentaje de personas que no la recibieron es (13/25) x 100=52. Ambos porcentajes pueden
calcularse escribiendo en la ventana de instrucciones de R-Commander la siguiente lnea:

12/25*100; 13/25*100

Dejando el cursor colocado en la misma lnea, justo despus del ltimo 100, se pulsar el
botn Ejecutar, situado en la parte inferior derecha de la ventana de instrucciones. La ventana
de resultados mostrar entonces los porcentajes correspondientes, que habrn de transcribirse
a la tabla de frecuencias del procesador de textos.

66
Anlisis descriptivo univariante

El mismo procedimiento se seguir para obtener el resto de porcentajes, escribiendo


sucesivamente las siguientes lneas y pulsando el botn Ejecutar al final de cada una de ellas:

17/25*100; 8/25*100
13/25*100; 11/25*100; 1/25*100

Un resultado similar puede obtenerse pulsando la siguiente secuencia desde el men principal
de R-Commander:

Estadstico Resmenes Distribucin de frecuencias

A continuacin aparecer un cuadro de dilogo en el que podr seleccionarse la variable


cualitativa que se desea describir, en este caso Sexo.

67
Descubriendo R-Commander

Pulsando sobre el botn Aceptar se mostrar la siguiente informacin en la ventana de


resultados:

> .Table <- table(Accidentes$Sexo)


> .Table # counts for Sexo

Hombre Mujer
13 11

> round(100*.Table/sum(.Table), 2) # percentages for Sexo

Hombre Mujer
54.17 45.83

> remove(.Table)

En rojo aparecern las instrucciones que R-Commander utiliza para contar el nmero de
sujetos de cada categora y calcular el porcentaje correspondiente. En azul los resultados, que
tendrn que transcribirse a la tabla de frecuencias del procesador de textos.

Este procedimiento ofrece automticamente las frecuencias absolutas (sujetos) y relativas


(porcentajes), sin embargo elimina del clculo los valores faltantes. As, el total de sujetos no
es 25 sino 24 por haber un valor perdido en la variable Sexo. No es posible, por tanto, obtener
automticamente el porcentaje de valores perdidos para esta variable, informacin a veces
muy valiosa para describir el grado de cumplimentacin de la variable y la calidad de la
fuente de informacin.

Los resultados del primer procedimiento, en el que los porcentajes se calcularon escribiendo
lneas de texto, coincidirn con los resultados de este procedimiento automtico cuando la
variable no tenga valores perdidos, en cuyo caso ste ltimo puede ser preferible por la
rapidez en la obtencin de informacin.

Grfico de barras

R-Commander permite representar en un grfico de barras la misma informacin de una tabla


de frecuencias. Para ello, desde el men principal se seguir la secuencia:

Grficas Grfica de barras

A continuacin aparecer un cuadro de dilogo que permitir seleccionar la variable a


representar. En esta ventana slo se mostrarn las variables cualitativas, definidas como factor

68
Anlisis descriptivo univariante

o de tipo carcter en R-Commander, ya que este grfico no tiene sentido para variables
cuantitativas.

Tras marcar en azul la variable correspondiente, en este caso Sexo, y pulsar el botn Aceptar,
aparecer una nueva ventana que contendr el grfico.

69
Descubriendo R-Commander

En el diagrama de barras, el eje horizontal muestra todas las categoras de la variable


cualitativa y la altura de la barra representa el nmero de sujetos que componen cada una de
ellas.

La ltima lnea de texto dentro de la ventana de instrucciones de R-Commander mostrar el


comando que ha utilizado la interfaz para dibujar el diagrama de barras:

barplot(table(Accidentes$Sexo), xlab="Sexo", ylab="Frequency")

Para que el grfico de barras muestre en el eje vertical la etiqueta Nmero de sujetos en
lugar de Frequency y lo dibuje en azul habr que sustituir el comando anterior por este otro:

barplot(table(Accidentes$Sexo), xlab="Sexo", ylab="Nmero de sujetos", col=blue)

70
Anlisis descriptivo univariante

y pulsar posteriormente el botn Ejecutar. Automticamente, el grfico de barras se volver a


dibujar en la ventana grfica teniendo en cuenta los nuevos parmetros.

Estas y otras cuestiones relacionadas con la edicin de grficos no pueden realizarse en R-


Commander sin recurrir a comandos, por lo que su uso requerir conocer ms detalles sobre
las instrucciones y parmetros del software R. Una alternativa es usar la informacin de la
tabla de frecuencias para crear el grfico directamente en el procesador de textos, hoja de
clculo o programa de presentacin que se est utilizando para elaborar el informe.

Diagrama de sectores

Una alternativa equivalente al diagrama de barras es el diagrama de sectores. Esta


representacin grfica divide un crculo en tantas secciones como categoras tenga la variable
cualitativa, siendo el tamao de cada una de ellas proporcional al nmero de sujetos que
contiene. Para realizarlo, desde el men principal de R-Commander se pulsar:

Grficas Grfica de sectores

El cuadro de dilogo que aparecer a continuacin es similar al descrito para el diagrama de


barras. En l se seleccionar la variable a representar marcndola en azul.

Tras pulsar el botn Aceptar la ventana grfica mostrar el diagrama de sectores, sustituyendo
el grfico que hubiese anteriormente.

71
Descubriendo R-Commander

72
Anlisis descriptivo univariante

La ltima lnea de la ventana de instrucciones de R-Commander contendr el comando


interno utilizado para realizar el grfico. En este caso, el comando es:

pie(table(Accidentes$Sexo), labels=levels(Accidentes$Sexo), main="Sexo",


col=rainbow_hcl(length(levels(Accidentes$Sexo))))

que podr modificarse de la siguiente forma para que aparezca el ttulo Distribucin de la
variable Sexo en lugar de Sexo y los colores rojo y azul claro para los sectores:

pie(table(Accidentes$Sexo), labels=levels(Accidentes$Sexo), main="Distribucin de la


variable Sexo", col=c("red", "lightblue"))

Puesto que este comando ocupa dos lneas de texto dentro de la ventana de instrucciones, para
ejecutarlo ser necesario seleccionar ambas lneas con el ratn y posteriormente pulsar el
botn Ejecutar. Las lneas seleccionadas quedarn marcadas en azul, como muestra la imagen
anterior.
Como ocurra con el grfico de barras, una alternativa a la sintaxis de R-Commander es usar
la informacin de la tabla de frecuencias para crear el diagrama de sectores directamente en el
procesador de textos, hoja de clculo o programa de presentacin que se est utilizando para
elaborar el documento.

DESCRIPCIN DE VARIABLES CUANTITATIVAS


Resmenes numricos

La ventana de resultados obtenida en el apartado Descripcin inicial de variables muestra


algunos parmetros necesarios para describir la variable Edad, nica variable cuantitativa de
la base de datos. Esta informacin deber transcribirse a una tabla de seis columnas,
confeccionada con un procesador de textos, para conseguir una parte de la siguiente tabla:

Variable Sujetos Mnimo Mximo Media Desviacin tpica


Edad 24 18 58 34.38 13.24

Puesto que la salida anterior de R-Commander no ofrece la desviacin tpica, ser necesario
obtenerla desde el men principal activando la secuencia:

Estadsticos Resmenes Resmenes numricos

73
Descubriendo R-Commander

En el cuadro de dilogo que aparece a continuacin se seleccionar la variable de inters, en


este caso Edad, y se activar la opcin Desviacin tpica.

El resto de opciones puede quedar desactivado, ya que la informacin ofrecida se obtuvo en la


descripcin inicial de variables.

Tras pulsar el botn Aceptar, la desviacin tpica de la edad aparecer en la ventana de


resultados de R-Commander, pudiendo transcribirla a la tabla del procesador de textos para
completar la informacin. En este caso su valor es 13.24 aos, ofreciendo una medida de la
dispersin de los valores individuales con respecto a la media del grupo. En general, la
desviacin tpica estima la separacin entre los valores individuales y la media del grupo.
Cuanto ms pequea sea, ms parecidos sern los sujetos entre s, de manera que una
desviacin tpica igual a cero indicara que todos los individuos tienen la misma edad.

Si en la base de datos hubiese ms variables cuantitativas, su informacin se incorporara en


filas adicionales de la tabla descriptiva anterior, siguiendo el mismo procedimiento que el
mostrado para la variable edad.

Histograma

Uno de los grficos ms utilizados para representar variables cuantitativas es el histograma.


Su representacin ms habitual se realiza mediante dos ejes: Uno horizontal en el que se
representan las categoras de la variable segmentada en intervalos iguales y otro vertical que,

74
Anlisis descriptivo univariante

mediante barras, muestra el nmero de sujetos que contiene cada categora. R-Commander
calcula la longitud de los intervalos mediante algoritmos automticos, de manera que todos
tengan igual amplitud y definan barras de igual anchura. La secuencia para realizar este
grfico desde el men principal es la siguiente:

Grficas Histograma

En el cuadro de dilogo se seleccionar la variable a representar, en este caso Edad, y a


continuacin la escala deseada para el eje vertical, cuyos valores representan habitualmente el
nmero o el porcentaje de sujetos en cada intervalo. Tras pulsar el botn Aceptar, el
histograma aparecer en la ventana grfica.

75
Descubriendo R-Commander

El grfico muestra una distribucin de valores asimtrica, sesgada a la derecha, con tres
frecuencias mximas localizadas en los intervalos de edad 20-25, 45-50 y 50-55. Este tipo de
distribuciones se denomina multimodal y suele aparecer cuando estn mezclados datos que
proceden de distintos grupos o poblaciones.

Para incorporar las etiquetas Edad y Nmero de sujetos a los ejes horizontal y vertical
respectivamente y dibujar las barras en azul, habr que utilizar la ventana de instrucciones de
R-Commander. En ella se sustituir el comando:

Hist(Accidentes$Edad, scale="frequency", breaks="Sturges", col="darkgray")

por este otro, pulsando a continuacin el botn Ejecutar:

Hist(Accidentes$Edad, scale="frequency", breaks="Sturges", col="blue",


xlab="Edad", ylab="Nmero de sujetos")

Grfico de caja

Otra de las representaciones grficas utilizada para la descripcin de variables cuantitativas es


el grfico de caja, tambin denominado box-plot o box-and-whisker plot. Su construccin se
basa en los cuartiles de la variable, siendo un grfico muy til para visualizar la dispersin de
los datos, conocer la simetra de su distribucin e identificar casos raros o atpicos, es decir,
valores que se diferencian notablemente del resto de los valores del grupo.
La siguiente secuencia permite realizar este tipo de grfico desde el men principal de R-
Commander:

Grficas Diagrama de caja

El cuadro de dilogo mostrar las variables cuantitativas que pueden representarse, entre las
que se seleccionar Edad.

76
Anlisis descriptivo univariante

La opcin Identificar atpicos con el ratn puede activarse para obtener informacin sobre
los casos raros o atpicos, marcados con un crculo por R-Commander. Al hacer clic con el
ratn sobre cada uno de estos sujetos aparecer el nmero de fila que ocupa dentro de la base
de datos. Este procedimiento puede ser til para identificar errores en el registro de la
informacin o identificar valores extremos dentro de un grupo.

Tras pulsar el botn Aceptar, el grfico de caja se mostrar en la ventana grfica de R-


Commander.

Los lados inferior y superior del rectngulo se sitan a la altura del primer y tercer cuartil
respectivamente. La lnea central en negrita es la mediana. Todos los valores de la edad
comprendidos entre las marcas dibujadas al final de las lneas punteadas se considerarn no
atpicos. Si en la base de datos hubiese valores de la edad por debajo de la marca inferior o
por encima de la marca superior quedaran sealados con un crculo, indicando que se trata de
casos raros. En ocasiones, estas marcas se denominan lmites de admisibilidad.

En este caso no hay valores atpicos para la edad. La mediana est desplazada respecto al
centro del rectngulo y su distancia al lmite superior es mayor que la distancia al lmite
inferior, lo que indica que la distribucin de los valores es asimtrica. El sesgo a la derecha
sugiere mayor heterogeneidad entre los sujetos que tienen una edad superior a la mediana.

77
Descubriendo R-Commander

PRESENTACIN DE RESULTADOS

La informacin que muestra la tabla de frecuencias, el grfico de barras y el diagrama de


sectores es equivalente. Por este motivo sera redundante ofrecer los tres resultados en un
informe o presentacin de diapositivas. Adems de ocupar demasiado espacio cuando se
analizan varias variables dificultara el resumen de la informacin en un mensaje claro y
conciso. Igual ocurre con el histograma y el grfico de cajas para variables cuantitativas.

La forma de presentar los resultados descriptivos depender del objetivo que se desee
alcanzar. Aunque no existen normas preestablecidas, habitualmente un artculo cientfico
suele incluir slo tablas de frecuencia y resmenes numricos y nicamente de forma
excepcional algn grfico que permita destacar informacin relevante no recogida en las
tablas. Por el contrario, una presentacin oral, en la que el oyente no dispone de tiempo para
procesar grandes cantidades de informacin numrica, es preferible incorporar grficos que
permitan recibir el mensaje de forma visual, rpida y concisa.

La seleccin de resultados descriptivos relevantes y su disposicin en tablas o grficos


autoexplicativos, claros y sencillos facilitar enormemente la lectura y comprensin del
mensaje transmitido. La presentacin habitual mediante tablas es la siguiente:

Descripcin de variables cualitativas

Variable Nmero de sujetos Porcentaje de sujetos

Grupo
Formacin 12 48%
No formacin 13 52%
Estado
Accidentado 17 68%
No accidentado 8 32%
Sexo
Hombre 13 52%
Mujer 11 44%
Valores perdidos 1 4%
:

Nota: Se incorporarn a la primera columna de la tabla tantas variables como


sea necesario, siguiendo la misma estructura para cumplimentar su informacin.

78
Anlisis descriptivo univariante

Descripcin de variables cuantitativas

Variable Sujetos Mnimo Mximo Media Desviacin tpica

Edad 24 18 58 34.38 13.24


:

Nota: Se incorporarn a la primera columna de la tabla tantas variables como sea necesario,
siguiendo la misma estructura para cumplimentar su informacin.

79
Descubriendo R-Commander

80
5

ANLISIS DESCRIPTIVO BIVARIANTE

E l anlisis estadstico de la informacin no se circunscribe nicamente a la descripcin de


las caractersticas de una poblacin o de un grupo de sujetos. Uno de los principales
objetivos de muchas investigaciones es estudiar la relacin entre dos variables, observando
cmo cambian los valores de una de ellas cuando se modifican los de la otra. En este contexto
surge el concepto de variable dependiente y variable independiente, cuya definicin previa es
fundamental para abordar este tipo de anlisis.

La variable independiente es aquella que a priori se considera como la causa, o una de las
posibles causas, del efecto estudiado, cuyos valores constituyen la variable dependiente. En la
investigacin experimental, el investigador manipula la variable independiente para observar
el cambio que se produce en la variable dependiente, de manera que conociendo los valores
de la primera se podra predecir el comportamiento de esta ltima. Por ello, la variable
independiente tambin se conoce como predictora, explicativa, exposicin o causa, en cuyo
caso la variable dependiente suele recibir respectivamente el nombre de respuesta, explicada,
enfermedad o efecto.

El carcter cualitativo o cuantitativo de una variable es intrnseco a ella. Sin embargo, su


cualidad de independiente o dependiente depender del objetivo del estudio. As, en una
investigacin sobre los factores relacionados con el peso del recin nacido, la variable peso al
nacer ser la variable dependiente o resultado final. Por contra, en un estudio sobre factores de
riesgo relacionados con la mortalidad neonatal, el peso al nacer actuar ahora como variable
independiente o predictora de la mortalidad, que ser la dependiente.

El anlisis bivariante describe la relacin entre dos variables, donde habitualmente una de
ellas acta como independiente y otra como dependiente. Este anlisis engloba varias tcnicas
estadsticas, cuyo uso particular depender del carcter cualitativo o cuantitativo de las
variables analizadas. En este captulo se exponen los mtodos ms utilizados para este
propsito.

81
Descubriendo R-Commander

VARIABLE DEPENDIENTE CUALITATIVA

Siempre que la variable dependiente sea cualitativa, la tcnica estadstica ms utilizada para
describir su relacin con otras variables, cualitativas o cuantitativas, es la tabla de
contingencia. En su forma ms sencilla, esta tabla presenta una doble entrada, donde las
categoras de la variable independiente (exposicin o causa) se disponen habitualmente en las
filas y las categoras de la variable dependiente (enfermedad o efecto) en las columnas. Si la
variable independiente fuese cuantitativa se segmentar en dos o ms grupos para conseguir
una tabla con el siguiente formato:

Dependiente
Enfermos No enfermos
Independiente Expuestos a b a+b
No expuestos c d c+d
a+c b+d a+b+c+d

Las celdas de la tabla representan el nmero de sujetos que tienen una determinada
caracterstica. As, hay a personas expuestas y enfermas, b expuestas y no enfermas, c no
expuestas y enfermas y d no expuestas ni enfermas.

Junto a estos nmeros absolutos, en los estudios de cohortes y transversales es til calcular los
que se denomina porcentaje por filas, es decir, la proporcin de personas enfermas tanto en el
grupo de expuestos como en el de no expuestos. De esta forma, [a/(a+b)] x 100 ser el
porcentaje de enfermos entre las personas que estuvieron expuestas y [c/(c+d)] x 100 el
porcentaje de enfermos entre las no expuestas. En un estudio de cohortes, estos valores
pueden interpretarse como la incidencia acumulada de la enfermedad en cada uno de los
grupos de exposicin y su cociente es la razn de incidencias o Riesgo Relativo (RR). En un
estudio transversal ambos porcentajes sern la prevalencia de la variable dependiente en cada
grupo de la variable independiente y su cociente la Razn de Prevalencias (RP). Si exposicin
y enfermedad no estn relacionadas, la incidencia o la prevalencia sern similares en cada
grupo de exposicin.

En los estudios de casos y controles, suele obtenerse el porcentaje por columnas, describiendo
de forma separada las caractersticas del grupo de enfermos y del grupo de no enfermos. En
los casos, la proporcin de sujetos expuestos ser [a/(a+c)] x 100, mientras que en los
controles este porcentaje ser [b/(b+d)] x 100. Si la variable independiente no est relacionada
con la dependiente, la proporcin de sujetos expuestos ser similar en el grupo de los casos y
en el grupo de los controles.

82
Anlisis descriptivo bivariante

Cualquiera que sea el tipo de diseo, el producto cruzado (a x d)/(c x b) es la Odds Ratio (OR)
o razn de ventajas, una medida de asociacin que generalmente representa el riesgo de
enfermar de una persona expuesta con respecto a otra no expuesta, aunque con algunos
matices para los estudios de casos y controles. 9 Esta definicin ser vlida siempre que la
variable independiente est situada en las filas, la dependiente en columnas y los Enfermos-
Expuestos en la primera celda de la tabla. De no ser as, la interpretacin del producto cruzado
anterior ser diferente. Igualmente, para que la interpretacin de los porcentajes por filas o
columnas coincida con el definido anteriormente, la variable independiente ha de estar en las
filas y la dependiente en las columnas.

El caso prctico Accidentes por pinchazo en profesionales de enfermera se dise para


investigar los factores relacionados con este tipo de accidentes. Aqu, la variable dependiente
es Estado, variable cualitativa con dos categoras que recoge si el profesional tuvo algn
accidente por pinchazo al final del seguimiento. Las variables Grupo, Sexo y Edad son
variables independientes, las dos primeras cualitativas y la ltima cuantitativa. Puesto que la
variable dependiente es cualitativa, la tcnica estadstica que se utilizar para describir su
relacin con el resto de variables ser la tabla de contingencia. Los siguientes subapartados se
basan en este caso prctico para mostrar cmo hacerlo con R-Commander.

Tabla de contingencia con variable independiente cualitativa

El principal objetivo del estudio de accidentes por pinchazo era evaluar la eficacia del
programa de formacin sobre la disminucin de accidentes. Para comprobarlo bastar con
hacer un recuento de accidentes en el grupo de profesionales que recibi formacin especfica
y en el que no la recibi, de manera que si el programa fuese eficaz se esperara encontrar un
porcentaje de accidentes menor en el grupo que recibi formacin.

En este caso la variable dependiente es el estado del profesional al final del seguimiento
(Accidentado - No accidentado) y la independiente el grupo al que pertenece (Formacin
No formacin). Por ser un anlisis de dos variables la tabla de contingencia ser de doble
entrada, pudiendo realizarse desde el men principal de R-Commander siguiendo esta
secuencia:

Estadsticos Tablas de contingencia Tabla de doble entrada

9
Gmez-Gmez M, Danglot-Banck C, Huerta-Alvarado SG, Garca de la Torre G. El estudio de casos y controles: su diseo,
anlisis e interpretacin en investigacin clnica. Revista Mexicana de Pediatra 2003; 70(5): 257-263.

83
Descubriendo R-Commander

Tras ejecutarla aparecer un cuadro de dilogo que muestra dos grupos de variables
cualitativas. A la izquierda, bajo el ttulo Variable de fila, se elegir la variable
independiente (Grupo) y a la derecha, bajo el ttulo Variable de columna, la dependiente
(Estado).

Las opciones Calcular porcentajes permitirn completar la tabla calculando para cada celda
la proporcin de sujetos con respecto al total de individuos de su fila, de su columna o del
global de la base de datos. El diseo de este estudio es de seguimiento, por lo que el
porcentaje activado ser por filas para obtener la incidencia de accidentes en el grupo que
recibi formacin y en el grupo que no la recibi.

Las opciones presentadas bajo el ttulo Test de hiptesis se tratarn en el captulo de


inferencia estadstica. Tras pulsar el botn Aceptar se mostrar la siguiente informacin en la
ventana de resultados de R-Commander:

84
Anlisis descriptivo bivariante

Estos resultados debern transcribirse a un procesador de textos para confeccionar una tabla
como la mostrada a continuacin que contenga, de momento, la siguiente informacin:

Variables Estado
(*)
Accidentado No accidentado RR
Grupo
Formacin 6 (50.0%) 6 (50.0%) 0.59
No formacin 11 (84.6%) 2 (15.4%) 1

(*) R-Commander no ofrece el riesgo relativo (RR) en la salida de resultados

Entre los profesionales que recibieron formacin, el 50% se accident. En el grupo que no
recibi informacin el porcentaje de accidentes fue del 84.6%. Con esta informacin, la
accidentabilidad es inferior en el grupo de profesionales que recibi informacin. De hecho, el
RR calculado mediante el cociente 50.0/84.6=0.59 indica que el riesgo de accidente de las
personas que recibieron formacin es 0.59 veces inferior al de los profesionales que no
recibieron formacin. Dicho de otra forma, el riesgo de accidente es un 41% inferior en las

85
Descubriendo R-Commander

personas con formacin con respecto a las personas sin formacin. Esta ltima categora, con
respecto a la que se realiza la comparacin, se denomina categora de referencia y suele
sealarse con el valor 1 en la tabla de resultados anterior.

En lugar del riesgo relativo, en un estudio de cohortes tambin puede utilizarse la OR como
medida de asociacin. Calculada mediante el producto cruzado (6x2)/(11x6)=0.18, su valor
inferior a 1 sugiere un efecto protector de la formacin sobre los accidentes por pinchazo, con
magnitud diferente al riesgo relativo.

Las tablas de contingencia realizadas con R-Commander no ofrecen el valor del RR ni el de la


OR, obtenida como producto cruzado. Para calcularlos sin recurrir a comandos ser necesario
escribir las expresiones numricas en la ventana de instrucciones y pulsar posteriormente el
botn Ejecutar, utilizar una calculadora externa o emplear una calculadora estadstica como
OpenEpi (www.openepi.com).

Tabla de contingencia con variable independiente cuantitativa

Otro de los objetivos del estudio de accidentes por pinchazo era estudiar la relacin de las
variables Sexo y Edad con el Estado de los profesionales al final del seguimiento, siendo sta
ltima la variable dependiente. Puesto que Sexo es una variable independiente cualitativa, su
relacin con Estado se describir mediante una tabla de contingencia, utilizando el mismo
procedimiento del subapartado anterior. Sin embargo, la relacin entre Edad y Estado
requerir previamente segmentar la variable cuantitativa Edad en dos o ms grupos para
convertirla en cualitativa y poder realizar una tabla de contingencia.

El nmero de categoras a efectuar y los puntos de corte usados para segmentar una variable
independiente cuantitativa dependern de las hiptesis del estudio. Si no hubiera una hiptesis
de partida clara se recurrir a criterios clnicos o epidemiolgicos, tomando las categoras y
puntos de corte consensuados en la literatura cientfica internacional. Por ltimo, si tampoco
se dispone de criterios epidemiolgicos estandarizados se recurrir a criterios estadsticos,
recodificando la variable o segmentndola en intervalos con el mismo nmero de sujetos,
equidistantes o naturales como se describi en el Captulo 3, dentro del apartado Obtener
nuevas variables a partir de las existentes: Calcular, recodificar y segmentar.

En este caso no existen hiptesis de partida ni criterios epidemiolgicos que puedan ser
utilizados para segmentar la variable Edad. Por ello, a modo de ejemplo, se dividir en tres
grupos de igual tamao utilizando los percentiles 33 y 66 como puntos de corte, de manera
que cada intervalo contenga al 33% de los profesionales. Para realizar este procedimiento,
desde el men principal se activar la secuencia:

86
Anlisis descriptivo bivariante

Datos - Modificar variables del conjunto de datos activo Segmentar variable


numrica

En la ventana emergente se seleccionar la variable Edad, marcando como opciones 3 clases,


segmentos de igual cantidad como mtodo de segmentacin, rangos como nombres de
niveles y Edad.terciles como nombre de la nueva variable.

Una vez efectuada la segmentacin se realizar una tabla de contingencia de doble entrada
situando la variable independiente Edad.terciles en las filas y la variable dependiente Estado
en las columnas, a travs de Estadsticos Tablas de contingencia Tabla de doble entrada.

87
Descubriendo R-Commander

La transcripcin de la ventana de resultados a un procesador de textos permitir elaborar una


tabla con la siguiente informacin:

Estado
Variables Accidentado No accidentado RR(*)
Edad
24 o menos 7 (87.5%) 1 (12.5%) 3.5
25-41 7 (87.5%) 1 (12.5%) 3.5
42 o ms 2 (25.0%) 6 (75.0%) 1
(*) R-Commander no ofrece el riesgo relativo (RR) en la salida de resultados

La proporcin de accidentados disminuye con la edad, de manera que tomando como


referencia el grupo de 42 o ms aos se tiene que, con respecto a ste, el riesgo de accidente
es 3.5 veces superior en cualquiera de los grupos ms jvenes. Como antes, este RR se obtiene
al dividir 87.5/25.5 en la ventana de instrucciones de R-Commander o utilizando una
calculadora. De la misma forma, tambin es posible calcular la OR de cada grupo de edad con

88
Anlisis descriptivo bivariante

respecto a la categora 42 o ms, que en este caso sera (7x6)/(2x1) tanto para el grupo 24 o
menos como para el grupo 25-41 aos.

Reordenar las categoras en una tabla de contingencia

Cuando en el primer subapartado se estudi la relacin entre Grupo y Estado, la primera celda
de la tabla de contingencia estaba dada por las categoras Accidentado-Formacin. Por ello, la
OR calculada mediante el tradicional producto cruzado es el riesgo de Accidente de un
profesional Formado con respecto a otro No formado. Esta ltima categora, con respecto a la
que se realiza la comparacin, siempre es la categora de referencia y aparece con el valor 1
en la tabla de resultados.

Aunque no es necesario, a veces es preferible que la tabla de contingencia aparezca


configurada con el par Enfermo-Expuesto en la primera celda, de manera que la OR generada
sea el riesgo de enfermar de las personas expuestas con respecto a las no expuestas. En este
caso, los expuestos son los profesionales que no recibieron formacin, por lo que las
categoras de la variable independiente han de reordenarse para que las filas de la tabla de
contingencia aparezcan intercambiadas, mostrando en primer lugar a los profesionales no
formados (expuestos) y debajo a los formados (no expuestos). Este procedimiento puede
realizarse desde el men principal siguiendo la secuencia:

Datos - Modificar variables del conjunto de datos activo Reordenar niveles de factor

Aparecer un primer cuadro de dilogo que contiene las variables cualitativas de la base de
datos. En este caso se seleccionar la variable Grupo, marcndola con el botn izquierdo del
ratn.

89
Descubriendo R-Commander

R-Commander ofrece la opcin de guardar con un nuevo nombre la variable reordenada,


utilizando para ello el espacio bajo el ttulo Nombre para el factor. En general, esto no ser
necesario ya que siempre se podr reasignar el orden original de las categoras volviendo a
realizar este mismo procedimiento. La opcin Factor de tipo ordenado se marcar cuando
la variable cualitativa sea ordinal. Puesto que Grupo es nominal, esta opcin quedar
desactivada.

Tras pulsar el botn Aceptar se mostrar un aviso recordando que la variable Grupo ya existe
y se va a sobreescribir con la nueva reordenacin de categoras. Una vez confirmada la accin
R-Commander abrir una ventana con dos columnas denominadas respectivamente Niveles
antiguos y Nuevo orden. Bajo la primera columna aparecern las categoras de la variable
cualitativa en el orden original: En primer lugar Formacin, con el nmero 1 asignado a la
derecha. En segundo lugar No formacin, con el nmero 2. Para reordenar estas categoras
bastar con escribir la nueva numeracin en los espacios de la columna Nuevo orden,
asignando el valor 1 a No formacin y 2 a Formacin.

Pulsando el botn Aceptar, R-Commander cambiar internamente el orden de las categoras


de la variable Grupo, de manera que al rehacer la tabla de contingencia para estudiar su
relacin con Estado se obtendr lo siguiente en la ventana de resultados:

> .Table <- xtabs(~Grupo+Estado, data=Accidentes)


> .Table

Estado
Grupo Accidentado No accidentado
No formacin 11 2
Formacin 6 6

> rowPercents(.Table) # Row Percentages

Estado
Grupo Accidentado No accidentado Total Count
No formacin 84.6 15.4 100 13
Formacin 50.0 50.0 100 12

> remove(.Table)

90
Anlisis descriptivo bivariante

Ahora, la categora No formacin aparece en la primera fila de la tabla. El resumen de


informacin transcrito a la tabla de un procesador de textos es el siguiente:

Estado
Variables Accidentado No accidentado RR(*)
Grupo
No formacin 11 (84.6%) 2 (15.4%) 1.69
Formacin 6 (50.0%) 6 (50.0%) 1
(*) R-Commander no ofrece el riesgo relativo (RR) en la salida de resultados

Como antes, el 84.6% de los profesionales que no recibieron formacin se accident, mientras
que la proporcin de accidentes fue del 50% en el grupo que recibi formacin. El cociente
entre ambos es el riesgo relativo, cuyo valor muestra que el riesgo de accidente es 1.69 veces
superior en los profesionales que no recibieron formacin con respecto a aquellos que la
recibieron. Como es usual, el 1 insertado en la columna RR para la categora Formacin
seala la categora de referencia.

De la misma forma, puesto que la primera celda de la tabla est formada ahora por el par de
categoras Accidentado-No formacin, la OR calculada mediante el cociente (11x6)/(6x2)=5.5
indicara que el riesgo de Accidente de las personas No formadas es 5.5 veces superior con
respecto a los profesionales que recibieron formacin.

Si se desea mantener la reordenacin de categoras para utilizarla en futuras sesiones de


trabajo ser necesario guardar la base de datos en formato R-Commander. De no ser as, al
cerrar el programa se perdern todos los cambios efectuados.

Presentacin de resultados

Dos de los objetivos del caso prctico Accidentes por pinchazo en profesionales de
enfermera eran, por un lado, evaluar la eficacia del programa de formacin en la disminucin
de los accidentes. Por otro, estudiar la relacin de la edad y el sexo con el estado de los
profesionales al final del seguimiento.

Para responder a estos objetivos de forma clara y comprensible es necesario resumir los
resultados del anlisis de datos en una tabla o en un grfico sencillo, incluyendo nicamente
la informacin necesaria. Cuando el mtodo estadstico se basa en tablas de contingencia, la
forma usual de hacerlo es elaborando una tabla que contenga la siguiente informacin para
cada una de las variables independientes:

91
Descubriendo R-Commander

Estado
Variables Accidentado No accidentado RR
Grupo
No formacin 11 (84.6%) 2 (15.4%) 1.69
Formacin 6 (50.0%) 6 (50.0%) 1
Edad
24 o menos 7 (87.5%) 1 (12.5%) 3.5
25-41 7 (87.5%) 1 (12.5%) 3.5
42 o ms 2 (25.0%) 6 (75.0%) 1
Sexo
Hombre 10 (76.9%) 3 (23.1%) 1.41
Mujer 6 (54.5%) 5 (45.5%) 1

As, la persona que lea el documento sabr con un simple golpe de vista que los profesionales
no formados tienen ms riesgo de accidente que los formados, los ms jvenes ms que los
mayores y los hombres ms que las mujeres.

VARIABLE DEPENDIENTE CUANTITATIVA

El caso prctico Volumen espiratorio es un estudio transversal diseado para investigar los
factores relacionados con el volumen espiratorio de personas que trabajan en la mina. La
variable dependiente es Volumen, variable cuantitativa medida en mililitros por segundo. La
variable Tabaco es una variable independiente cualitativa, mientras que las variables Tiempo,
Edad y Altura son variables independientes cuantitativas. En este apartado se mostrarn los
mtodos estadsticos apropiados para describir la relacin entre una variable dependiente
cuantitativa y el resto de caractersticas.

Comparacin de los grupos definidos por una variable independiente


cualitativa

La variable Tabaco es cualitativa, con categoras Nunca fum, Exfumador y Fuma


actualmente. Si el tabaco tuviese relacin con el volumen espiratorio, se esperara encontrar
una diferencia clnicamente importante en el volumen espiratorio de los tres grupos. Para
comprobarlo se comparar de la media del volumen espiratorio de un grupo con otro a travs
de la siguiente secuencia del men principal:

Estadsticos Resmenes Resmenes numricos

En el cuadro de dilogo abierto se seleccionar la variable dependiente, en este caso Volumen,


y en el botn Resumir por grupos la variable independiente Tabaco.

92
Anlisis descriptivo bivariante

Puesto que para utilizar esta tcnica la variable dependiente ha de ser cuantitativa, en la
pantalla inicial no aparece Tabaco como posible eleccin. De igual forma, puesto que la
variable independiente tiene que ser cualitativa, en el listado de variables para resumir por
grupos slo aparece Tabaco y no el resto de variables, que son cuantitativas.

Como en el anlisis descriptivo univariante, los parmetros necesarios sern los que activa R-
Commander por defecto: Media , desviacin tpica y cuantiles.

Tras pulsar el botn Aceptar en ambos cuadros de dilogo, la ventana de resultados mostrar
la siguiente salida:

mean sd 0% 25% 50% 75% 100% n


Nunca fum 3977.857 933.0032 2350 3280.0 3930 4747.5 5480 14
Exfumador 4148.571 1037.3249 1720 3890.0 4190 4930.0 5900 21
Fuma actualmente 3736.667 914.6173 1770 3207.5 3585 4355.0 5780 48

La descripcin de cada grupo se transcribir a la tabla de un procesador de textos con la


siguiente informacin:

Variables Sujetos Mnimo Mximo Media Desviacin tpica


Tabaco
Nunca fum 14 2350 5480 3977.86 933.00
Exfumador 21 1720 5900 4148.57 1037.32
Fuma actualmente 48 1770 5780 3736.67 914.62

93
Descubriendo R-Commander

El grupo que por trmino medio presenta mayor volumen espiratorio es el de exfumadores,
seguido por los trabajadores que nunca fumaron. El grupo de fumadores actuales es el que
muestra el menor volumen espiratorio medio.

La media de cada uno de los grupos puede representarse en un grfico con dos ejes, uno
horizontal en el que se muestran las categoras de la variable independiente y otro vertical en
el que se representan los valores de la variable dependiente. Para cada categora se dibujar un
punto de altura igual al valor medio de la variable dependiente en ese grupo. Este grfico se
realiza activando la secuencia Grficas - Grfica de las medias desde el men principal. En el
cuadro de dilogo abierto se seleccionar la variable independiente a la izquierda, en la
columna Factores, y la dependiente a la derecha, en la columna Variable explicada. Si no se
especifican barras de error, el grfico resultante es el que aparece ms abajo. Si se desea, en l
habr que modificar los ttulos de los ejes utilizando los comandos de la ventana de
instrucciones de R-Commander, como se mostr en el Captulo 4.

94
Anlisis descriptivo bivariante

Un grfico ms utilizado para comparar grupos es el diagrama de cajas, donde se representa la


mediana de la variable dependiente en lugar de la media. El acceso se realiza desde el men
principal mediante la secuencia Grficas Diagrama de cajas. El cuadro de dilogo abierto
es muy parecido al del procedimiento Resmenes numricos para comparar medias. En l se
seleccionar la variable dependiente Volumen y la opcin Identificar atpicos con el ratn.
A continuacin se pulsar el botn Grfica por grupos y se elegir Tabaco como variable de
agrupacin.

El grfico resultante muestra dos valores atpicos en el grupo de exfumadores. Haciendo clic
con el botn izquierdo del ratn sobre cada uno de ellos aparecer la posicin que ocupan
dentro de la base de datos. En este caso, los sujetos 2 y 65 son casos raros u outliers dentro de
su grupo. La identificacin de valores atpicos finalizar tras pulsar el botn derecho del
ratn. A travs de la mediana, se observa que el grupo con menor volumen espiratorio es el de
fumadores actuales.

95
Descubriendo R-Commander

Por ltimo, el procedimiento Grficas - Diagrama de puntos realiza un grfico con dos ejes.
Para cada categora de la variable independiente, situada en el eje horizontal, se dibujar el
valor de la variable dependiente para todos los sujetos del grupo.

96
Anlisis descriptivo bivariante

Este procedimiento no se suele utilizar con demasiada frecuencia, siendo el diagrama de cajas
el ms interesante para comparar grupos de forma grfica.

Diagrama de dispersin con variable independiente cuantitativa

Una de las hiptesis del estudio Volumen espiratorio era que el tiempo de exposicin al polvo
de la mina estaba relacionado con el volumen espiratorio, de manera que ste sera menor en
los trabajadores expuestos durante ms aos. En este caso tanto la variable independiente
Tiempo como la dependiente Volumen son cuantitativas, siendo el diagrama de dispersin la
tcnica apropiada para estudiar su relacin.

Este diagrama es un grfico con dos ejes en el que se representan los valores la variable
independiente y dependiente en el eje horizontal X- y vertical Y- respectivamente. As, para
cada sujeto se dibujar un punto en el plano con coordenadas dadas por el tiempo que lleva
expuesto y su volumen espiratorio. Este grfico se realiza desde el men principal con la
secuencia:

Grficas Diagrama de dispersin

En el cuadro de dilogo se seleccionar la variable independiente en el listado de la izquierda,


correspondiente al eje horizontal X, y la dependiente en el listado de la derecha,
correspondiente al eje vertical Y.

97
Descubriendo R-Commander

A continuacin se activar la opcin Lnea de mnimos cuadrados, que dibujar la recta que
mejor representa la tendencia de los puntos. En este grfico, R-Commander permite etiquetar
con un ttulo ambos ejes. As, se escribir Aos de exposicin debajo de Etiqueta del eje x
y Volumen espiratorio debajo de Etiqueta del eje y. El resto de opciones no tiene
demasiada importancia en este momento, sin embargo pueden ser tiles para personalizar el
grfico. Tras pulsar el botn Aceptar aparecer el grfico de dispersin, tambin denominado
nube de puntos.

Los puntos estn distribuidos aproximadamente alrededor de una recta decreciente, por lo que
la relacin entre el tiempo de exposicin y el volumen espiratorio es lineal indirecta. A
medida que aumentan los aos de exposicin disminuye el volumen espiratorio.

El mismo tipo de grfico puede realizarse para estudiar la relacin de la altura y la edad con el
volumen espiratorio, obteniendo lo siguiente:

98
Anlisis descriptivo bivariante

La relacin entre la altura y el volumen espiratorio es lineal directa, de manera que el


volumen es mayor en los sujetos de mayor altura. En cambio, la edad y el volumen espiratorio
muestran una relacin lineal indirecta, donde ste disminuye con la edad.

99
Descubriendo R-Commander

Una vez comprobada que la relacin entre las variables independiente y dependiente es lineal,
el coeficiente de correlacin puede medir la fuerza de asociacin entre ambas. Su valor
absoluto est en un gradiente comprendido entre 0 y 1, donde los valores extremos
corresponden respectivamente a la ausencia de relacin lineal y a una relacin lineal perfecta.
En esta ltima, todos los puntos estarn situados sobre la lnea recta. El signo del coeficiente
de correlacin ser negativo en una relacin lineal indirecta y positivo en una directa. Para
obtenerlo en R-Commander se seguir la secuencia:

Estadsticos Resmenes Matriz de correlaciones

En la ventana emergente se marcarn con el ratn la variable independiente y la dependiente


dejando pulsada la tecla Control (Ctrl) del teclado. A continuacin en Tipo de
correlaciones se seleccionar la opcin Coeficiente de Pearson cuando las variables sigan
una distribucin Normal y Coeficiente de Spearman en otro caso. Este ltimo coeficiente es
ms robusto y se recomienda cuando los datos no satisfacen la condicin de normalidad.
Haciendo un histograma de la variable Tiempo se ver que su forma no es la campana que
caracteriza a la distribucin Normal, mientras que el histograma de la variable Volumen s lo
es. Puesto que una de las variables no es Normal, el coeficiente de correlacin elegido ser el
de Spearman.

Tras pulsar el botn aceptar se obtienen los siguientes valores en la ventana de resultados:

tiempo volumen
tiempo 1.0000000 -0.6261766
volumen -0.6261766 1.0000000

100
Anlisis descriptivo bivariante

El coeficiente de correlacin entre Tiempo y Volumen es -0.626, con signo negativo por ser
una relacin lineal indirecta. Aunque no existe un consenso generalizado, la asociacin suele
considerarse dbil cuando el valor absoluto del coeficiente de correlacin sea inferior a 0.40,
media cuando est entre 0.40 y 0.80 y fuerte cuando sea superior a 0.80.

Presentacin de resultados

Cuando se estudia la relacin entre una variable dependiente cuantitativa (Volumen) y otra
independiente cualitativa (Tabaco), los resultados suelen presentarse en una nica tabla que
muestra un resumen numrico de la variable dependiente para cada una de las categoras de la
variable independiente. Los parmetros estadsticos habituales son el nmero de sujetos,
mnimo, mximo, media y desviacin tpica. En el caso prctico Volumen espiratorio la nica
variable independiente cualitativa es Tabaco. Si hubiese habido ms variables independientes,
los resultados apareceran secuencialmente en una tabla como esta:

Variables Sujetos Mnimo Mximo Media Desviacin tpica


Tabaco
Nunca fum 14 2350 5480 3977.86 933.00
Exfumador 21 1720 5900 4148.57 1037.32
Fuma actualmente 48 1770 5780 3736.67 914.62
Variable independiente 2
Categora A
Categora B
:
Variable independiente 3
Categora A
Categora B
:

A veces, el espacio asignado a documentos escritos, como artculos cientficos o informes, es


limitado. Por ello, los grficos de cajas no suelen incorporarse cuando el nmero de variables
independientes es elevado. Sin embargo son tiles en presentaciones orales para destacar
caractersticas de alguna de las variables.

Para mostrar los resultados del anlisis bivariante de variables cuantitativas se utiliza el
diagrama de dispersin junto al coeficiente de correlacin, siempre que la relacin sea lineal.
Si hay ms de una variable independiente, la disposicin de los grficos se realiza de manera
que el espacio quede lo ms aprovechado posible. La disposicin en cuadrculas de este tipo
suele ser una opcin frecuente:

101
Descubriendo R-Commander

Grfico 1 Grfico 2

Grfico 3 Grfico 4

Los coeficientes de correlacin lineal pueden incorporarse al pie de cada grfico o bien
agruparse en una tabla similar a esta:

Correlacin lineal del volumen espiratorio con el resto de variables independientes

Variable independiente Coeficiente de correlacin de Spearman


Tiempo -0.63
Altura 0.62
Edad -0.66

COMENTARIOS ADICIONALES

Relaciones entre variables cualesquiera

Todo lo expuesto anteriormente est basado en la relacin entre una variable dependiente y
otra independiente, ya que es el tipo de asociacin que se persigue en la mayora de los
objetivos de una investigacin. Sin embargo, los mismos procedimientos sirven para describir
la relacin entre dos variables cualesquiera. As, en el caso prctico Accidentes por pinchazo
en profesionales de enfermera, las variables Sexo y Edad son independientes, pero nada
impide describir su relacin comparando la edad media de hombres y mujeres. De la misma
forma, en el estudio Volumen espiratorio en profesionales de la minera se podra describir la
relacin entre las variables independientes Tiempo y Edad utilizando un diagrama de
dispersin. Ser el propio investigador el que establezca en cada momento el objetivo del
estudio y el inters por estudiar determinadas relaciones, justificando siempre su decisin con
un marco terico previo.

102
Anlisis descriptivo bivariante

Limitaciones del anlisis descriptivo bivariante

La relacin entre dos variables puede estar distorsionada por un tercer factor de confusin que
el anlisis descriptivo bivariante no puede controlar. Si esto ocurriera, la medida de
asociacin entre la variable dependiente e independiente podra estar sesgada, mostrando un
efecto que realmente no existe o revelando una asociacin real cuya magnitud podra estar
atenuada o aumentada. 10 Por ello es necesario avanzar un poco ms en el anlisis de datos,
utilizando modelos de regresin multivariante antes de llegar a una conclusin plausible sobre
el problema de investigacin.

10
J. de Irala et al. Qu es una variable de confusin? Medicina Clnica (Barcelona) 2001; 117: 337-385.

103
6

CASOS PRCTICOS

L os anlisis estadsticos realizados en esta monografa estn basados en varios casos


prcticos cuyo contenido se describe a continuacin.

ACCIDENTES POR PINCHAZO EN PROFESIONALES DE ENFERMERA

Los accidentes por pinchazo con aguja hipodrmica son un problema de salud importante en
enfermera, tanto por el riesgo de contagio por VIH y otras enfermedades infecciosas como
por las consecuencias psicolgicas que conlleva. Las actividades formativas en medidas de
prevencin pueden contribuir a la reduccin de este tipo de accidentes, sin embargo no todas
han mostrado su utilidad. Con el fin de probar la eficacia de uno de estos programas de
formacin se dise un estudio experimental con dos grupos de profesionales: Uno de
intervencin y otro de control. Ambos grupos recibieron formacin sobre cuestiones generales
de enfermera, sin embargo slo el primero recibi informacin especfica sobre medidas
preventivas dirigidas a evitar pinchazos accidentales. En el estudio participaron 25
profesionales de enfermera de un Centro de Salud. Cada uno de ellos fue asignado de forma
aleatoria al grupo de intervencin o al grupo control. Tras el periodo de formacin se realiz
un seguimiento de todos los profesionales durante 6 meses, observando si durante ese periodo
se produjo algn accidente.

Hiptesis

La principal hiptesis de investigacin era que el programa de formacin es eficaz para


disminuir los accidentes por pinchazo, de manera que la proporcin de accidentes sera menor
en el grupo de intervencin que en el grupo control.

104
Casos prcticos

Objetivos

1. Describir las caractersticas de los profesionales que participaron en el estudio.


2. Evaluar la eficacia del programa de formacin en la disminucin de accidentes por
pinchazo.
3. Estudiar la relacin del sexo y la edad con los accidentes por pinchazo.

Variables

La informacin correspondiente a cada uno de los profesionales se recogi en una ficha


individual con un cdigo personal de identificacin. En ella se registraron las siguientes
caractersticas:

Cdigo: Nmero de identificacin del profesional

Grupo: Grupo al que fue asignado dentro del programa de formacin especfica
1 Formacin
2 No formacin

Estado: Estado al final del seguimiento


1 Accidentado
2 No accidentado

Edad: Edad del profesional en aos

Sexo:
1 Hombre
2 Mujer

Base de datos

El archivo Accidentes por pinchazo contiene los datos de las personas que participaron en el
estudio con la siguiente estructura:

105
Descubriendo R-Commander

Cdigo Grupo Estado Edad Sexo

00004 Formacin No accidentado 45 Hombre


00006 No Formacin No accidentado 50 Hombre
00014 No Formacin No accidentado 55 Hombre
00015 Formacin No accidentado 26 Mujer
00018 Formacin No accidentado 58 Mujer
00019 Formacin No accidentado 20 Mujer
00022 Formacin No accidentado 52 Mujer
00024 Formacin No accidentado 51 Mujer
00001 Formacin Accidentado 18 Hombre
00002 No Formacin Accidentado 19 Hombre
00003 No Formacin Accidentado 22 Hombre
00005 Formacin Accidentado 30 Hombre
00007 Formacin Accidentado 34 Hombre
00008 Formacin Accidentado 23 Hombre
00009 No Formacin Accidentado 28
00010 No Formacin Accidentado 21 Hombre
00011 No Formacin Accidentado 40 Hombre
00012 Formacin Accidentado 30 Hombre
00013 No Formacin Accidentado 35 Hombre
00016 No Formacin Accidentado Mujer
00017 No Formacin Accidentado 50 Mujer
00020 No Formacin Accidentado 25 Mujer
00021 Formacin Accidentado 47 Mujer
00023 No Formacin Accidentado 23 Mujer
00025 No Formacin Accidentado 23 Mujer
Base de datos con informacin numrica y caracteres de texto

VOLUMEN ESPIRATORIO EN PROFESIONALES DE LA MINERA

El presente estudio fue diseado para estudiar la funcin pulmonar de 83 sujetos expuestos a
altos niveles de polvo en una mina.

Hiptesis

La hiptesis principal del estudio era que el tiempo de exposicin al polvo, la edad y el tabaco
son factores importantes que intervienen en la alteracin del volumen espiratorio.

106
Casos prcticos

Objetivos

1. Describir las caractersticas de los sujetos de estudio.


2. Estudiar el efecto del tiempo de exposicin al polvo de la mina sobre el volumen
espiratorio.
3. Estudiar el efecto del tabaco, la edad y la altura sobre el volumen espiratorio.

Variables

La informacin correspondiente a cada uno de los profesionales se recogi en una ficha


individual en la que se registraron las siguientes caractersticas:

Edad: Edad del trabajador en aos

Altura: Altura del trabajador en centmetros

Tiempo: Aos de exposicin al polvo

Tabaco: Hbitos sobre el tabaco


1 Nunca fum
2 Exfumador
3 Fuma actualmente

Volumen: Volumen espiratorio (ml/seg)

Base de datos

El fichero Volumen espiratorio contiene los datos de las personas que participaron en el
estudio con la siguiente estructura:

Identificador Edad Altura Tiempo Tabaco Volumen

1 50 172 34 Exfumador 3480


2 51 168 28 Exfumador 2190
3 54 169 31 Fuma actualmente 3200
4 41 174 2 Nunca fum 4220
5 31 191 3 Fuma actualmente 4900
6 50 178 25 Fuma actualmente 3920
7 48 175 6 Fuma actualmente 3700
8 29 182 3 Fuma actualmente 5190
9 28 170 1 Exfumador 4150
10 44 174 3 Fuma actualmente 4370
11 30 183 0 Exfumador 5900
12 48 168 26 Nunca fum 3200
13 28 174 4 Fuma actualmente 3970
14 29 174 3 Nunca fum 3120

107
Descubriendo R-Commander

Identificador Edad Altura Tiempo Tabaco Volumen

15 37 166 2 Fuma actualmente 4200


16 58 169 23 Fuma actualmente 2180
17 31 166 3 Fuma actualmente 3900
18 27 183 3 Fuma actualmente 5320
19 28 175 4 Fuma actualmente 5220
20 29 169 3 Nunca fum 3640
21 30 166 8 Exfumador 3890
22 52 174 23 Fuma actualmente 2850
23 46 158 15 Fuma actualmente 3170
24 41 169 20 Fuma actualmente 2980
25 35 179 3 Fuma actualmente 3640
26 52 166 12 Exfumador 4070
27 39 178 22 Nunca fum 2850
28 55 180 22 Nunca fum 3710
29 49 170 32 Fuma actualmente 3440
30 20 167 0 Fuma actualmente 4370
31 29 180 3 Exfumador 4930
32 62 174 20 Exfumador 2570
33 29 183 6 Fuma actualmente 5780
34 26 170 3 Fuma actualmente 3500
35 41 164 15 Nunca fum 3520
36 50 174 22 Fuma actualmente 2420
37 39 173 3 Fuma actualmente 3640
38 32 190 14 Exfumador 5480
39 57 163 28 Fuma actualmente 3500
40 38 183 4 Fuma actualmente 4620
41 53 168 22 Fuma actualmente 3310
42 55 175 34 Fuma actualmente 2910
43 44 175 24 Fuma actualmente 3330
44 51 162 23 Exfumador 3550
45 51 170 12 Fuma actualmente 3530
46 47 179 24 Exfumador 4190
47 50 175 31 Exfumador 4200
48 27 178 0 Nunca fum 5480
49 37 169 2 Exfumador 4420
50 22 166 2 Fuma actualmente 3350
51 27 171 3 Nunca fum 4530
52 43 178 21 Exfumador 4350
53 30 175 1 Fuma actualmente 3450
54 63 166 37 Fuma actualmente 1990
55 31 174 0 Fuma actualmente 4210
56 46 177 3 Fuma actualmente 4130
57 28 180 4 Fuma actualmente 4350
58 57 165 25 Nunca fum 2350
59 27 180 1 Nunca fum 5060
60 38 182 2 Exfumador 4400
61 30 180 7 Fuma actualmente 4870
62 40 174 2 Fuma actualmente 4270
63 31 179 4 Nunca fum 4150
64 50 168 29 Fuma actualmente 3050
65 60 170 34 Exfumador 1720
66 33 183 3 Exfumador 5230
67 61 165 26 Fuma actualmente 2210
68 56 173 26 Fuma actualmente 3470
69 49 178 28 Exfumador 4180
70 42 174 24 Fuma actualmente 3370

108
Casos prcticos

Identificador Edad Altura Tiempo Tabaco Volumen

71 31 180 4 Nunca fum 4820


72 30 172 3 Fuma actualmente 4980
73 44 176 11 Exfumador 4930
74 27 182 1 Fuma actualmente 4760
75 38 176 3 Nunca fum 5040
76 34 190 3 Exfumador 5150
77 39 165 5 Fuma actualmente 3210
78 34 163 2 Fuma actualmente 4260
79 44 173 7 Fuma actualmente 3360
80 57 171 28 Exfumador 4140
81 59 161 28 Fuma actualmente 1770
82 30 174 7 Fuma actualmente 4580
83 61 174 38 Fuma actualmente 2660

109
Bibliografa

Culebro M, Gmez WG, Torres S. Software libre vs software propietario: Ventajas y


desventajas. Mxico, 2006.

De Irala J, et al. Qu es una variable de confusin?. Medicina Clnica (Barcelona) 2001; 117:
337-385.

Fox J. The R Commander: A Basic-Statistics Graphical User Interface to R. Journal of


Statistical Software 2005; 11(9): 1-42.

GNU Operating System. La definicin de software libre. Disponible en:


www.gnu.org/philosophy/free-sw.es.html

Gmez-Gmez M, Danglot-Banck C, Huerta-Alvarado SG, Garca de la Torre G. El estudio


de casos y controles: su diseo, anlisis e interpretacin en investigacin clnica. Revista
Mexicana de Pediatra 2003; 70(5): 257-263.

Hornik K. The R FAQ. 2011. Disponible en: http://cran.r-project.org/doc/FAQ/R-FAQ.pdf

Lewis JA. Statistical principles for clinical trials (ICH E9): An introductory note on an
international guideline. Statistics in Medicine 1999; 18: 1903-1942.

Ripley BD, Murdoch. R for Windows FAQ (Version for R-2.13.0) [www.r-project.org]

The R Foundation for Statistical Computing. R: Regulatory Compliance and Validation


Issues. A Guidance Document for the Use of R in Regulated Clinical Trial Environments.
Viena: The R Foundation, 2008. Disponible en: http://www.r-project.org/doc/R-FDA.pdf

110

También podría gustarte