Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A. Gea
C. Sayón-Orea
S. Carlos-Chillerón
M.Á. Martínez-González
2.1. Bases de datos
Cualquier investigación suele exigir una fase de recogida de datos. Estos datos son
la materia prima de la bioestadística. A partir de ellos se calculan otros números:
los índices estadísticos, que extraen y resumen la información importante
contenida en los datos. Las características (cualidades o cantidades) recogidas de
cada individuo se llaman variables, porque pueden variar de un sujeto a otro, a
diferencia de las constantes, que se estudian en otras materias, pero no tienen
especial interés en estadística (1). Cada individuo o caso individual del que se
recogen estas características se llama observación, y puede tratarse de un
paciente, un ratón, una célula, una región o país, etc.
Los datos se suelen guardar en un fichero que contiene filas y columnas. Este
fichero se llama base de datos. Es el conjunto completo de las variables de todos los
individuos. Cada fila suele corresponder a una observación, y cada columna, a
una variable. La figura 2.1 muestra una base de datos. Este ejemplo de base de
datos al que hemos llamado health.dta puede descargarse tanto en formato Stata
como en formato Excel desde
h p://dep.medpreventiva.es/bioestad
o bien desde
h p://medpreventiva.es/mr3 A
Existen distintas conformaciones de la base de datos. Si se mide una misma
variable repetidamente a lo largo del tiempo (p. ej., weight0, weight1, weight2 y
weight3), la base de datos puede recoger la información de cada sujeto del estudio
en una única fila. Esta conformación se llama formato ancho (o wide). También se
puede recoger la información de cada sujeto en tantas filas como mediciones haya
para ese sujeto. En este caso, para el primer sujeto, habría una única variable
weight y cuatro filas, una por cada medición, y una nueva variable que indicaría
el número de medición. Esta conformación se llama formato largo (o long)1.
Para entender lo que se recoge en la base de datos es necesario un diccionario de
nombres y etiquetas de la base de datos. En el cuadro 2.1 se incluye la información
pertinente para comprender qué significará, en adelante, cada número en esa base
de datos. En primer lugar, se presenta la etiqueta de la variable («Número de
identificación» es la etiqueta para la variable id). Para cada variable se suele
buscar un nombre breve (mejor si tiene ocho letras o menos). Al asignar nombres
se debe evitar la letra «ñ», las tildes (acentos) o cualquier signo de puntuación
distinto del guion bajo (year_0 sería aceptable, pero tanto día como año0 o
fumador? darán problemas). Además del nombre breve, se puede poner a toda la
variable una etiqueta de mayor longitud que explique qué información contiene
la variable (en la que también se aconseja evitar acentos y letra «ñ»).
C u a d r o 2 . 1 E j e m p l o d e va r i a b l e s c o n t e n i d a s e n u n a b a s e d e d a t o s
(diccionario o etiquetas de la base de datos)
Además, algunas variables se recogen utilizando códigos que hay que definir.
Este proceso se conoce como codificación e implica un conocimiento detallado de
la variable a codificar. Por ejemplo, para la variable sex se recogen los códigos 0 y
1. Para identificar esos códigos se utilizan etiquetas (label, en inglés). Las etiquetas
son los nombres varón y mujer. Basta con decirle al ordenador2 una vez esos
nombres para que luego los escriba automáticamente cada vez que en esa
columna encuentre un 0 o un 1. Se recomienda vivamente que todas las variables
de una base de datos se introduzcan en el ordenador en forma de números (y no
de letras) mientras eso sea posible.
cd C://Documentos/dirname
save dataname
use dataname
En Stata la base de datos no está a la vista continuamente, como pasa en otros
programas. Si se desea verla y no se va a cambiar nada, se escribe:
browse
edit
Ambas opciones (solo ver, o ver y cambiar) están accesibles también en los
iconos de la parte superior. La posibilidad de ver los datos sin que se puedan
cambiar es interesante para prevenir errores accidentales (p. ej., al tocar el teclado
inadvertidamente). Se han subrayado las dos primeras letras de ambas órdenes
(browse y edit) porque basta con escribir esas dos letras para que Stata ejecute la
orden. Esto se hará en lo sucesivo; las primeras letras subrayadas de una orden de
Stata son las que bastan para que esa orden funcione. Así se agiliza el trabajo con
Stata. Siempre que se presente aquí una instrucción de Stata, aparecerá
parcialmente subrayada la parte abreviable. Cuando no se subraya nada, es que la
instrucción no es abreviable.
• Discretos: solo pueden tomar valores numéricos aislados. Sus valores son
finitos y coinciden con números enteros. Ejemplos claros son: número de
hijos, número de intervenciones previas, número de intentos para dejar
de fumar, etc. Permiten operaciones de igualdad-desigualdad y orden
(rango), pero también operaciones algebraicas (sumar, restar, multiplicar,
dividir, etc.).
• Continuos: son numéricos y, además, teóricamente, pueden ser iguales a
cualquier cantidad intermedia entre dos números enteros. Es decir,
idealmente toman valores con un número de decimales que tiende al
infinito. Permiten todas las operaciones hasta ahora comentadas y se
miden en escala de razón. Ejemplos: edad, peso, talla, tensión arterial, etc.
Sin embargo, en la práctica, todos los datos que teóricamente son
continuos acaban tratándose como discretos, porque los instrumentos de
medida son limitados (v. fig. 2.3).
2.3. Transformación de una variable
Las variables se pueden transformar de distintas maneras para obtener otras
nuevas. Por ejemplo, con un cálculo, a partir del peso y la altura se podría obtener
el índice de masa corporal5. Otra manera de obtener una nueva variable es la
combinación de variables categóricas. Por ejemplo, a partir de la variable fumador
(dos categorías: sí/no) y sexo (dos categorías: varón/mujer), se podría obtener una
variable con cuatro categorías (varón fumador, mujer fumadora, varón no
fumador y mujer no fumadora). Otra forma de crear una nueva variable sería la
agrupación de categorías de una variable categórica. Por ejemplo, si se transforma
la variable Provincia de procedencia en Comunidad autónoma de procedencia. Este
proceso se podría llamar recategorización.
2.3.1. Categorización
Una de las transformaciones más utilizadas es la categorización. Consiste en que
una determinada variable que inicialmente es cuantitativa, porque sus valores
están expresados en números, se pasa a considerar como cualitativa ordinal, de
modo que los valores individuales se colapsan formando unos pocos grupos o
categorías que engloban a un rango de los valores anteriores (si se colapsa en dos
categorías, acabaría siendo una variable cualitativa nominal dicotómica). Por
ejemplo, si se quisiera categorizar la variable edad podrían crearse tres categorías,
como muestra la tabla 2.1.
Tabla 2.1
Ejemplo de transformación de una variable cuantitativa (edad) en una variable cualitativa ordinal
(categorización)
Debe combinarse la ventaja de crear grupos iguales propia de los quintiles con
el conocimiento experto del tema de investigación para seleccionar los puntos de
corte que puedan ser más claves per se en el problema concreto que se estudia (5).
Para profundizar en este tema, se puede consultar el capítulo 22.
summarize age
Así se sabe que el máximo es 82; por eso, el último punto de corte que se puso
para egen… cut, at(…) fue 100. Hubiese dado lo mismo poner 90.
También se podría haber hecho así6:
table age_group2
La tabla anterior corresponde a la distribución de frecuencias. Es una tabla con
una sola variable. Los números 0, 40 y 60 indican dónde empieza cada categoría,
ya que Stata les ha puesto como etiqueta el valor inferior de la propia categoría.
Los números 260, 126 y 14 indican cuántos sujetos hay en cada categoría. Para
comprobar que Stata recodificó correctamente debe escribirse7:
db summarize
Una gran ventaja de Stata reside en las ayudas. Para obtener ayudas basta con
escribir help delante de cualquier orden o bien abrir el menú Help. La primera
opción al abrir este menú es Search, que permite una búsqueda libre. La segunda
opción es PDF Documentation, que conduce a una amplia serie de manuales
detallados de Stata en formato PDF, contenidos en todo ordenador que tenga
instalado Stata:
Help → PDF Documentation
Se recomienda usar con frecuencia todas estas ayudas. Otra ventaja de Stata es
que, cuando se ejecuta una orden usando menús, siempre aparece después la
misma orden escrita como instrucción en la ventana de resultados. Esto facilita
aprender las instrucciones de memoria o copiarlas para usos posteriores. La mejor
forma de guardar las instrucciones de Stata para futuros usos es abrir un do-file,
que es muy parecido a un procesador de textos. Se puede crear un do-file con el
icono correspondiente o desde la barra de menús:
File → New Do-file
Una vez copiadas allí las instrucciones pertinentes (cada instrucción en una
línea), se pueden ejecutar marcándolas con el ratón y pulsando el icono Do, o bien
con la combinación Ctrl+D (en Mac: Comand+Shift+D).
Se recomienda ver el siguiente vídeo: «STATA_0_0_do files: lo básico de textos
con órdenes».
Para recategorizar y crear cuantiles (p. ej., quintiles) con Stata se puede utilizar
la siguiente instrucción:
La primera orden xtile cuando va seguida de la opción ,nq(5) sirve para crear
una variable categórica ordinal de cinco categorías con aproximadamente el
mismo número de observaciones (quintiles). Tendrán el nombre que se desee
(age5 en este ejemplo) y se derivan de una variable original cuantitativa (age).
Tras la coma de las opciones, y a continuación de la opción nq, se indicará
cuántas categorías de igual tamaño se desean (cinco en el ejemplo; cuatro si
fuesen cuartiles).
La segunda orden (tabstat) es útil y versátil. Se sugiere ver help tabstat,
especialmente con los ejemplos que vienen al final de esa ayuda9. En el ejemplo
arriba mencionado sirve para describir la edad (age, variable cuantitativa) dentro
de cada quintil (age5, variable ordinal). Se han pedido tres índices estadísticos con
la opción stat, el número de sujetos (n), el valor mínimo (min) y el máximo (max).
Se comprueba que se han construido cinco categorías. El primer quintil va de 21 a
26 años; el segundo, de 27 a 31, etc.
Otras funciones interesantes son las opciones de tabulate y table (no deben
confundirse).