Está en la página 1de 21

Procedimientos descriptivos

A. Gea

C. Sayón-Orea

S. Carlos-Chillerón

M.Á. Martínez-González
2.1. Bases de datos
Cualquier investigación suele exigir una fase de recogida de datos. Estos datos son
la materia prima de la bioestadística. A partir de ellos se calculan otros números:
los índices estadísticos, que extraen y resumen la información importante
contenida en los datos. Las características (cualidades o cantidades) recogidas de
cada individuo se llaman variables, porque pueden variar de un sujeto a otro, a
diferencia de las constantes, que se estudian en otras materias, pero no tienen
especial interés en estadística (1). Cada individuo o caso individual del que se
recogen estas características se llama observación, y puede tratarse de un
paciente, un ratón, una célula, una región o país, etc.
Los datos se suelen guardar en un fichero que contiene filas y columnas. Este
fichero se llama base de datos. Es el conjunto completo de las variables de todos los
individuos. Cada fila suele corresponder a una observación, y cada columna, a
una variable. La figura 2.1 muestra una base de datos. Este ejemplo de base de
datos al que hemos llamado health.dta puede descargarse tanto en formato Stata
como en formato Excel desde

FIGURA 2.1 Base de datos (aspecto parcial de health.dta).

h p://dep.medpreventiva.es/bioestad
o bien desde
h p://medpreventiva.es/mr3 A
Existen distintas conformaciones de la base de datos. Si se mide una misma
variable repetidamente a lo largo del tiempo (p. ej., weight0, weight1, weight2 y
weight3), la base de datos puede recoger la información de cada sujeto del estudio
en una única fila. Esta conformación se llama formato ancho (o wide). También se
puede recoger la información de cada sujeto en tantas filas como mediciones haya
para ese sujeto. En este caso, para el primer sujeto, habría una única variable
weight y cuatro filas, una por cada medición, y una nueva variable que indicaría
el número de medición. Esta conformación se llama formato largo (o long)1.
Para entender lo que se recoge en la base de datos es necesario un diccionario de
nombres y etiquetas de la base de datos. En el cuadro 2.1 se incluye la información
pertinente para comprender qué significará, en adelante, cada número en esa base
de datos. En primer lugar, se presenta la etiqueta de la variable («Número de
identificación» es la etiqueta para la variable id). Para cada variable se suele
buscar un nombre breve (mejor si tiene ocho letras o menos). Al asignar nombres
se debe evitar la letra «ñ», las tildes (acentos) o cualquier signo de puntuación
distinto del guion bajo (year_0 sería aceptable, pero tanto día como año0 o
fumador? darán problemas). Además del nombre breve, se puede poner a toda la
variable una etiqueta de mayor longitud que explique qué información contiene
la variable (en la que también se aconseja evitar acentos y letra «ñ»).

C u a d r o 2 . 1 E j e m p l o d e va r i a b l e s c o n t e n i d a s e n u n a b a s e d e d a t o s
(diccionario o etiquetas de la base de datos)

1. «id»: número de identificación


2. «sex»: sexo del participante; etiquetas o códigos:
a. 0 = varón
b. 1 = mujer
3. «age»: edad (años cumplidos)
4. «entrydate0»: fecha de incorporación al estudio
5. «smk»: hábito tabáquico; etiquetas o códigos:
a. 0 = nunca fumador
b. 1 = fumador actual
c. 2 = exfumador
6. «EDUC»: nivel educativo; etiquetas o códigos:
a. 0 = bajo
b. 1 = medio-bajo
c. 2 = medio
d. 3 = medio-alto
e. 4 = alto
7. «weight0»: peso (kg) medido en la fecha 0 (entrydate0)
8. «weight1»: peso (kg) medido en la primera visita de seguimiento (visitdate1)
9. «weight2»: peso (kg) medido en la segunda visita de seguimiento (visitdate2)
10. «weight3»: peso (kg) medido en la tercera visita de seguimiento (visitdate3)

Además, algunas variables se recogen utilizando códigos que hay que definir.
Este proceso se conoce como codificación e implica un conocimiento detallado de
la variable a codificar. Por ejemplo, para la variable sex se recogen los códigos 0 y
1. Para identificar esos códigos se utilizan etiquetas (label, en inglés). Las etiquetas
son los nombres varón y mujer. Basta con decirle al ordenador2 una vez esos
nombres para que luego los escriba automáticamente cada vez que en esa
columna encuentre un 0 o un 1. Se recomienda vivamente que todas las variables
de una base de datos se introduzcan en el ordenador en forma de números (y no
de letras) mientras eso sea posible.

2.1.1. Bases de datos en Stata


Stata es un programa muy recomendable. Puede adquirirse en:
h p://www.stata.com/.
Los aspectos básicos de Stata se pueden consultar en:
h ps://www.unav.edu/web/departamento-de-medicina-preventiva-y-salud-
publica/recursos-bioestadistica
O bien en:
h p://medpreventiva.es/mr3 A
También se pueden ver vídeos tutoriales en inglés sobre Stata en:
h ps://www.stata.com/links/video-tutorials/
Si no se posee experiencia previa con Stata, se recomienda acceder desde la
primera dirección arriba mencionada al vídeo «STATA_0_0: para quien empieza
desde cero.»
¿Cómo importar datos de Excel para poder manejarlos en Stata?
Se deben seguir los pasos que indica la figura 2.2.
FIGURA 2.2 Importar datos desde Excel a Stata. A. Base de datos en Excel:
la primera fila contiene nombres. No hay etiquetas. Guardar esta base de
datos en Excel. B. Se abre Stata y se selecciona: File → Import → Excel
spreadsheet (*.xls;*.xlsx). C. Se selecciona Browse y se elige el fichero
que se quiere abrir. Se debe hacer clic en la opción Import first row as
variable names.

Resulta muy útil dejar fijado permanentemente el directorio donde se


guardarán los datos. La fijación de directorio permanente de trabajo se hace del
modo siguiente:

cd C://Documentos/dirname

En dirname se escribe el nombre de la carpeta (preexistente) que el usuario


desee usar3.
Al final, para guardar los datos, se debe usar la instrucción:

save dataname

En dataname se escribe el nombre que el usuario desee utilizar. En futuras


ocasiones, si se desea volver a usar estos datos, bastará indicar:

use dataname
En Stata la base de datos no está a la vista continuamente, como pasa en otros
programas. Si se desea verla y no se va a cambiar nada, se escribe:

browse

Si se desea verla y además cambiar algo, se escribe:

edit

Ambas opciones (solo ver, o ver y cambiar) están accesibles también en los
iconos de la parte superior. La posibilidad de ver los datos sin que se puedan
cambiar es interesante para prevenir errores accidentales (p. ej., al tocar el teclado
inadvertidamente). Se han subrayado las dos primeras letras de ambas órdenes
(browse y edit) porque basta con escribir esas dos letras para que Stata ejecute la
orden. Esto se hará en lo sucesivo; las primeras letras subrayadas de una orden de
Stata son las que bastan para que esa orden funcione. Así se agiliza el trabajo con
Stata. Siempre que se presente aquí una instrucción de Stata, aparecerá
parcialmente subrayada la parte abreviable. Cuando no se subraya nada, es que la
instrucción no es abreviable.

2.1.2. Bases de datos en SPSS


SPSS es un programa con licencias más caras y más transitorias que las de Stata,
pero se ha usado mucho, especialmente en los ámbitos biomédicos. Puede
adquirirse en: h p://www-01.ibm.com/software/es/analytics/spss/.
En SPSS se ven los datos continuamente y pueden modificarse de forma
directa, como sucede en Excel. En SPSS, al igual que en Stata, se puede trabajar
con menús o sintaxis. Trabajar con menús, a la larga, no es muy recomendable.
SPSS contiene la opción (como suelen tenerla otros programas) Archivo →
Abrir datos. Esta opción permitirá abrir archivos escritos en Excel, simplemente
seleccionando .xls en la parte inferior dentro de la opción Archivos de tipo. SPSS
también puede abrir así bases de datos previamente escritas en Stata, y permite
que un archivo que se ha trabajado en SPSS se acabe archivando en formato Stata
dentro de la opción de SPSS llamada Guardar como (similar a cualquier
programa).
2.2. Tipos de variables
Resulta básico distinguir los diferentes tipos de variables según las escalas que se
usen para medirlas. Diferenciar con claridad los tipos de variables previene
muchos errores en la aplicación e interpretación de cualquier procedimiento
estadístico (2). ¿Qué tipos de datos son los que se suelen recoger? (fig. 2.3).

FIGURA 2.3 Tipos de variables.

Es evidente que encontrar el número 1 en la variable sex no tiene el mismo


significado que hallar ese mismo número en la variable age. En el primer caso
(sex), el número es solo un indicador o código que se ha querido asignar en este
ejemplo a todos los individuos de sexo femenino. En cambio, en la variable age, el
número 1 sería una cantidad real, ya que correspondería exactamente a la edad
del participante. La variable sex es una variable cualitativa o categórica; en cambio,
la variable age es una variable cuantitativa. Las variables cualitativas o categóricas
están medidas en una escala nominal. Aunque a sus valores se les asignen códigos
numéricos, los números son, en realidad, una traducción de sus nombres. Por su
parte, la escala de las variables cuantitativas corresponde a la de los valores reales
de los números que toman.
Una diferencia fundamental entre ambas escalas es que, por ejemplo, el número
20 en la columna de la variable age corresponde a un valor que es exactamente la
mitad del de otra casilla que tuviese el número 40, y también vale exactamente el
doble que cuando la casilla contiene un 10. En cambio, cuando el número 2 figura
en la variable grupo, no supone que quienes pertenecen al grupo control valgan el
doble que los del grupo de intervención, pues a efectos prácticos hubiese dado lo
mismo (incluso hubiera sido preferible) codificar el control con 0 y la intervención
con 1.
Además de age, otras variables como weight, height y SBP son cuantitativas y,
por lo tanto, los datos que aparecen en ellas corresponden realmente a números.
En cambio, sex4, smk y EDUC son variables cualitativas o categóricas.
A su vez, dentro de las variables cuantitativas o realmente numéricas hay dos
posibilidades: las que admiten cualquier valor dentro de un intervalo (continuas),
sin más restricción que el límite del aparato de medida, y las que solo pueden
tomar números enteros (discretas). El peso y la talla son variables cuantitativas
continuas, ya que, teóricamente, un individuo puede tener un peso que tome
cualquier valor; por ejemplo, entre 80 y 81 kg, podría pesar realmente
80,3333693 kg, y lo mismo se aplica para la talla. En cambio, otras variables (p. ej.,
si se hubiese recogido el número de intentos de dejar de fumar) solo pueden
tomar números enteros. Ninguna familia puede haber tenido realmente 4,33 hijos:
o tiene 4 o tiene 5. Estas variables que solo pueden tomar valores de números
enteros se conocen como variables cuantitativas discretas.
Queda por definir otro tipo de variables que están en una situación intermedia.
Se trata, por ejemplo, del interés en dejar de fumar. En este tipo de variables se
puede decir que un grado 2 de interés es más intenso que un grado 1, pero nunca
puede interpretarse como que tener un código 2 implique exactamente el doble de
interés que el 1. Este tipo de variables se llaman ordinales y su uso es muy
frecuente en medicina y en todas las demás ciencias de la salud. Así, el dolor se
puede clasificar en ausente/leve/moderado/intenso, y se asignarán
respectivamente los códigos 0/1/2/3 a cada categoría. El máximo nivel de estudios
alcanzado es otra variable ordinal. No lo es, sin embargo, el estado civil, pues no
sería estadística ni políticamente correcto ordenar o jerarquizar los diferentes
estados civiles. La respuesta a un tratamiento podría valorarse mediante una
escala ordinal, asignando, por ejemplo, el código –1 a los que empeoran, el 0 a los
que quedan igual, el +1 a los que mejoran algo y el +2 a los que mejoran mucho.
En algunas determinaciones analíticas se siguen usando —cada vez menos—
escalas ordinales en algunos ámbitos; por ejemplo, para evaluar si un paciente
tiene glucosa en la orina (glucosuria) podría cuantificarse así: 0/+/++/+++.

2.2.1. Variables cualitativas o categóricas nominales


Son variables en las que cada categoría o valor corresponde a una característica o
cualidad que la persona posee. Los posibles valores son excluyentes (sexo,
asignación a un grupo de tratamiento o a otro, haber dejado o no el tabaco, haber
tenido un infarto, etc.). Son nominales todas las variables cuyo valor simplemente
pueda ser un sí (1) o un no (0), o corresponda a más de dos clases no ordenables
jerárquicamente.
Para su medición usamos escalas nominales, donde los valores se identifican con
palabras. Una escala nominal solo permite clasificar, pero no ordenar o
jerarquizar. Únicamente se permiten operaciones de igualdad o desigualdad. Los
posibles valores de una escala nominal podrían representarse con letras (A, B, C,
etc.). Puede decirse que la clase A es distinta de la B, pero no que sea mayor o
menor. Si hay una posible gradación o jerarquización de los valores o categorías
(unos son mayores que otras), entonces la escala no es nominal, sino ordinal (v.
más adelante).
Las variables cualitativas o categóricas nominales pueden ser:

• Dicotómicas o binarias si solo admiten dos categorías: sano/enfermo,


expuesto/no expuesto, hombre/mujer, etc. Hay variables dicotómicas del
tipo sí/no que se usan mucho; se recomienda asignar el 0 = no y el 1 = sí.
• Policotómicas, con varias categorías: grupo sanguíneo (A/B/0/AB), cierto
tipo de tratamiento (A/B/C), estado civil, etc.

2.2.2. Variables cualitativas ordinales


Son aquellas, como el interés en dejar de fumar, que se mencionaba más arriba,
cuyos posibles valores se encuentran jerarquizados y ordenados. El tipo de escala
utilizado se denomina ordinal. Con estas variables se pueden realizar no solo
operaciones de igualdad y desigualdad, sino también operaciones de orden
(jerarquizar los diferentes valores). Algunos ejemplos serían el nivel máximo de
estudios alcanzado, el grado de dolor o la intensidad del hábito tabáquico medida
en la siguiente escala: nunca fumador/exfumador/fumador activo.

2.2.3. Variables cuantitativas


Hablamos de variables cuantitativas cuando los números utilizados para
expresarlas equivalen realmente con exactitud a los verdaderos datos. Los datos
son realmente numéricos. Siempre que sea posible, se debe preferir introducir las
variables como cuantitativas en la base de datos inicial. Hay dos tipos de datos:

• Discretos: solo pueden tomar valores numéricos aislados. Sus valores son
finitos y coinciden con números enteros. Ejemplos claros son: número de
hijos, número de intervenciones previas, número de intentos para dejar
de fumar, etc. Permiten operaciones de igualdad-desigualdad y orden
(rango), pero también operaciones algebraicas (sumar, restar, multiplicar,
dividir, etc.).
• Continuos: son numéricos y, además, teóricamente, pueden ser iguales a
cualquier cantidad intermedia entre dos números enteros. Es decir,
idealmente toman valores con un número de decimales que tiende al
infinito. Permiten todas las operaciones hasta ahora comentadas y se
miden en escala de razón. Ejemplos: edad, peso, talla, tensión arterial, etc.
Sin embargo, en la práctica, todos los datos que teóricamente son
continuos acaban tratándose como discretos, porque los instrumentos de
medida son limitados (v. fig. 2.3).
2.3. Transformación de una variable
Las variables se pueden transformar de distintas maneras para obtener otras
nuevas. Por ejemplo, con un cálculo, a partir del peso y la altura se podría obtener
el índice de masa corporal5. Otra manera de obtener una nueva variable es la
combinación de variables categóricas. Por ejemplo, a partir de la variable fumador
(dos categorías: sí/no) y sexo (dos categorías: varón/mujer), se podría obtener una
variable con cuatro categorías (varón fumador, mujer fumadora, varón no
fumador y mujer no fumadora). Otra forma de crear una nueva variable sería la
agrupación de categorías de una variable categórica. Por ejemplo, si se transforma
la variable Provincia de procedencia en Comunidad autónoma de procedencia. Este
proceso se podría llamar recategorización.

2.3.1. Categorización
Una de las transformaciones más utilizadas es la categorización. Consiste en que
una determinada variable que inicialmente es cuantitativa, porque sus valores
están expresados en números, se pasa a considerar como cualitativa ordinal, de
modo que los valores individuales se colapsan formando unos pocos grupos o
categorías que engloban a un rango de los valores anteriores (si se colapsa en dos
categorías, acabaría siendo una variable cualitativa nominal dicotómica). Por
ejemplo, si se quisiera categorizar la variable edad podrían crearse tres categorías,
como muestra la tabla 2.1.

Tabla 2.1

Ejemplo de transformación de una variable cuantitativa (edad) en una variable cualitativa ordinal
(categorización)

Variable antigua = age Variable nueva = age_group Etiquetas*


mínimo-39 0 «Menor de 40 años»
40-59 1 «De 40 a 59 años»
60-máximo 2 «60 o más años»
* Adviértase que las etiquetas admiten tildes, símbolos y letras diversas.
Se obtendrá una nueva variable age_group que solo contiene tres posibles
valores (0, 1 o 2). Los códigos de esta nueva variable son «0» para los menores de
40, «1» para los que tienen entre 40 y 59 años y «2» para los de 60 o más. Se ha
pasado de una escala de razón a una escala ordinal. Este proceso, aunque a veces
es práctico, siempre supone perder información. Nunca se debe recoger la
información inicialmente en una escala ordinal si se puede hacer en una escala
cuantitativa. Siempre es preferible recoger inicialmente las variables con la
máxima precisión y detalle posibles (cuanto más cuantitativas, mejor) y solo
después categorizarlas, si es que la categorización resulta conveniente por el tipo
de análisis estadístico que se desee realizar.
Existen diversas maneras de elegir los puntos de corte para la categorización de
una variable cuantitativa. Una primera aproximación sería categorizar en función
de unos puntos de corte establecidos a priori (como en el ejemplo: 40 y 60 años).
Otra manera sería conseguir que todas las categorías de la nueva variable tengan
(aproximadamente) el mismo número de observaciones. Se llamarían terciles,
cuartiles, quintiles o deciles si se forman 3, 4, 5 o 10 categorías respectivamente.
Estos cuantiles (nombre genérico) se basan en medidas de posición, que se verán con
mayor detalle más adelante.
Los quintiles tienen una gran ventaja, y es que se consigue repartir el total de
los sujetos en cinco grupos ordenados de igual tamaño, lo cual minimiza el riesgo
de acabar teniendo grupos muy pequeños y, por tanto, poco informativos. Por
otra parte, cinco grupos son suficientes para hacerse una idea de si hay o no una
tendencia en los datos. Por ejemplo, se comparó el consumo de lácteos bajos en
grasa en quintiles y el riesgo de hipertensión, y se vio una clara tendencia dosis-
respuesta (3). También se valoró el volumen cerebral en cinco categorías
ordenadas de consumo de alcohol, y se vio una clara tendencia dosis-respuesta:
cuanto más alcohol, menor volumen cerebral (4), pero en esta ocasión no se
usaron quintiles, sino categorías fácilmente comparables con otros estudios. Una
cautela que debe tenerse en cuenta antes de usar automáticamente los quintiles es
que, a veces, no interesa utilizarlos (5), ya que:

• Los puntos de corte podrían variar entre nuestro estudio y el de otros


investigadores, y esto haría poco comparables los resultados.
• Y a veces los cuantiles no expresan las categorías científicamente
relevantes, porque podría haber un efecto umbral o un efecto saturación.

Debe combinarse la ventaja de crear grupos iguales propia de los quintiles con
el conocimiento experto del tema de investigación para seleccionar los puntos de
corte que puedan ser más claves per se en el problema concreto que se estudia (5).
Para profundizar en este tema, se puede consultar el capítulo 22.

2.3.2. Categorización en Stata


Un modo sencillo de recodificar consiste en usar la orden recode:

recode age (min/39=0) (40/59=1) (60/max=2), /// generate (age_group)

Podría haberse hecho también así:

egen age_group2=cut(age), at(0 40 60 100)


Se ha cambiado el nombre de la variable destino para evitar errores. Téngase en
cuenta que, al usar egen (extensión de generar) seguido de cut y at, la opción at
establece tanto los puntos de corte (valor mínimo de cada categoría) como la
etiqueta que tendrá cada categoría. Una precaución necesaria al usar egen… cut,
at(…) es que el último punto de corte debe ser superior al máximo valor observado.
Si se desea pedir la descripción de una variable (que incluirá los valores máximo
y mínimo), se puede usar la instrucción summarize:

summarize age

Así se sabe que el máximo es 82; por eso, el último punto de corte que se puso
para egen… cut, at(…) fue 100. Hubiese dado lo mismo poner 90.
También se podría haber hecho así6:

generate age_group=0 if age<40


replace age_group=1 if age>=40 & age<60
replace age_group=2 if age>=60 & age<.

El punto (.) que se ha usado en la última orden se refiere a valores missing


(datos que faltan). Es importante tener en cuenta que Stata considera un valor
faltante (.) como si fuese superior a todos los valores observados. Por lo tanto,
cuando se dé una orden que quiera referirse a todas las observaciones superiores
a un valor, se debe añadir lo que se ha hecho aquí (& varname<.) al final.
La instrucción table devuelve cuántos sujetos hay en cada categoría:

table age_group2
La tabla anterior corresponde a la distribución de frecuencias. Es una tabla con
una sola variable. Los números 0, 40 y 60 indican dónde empieza cada categoría,
ya que Stata les ha puesto como etiqueta el valor inferior de la propia categoría.
Los números 260, 126 y 14 indican cuántos sujetos hay en cada categoría. Para
comprobar que Stata recodificó correctamente debe escribirse7:

tabulate age age_group if id<=20


La pantalla de resultados presentará entonces la salida mostrada arriba. Ahora
no se trata de tabular una, sino dos variables. Este modo de presentar los datos se
llama tabla de contingencia, donde las columnas corresponden a una variable y las
filas a otra. Dentro de la tabla, las celdas, definidas por su fila y su columna,
contendrán el número de observaciones, que presentan el valor de la fila en una
variable y el de la columna en la otra. En la jerga estadística, esta acción se
denomina cruzar dos variables. Por ejemplo, hay 3 personas que tienen 31 años y
están en la primera categoría de age_group. También se puede obtener esta
variable usando los menús de Stata8 (fig. 2.4):
FIGURA 2.4 Recategorización de una variable con menús en Stata.

Data → Create or change data → Other variable-transformation commands →


Recode categorical variable
Se acaba por preferir las órdenes a los menús, especialmente en Stata. Al
trabajar con menús, a veces es conveniente finalizarlos pulsando Submit en vez
de OK; así no se cierra la última ventana y se pueden hacer cambios sin tener que
repetir todo el recorrido de cuadros de diálogo. Si se conoce el nombre de una
orden y se desea abrir directamente el cuadro de diálogo (dialog box), basta con
escribir db delante del nombre de la orden. Por ejemplo, para abrir la ventana del
menú de summarize, se escribirá:

db summarize

Una gran ventaja de Stata reside en las ayudas. Para obtener ayudas basta con
escribir help delante de cualquier orden o bien abrir el menú Help. La primera
opción al abrir este menú es Search, que permite una búsqueda libre. La segunda
opción es PDF Documentation, que conduce a una amplia serie de manuales
detallados de Stata en formato PDF, contenidos en todo ordenador que tenga
instalado Stata:
Help → PDF Documentation
Se recomienda usar con frecuencia todas estas ayudas. Otra ventaja de Stata es
que, cuando se ejecuta una orden usando menús, siempre aparece después la
misma orden escrita como instrucción en la ventana de resultados. Esto facilita
aprender las instrucciones de memoria o copiarlas para usos posteriores. La mejor
forma de guardar las instrucciones de Stata para futuros usos es abrir un do-file,
que es muy parecido a un procesador de textos. Se puede crear un do-file con el
icono correspondiente o desde la barra de menús:
File → New Do-file
Una vez copiadas allí las instrucciones pertinentes (cada instrucción en una
línea), se pueden ejecutar marcándolas con el ratón y pulsando el icono Do, o bien
con la combinación Ctrl+D (en Mac: Comand+Shift+D).
Se recomienda ver el siguiente vídeo: «STATA_0_0_do files: lo básico de textos
con órdenes».
Para recategorizar y crear cuantiles (p. ej., quintiles) con Stata se puede utilizar
la siguiente instrucción:

xtile age5=age, nq(5)


tabstat age, by(age5) stat(n min max)

La primera orden xtile cuando va seguida de la opción ,nq(5) sirve para crear
una variable categórica ordinal de cinco categorías con aproximadamente el
mismo número de observaciones (quintiles). Tendrán el nombre que se desee
(age5 en este ejemplo) y se derivan de una variable original cuantitativa (age).
Tras la coma de las opciones, y a continuación de la opción nq, se indicará
cuántas categorías de igual tamaño se desean (cinco en el ejemplo; cuatro si
fuesen cuartiles).
La segunda orden (tabstat) es útil y versátil. Se sugiere ver help tabstat,
especialmente con los ejemplos que vienen al final de esa ayuda9. En el ejemplo
arriba mencionado sirve para describir la edad (age, variable cuantitativa) dentro
de cada quintil (age5, variable ordinal). Se han pedido tres índices estadísticos con
la opción stat, el número de sujetos (n), el valor mínimo (min) y el máximo (max).
Se comprueba que se han construido cinco categorías. El primer quintil va de 21 a
26 años; el segundo, de 27 a 31, etc.
Otras funciones interesantes son las opciones de tabulate y table (no deben
confundirse).

tabulate age5, su(age)

table age5, content(min age max age)

# para el paréntesis véase help table


table smk sex, content(mean age sd age)
2.3.3. Categorización en SPSS
Si se desea recodificar en SPSS usando menús, hay que elegir la opción
Transformar en la barra superior y luego Recodificar en distintas variables,
como indica la figura 2.5.
FIGURA 2.5 Recategorización de una variable en SPSS.

A continuación, aparecerá otro menú en el que se pregunta qué variable se


desea recodificar. Se selecciona con el ratón age y luego el botón en forma de
flecha que está en medio. A continuación se escribe el nombre que se quiera dar a
la variable de resultado o destino (age_group) en la celda de la derecha que está
en blanco, y luego se pulsa en Cambiar. Después, todo consiste en abrir el cuadro
de diálogo Valores antiguos y nuevos… e ir dando las órdenes pertinentes para
cada nueva categoría seguida de Añadir. Se finaliza con Continuar y luego
Aceptar. Si se opta por Pegar en vez de aceptar, se abrirá una ventana de sintaxis
que es análoga a la del do-file de Stata. El contenido es10:
RECODE age (Lo thru 39=1) (40 thru 59=2) (60 thru Hi=3)
INTO age_group.
EXE.
Para ejecutar una orden en SPSS, se debe marcar la orden con el ratón y oprimir
después Ctrl+R. Para obtener una tabla de contingencia en SPSS que cruce la
variable antigua y la nueva, se debe seguir la ruta siguiente en los cuadros de
diálogo:
Analizar → Estadísticos descriptivos… → Tablas de contingencia
Se abre una nueva ventana y se elige así la variable que se desea que ocupe las
filas y la que ocupará las columnas. Esto mismo con sintaxis (usando Pegar en vez
de Aceptar) se hará del modo siguiente:
CRO /TAB=age BY age_group.
En SPSS se pueden crear quintiles con la siguiente expresión:
RANK VAR=age /NTILES(5).
La nueva variable que SPSS creará se llama nage y tendrá los valores (etiquetas)
1 a 5, que corresponden a los quintiles. Para cambiarle el nombre:
RENAME VAR nage=age5.
Si se desea dar puntos de corte, podría usarse RECODE, o se podría hacer también
así:
COMP age_group=age<40.
IF age>=40 & age<60 age_group=2. IF age>=60 age_group=3.
EXE.

También podría gustarte