Documentos de Académico
Documentos de Profesional
Documentos de Cultura
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
FOCUS ON FIELD EPIDEMIOLOGY Pgina 2
haber recibido educacin superior, una tercera podr entregada en el cuestionario, y muchas veces a ese valor
haber tenido alguna educacin superior o haber recibido se le asigna un nombre. Por ejemplo, si tienes la pregun-
algn entrenamiento posterior, y otra podr haberse gra- ta Sexo?, podras tener respuestas tales como
duado de la universidad. Los niveles de educacin de masculino, femenino o M, F, etc. La codificacin
todos los miembros del grupo se acomodan claramente evitar tales inconsistencias.
dentro de estas categoras, y las categoras tienen un
Un sistema comn de codificacin (codificacin y nom-
orden intrnseco. Un egresado de la universidad tiene
ms educacin que un graduado de la escuela secunda- bre) para variables dicotmicas es el siguiente:
ria, y un graduado de la escuela secundaria tiene ms 0 = No 1 = Si,
educacin que alguien que no termin la escuela. De
este modo, a medida que las categoras van de 1 a 5, donde el nmero 1 es el valor asignado, y SI es la etique-
aumenta el nivel de educacin. Otros ejemplos de varia- ta o significado de dicho valor.
bles ordinales son: A algunos les gusta utilizar un sistema de 1 y 2, donde
aceptacin (por ejemplo, total desacuerdo, desacuer- 1 = No 2 = Si.
do, neutro, acuerdo, totalmente de acuerdo)
Esto apunta a un aspecto importante en la codificacin.
escalafn (por ejemplo excelente, bueno, aceptable, Cuando asignas un valor a un pedazo de informacin,
pobre) tambin debes dejar en claro lo que significa ese valor.
En el primer ejemplo anterior, 1= s, pero en el segundo
frecuencia (por ejemplo siempre, a menudo, a veces, ejemplo, 1= No. Cualquiera de los dos est bien, siem-
nunca) pre y cuando quede claro cmo se ha codificado la infor-
o cualquier otra escala (por ejemplo, en una escala macin. Puedes aclarar esto creando un diccionario de
del 1 al 5 cunto te gustan los cacahuates?) datos como un archivo separado que acompae la base
de datos.
Una variable nominal es una variable categrica sin or-
den intrnseco. Por ejemplo, digamos que tenemos una De manera similar, podramos codificar la variable dico-
variable llamada LUGAR DE RESIDENCIA que caracteriza tmica para sexo:
la parte del pas en que vive una persona: el noreste, 0 = Femenino 1 = Masculino
sur, medio-oeste, o noroeste. Las categoras de esta
variable no tienen valor numrico ni orden. La residen- Las variables dicotmicas tambin pueden ser variables
cia en el noroeste no tiene valor cuantitativo en compa- falseadas o ficticias (dummy, en ingls). Una variable
racin con el noreste. Otros ejemplos de variables nomi- ficticia es cualquier variable que se codifica para que
nales incluyen el sexo (masculino, femenino), nacionali- tenga dos niveles, como las variables si/no y las varia-
dad (Estadounidense, Mexicano, Francs), raza-etnia bles femenino/masculino del ejemplo anterior. Tambin
(Afroamericano, hispano, blanco, asitico americano) o pueden ser usadas para representar variables ms com-
mascota favorita (perro, gato, pez, culebra). plicadas. Esto es especialmente til cuando tienes mu-
chos valores que son ms significativos cuando se anali-
Una variable dicotmica o binaria es una variable categ- zan en trminos de una respuesta s o no.
rica que tiene slo dos niveles o categoras. Muchas
variables dicotmicas representan la respuesta a una Por ejemplo, puedes haber recopilado datos sobre el
pregunta cerrada (de respuesta s o no). Por ejemplo, nmero de cigarrillos fumados por semana, con 75 res-
asisti usted al picnic de la iglesia el 24 de mayo? o puestas que van de cero cigarrillos a 3 paquetes por se-
Consumi ensalada de papas en el picnic? Una varia- mana, pero puedes volver a codificar esta informacin
ble no requiere ser variable si/no para ser dicotmica, como variable ficticia: 1= fuma, 0=no fuma. Tambin
slo necesita tener dos categoras, como por ejemplo, podras hacer esto para la educacin (1=cualquier edu-
sexo (masculino/femenino). cacin posterior a la secundaria, 0= sin educacin poste-
rior a la secundaria), consumo de alimentos (1= comi el
Codificacin producto durante el perodo de tiempo, 0=no comi el
Una vez que has recopilado tus cuestionarios u otra in- producto) y muchas otras variables. Este tipo de codifi-
formacin debes elegir los cdigos para ingresarlos a cacin es til en las etapas posteriores del anlisis.
una base de datos. La codificacin es el proceso de tra- Muchos paquetes de software para anlisis te permiten
ducir la informacin recolectada de los cuestionarios u asignar un nombre a los valores de las variables. Luego
otras investigaciones a algo que pueda ser analizado, el computador automticamente nombra los 0 como
por lo general utilizando un programa computacional. La masculinos y los 1 como femeninos, lo que facilita tu
codificacin incluye el asignar un valor a la informacin vida cuando observes el resultado, tal como lo muestra
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
VOLUMEN 3, NMERO 5 Pgina 3
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
FOCUS ON FIELD EPIDEMIOLOGY Pgina 4
valor de 110 en edad podra ser un error para quien en Una mirada inicial a las variables continuas te puede
realidad tiene 10 o 11 (o 101!) entregar varias piezas importantes de informacin:
Se ingres un valor que no existe para una variable? Hay datos para todos los sujetos, o faltan valores?
Por ejemplo, si 1=masculino y 0= femenino, si se ingres
2, es claramente un error. Se encuentra la mayora de los valores agrupados, o
hay mucha variacin? (figuras 1a y 1b)
Si existen valores faltantes, acaso la persona no respon-
di, o accidentalmente no se ingres a la base de datos? Existen valores extremos?
Algunos software de anlisis permiten al usuario estable- Tienen sentido los valores mnimos y mximos, o
cer lmites definidos al ingresar datos. Esto evita que podra haber errores en la codificacin?
una persona ingrese un 2 cuando los valores aceptables Tambin podemos realizar un anlisis univariado de va-
son slo 1 y 0. Los lmites tambin pueden establecerse riables continuas para obtener informacin valiosa. En-
para variables continuas y nominales, por ejemplo permi- tre las estadsticas comnmente usadas se encuentran
tiendo slo 3 dgitos para la edad, o limitando la cantidad
las siguientes:
de palabras que se ingresan. Tambin puedes asignar
tipos de campos para la mayora de los tipos de variables Media- promedio de todos los valores de esta variable en
basados en el tipo de datos que el campo debiera conte- la base de datos (fig.2).
ner (por ejemplo formatear las fechas como Mediana- el medio de la distribucin, el nmero en el
mm/dd/aaaa o valores numricos o textos especficos). cual la mitad de los valores estn por encima y la otra
De manera similar, algunos protocolos de estudio permi-
mitad est por debajo (figura 2)
ten que se ingresen datos de otras fuentes. Por ejemplo,
si una persona no respondi una pregunta sobre edad, Moda- el valor que ms se repite (figura 2)
esa informacin puede estar disponible a partir de un
Rango de valores- desde el valor mnimo hasta el mxi-
registro mdico que se est usando en el estudio.
mo (figura 2)
A modo de verificacin del ingreso de datos, algunos sis-
Desviacin estndar- una medida de qu tan confiables
temas te permiten ingresar datos dos veces y luego com-
son los datos. En la figura 1a, la desviacin estndar es
pararlos para ver si existen discrepancias. Este proceso
de 20.4; en la figura 1b es de 7.6. Una desviacin es-
se llama doble ingreso. tndar grande en comparacin a los valores de la varia-
El anlisis univariado de datos, que discutiremos a conti- ble indica que los datos se encuentran ampliamente
nuacin es tambin una forma til de revisar la calidad distribuidos. Las desviaciones estndar son fciles de
de los datos, incluyendo la revisin de los valores extre- calcular con software de anlisis o pueden ser calcula-
mos. das a mano.
Anlisis univariado de datos Distribucin- muestra si la mayora de los valores se en-
El anlisis univariado de datos es importante por muchas
razones. Al mirar a cada variable individualmente, apren-
demos mucho acerca de la informacin recopilada. De Figura 1a: ejemplo de valores Figura 1b: ejemplo de valores
manera similar, el anlisis univariado es un buen mtodo de edad ampliamente de edad poco distribuidos.
para verificar la calidad de los datos. Siempre deben distribuidos
investigarse las inconsistencias o los resultados inespe- 90
90
rados, usando los datos originales como punto de refe- 80
rencia. 80
70
60
50
Age (in years)
40
examina la distribucin univariada (una variable). Los 30
Variables continuas
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
VOLUMEN 3, NMERO 5 Pgina 5
cuentran en la parte Figura 2: estadsticas que dios porque los estilos de vida y las influencias culturales
baja del rango, o en la describen una distribucin de tienden a ser distintas en diferentes partes del pas. Una
parte alta, o agrupa- variable continua. forma de poner estos resultados en contexto es compa-
dos en el medio 90 rar esta distribucin a la distribucin esperada de resi-
(figura 3) 84 = Mximo dencia. Si seleccionamos a nuestros participantes del
80 (valor extremo) estudio al azar a partir de la poblacin de los Estados
Percentil- el porcenta-
Unidos, podramos esperar tener la misma distribucin
je de la distribucin 70
de personas en cada regin, suponiendo que todas tie-
que es igual a o me-
nen el mismo tamao de poblacin, como lo muestra la
nor que un determina- 60
50
la figura 3a, el percen-
til 25 ocurre en los 4 40 36 = Mediana
Otra forma de observar estos datos categricos es
aos pues el 25% del 33 = Media (Percentil 50)
total de quienes res- 30 Figura 4a: nmero de personas que responden el cuestionario y
28 = Moda
ponden tienen 4 o (Ocurre 2 veces) que residen en 5 regiones de los Estados Unidos.
menos aos. 20
30
10 25
Number of People
2 = Mnimo 20
0
15
Datos categricos
10
0
14 Percentil 25 Midwest Northeast Northwest South Southwest
12 (4 aos) variable: RESIDE
10
Frequency
0 16
1 2 3 4 5 6 7 8 9 10 11
12
Age (years)
8
Figura 3b: distribucin asimtrica para la variable EDAD
4
14
12 0
10
Percentil 25 Midwest Northeast Northwest South Southwest
Frequency
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
FOCUS ON FIELD EPIDEMIOLOGY Pgina 6
Percent
los datos observados. Podemos realizar el proceso con 20
nuestra variable ordinal categrica EDUCACION. La figu- 15
10
ra 5a nos muestra la distribucin observada de niveles 5
de educacin en una poblacin determinada de adultos. 0
Pese a que el grfico est marcado con niveles de educa- Less than high High school Some college College graduate
cin, esos niveles representan los nmeros usados en la school graduate
codificacin (0 para menos que educacin secundaria, 1 variable: EDUCATION
para egresados de educacin secundaria, y as sucesiva-
mente.)
Figura 5b. Datos de nivel educacional de la poblacin de los
Este grfico contiene informacin descriptiva til acerca Estados Unidos de 20 o ms aos, Oficina del Censo de los
de la poblacin del estudio. Tambin podemos compa- Estados Unidos.
rarla con la distribucin esperada de educacin entre
nuestros participantes en el estudio. La informacin ob- 35
tenida de la Oficina del Censo de los Estados Unidos res- 30
pecto al nivel educacional de la poblacin de los Estados 25
Percent
20
Unidos de 20 aos o ms aparece en la figura 5b. (1).
15
Esta es la distribucin esperada de nivel educacional 10
para la poblacin del pas. Al mirar los grficos y compa- 5
rar las categoras, vemos que la poblacin de nuestro 0
estudio parece ser ms educada de lo que esperbamos. Less than high High school Some college College graduate
school graduate
variable: EDUCATION
Son los datos observados tan distintos de los datos esperados? Este es el tipo de preguntas que un epidemilogo
querra explorar en profundidad. Una forma de comparar los datos categricos observados con los datos categricos
esperados es usando una prueba estadstica como el ji-cuadrado. Las prximas dos ediciones de FOCUS discutirn los
ji-cuadrado y otros tipos de anlisis de datos ms extensos.
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
CONTACTO: REFERENCIAS:
1. US Census Bureau. Educational Attainment in the United States:
The North Carolina Center for Public Health 2003---Detailed Tables for Current Population Report, P20-550
Preparedness (All Races). Available at:
http://www.census.gov/population/www/socdemo/education/cp
The University of North Carolina at Chapel Hill
s2003.html. Accessed December 11, 2006.
Campus Box 8165
Chapel Hill, NC 27599-8165
Phone: 919-843-5561
Fax: 919-843-5563
Email: nccphp@unc.edu
_____________________________________________________
_____________________________________________________
Estamos en Internet!
Por favor enviar por fax a: (919) 919-843-5563 http://www.sph.unc.edu/nccphp
O por correo a: North Carolina Center for Public Health Preparedness
The University of North Carolina at Chapel Hill
Campus Box 8165
Chapel Hill, NC 27599-8165
O en lnea en: http://www.sph.unc.edu/nccphp/focus/
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health