Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioestadística 1
Nombre: Instrucciones
PREGUNTA 1. En un estudio en la variable número de pasos realizado en el día, los valores entre +- 2DS son 17000 y 11000, resuelva (2
PUNTOS):
A. El valor de Talla que deja por debajo el 30% y por encima el 70% de la media es: (1 punto): 152,26
B. Los valores para el IC del 80% de la variable HDL son (2 punto): 55. 46 y 30.53
PREGUNTA 3. Si tengo un universo desconocido de personas y deseo realizar una investigación para conocer la prevalencia de
Desnutrición Infantil ya que nunca se ha realizado un estudio previo en niños/as con un IC del 80% y un Error del 1% mi muestra debería ser
de (2 PUNTOS):
Respuesta: 4090
PREGUNTA 4. Correlacione los conceptos: Solo existe una opción correcta por tipo de estudio.( 3 PUNTOS)
1. Para una investigación acerca de la letalidad del cáncer de Muestreo por conveniencia
próstata el urólogo decide usar solo a los pacientes que
llegan a realizarse radioterapia. CONVENIENCIA Muestreo estratifica
2. Para un estudio acerca de la efectividad de las ondas de
choque en trauma de hombro el investigados obtiene el Muestreo sistemático
listado de todos los pacientes ingresados por la emergencia
por trauma de hombro y elige de muestra cada tercer Muestreo por azar simple
individuo del listado. SISTEMÁTICO
3. Para un estudio acerca de los efectos secundarios de la Muestreo por conglomerado
vacunación de la rubéola el investigador obtiene el listado de
los centros de vacunación y de estos escoge 15 centros al Procedimiento combinado
azar. CONGLOMERADOS
PREGUNTA 5. Una los siguientes gráficos (2 PUNTOS)
A. 1-a 2-b 3-c 4-d B. 1-a 2-c 3-b 4-d C. 1-a 2-c 3-d 4-b D. 1-c 2-a 3-d 4-b
PREGUNTA 6. Con respecto a la estadística y el método científico señale el concepto correcto: (1 PUNTO)
PREGUNTA 7. De la siguiente seria de datos calcular Q1, Q2 y Q3. Con los datos obtenidos dibujar un gráfico de cajas y bigotes. (2 PUNTOS)
76 78 65 68 83 58 68 50 63 76
Q2: 68
Q3: ________76______
PREGUNTA 8. Hablando de errores de la recolección de la información, señale lo correcto: (1 PUNTO)
PREGUNTA 9. Con respecto a los métodos de recolección de la información señale lo incorrecto: (1 PUNTO)
A. Dentro de las fuentes secundarias están las revistas, libros, artículos, etc.
B. Las fuentes primarias son la observación y el interrogatorio
C. Las entrevistas directas son respondidas directamente por el sujeto de estudio.
D. Las encuestas indirectas pueden realizarse a grupos mas amplios de sujetos de investigación
PREGUNTA 11. En una zapatería se tiene una producción diaria de calzado, con una media de 2500 pares cada semana y una desviación estándar de
300 zapatos. Encuentre la probabilidad que el número de pares de zapatos producido por semana sea: (4 PUNTOS)
Señale lo correcto
A. 1 a y e; 2 b; 3 c y f; 4 d y g
B. 1 a y b; 2 e; 3 c y g; 4 d y f
C. 1 b y e; 2 a; 3 c y f; 4 d y g
D. 1 a; 2 b y e; 3 d y g; 4 c y f
PREGUNTA 14. Respecto al siguiente gráfico e índices estadísticos, señale lo correcto: (2 PUNTOS)
1000
800
600
400
200
0
40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 90-95 95-100
Media 67,56
Error típico 0,14
Mediana 67
Moda 60
Desviación estándar 10,58
Varianza de la muestra 111,89
Coeficiente de Curtosis -0,24
Coeficiente de Asimetría 0,28
Rango 59,7
Mínimo 40
Máximo 99,7
Suma 377924,55
Cuenta 5594
A. La media, mediana y moda coinciden, por ende, hay una distribución normal de los datos.
B. Hay una asimetría positiva de los datos (0,28), la cola larga está dispuesta al lado izquierdo.
C. El coeficiente de curtosis negativo (-0,24) indica una distribución platicúrtica de los datos.
D. Al presentar una distribución no normal la variable peso, el indicador estadístico más adecuado como medida tendencia central sería la
media.
PREGUNTA 15. Se diseña un estudio para evaluar la asociación entre el hábito de fumar y el desarrollo del cáncer de pulmón. No se aplicará ninguna
intervención por parte de la investigación y se medida las variables tal cual ocurren en la realidad. Se recogerá el dato del hábito de fumar en el presente
mes, se dará seguimiento por 20 años a los participantes y al final de ese periodo se evaluará el desarrollo de cáncer de pulmón. Con base a la información
brindada, determina el modelo de investigación a utilizar. (Existe varias respuestas) (2 PUNTOS)
A. Observacional
B. Experimental
C. Casos Controles
D. Cohortes
E. Longitudinal
F. Transversal
G. Retrospectivo
H. Prospectivo
UNIVERSIDAD DE CUENCA
FACULTAD - CIENCIAS MEDICAS
PRIMER CICLO – MEDICINA
CÁTEDRA : Bioestadística.
PARALELO : Grupo 1
CUENCA – ECUADOR
1. Si tenemos una media de 10 000 pasos en los estudiantes de primer año de medicina con una desviación
estándar de 1 500 pasos; Si tenemos un intervalo de confianza del 85%, ¿Cuál sería mi valor uno (X1) y
mi valor (X2)?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ 7,5%/100= 0,075
x̄= 10 000 X2= (1,435 * 1 500) +10 000 ; X1= (-1,435 * 1 500) +10 000 Z= ±1,435
DS= 1 500 X2= 2 152,5 + 10 000 X1= - 2 152,5 + 10 000
IC= 85% X2= 12 152,5 X1= 7 847,5
X1=?
X2=?
R= Con un intervalo de confianza del 85% los valores que representan en el intervalo son de 12 152,5 y 7 847,5.
2. Si tenemos una media de 10 000 pasos en los estudiantes de primer año de medicina con una desviación
estándar de 1 500 pasos; Si tenemos un intervalo de confianza del 99%, ¿Cuál sería mi valor uno (X1) y
mi valor (X2)?
𝑿−x̄
DATOS 𝒁= ; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ 0,5%/100= 0,005
𝑫𝑺
x̄= 10 000
DS= 1 500 X1= (-3,15 * 1 500) + 10 000 ; X2= (3,15 * 1 500) + 10 000 Z= ± 3,15
IC= 99% X1= -4 725 + 10 000 X2= 4 725 + 10 000
X1=? X1= 5 275 X2= 14 725
X2=?
R= Con un intervalo de confianza del 99% los valores que representan en el intervalo son de 5 275 y 14 725.
3. ¿Cuál es el valor que deja, 80% por debajo y el 20% por arriba?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
= 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ Z= -0,845 = 0,845
x̄= 10 000 X= (0,845 * 1 500) + 10 000
DS= 1 500 X= 11 267,5
X1= 80%= 0,80
X2= 20%= 0,20
R= El valor que va a dejar por arriba el 20% y el 80% por debajo es 11 267,5.
4. ¿Cuál es el valor que deja, 15% por debajo y el 85% por arriba?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ Z= -1,35
x̄= 10 000 X= (-1,35 * 1 500) + 10 000
DS= 1 500 X= 7 975
X1= 15%= 0,15
X2= 85%= 0,85
R= El valor que va a dejar por arriba el 85% y el 15% por debajo es 7 975.
5. Si yo tengo 12 500 pasos, ¿Quiero saber cuántas personas quedan por debajo y cuantas personas
quedan por arriba?
𝑿−x̄ 𝟏𝟐 𝟓𝟎𝟎−𝟏𝟎 𝟎𝟎𝟎 𝟐 𝟓𝟎𝟎
DATOS 𝒁= 𝑫𝑺
= 𝟏 𝟓𝟎𝟎
= 𝟏 𝟓𝟎𝟎 = 1,6
x̄= 10 000
DS= 1 500 Z= 0,0548 - 0,0548 * 100% = 5,48%
IC= 85% - 100% - 5,48% = 94,52%
X= 12 500
R= Por encima de 12 500 pasos voy a tener 5,48% de personas y por debajo 94,52% de personas.
6. Si yo tengo 8 200 pasos, ¿Quiero saber, que porcentaje queda por debajo y que porcentaje queda por
arriba?
𝑿−x̄ 𝟖 𝟐𝟎𝟎−𝟏𝟎 𝟎𝟎𝟎 − 𝟏 𝟖𝟎𝟎
DATOS 𝒁= = = = -1,2
𝑫𝑺 𝟏 𝟓𝟎𝟎 𝟏 𝟓𝟎𝟎
x̄= 10 000
DS= 1 500 Z = 0,1151 - 0,1151 * 100% = 11,51%
IC= 85% - 100% - 11,51% = 88,49%
X= 8 200
R= Por encima de 12 500 pasos voy a tener 88,94% de personas y por debajo 11,51% de personas.
• Tabla utilizada
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
RESUMEN
En algunas ocasiones nos preguntamos ¿cómo podemos determinar el tamaño óptimo para
una investigación de mercado. ¿Será que basta con aplicar un cuestionario a 100 personas?
O, ¿realmente es necesario encuestar a 450 individuos? ¿Cómo influye la variabilidad de
las respuestas de cada encuestado? ¿Qué margen de error tendrán los resultados hallados en
la encuesta? Las respuestas a cada una de estas preguntas nos la da la Estadística. En este
documento se presenta una guía para poder determinar el tamaño de una muestra para
proporciones. Se presentan, además, los conceptos fundamentales de la Teoría de
muestreo.
DESCRIPTORES
Estadística. Tipos de muestreo. Muestreo probabilístico. Muestro no probabilístico.
Tamaño de muestra. Proporciones. Nivel de confianza. Fuentes de error en el muestreo.
ABSTRACT
In some occasions we ask ourselves: How can we obtain optimal sampling size in a
marketing survey? Is it enough to fulfil a questionnaire form in one hundred persons? Or, is
it really necessary to interview 450 subjects? How do the answers determine the variability
in each person interviewed? Which margin error will the results of the survey have?
Answers to each one of those questions are provided from Statistics. In this article a guide
is presented to determine sampling size to be used for proportions. Also included are
fundamental concepts of Sampling Theory.
KEYWORDS
Statistics. Sampling methods. Probabilistic sampling. Non probabilistic sampling. Sampling
size. Proportion. Confidence level. Error sources in sampling.
URL_02_BAS02.doc 1 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
EL MUESTREO
Se pueden realizar diferentes tipos de muestreo, que quedan clasificados en dos grandes
grupos: probabilísticos y no probabilísticos. En el muestreo probabilístico, todos los
individuos o elementos de la población tienen la misma probabilidad de ser incluidos en la
muestra extraída, asegurándonos la representatividad de la misma. En el muestreo no
probabilístico, por su parte, los elementos de la muestra se seleccionan siguiendo criterios
determinados siempre procurando la representatividad de la muestra.
MUESTREO PROBABILISTICO
El muestreo probabilístico puede ser muestreo aleatorio simple, cuando todos los
elementos de la población tienen la misma probabilidad de ser seleccionados en la muestra
y esta probabilidad es conocida. Este tipo de muestreo es más recomendable, pero resulta
mucho más difícil de llevarse a cabo y, por lo tanto, es más costoso. Para seleccionar una
muestra de este tipo se requiere tener en forma de lista todos los elementos que integran la
población investigada y utilizar tablas de números aleatorios.
URL_02_BAS02.doc 2 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
800
= 160
5
Total de manzanas
= Salto Sistemático
Tamaño de la muestra
5,000
= 41.7 = 42
120
URL_02_BAS02.doc 3 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
URL_02_BAS02.doc 4 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
Suponga que se planea hacer un total de 500 encuestas en la ciudad donde usted
vive. Considerando los porcentajes de hogares en cada estrato socioeconómico en
un muestreo probabilístico con cálculo proporcional obtendríamos:
Sin embargo, este número de entrevistas por estrato no permitiría mayor análisis y
desvirtuaría los objetivos de la investigación en los estratos altos. Aquí se deberá
calcular el tamaño de cada muestra mediante el método desproporcional, utilizando
el siguiente procedimiento:
o Se aplica el método de muestreo por zonas, considerando los valores de 108, 203
y 189 como tamaños totales de muestras para cada zona.
URL_02_BAS02.doc 5 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
Se incluye en el Cuadro No. 1 un análisis comparativo entre los distintos tipos de Muestro
Probabilístico, describiendo sus ventajas, características e inconvenientes al momento de
ser aplicados.
MUESTREO NO PROBABILÍSTICO
URL_02_BAS02.doc 6 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
URL_02_BAS02.doc 7 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
Así mismo, otro muestreo no probabilístico es el muestreo bola de nieve en donde algunos
elementos seleccionados de la muestra conducen a otros y estos a otros hasta conseguir una
muestra adecuada en tamaño.
URL_02_BAS02.doc 8 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
Para determinar el tamaño de una muestra se deberán tomar en cuenta varios aspectos,
relacionados con el parámetro y estimador, el sesgo, el error muestral, el nivel de confianza
y la varianza poblacional.
Ejemplo No. 12: Para una seguridad del 95%, Zα = 1.96, para una seguridad del
99%, Zα = 2.58. (Estos valores provienen de las tablas de la distribución normal Z)
c) Una idea del valor aproximado del parámetro que queremos medir (en este caso una
proporción). Esta idea se puede obtener revisando la literatura, por estudio pilotos
previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%). El
problema que puede enfrentarse en un estudio de investigación es la cantidad de
información con la que se cuente; específicamente se pueden tener dos casos:
desconocer la población del fenómeno estudiado, o bien, conocerla.
URL_02_BAS02.doc 9 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
en donde,
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)
Ejemplo No. 13: ¿A cuántas familias tendríamos que estudiar para conocer la
preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se
desconoce la población total?
Seguridad = 95%;
Precisión = 3%;
Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos
ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que
maximiza el tamaño muestral.
Entonces:
• Zα2 = 1.962 (ya que la seguridad es del 95%)
• p = proporción esperada (en este caso 5% = 0.05)
• q = 1 – p (en este caso 1 – 0.05 = 0.95)
• d = precisión (en este caso deseamos un 3%)
Se requeriría encuestar a no menos de 203 familias para poder tener una seguridad
del 95%
Se requeriría encuestar a no menos de 1068 familias para poder tener una seguridad
del 95%
URL_02_BAS02.doc 10 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
en donde,
N = tamaño de la población
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (Error máximo admisible en términos de proporción)
Ejemplo No. 15: ¿A cuántas familias tendríamos que estudiar para conocer la
preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se conoce
que el número de familias con bebés en el sector de interés es de 15,000?
Seguridad = 95%;
Precisión = 3%;
Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviese
ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que
maximiza el tamaño muestral.
15,000 × 1.96 2 × 0.05 × 0.95
n= = 200
0.03 2 × (15,000 − 1) + 1.96 2 × 0.05 × 0.95
Se requeriría encuestar a no menos de 200 familias para poder tener una seguridad
del 95%
Se requeriría encuestar a no menos de 997 familias para poder tener una seguridad
del 95%
URL_02_BAS02.doc 11 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
Si los recursos del investigador son limitados, debe recordar que a medida que se
disminuya el nivel de seguridad, se permitirá un mayor error en el estudio de investigación,
lo cual a su vez permitirá al investigador trabajar con un número de muestra más reducido,
sacrificando la confiabilidad de los resultados.
CONCLUSIONES
BIBLIOGRAFÍA
• Estadística. http://www.umce.cl/publicaciones
URL_02_BAS02.doc 12 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02
muestreo.html
• SPIEGEL, MURRAY (1988). Estadística. 2ª. Edición. Editorial McGraw Hill. Madrid.
URL_02_BAS02.doc 13 de 13
Probabilidad
Probabilidad
⫺3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
⫺3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
⫺3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
⫺3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
⫺3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
⫺2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
⫺2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
⫺2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026 0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
⫺2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
⫺2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048 0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
⫺2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
⫺2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
⫺2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
⫺2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
⫺2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
⫺1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
⫺1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
⫺1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
⫺1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
⫺1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
⫺1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
⫺1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
⫺1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
⫺1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
⫺1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
⫺0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
⫺0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
⫺0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
⫺0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
⫺0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
⫺0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
⫺0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
⫺0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
⫺0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
⫺0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Probabilidad p
El valor de la tabla para p y C
es el valor crítico t* que deja
una probabilidad p a la derecha Probabilidad p
y una probabilidad C t*
entre -t* y t*
X2*
TABLA B Valores críticos de la distribución t de Student
Probabilidad de la cola p El valor de la tabla para p es el valor crítico X 2ⴱ que deja la probabilidad p a la derecha
gl .25 .20 .15 .10 .05 .025 .02 .01 .005 .0025 .001 .0005
1 1.000 1.376 1.963 3.078 6.314 12.71 15.89 31.82 63.66 127.3 318.3 636.6 TABLA C: Valores críticos de la distribución 2 de Pearson
2 0.816 1.061 1.386 1.886 2.920 4.303 4.849 6.965 9.925 14.09 22.33 31.60
3 0.765 0.978 1.250 1.638 2.353 3.182 3.482 4.541 5.841 7.453 10.21 12.92 Probabilidad de la cola p
4 0.741 0.941 1.190 1.533 2.132 2.776 2.999 3.747 4.604 5.598 7.173 8.610
gl .25 .20 .15 .10 .05 .025 .02 .01 .005 .0025 .001 .0005
5 0.727 0.920 1.156 1.476 2.015 2.571 2.757 3.365 4.032 4.773 5.893 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.208 5.959 1 1.32 1.64 2.07 2.71 3.84 5.02 5.41 6.63 7.88 9.14 10.83 12.12
7 0.711 0.896 1.119 1.415 1.895 2.365 2.517 2.998 3.499 4.029 4.785 5.408 2 2.77 3.22 3.79 4.61 5.99 7.38 7.82 9.21 10.60 11.98 13.82 15.20
8 0.706 0.889 1.108 1.397 1.860 2.306 2.449 2.896 3.355 3.833 4.501 5.041 3 4.11 4.64 5.32 6.25 7.81 9.35 9.84 11.34 12.84 14.32 16.27 17.73
9 0.703 0.883 1.100 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.297 4.781 4 5.39 5.99 6.74 7.78 9.49 11.14 11.67 13.28 14.86 16.42 18.47 20.00
10 0.700 0.879 1.093 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.144 4.587 5 6.63 7.29 8.12 9.24 11.07 12.83 13.39 15.09 16.75 18.39 20.51 22.11
11 0.697 0.876 1.088 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.025 4.437 6 7.84 8.56 9.45 10.64 12.59 14.45 15.03 16.81 18.55 20.25 22.46 24.10
12 0.695 0.873 1.083 1.356 1.782 2.179 2.303 2.681 3.055 3.428 3.930 4.318 7 9.04 9.80 10.75 12.02 14.07 16.01 16.62 18.48 20.28 22.04 24.32 26.02
8 10.22 11.03 12.03 13.36 15.51 17.53 18.17 20.09 21.95 23.77 26.12 27.87
13 0.694 0.870 1.079 1.350 1.771 2.160 2.282 2.650 3.012 3.372 3.852 4.221
9 11.39 12.24 13.29 14.68 16.92 19.02 19.68 21.67 23.59 25.46 27.88 29.67
14 0.692 0.868 1.076 1.345 1.761 2.145 2.264 2.624 2.977 3.326 3.787 4.140 10 12.55 13.44 14.53 15.99 18.31 20.48 21.16 23.21 25.19 27.11 29.59 31.42
15 0.691 0.866 1.074 1.341 1.753 2.131 2.249 2.602 2.947 3.286 3.733 4.073 11 13.70 14.63 15.77 17.28 19.68 21.92 22.62 24.72 26.76 28.73 31.26 33.14
16 0.690 0.865 1.071 1.337 1.746 2.120 2.235 2.583 2.921 3.252 3.686 4.015 12 14.85 15.81 16.99 18.55 21.03 23.34 24.05 26.22 28.30 30.32 32.91 34.82
17 0.689 0.863 1.069 1.333 1.740 2.110 2.224 2.567 2.898 3.222 3.646 3.965 13 15.98 16.98 18.20 19.81 22.36 24.74 25.47 27.69 29.82 31.88 34.53 36.48
18 0.688 0.862 1.067 1.330 1.734 2.101 2.214 2.552 2.878 3.197 3.611 3.922 14 17.12 18.15 19.41 21.06 23.68 26.12 26.87 29.14 31.32 33.43 36.12 38.11
19 0.688 0.861 1.066 1.328 1.729 2.093 2.205 2.539 2.861 3.174 3.579 3.883 15 18.25 19.31 20.60 22.31 25.00 27.49 28.26 30.58 32.80 34.95 37.70 39.72
20 0.687 0.860 1.064 1.325 1.725 2.086 2.197 2.528 2.845 3.153 3.552 3.850 16 19.37 20.47 21.79 23.54 26.30 28.85 29.63 32.00 34.27 36.46 39.25 41.31
21 0.686 0.859 1.063 1.323 1.721 2.080 2.189 2.518 2.831 3.135 3.527 3.819 17 20.49 21.61 22.98 24.77 27.59 30.19 31.00 33.41 35.72 37.95 40.79 42.88
22 0.686 0.858 1.061 1.321 1.717 2.074 2.183 2.508 2.819 3.119 3.505 3.792 18 21.60 22.76 24.16 25.99 28.87 31.53 32.35 34.81 37.16 39.42 42.31 44.43
19 22.72 23.90 25.33 27.20 30.14 32.85 33.69 36.19 38.58 40.88 43.82 45.97
23 0.685 0.858 1.060 1.319 1.714 2.069 2.177 2.500 2.807 3.104 3.485 3.768 20 23.83 25.04 26.50 28.41 31.41 34.17 35.02 37.57 40.00 42.34 45.31 47.50
24 0.685 0.857 1.059 1.318 1.711 2.064 2.172 2.492 2.797 3.091 3.467 3.745 21 24.93 26.17 27.66 29.62 32.67 35.48 36.34 38.93 41.40 43.78 46.80 49.01
25 0.684 0.856 1.058 1.316 1.708 2.060 2.167 2.485 2.787 3.078 3.450 3.725 22 26.04 27.30 28.82 30.81 33.92 36.78 37.66 40.29 42.80 45.20 48.27 50.51
26 0.684 0.856 1.058 1.315 1.706 2.056 2.162 2.479 2.779 3.067 3.435 3.707 23 27.14 28.43 29.98 32.01 35.17 38.08 38.97 41.64 44.18 46.62 49.73 52.00
27 0.684 0.855 1.057 1.314 1.703 2.052 2.158 2.473 2.771 3.057 3.421 3.690 24 28.24 29.55 31.13 33.20 36.42 39.36 40.27 42.98 45.56 48.03 51.18 53.48
28 0.683 0.855 1.056 1.313 1.701 2.048 2.154 2.467 2.763 3.047 3.408 3.674 25 29.34 30.68 32.28 34.38 37.65 40.65 41.57 44.31 46.93 49.44 52.62 54.95
29 0.683 0.854 1.055 1.311 1.699 2.045 2.150 2.462 2.756 3.038 3.396 3.659 26 30.43 31.79 33.43 35.56 38.89 41.92 42.86 45.64 48.29 50.83 54.05 56.41
30 0.683 0.854 1.055 1.310 1.697 2.042 2.147 2.457 2.750 3.030 3.385 3.646 27 31.53 32.91 34.57 36.74 40.11 43.19 44.14 46.96 49.64 52.22 55.48 57.86
40 0.681 0.851 1.050 1.303 1.684 2.021 2.123 2.423 2.704 2.971 3.307 3.551 28 32.62 34.03 35.71 37.92 41.34 44.46 45.42 48.28 50.99 53.59 56.89 59.30
50 0.679 0.849 1.047 1.299 1.676 2.009 2.109 2.403 2.678 2.937 3.261 3.496 29 33.71 35.14 36.85 39.09 42.56 45.72 46.69 49.59 52.34 54.97 58.30 60.73
30 34.80 36.25 37.99 40.26 43.77 46.98 47.96 50.89 53.67 56.33 59.70 62.16
60 0.679 0.848 1.045 1.296 1.671 2.000 2.099 2.390 2.660 2.915 3.232 3.460 40 45.62 47.27 49.24 51.81 55.76 59.34 60.44 63.69 66.77 69.70 73.40 76.09
80 0.678 0.846 1.043 1.292 1.664 1.990 2.088 2.374 2.639 2.887 3.195 3.416 50 56.33 58.16 60.35 63.17 67.50 71.42 72.61 76.15 79.49 82.66 86.66 89.56
100 0.677 0.845 1.042 1.290 1.660 1.984 2.081 2.364 2.626 2.871 3.174 3.390 60 66.98 68.97 71.34 74.40 79.08 83.30 84.58 88.38 91.95 95.34 99.61 102.7
1000 0.675 0.842 1.037 1.282 1.646 1.962 2.056 2.330 2.581 2.813 3.098 3.300 80 88.13 90.41 93.11 96.58 101.9 106.6 108.1 112.3 116.3 120.1 124.8 128.3
zⴱ 0.674 0.841 1.036 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.091 3.291 100 109.1 111.7 114.7 118.5 124.3 129.6 131.1 135.8 140.2 144.3 149.4 153.2
50% 60% 70% 80% 90% 95% 96% 98% 99% 99.5% 99.8% 99.9%
Nivel de confianza C
Probabilidad p Probabilidad p
F* F*
El valor de la tabla para p es el valor crítico F* que deja la probabilidad p a la derecha El valor de la tabla para p es el valor crítico F* que deja la probabilidad p a la derecha
TABLA D Valores críticos de la distribución F de Fisher TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad del numerador
p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.71 61.22 61.74 62.05 62.26 62.53 62.69 62.79 63.06 63.30
.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 243.91 245.95 248.01 249.26 250.10 251.14 251.77 252.20 253.25 254.19
1 .025 647.79 799.50 864.16 899.58 921.85 937.11 948.22 956.66 963.28 968.63 976.71 984.87 993.10 998.08 1001.4 1005.6 1008.1 1009.8 1014.0 1017.7
.010 4052.2 4999.5 5403.4 5624.6 5763.6 5859.0 5928.4 5981.1 6022.5 6055.8 6106.3 6157.3 6208.7 6239.8 6260.6 6286.8 6302.5 6313.0 6339.4 6362.7
.001 405284 500000 540379 562500 576405 585937 592873 598144 602284 605621 610668 615764 620908 624017 626099 628712 630285 631337 633972 636301
.100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.47 9.48 9.49
.050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.46 19.46 19.47 19.48 19.48 19.49 19.49
2 .025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.48 39.49 39.50
.010 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.48 99.49 99.50
.001 998.50 999.00 999.17 999.25 999.30 999.33 999.36 999.37 999.39 999.40 999.42 999.43 999.45 999.46 999.47 999.47 999.48 999.48 999.49 999.50
Grados de libertad en el denominador
.100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.17 5.17 5.16 5.15 5.15 5.14 5.13
.050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.63 8.62 8.59 8.58 8.57 8.55 8.53
3 .025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 14.01 13.99 13.95 13.91
.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.58 26.50 26.41 26.35 26.32 26.22 26.14
.001 167.03 148.50 141.11 137.10 134.58 132.85 131.58 130.62 129.86 129.25 128.32 127.37 126.42 125.84 125.45 124.96 124.66 124.47 123.97 123.53
.100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.80 3.79 3.78 3.76
.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.70 5.69 5.66 5.63
4 .025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.50 8.46 8.41 8.38 8.36 8.31 8.26
.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.91 13.84 13.75 13.69 13.65 13.56 13.47
.001 74.14 61.25 56.18 53.44 51.71 50.53 49.66 49.00 48.47 48.05 47.41 46.76 46.10 45.70 45.43 45.09 44.88 44.75 44.40 44.09
.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.15 3.14 3.12 3.11
.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.52 4.50 4.46 4.44 4.43 4.40 4.37
5 .025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.27 6.23 6.18 6.14 6.12 6.07 6.02
.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.45 9.38 9.29 9.24 9.20 9.11 9.03
.001 47.18 37.12 33.20 31.09 29.75 28.83 28.16 27.65 27.24 26.92 26.42 25.91 25.39 25.08 24.87 24.60 24.44 24.33 24.06 23.82
.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.81 2.80 2.78 2.77 2.76 2.74 2.72
.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.83 3.81 3.77 3.75 3.74 3.70 3.67
6 .025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.11 5.07 5.01 4.98 4.96 4.90 4.86
.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.30 7.23 7.14 7.09 7.06 6.97 6.89
.001 35.51 27.00 23.70 21.92 20.80 20.03 19.46 19.03 18.69 18.41 17.99 17.56 17.12 16.85 16.67 16.44 16.31 16.21 15.98 15.77
.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.57 2.56 2.54 2.52 2.51 2.49 2.47
.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.40 3.38 3.34 3.32 3.30 3.27 3.23
7 .025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.40 4.36 4.31 4.28 4.25 4.20 4.15
.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.06 5.99 5.91 5.86 5.82 5.74 5.66
.001 29.25 21.69 18.77 17.20 16.21 15.52 15.02 14.63 14.33 14.08 13.71 13.32 12.93 12.69 12.53 12.33 12.20 12.12 11.91 11.72
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador
p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.35 2.34 2.32 2.30
.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.11 3.08 3.04 3.02 3.01 2.97 2.93
8 .025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.94 3.89 3.84 3.81 3.78 3.73 3.68
.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.26 5.20 5.12 5.07 5.03 4.95 4.87
.001 25.41 18.49 15.83 14.39 13.48 12.86 12.40 12.05 11.77 11.54 11.19 10.84 10.48 10.26 10.11 9.92 9.80 9.73 9.53 9.36
.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.27 2.25 2.23 2.22 2.21 2.18 2.16
.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.89 2.86 2.83 2.80 2.79 2.75 2.71
9 .025 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.60 3.56 3.51 3.47 3.45 3.39 3.34
.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.71 4.65 4.57 4.52 4.48 4.40 4.32
.001 22.86 16.39 13.90 12.56 11.71 11.13 10.70 10.37 10.11 9.89 9.57 9.24 8.90 8.69 8.55 8.37 8.26 8.19 8.00 7.84
.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.17 2.16 2.13 2.12 2.11 2.08 2.06
.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.73 2.70 2.66 2.64 2.62 2.58 2.54
10 .025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.35 3.31 3.26 3.22 3.20 3.14 3.09
.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.31 4.25 4.17 4.12 4.08 4.00 3.92
.001 21.04 14.91 12.55 11.28 10.48 9.93 9.52 9.20 8.96 8.75 8.45 8.13 7.80 7.60 7.47 7.30 7.19 7.12 6.94 6.78
.100 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.04 2.03 2.00 1.98
.050 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.60 2.57 2.53 2.51 2.49 2.45 2.41
11 .025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.16 3.12 3.06 3.03 3.00 2.94 2.89
.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.01 3.94 3.86 3.81 3.78 3.69 3.61
Grados de libertad en el denominador
.001 19.69 13.81 11.56 10.35 9.58 9.05 8.66 8.35 8.12 7.92 7.63 7.32 7.01 6.81 6.68 6.52 6.42 6.35 6.18 6.02
.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.03 2.01 1.99 1.97 1.96 1.93 1.91
.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.50 2.47 2.43 2.40 2.38 2.34 2.30
12 .025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.01 2.96 2.91 2.87 2.85 2.79 2.73
.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.76 3.70 3.62 3.57 3.54 3.45 3.37
.001 18.64 12.97 10.80 9.63 8.89 8.38 8.00 7.71 7.48 7.29 7.00 6.71 6.40 6.22 6.09 5.93 5.83 5.76 5.59 5.44
.100 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.92 1.90 1.88 1.85
.050 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.41 2.38 2.34 2.31 2.30 2.25 2.21
13 .025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.88 2.84 2.78 2.74 2.72 2.66 2.60
.010 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.57 3.51 3.43 3.38 3.34 3.25 3.18
.001 17.82 12.31 10.21 9.07 8.35 7.86 7.49 7.21 6.98 6.80 6.52 6.23 5.93 5.75 5.63 5.47 5.37 5.30 5.14 4.99
.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.93 1.91 1.89 1.87 1.86 1.83 1.80
.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.34 2.31 2.27 2.24 2.22 2.18 2.14
14 .025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.78 2.73 2.67 2.64 2.61 2.55 2.50
.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.41 3.35 3.27 3.22 3.18 3.09 3.02
.001 17.14 11.78 9.73 8.62 7.92 7.44 7.08 6.80 6.58 6.40 6.13 5.85 5.56 5.38 5.25 5.10 5.00 4.94 4.77 4.62
.100 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.89 1.87 1.85 1.83 1.82 1.79 1.76
.050 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.28 2.25 2.20 2.18 2.16 2.11 2.07
15 .025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.69 2.64 2.59 2.55 2.52 2.46 2.40
.010 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.28 3.21 3.13 3.08 3.05 2.96 2.88
.001 16.59 11.34 9.34 8.25 7.57 7.09 6.74 6.47 6.26 6.08 5.81 5.54 5.25 5.07 4.95 4.80 4.70 4.64 4.47 4.33
.100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.86 1.84 1.81 1.79 1.78 1.75 1.72
.050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.23 2.19 2.15 2.12 2.11 2.06 2.02
16 .025 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.61 2.57 2.51 2.47 2.45 2.38 2.32
.010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.16 3.10 3.02 2.97 2.93 2.84 2.76
.001 16.12 10.97 9.01 7.94 7.27 6.80 6.46 6.19 5.98 5.81 5.55 5.27 4.99 4.82 4.70 4.54 4.45 4.39 4.23 4.08
.100 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.83 1.81 1.78 1.76 1.75 1.72 1.69
.050 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.18 2.15 2.10 2.08 2.06 2.01 1.97
17 .025 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.55 2.50 2.44 2.41 2.38 2.32 2.26
.010 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.07 3.00 2.92 2.87 2.83 2.75 2.66
.001 15.72 10.66 8.73 7.68 7.02 6.56 6.22 5.96 5.75 5.58 5.32 5.05 4.78 4.60 4.48 4.33 4.24 4.18 4.02 3.87
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador
p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.80 1.78 1.75 1.74 1.72 1.69 1.66
.050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.14 2.11 2.06 2.04 2.02 1.97 1.92
18 .025 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.49 2.44 2.38 2.35 2.32 2.26 2.20
.010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 2.98 2.92 2.84 2.78 2.75 2.66 2.58
.001 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 5.39 5.13 4.87 4.59 4.42 4.30 4.15 4.06 4.00 3.84 3.69
.100 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.78 1.76 1.73 1.71 1.70 1.67 1.64
.050 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 2.00 1.98 1.93 1.88
19 .025 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.44 2.39 2.33 2.30 2.27 2.20 2.14
.010 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.91 2.84 2.76 2.71 2.67 2.58 2.50
.001 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 5.22 4.97 4.70 4.43 4.26 4.14 3.99 3.90 3.84 3.68 3.53
.100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.76 1.74 1.71 1.69 1.68 1.64 1.61
.050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.07 2.04 1.99 1.97 1.95 1.90 1.85
20 .025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.40 2.35 2.29 2.25 2.22 2.16 2.09
.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.84 2.78 2.69 2.64 2.61 2.52 2.43
.001 14.82 9.95 8.10 7.10 6.46 6.02 5.69 5.44 5.24 5.08 4.82 4.56 4.29 4.12 4.00 3.86 3.77 3.70 3.54 3.40
.100 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.74 1.72 1.69 1.67 1.66 1.62 1.59
.050 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.94 1.92 1.87 1.82
21 .025 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.36 2.31 2.25 2.21 2.18 2.11 2.05
.010 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.79 2.72 2.64 2.58 2.55 2.46 2.37
Grados de libertad en el denominador
.001 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 4.95 4.70 4.44 4.17 4.00 3.88 3.74 3.64 3.58 3.42 3.28
.100 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.65 1.64 1.60 1.57
.050 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.02 1.98 1.94 1.91 1.89 1.84 1.79
22 .025 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.32 2.27 2.21 2.17 2.14 2.08 2.01
.010 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.73 2.67 2.58 2.53 2.50 2.40 2.32
.001 14.38 9.61 7.80 6.81 6.19 5.76 5.44 5.19 4.99 4.83 4.58 4.33 4.06 3.89 3.78 3.63 3.54 3.48 3.32 3.17
.100 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.71 1.69 1.66 1.64 1.62 1.59 1.55
.050 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.00 1.96 1.91 1.88 1.86 1.81 1.76
23 .025 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.29 2.24 2.18 2.14 2.11 2.04 1.98
.010 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.69 2.62 2.54 2.48 2.45 2.35 2.27
.001 14.20 9.47 7.67 6.70 6.08 5.65 5.33 5.09 4.89 4.73 4.48 4.23 3.96 3.79 3.68 3.53 3.44 3.38 3.22 3.08
.100 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.62 1.61 1.57 1.54
.050 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.97 1.94 1.89 1.86 1.84 1.79 1.74
24 .025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.26 2.21 2.15 2.11 2.08 2.01 1.94
.010 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.64 2.58 2.49 2.44 2.40 2.31 2.22
.001 14.03 9.34 7.55 6.59 5.98 5.55 5.23 4.99 4.80 4.64 4.39 4.14 3.87 3.71 3.59 3.45 3.36 3.29 3.14 2.99
.100 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.68 1.66 1.63 1.61 1.59 1.56 1.52
.050 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.84 1.82 1.77 1.72
25 .025 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.23 2.18 2.12 2.08 2.05 1.98 1.91
.010 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.60 2.54 2.45 2.40 2.36 2.27 2.18
.001 13.88 9.22 7.45 6.49 5.89 5.46 5.15 4.91 4.71 4.56 4.31 4.06 3.79 3.63 3.52 3.37 3.28 3.22 3.06 2.91
.100 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.67 1.65 1.61 1.59 1.58 1.54 1.51
.050 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.94 1.90 1.85 1.82 1.80 1.75 1.70
26 .025 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.21 2.16 2.09 2.05 2.03 1.95 1.89
.010 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.57 2.50 2.42 2.36 2.33 2.23 2.14
.001 13.74 9.12 7.36 6.41 5.80 5.38 5.07 4.83 4.64 4.48 4.24 3.99 3.72 3.56 3.44 3.30 3.21 3.15 2.99 2.84
.100 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.66 1.64 1.60 1.58 1.57 1.53 1.50
.050 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.92 1.88 1.84 1.81 1.79 1.73 1.68
27 .025 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.18 2.13 2.07 2.03 2.00 1.93 1.86
.010 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.54 2.47 2.38 2.33 2.29 2.20 2.11
.001 13.61 9.02 7.27 6.33 5.73 5.31 5.00 4.76 4.57 4.41 4.17 3.92 3.66 3.49 3.38 3.23 3.14 3.08 2.92 2.78
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador
p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.65 1.63 1.59 1.57 1.56 1.52 1.48
.050 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.79 1.77 1.71 1.66
28 .025 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.16 2.11 2.05 2.01 1.98 1.91 1.84
.010 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.51 2.44 2.35 2.30 2.26 2.17 2.08
.001 13.50 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.50 4.35 4.11 3.86 3.60 3.43 3.32 3.18 3.09 3.02 2.86 2.72
.100 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.64 1.62 1.58 1.56 1.55 1.51 1.47
.050 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.89 1.85 1.81 1.77 1.75 1.70 1.65
29 .025 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.14 2.09 2.03 1.99 1.96 1.89 1.82
.010 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.48 2.41 2.33 2.27 2.23 2.14 2.05
.001 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 4.29 4.05 3.80 3.54 3.38 3.27 3.12 3.03 2.97 2.81 2.66
.100 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.63 1.61 1.57 1.55 1.54 1.50 1.46
.050 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.88 1.84 1.79 1.76 1.74 1.68 1.63
30 .025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.12 2.07 2.01 1.97 1.94 1.87 1.80
.010 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.45 2.39 2.30 2.25 2.21 2.11 2.02
.001 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4.39 4.24 4.00 3.75 3.49 3.33 3.22 3.07 2.98 2.92 2.76 2.61
.100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.48 1.47 1.42 1.38
Grados de libertad en el denominador
.050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.78 1.74 1.69 1.66 1.64 1.58 1.52
40 .025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 1.99 1.94 1.88 1.83 1.80 1.72 1.65
.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.27 2.20 2.11 2.06 2.02 1.92 1.82
.001 12.61 8.25 6.59 5.70 5.13 4.73 4.44 4.21 4.02 3.87 3.64 3.40 3.14 2.98 2.87 2.73 2.64 2.57 2.41 2.25
.100 2.81 2.41 2.20 2.06 1.97 1.90 1.84 1.80 1.76 1.73 1.68 1.63 1.57 1.53 1.50 1.46 1.44 1.42 1.38 1.33
.050 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.95 1.87 1.78 1.73 1.69 1.63 1.60 1.58 1.51 1.45
50 .025 5.34 3.97 3.39 3.05 2.83 2.67 2.55 2.46 2.38 2.32 2.22 2.11 1.99 1.92 1.87 1.80 1.75 1.72 1.64 1.56
.010 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70 2.56 2.42 2.27 2.17 2.10 2.01 1.95 1.91 1.80 1.70
.001 12.22 7.96 6.34 5.46 4.90 4.51 4.22 4.00 3.82 3.67 3.44 3.20 2.95 2.79 2.68 2.53 2.44 2.38 2.21 2.05
.100 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.50 1.48 1.44 1.41 1.40 1.35 1.30
.050 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.69 1.65 1.59 1.56 1.53 1.47 1.40
60 .025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.87 1.82 1.74 1.70 1.67 1.58 1.49
.010 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.10 2.03 1.94 1.88 1.84 1.73 1.62
.001 11.97 7.77 6.17 5.31 4.76 4.37 4.09 3.86 3.69 3.54 3.32 3.08 2.83 2.67 2.55 2.41 2.32 2.25 2.08 1.92
.100 2.76 2.36 2.14 2.00 1.91 1.83 1.78 1.73 1.69 1.66 1.61 1.56 1.49 1.45 1.42 1.38 1.35 1.34 1.28 1.22
.050 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.85 1.77 1.68 1.62 1.57 1.52 1.48 1.45 1.38 1.30
100 .025 5.18 3.83 3.25 2.92 2.70 2.54 2.42 2.32 2.24 2.18 2.08 1.97 1.85 1.77 1.71 1.64 1.59 1.56 1.46 1.36
.010 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.37 2.22 2.07 1.97 1.89 1.80 1.74 1.69 1.57 1.45
.001 11.50 7.41 5.86 5.02 4.48 4.11 3.83 3.61 3.44 3.30 3.07 2.84 2.59 2.43 2.32 2.17 2.08 2.01 1.83 1.64
.100 2.73 2.33 2.11 1.97 1.88 1.80 1.75 1.70 1.66 1.63 1.58 1.52 1.46 1.41 1.38 1.34 1.31 1.29 1.23 1.16
.050 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.80 1.72 1.62 1.56 1.52 1.46 1.41 1.39 1.30 1.21
200 .025 5.10 3.76 3.18 2.85 2.63 2.47 2.35 2.26 2.18 2.11 2.01 1.90 1.78 1.70 1.64 1.56 1.51 1.47 1.37 1.25
.010 6.76 4.71 3.88 3.41 3.11 2.89 2.73 2.60 2.50 2.41 2.27 2.13 1.97 1.87 1.79 1.69 1.63 1.58 1.45 1.30
.001 11.15 7.15 5.63 4.81 4.29 3.92 3.65 3.43 3.26 3.12 2.90 2.67 2.42 2.26 2.15 2.00 1.90 1.83 1.64 1.43
.100 2.71 2.31 2.09 1.95 1.85 1.78 1.72 1.68 1.64 1.61 1.55 1.49 1.43 1.38 1.35 1.30 1.27 1.25 1.18 1.08
.050 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.76 1.68 1.58 1.52 1.47 1.41 1.36 1.33 1.24 1.11
1000 .025 5.04 3.70 3.13 2.80 2.58 2.42 2.30 2.20 2.13 2.06 1.96 1.85 1.72 1.64 1.58 1.50 1.45 1.41 1.29 1.13
.010 6.66 4.63 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.20 2.06 1.90 1.79 1.72 1.61 1.54 1.50 1.35 1.16
.001 10.89 6.96 5.46 4.65 4.14 3.78 3.51 3.30 3.13 2.99 2.77 2.54 2.30 2.14 2.02 1.87 1.77 1.69 1.49 1.22
05-13 matr-18 12/4/03 12:25 Página 5
RESUMEN Población
Es el conjunto de elementos o individuos que reúnen
En este artículo se comentan los criterios que deben las características que se pretenden estudiar. Cuando
tenerse en cuenta a la hora de seleccionar a los se conoce el número de individuos que la componen, se
individuos que entrarán a formar parte de un estudio de habla de «población finita» y, cuando no se conoce su
investigación: cómo se calcula el tamaño de la muestra número, de «población infinita».
necesario y cuáles son las técnicas de muestreo más Existen tres niveles de población, según su tamaño y
utilizadas para incluirlos en el estudio. Todo ello accesibilidad: la «población diana» es el conjunto de
dependerá de los objetivos, del diseño planteado elementos o individuos al cual se pretenden inferir
y del tipo de las variables que se recojan. los resultados obtenidos; generalmente, es muy
numerosa y no está al alcance de los investigadores.
§
Palabras clave: muestra, técnicas de muestreo, La «población accesible» es la que reúne las mismas
investigación características que la anterior, pero con menor número
de individuos, y por tanto susceptible de estudio; es la
que delimita el investigador con los criterios de inclusión
5
ABSTRACT y exclusión. La «población de estudio» es de la que
realmente se recogen los datos; suele ser la muestra de
The present article describes the criteria to be taken into estudio.
account in the selection of individuals to participate in a
research study. The bases for calculating the necessary Muestra
sample size and the most frequently utilized sampling Es el grupo de individuos que realmente se estudiarán,
techniques are also discussed. All these aspects depend es un subconjunto de la población. Para que se puedan
on the purpose of the study, its design and the type of generalizar a la población los resultados obtenidos en la
variables to be assessed. muestra, ésta ha de ser «representativa» de dicha
poslación. Para ello, se han de definir con claridad los
Keywords: sample size, sampling techniques,research study criterios de inclusión y exclusión y, sobre todo, se han de
utilizar las técnicas de muestreo apropiadas para
(Matronas Profesión 2004; vol. 5(18): 5-13) garantizar dicha representatividad.
Individuo
INTRODUCCIÓN Es cada uno de los integrantes de la población o
muestra en los que se estudiarán las características de
La preparación de un proyecto de investigación es una interés determinadas por los objetivos del estudio.
tarea compleja, ya que se han de tener en cuenta Normalmente, el número de individuos de la muestra se
multitud de aspectos para que el documento final representa con la letra «n» y el número de sujetos de la
contemple todos los apartados que cualquier estructura población por la «N».
estándar considera y para que todos los investigadores Tras la definición de las características de la población a
sepan con qué y cómo deben proceder en todas las través de los criterios de inclusión y exclusión, se ha de
etapas de ejecución del estudio planteado. decidir si se estudia a toda la población o –en caso de
Uno de los dilemas que se presenta cuando se inicia la que ésta sea demasiado grande– a un número de
elaboración del proyecto es decidir sobre los individuos sujetos representativo, que no han de ser ni pocos ni
o elementos que se incluirán en el estudio: qué demasiados, sino simplemente los necesarios.
Si se estudia a más sujetos de los que en realidad son El error sistemático o sesgo está relacionado con la
necesarios, se estarán derrochando recursos, tanto representatividad de la población; si la muestra
materiales como humanos, de los que, normalmente, estudiada reúne características diferentes a las que se
no se dispone en exceso. Si, por el contrario, se estudia producen en la población, aunque se aumente el tamaño
a pocos sujetos, no se tendrá la potencia o seguridad de la muestra, este error se mantiene y se obtendrán
suficiente sobre lo que se está haciendo, y puede valores diferentes en la muestra a los que realmente se
darse el caso de que no se encuentren diferencias dan en la población. Este error está relacionado con la
entre dos grupos, por ejemplo, cuando en realidad validez.
sí las hay.
El tamaño de la muestra necesario estará condicionado
por los objetivos del estudio, que determinarán el ESTIMACIÓN PUNTUAL Y ESTIMACIÓN
diseño, las variables que deben considerarse y todo el POR INTERVALOS
método planteado para dar respuesta a dichos objetivos.
Así, si el objetivo del estudio es conocer la prevalencia Estimar un parámetro es proponer un valor para el
de diabéticas en un grupo de mujeres embarazadas de mismo a partir de la muestra; un estimador del
un determinado centro de salud, lo que se desea porcentaje poblacional sería el porcentaje de diabéticas
conocer es una proporción y, en este caso, se habla de –al que se hacía mención anteriormente– de una
«estimación de parámetros». En Ciencias de la Salud, los muestra; a este tipo de estimación se le llama
estimadores de uso más frecuente son la proporción «estimación puntual». Es bastante probable que el valor
muestral (po) para estimar– la proporción en la población que se obtiene no sea realmente el valor del parámetro
(π) y la media muestral (X ) para estimar la media en la población.
poblacional (µ). Una alternativa mejor es la estimación por intervalos; se
Con dicha estimación, se pretende conocer la da con ella un rango de valores que contendrá el valor del
proporción poblacional, es decir, la proporción de parámetro con una cierta confianza o seguridad, que
diabéticas entre todas las embarazadas, a partir del habitualmente es del 95%. La afirmación hecha mediante
estudio de un solo grupo de ellas (una muestra). Los un «intervalo de confianza» (IC) es preferible a la hecha
datos que se obtienen de dicha muestra, llamados por estimación puntual, ya que permite cuantificar la
©
«estadísticos», sirven para conocer los datos de la magnitud del error asociado a la estimación.
población, llamados «parámetros»; por eso, se habla de Un concepto importante al realizar estimaciones es el
6 “conocer el tamaño de la muestra necesario, para la
estimación de parámetros con una determinada
«error estándar», que está relacionado con la calidad de
la estimación. Se ha estudiado una muestra de 100
precisión. Se pueden estimar diferentes parámetros, neonatos que tienen una media de peso de 3.200 g y
como una proporción, una media, un coeficiente... una desviación estándar (DE) de 80; si se estudia otra
Un caso diferente se produce cuando el objetivo del muestra de 100 se puede encontrar una media de
estudio planteado es, por ejemplo, conocer la efectividad 3.400 y una DE de 97; en otra muestra se pueden
de la ingesta de aceite de onagra sobre la incidencia de encontrar valores de 3.100 y 92, respectivamente, etc.,
mastalgia en relación con la ingesta de un placebo. y así se podrían estudiar muestras diferentes hallando
En este tipo de estudio, se planteará un diseño valores similares pero no iguales. El error estándar mide
experimental en el que interesa conocer si hay la variabilidad entre las diferentes medias de las
diferencias entre los dos grupos, el de mujeres que muestras; es decir, mide la dispersión imaginaria que
toman onagra y el de las que toman placebo; esta presentarían las distintas medias obtenidas en las
diferencia se ha de detectar con una determinada muestras estudiadas.
potencia, o lo que es lo mismo, se ha de poder Se utilizarán fórmulas diferentes según se pretenda
identificar esta diferencia si realmente existe. Por tanto, calcular el «error estándar de una media» (EEM) o el
aquí se plantea un «contraste de hipótesis». «error estándar de una proporción» (EEP).
En ambos casos, estimación de parámetros o contraste
de hipótesis, lo que se hace es una «inferencia», es
decir, trasladar los datos obtenidos en la muestra a la
población de la cual se ha extraído dicha muestra,
gracias a la parte de la estadística denominada
«inferencial». Es obvio que, al hacerlo, se pueden El tamaño de la muestra está
cometer errores, que básicamente pueden ser de dos condicionado por los objetivos
tipos: «error aleatorio» y «error sistemático o sesgo». del estudio, que determinarán
El error aleatorio es el derivado de trabajar con muestras su diseño, las variables a
y se puede cuantificar, está relacionado con la precisión.
A medida que se aumenta el tamaño de la muestra, este considerar y el método
error disminuye, hasta el punto de que si se estudia a planteado
toda la población el error aleatorio desaparece.
05-13 matr-18 12/4/03 12:25 Página 7
DE
EEM = ——–
√n Si se sustituye el EEM por su valor, visto anteriormente:
Cuando la variable es cualitativa, no hay un valor medio DE
que se pueda cuantificar, por tanto, se trataría de IC al 95% = × ± Zα = ——–
√n
cuantificar la dispersión de los porcentajes obtenidos en
diferentes muestras. En la fórmula intervienen la
proporción de sujetos que presentan la característica CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA
(p0) y la proporción de los que no la presentan (1- p0), ESTIMAR UNA PROPORCIÓN
expresado en tanto por uno, además del tamaño de la
muestra estudiada (1- p0 se sustituye muchas veces por Como ya se ha visto, el intervalo de confianza para
q, ya que 1= p+q, por tanto, q= 1-p). estimar una proporción está determinado por la
estimación puntual (po) y por la amplitud o anchura de
po · (1–po) dicho intervalo, denominada «precisión» (d).
EEP = ——–––––
√ n po · qo
d = Zα —–—
√ n
La amplitud del IC está directamente relacionada con
ese error que, en el caso de una media o una Despejando n, se obtiene la fórmula para calcular el
§
proporción, por ejemplo, es la mitad de dicha amplitud. número de observaciones o individuos necesarios para
El error está determinado por el tamaño de la muestra, estimar una proporción:
por lo que el tamaño «muestral» mínimo estará en
función del error máximo que se considere admisible. Z2α · po · qo
7
n = —–––––—–
El error de la estimación ha de ser suficientemente d2
pequeño para considerar que la estimación es precisa,
lo que determina que el intervalo de confianza sea Por tanto, es evidente que las dos cosas más
suficientemente estrecho. importantes que determinan el intervalo de confianza
son las que se han de tener en cuenta para calcular el
Intervalo de confianza de una proporción tamaño de la muestra: la anchura del intervalo o
La fórmula para calcular el intervalo de confianza al precisión (d= 1/2 de la amplitud del IC) y la confianza o
95% de una proporción es: seguridad establecida (1-α). Ambas han de ser
determinadas a priori por el investigador, al igual que el
IC al 95%= po ± Za EEP valor de p que se pretende estimar, a partir de la
bibliografía o con los resultados de la prueba piloto.
Si se sustituye el EEP por su valor, visto anteriormente: Ejemplo: ¿Cuántas mujeres será necesario estudiar para
estimar la prevalencia de dolor lumbar en una población
po · qo) de embarazadas?
IC al 95% = po ± Zα = ——–– Con un nivel de confianza del 95% (α= 0,05; Zα= 1,96),
√ n un error máximo admitido del 8% (la amplitud del IC
será 16) y un valor de prevalencia conocido por la
po: es la prevalencia esperada del parámetro que se ha bibliografía del 20%, el tamaño de la muestra necesario
de estimar. será de 96 mujeres:
Zα: es el nivel de confianza elegido, determinado por el
valor de α. Para una confianza del 95% (α= 0,05), que es 1,962 · 0,20 · 0,80 0,614656
n = —–––––—–––––– = —–––––— = 96
la utilizada habitualmente, este valor es de 1,96; aunque se 0,08 2 0,0016
pueden usar otros valores, que se presentan en la tabla 1.
El tamaño de la muestra dependerá de los valores que
Intervalo de confianza de una media se introduzcan en la fórmula, de modo que, para
La fórmula para calcular el intervalo de confianza
– al 95% una mayor precisión (IC más estrecho), se necesitará un
de una media es la siguiente: IC al 95%= (X ) ± Zα EEM mayor tamaño de la muestra, al igual que si se desea
©
o si lo desconocemos. Algunos de los programas Z2α · DE2 1,962 · 202
utilizados para el cálculo incorporan una casilla para n = —––––– n = —––––––– = 62
d2 52
8 incluir el tamaño de la población, otros la calculan
basándose en poblaciones infinitas sin advertirlo, ya Además, cuando se pretenda determinar el tamaño que
que, en la práctica, esta diferenciación no es importante, debe tener una muestra, hay que tener en consideración
pues el número calculado con un método u otro no varía el tipo de muestreo. Casi todas las fórmulas que se
significativamente. utilizan asumen que el muestreo es aleatorio, es decir,
Si se calcula con el programa EpiInfo el tamaño de la que todos los sujetos tienen la misma probabilidad de
muestra para estimar una proporción con los valores entrar a formar parte del estudio. Si el muestreo no es
del ejemplo anterior: nivel de confianza del 95%, una aleatorio, se tiene en cuenta el llamado «efecto de
precisión del 8%, y un valor de prevalencia del 20%, diseño», por el que se ha de multiplicar el valor
con una cuyo tamaño de la población sea de 999.999 calculado. En el muestreo aleatorio este valor es 1.
(es el que el programa muestra por defecto), el tamaño Generalmente, este valor está entre 1,5 y 3. Así, un valor
de la muestra resultante es de 97 mujeres. Si el igual a 2, por ejemplo con un muestreo estratificado,
tamaño de la población fuese de 9.999, el tamaño significa que para obtener la misma precisión habrá que
sería de 96 mujeres, y con una población de 999, estudiar al doble de individuos que con muestreo
de 88. aleatorio. Si se necesitaban 200, se deberán estudiar
Cuando se desea calcular el tamaño de la muestra 400 (200 × 2).
necesario para estimar una proporción –en caso que Otro aspecto que debe tenerse en cuenta es el de las
p= 0,5 y si se redondea a 2 el valor de Z–, se puede pérdidas que se prevén, es decir, los sujetos de los
utilizar la siguiente fórmula resumida: cuales no se tendrá información. Para cuantificarlas se
usa la siguiente fórmula:
Z2α · p · q 2 · 0,5 · 0,5 1
n = —–––––—– = —–––––—– n = —– n
d2 d2 d2 nc = —––––
1 – pe
CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA nc= tamaño de la muestra, teniendo en cuenta las
ESTIMAR UNA MEDIA pérdidas;
n= tamaño de la muestra, sin tener en cuenta las
Siguiendo el mismo razonamiento que para la estimación pérdidas;
de proporciones, a partir de la fórmula del IC de la media pe= porcentaje esperado de pérdidas.
05-13 matr-18 12/4/03 12:25 Página 9
§
Es el caso de los estudios con un diseño experimental, En el contraste bilateral, el parámetro puede ser
en los que se hace una intervención en dos grupos, la mayor o menor en cualquiera de los dos grupos de
habitual al «grupo control» y la que se pretende evaluar
al «grupo experimental». Lo que desea el investigador es
estudio. 9
conocer si hay diferencias entre los dos grupos, para lo Comparación de proporciones
que plantea un contraste de hipótesis, con la Para calcular el tamaño de la muestra necesario en
comparación de medias o proporciones, dependiendo cada grupo de estudio, los valores que se han conocer
del tipo de variables. Se plantean así dos tipos de son: riesgo α deseado (habitualmente 0,05), riesgo β
hipótesis: la nula y la alternativa. En la primera se (habitualmente 0,20), proporción en el grupo control y
establece que no hay diferencias entre los dos grupos proporción en el grupo experimental. Y decidir si el
para la variable de interés; en la segunda, sí se plantea contraste es bilateral o unilateral.
una diferencia, que es la que se pretende encontrar con
el estudio.
Figura 1. Pantalla de resultados del programa EPIDAT Figura 2. Pantalla de resultados del programa GRANMO
©
en el grupo que lo tome. El redactado del resultado
Ejemplo: se desea conocer el tamaño de la muestra obtenido mostrado sería:
10 necesario para un estudio cuyo objetivo es «conocer la
efectividad de la ingesta de aceite de onagra sobre
Aceptando un riesgo α= 0,05 y un riesgo β= 0,20
en un contraste unilateral, se precisan 18 sujetos
la incidencia de mastalgia en relación con la ingesta en el primer grupo y 18 en el segundo para
de placebo». En este caso, como ya se ha mencionado detectar una diferencia ≥0,40 entre ambos.
anteriormente, se planteará un diseño experimental en el Se asume una proporción del 0,40 en uno de los
que interesa conocer si existen diferencias en la grupos. Se ha estimado una tasa de pérdidas
incidencia de mastalgia entre los dos grupos: el de las de seguimiento del 0,0. Se ha utilizado la
mujeres que toman onagra y el de las que toman placebo. aproximación del ARCOSENO.
Se asume un riesgo α= 0,05, un riesgo β= 0,20; la 20/02/05 23:04:35 Dos proporciones independientes
proporción de mastalgia en el grupo control es del 80%, (Menú de Proporciones).
en el grupo experimental del 40%, para un contraste
unilateral. Según el programa con el que se calcule, los Comparación de medias
parámetros que se deberán introducir son diferentes. En este caso, los valores que se han conocer son: riesgo α
En la figura 3 se presenta la pantalla de introducción de deseado (habitualmente 0,05), riesgo β (de manera
datos del programa EpiCalc. habitual 0,20), variancia o DE de la variable y valor
Los resultados obtenidos serían: mínimo de la diferencia que se ha de detectar. Y decidir
Tamaño de la muestra - dos proporciones también si el contraste es bilateral o unilateral.
Proporción 1: 80,00%. La fórmula que se emplea para calcular el tamaño de la
Proporción 2: 40,00%. muestra en este caso es:
Significación: 0,05.
Poder: 80%. 2(Zα + Zβ)2 * S2
n = —–––––—–––
d2
Tamaño de la muestra: 22 (cada grupo).
Tamaño de la muestra: 44 (total). Donde:
Puede observarse que, en ambos programas, el resultado Zα es el valor Z correspondiente al riesgo α fijado;
indica que son necesarias 22 mujeres en cada grupo. Zβ es el valor Z correspondiente al riesgo β fijado;
Mientras que el programa EpiCalc no permite diferenciar S es la desviación estándar,
el tipo de contraste y por defecto asume que es bilateral y d es el valor mínimo de la diferencia que se desea
(ya que el tamaño de la muestra siempre es superior), el detectar.
05-13 matr-18 12/4/03 12:25 Página 11
§
sujetos del estudio y se ha calculado el número número se denomina «fracción de muestreo» (k) y se
necesario, sólo queda determinar la manera en calcula dividiendo el total de la población por la muestra
que serán seleccionados de la población a la que
pertenecen. Se denomina muestreo al procedimiento
necesaria: 11
mediante el cual se obtiene una muestra de la N
k = ——
población. n
Existen dos tipos de muestreo: el «probabilístico» y el
«no probabilístico». Si se tiene una población de 8.000 individuos y el
Con el muestreo «probabilístico», todos los sujetos tamaño de la muestra necesario es de 400, se
tienen la misma probabilidad de entrar a formar parte seleccionará uno de cada 20, que será la fracción de
del estudio. La elección se hace al azar. El «no muestreo (8.000/400). Para decidir por cuál se ha de
probabilístico» es aquel en el que no todos los sujetos comenzar, se selecciona aleatoriamente, o por sorteo, un
tienen la misma probabilidad de formar parte de la número del 1 al 20, y a partir de dicho número se va
muestra de estudio. seleccionando a un sujeto de cada 20.
Los tipos de muestreo «probabilístico» más utilizados
son: aleatorio simple, aleatorio sistemático, aleatorio Muestreo aleatorio estratificado
estratificado y aleatorio por conglomerados. En este tipo de muestreo se divide a la población en
subgrupos o estratos que tienen alguna característica
Muestreo aleatorio simple común; e interesa mantener estos estratos en la
Para poder realizar este tipo de muestreo, todos los muestra, para que mantenga la misma composición que
individuos de la población deben estar numerados en un la población. La selección de sujetos dentro de cada
listado. Normalmente, se hace a partir de un listado de estrato se realizará aleatoriamente. La estratificación se
números aleatorios, disponible en casi todos los libros suele hacer en función de diferentes variables o
de estadística, con un programa estadístico, o con características de interés: género, edad, situación
alguno de los programas para calcular el tamaño de la laboral, etc.
muestra que tenga la opción de generar listados de Si se desea efectuar una estratificación por género y se
números aleatorios. sabe que en la población la distribución es del 55% de
Si no se dispone del listado de individuos, no se podrá mujeres y 45% de hombres, la muestra ha de mantener
utilizar esta técnica de muestreo, por lo que se debe esta misma proporción. Por tanto, si el tamaño de la
recurrir a otro tipo de muestreo que no precise tener a muestra es de 400, se elegirán aleatoriamente 220
los individuos identificados. mujeres y 180 hombres.
©
compongan la muestra de estudio.
Si se pretende estudiar, por ejemplo, alguna En resumen, los aspectos más importantes que deben
12 característica de las mujeres embarazadas que acuden
para el parto a los hospitales públicos de todo el
ser considerados por parte del equipo investigador,
cuando se plantea qué sujetos se estudiaran, son:
Estado español, en una primera etapa se elegirían características de la población; criterios de inclusión y
aleatoriamente un número de provincias, después un criterios de exclusión. Una vez definidos, se ha de
número de hospitales de estas provincias, a continuación decidir si se estudia a toda la población o, si ésta es
un número de servicios de paritorio de estos hospitales, y demasiado grande, si se estudia una muestra. Es
finalmente se elegirían, también de manera aleatoria, el imprescindible, entonces, calcular el tamaño necesario
número de mujeres de cada uno de los servicios. de la muestra según: los objetivos del estudio, el diseño
Los tipos de muestreo «no probabilístico» más utilizados planteado y el tipo de variables; y decidir qué técnica de
son: accidental, de conveniencia, por cuotas y por bola muestreo se utilizará para seleccionar a los sujetos.
de nieve. Todo ello debe quedar reflejado con detalle en el
protocolo de investigación, en el que han de indicarse,
Muestreo accidental además, los valores que se han empleado para calcular
Este tipo de muestreo se denomina también el tamaño de la muestra.
«consecutivo», ya que la selección de los sujetos de
estudio se hace en función de su presencia o no en un
lugar y un momento determinados. Es el caso, por BIBLIOGRAFÍA
ejemplo, de la inclusión de las mujeres a medida que
van acudiendo al hospital, o el de un encuestador Ahnn S, Anderson S J. Sample size determination for comparing more
que, en la calle, entrevista a las personas que pasan en than two survival distributions. Stat Med. 1995; 14: 2.273-2.282.
ese momento por allí. Argimon JM, Jiménez J. Métodos de investigación: Aplicados a la
Aunque puede parecer similar al muestreo Atención Primaria de Salud. Madrid: Mosby / Doyma Libros; 1996.
«probabilístico», es evidente que no todas las personas Armitage P, Berry G. Estadística para la investigación biomédica.
tienen la misma probabilidad de estar en el momento y 1ª ed española. Barcelona: Doyma; 1992.
el lugar donde se selecciona a los sujetos. Canales FH, De Alvarado EL, Pineda EB. Metodología de la
investigación. Manual para el desarrollo de personal de salud. 7ª ed
Muestreo de conveniencia México: Limusa; 1994.
Los investigadores deciden, según sus criterios de Cantor AB. Sample size calculating for Cohen’s K. Psychol Methods.
interés y basándose en los conocimientos que tienen 1996; 1: 150-153.
05-13 matr-18 12/4/03 12:25 Página 13
Cohen J. Statistical Power Analysis for the Behavioural Sciences. 2nd Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Selection on
ed. New Jersey: Lawrence Earlbaum; 1988. controls in case-controls studies. III. Design Options. Am J Epidemiol.
Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. 1992; 135 (9): 1.042-1.049.
Preparar un proyecto de investigación. Barcelona: SG Editores; 1991. Wikipedia. La Enciclopedia libre. Tamaño de la muestra. [acceso 20
Dawson-Saunders B, Trapp R. Bioestadística médica. México: El feb 2005]. Disponible en: http://es.wikipedia.org/wiki/Tama%C3%
Manual moderno; 1993. B1o_de_la_muestra.
Fernández C. Cálculo de la muestra. ¿Cómo y por qué?
Gastroenterología y Hepatología Continuada. 2004; 3(3): 138-142. Programas gratuitos para el cálculo del tamaño
Fleiss J.L. Statistical methods for rates and proportions. Nueva York: de la muestra
John Wiley & Sons; 1981. EpiCalc: http://www.brixtonhealth.com/epicalc.html
García C, Almenara J. Determinación del tamaño de muestra en EPIDAT: http://dxsp.sergas.es/default.asp
variables cualitativas en las que se desconoce el valor del parámetro. EpiInfo: http://www.cica.es/epiinfo/
Med Clin (Barc). 1999; 112: 797-798. GRANMO: http://www.imim.es/
Hospital Ramón y Cajal. Material docente de la Unidad de PS (Power and Sample Size):
Bioestadística Clínica. [acceso 20 feb 2005]. Disponible en: http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/PowerSample
http://www.hrc.es/investigacion/bioest/M_docente.html. Size
Hulley SP, Cummings SR. Diseño de la Investigación Clínica. Un Muestra y otros cálculos estadísticos:
enfoque epidemiológico. Barcelona: Doyma; 1993. http://members.aol.com/johnp71/javastat.html#Power
Icart MT, Fuentelsaz C, Pulpón AM. Elaboración y presentación de un
proyecto de investigación y una tesina. Barcelona: Edicions de la
Universitat de Barcelona; 2000. Correspondencia
Jones SR, Carley S, Harrison M. An introduction to power and sample Carmen Fuentelsaz
size estimation. Emerg Med J [serie en internet]. 2004 [acceso 20 cfuentelsaz@vhebron.net
feb 2005] 20: 453-458. Disponible en:
http://emj.bmjjournals.com/cgi/content/full/20/5/453.
Lwanga SK, Lemeshow S. Determinación del tamaño de las
muestras en los estudios sanitarios: manual práctico. Ginebra:
§
Organización Mundial de la Salud; 1991.
Marrugat J, Vila J, Pavesi J, Sanz F. Estimación del tamaño de
muestra en la investigación clínica y epidemiológica. Med Clin (Barc).
1998; 111: 267-276.
13
Marrugat J, Vila J, Pavesi J. Supuesto de máxima indeterminación:
¿error absoluto o error relativo en el cálculo del tamaño de la
muestra? Gac Sanit. 1999; 13(6): 491-493.
Obuchowsky N. Sample size calculations in studies of test accuracy.
Stat Methods Med Res. 1998; 7: 371-392.
Pita S. Metodología de la investigación. Fisterra. [acceso 20 feb
2005]. Disponible en: http://www.fisterra.com/mbe/investiga/
index.asp.
Sala de lectura. Editorial Doyma. [acceso 20 feb 2005].
Disponible en: http://www.atheneum.doyma.es/socios/
sala_l/lect_bt.htm.
Saturno PJ. La distribución binomial y el muestreo
para la aceptación de lotes (LQAS) como métodos de
monitorización en servicios de salud. Rev Calidad Asistencial. 2000;
15: 99-107.
Silva LC. Cultura estadística e investigación científica en el campo de
la Salud. Una mirada Crítica. Madrid: Díaz de Santos; 1997.
Silva LC. Diseño razonado de muestras y captación de datos para la
investigación sanitaria. Madrid: Díaz de Santos; 2000.
Silva LC. Muestreo para la investigación en Ciencias de la Salud.
Madrid: Díaz de Santos; 1993.
Silva LC. Nueva visita al supuesto de máxima indeterminación y al
empleo de errores absolutos y relativos. Gac Sanit. 2000; 14(3):
254-257.
Suárez P, Alonso JC. Sobre el supuesto de máxima indeterminación,
el tamaño muestral y otras consideraciones sobre muestreo. Gac
Sanit. 1999; 13(3): 243-246.
ANÁLISIS DESCRIPTIVO
http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
ÍNDICE
1.0. Conceptos generales...................................................................................................................... 3
1.1. Tablas de frecuencias .................................................................................................................... 6
1.2. Tablas de contingencia.................................................................................................................. 9
1.3. Estadísticos descriptivos............................................................................................................. 10
1.3.1. Medidas de tendencia central ............................................................................................ 11
1.3.2. Medidas de dispersión........................................................................................................ 14
1.3.3. Cuantiles .............................................................................................................................. 16
1.3.4. Medidas de forma ............................................................................................................... 16
1.4. Correlación ................................................................................................................................... 19
1.5. Gráficos ......................................................................................................................................... 22
1.5.1. Gráfico de barras ................................................................................................................. 24
1.5.2. Gráfico de sectores .............................................................................................................. 25
1.5.3. Gráfico de líneas .................................................................................................................. 26
1.5.4. Gráfico de dispersión .......................................................................................................... 27
1.5.5. Histograma .......................................................................................................................... 28
1.5.6. Diagrama de cajas ............................................................................................................... 30
1.5.7. Gráfico de intervalos de confianza .................................................................................... 32
Bibliografía .......................................................................................................................................... 34
Anexo 1: Fórmulas del módulo de análisis descriptivo ................................................................ 36
http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
http://dxsp.sergas.es 3
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
http://dxsp.sergas.es 4
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
En el año 2005 se implantó en Galicia un Sistema de Información sobre Conductas de Riesgo
(SICRI) que realiza encuestas telefónicas anuales en la población general adulta mediante un
sistema CATI (Computer Asisted Telephone Interview). La encuesta de 2010 estaba dirigida
a la población de 16 años y más residente en Galicia, e incluyó n=7.845 personas
seleccionadas por muestreo aleatorio estratificado a partir del registro poblacional de Tarxeta
Sanitaria. El cuestionario incluyó, además de preguntas sociodemográficas (sexo, edad,
estado civil, nivel de estudios, situación laboral), bloques sobre estado de salud, consumo de
tabaco y medidas antropométricas, entre otros. Para ilustrar los métodos incluidos en el
módulo de análisis descriptivo de Epidat 4 se utilizará una submuestra de 2.000 personas de
la encuesta SICRI-2010 y un subconjunto de variables. Los datos se encuentran en el archivo
SICRI-2010.xls, que contiene las siguientes variables:
http://dxsp.sergas.es 5
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
- ID: Nº de identificación.
- SEXO: 1-Hombre, 2-Mujer.
- EDAD: Edad en años en el momento de la encuesta.
- GEDAD: Grupo de edad: 1- 16 a 24, 2- 25 a 44, 3- 45 a 64, 4- 65 años y más.
- ESTUDIOS: Máximo nivel de estudios completados: 1-Sin estudios, 2-Nivel básico, 3-
Nivel medio, 4-Nivel superior.
- E_CIVIL: Estado civil: 1-Casado/vive en pareja, 2-Soltero, 3-Separado, 4-Viudo
- ESALUD: Estado de salud autopercibida: 1-Muy bueno, 2-Bueno, 3-Regular, 4-Malo,
5-Muy malo.
- TABACO: Relación con el tabaco: 1-Fumador, 2-Exfumador, 3-Nunca fumador.
- PESO: Peso en Kg.
- TALLA: Talla en cm.
- IMC: Índice de masa corporal en Kg./m2.
- IMC_CAT: Categorías de IMC: 1-Bajo peso (IMC<18,5), 2-Peso normal
(18,5IMC<25), 3-Sobrepeso (25IMC<30), 4-Obesidad (IMC30).
Con estos datos puede decirse que el 46,73% de los encuestados no tiene problemas de
exceso de peso. Cabe señalar que el número de observaciones de la tabla (1.776) es inferior al
número de registros del archivo utilizado para obtenerla (2000); la diferencia se debe a los
valores ausentes de la variable IMC.
http://dxsp.sergas.es 6
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
Para describir el perfil demográfico de los 2.000 encuestados en el SICRI-2010 hay que
conocer la distribución por sexo y grupos de edad. En Epidat 4 las dos tablas de frecuencias
se pueden hacer simultáneamente identificando SEXO y GEDAD como variables para
resumir.
http://dxsp.sergas.es 7
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Los datos indican que en la muestra hay aproximadamente la misma proporción de mujeres
que de hombres, con una ligera diferencia a favor de las mujeres, y que casi la mitad de los
encuestados (47%) tienen menos de 45 años.
Si la variable SEXO se utiliza para segmentar los resultados se obtiene la distribución de la
muestra por grupos de edad separadamente para hombres y mujeres.
http://dxsp.sergas.es 8
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
http://dxsp.sergas.es 9
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
La distribución de la muestra de 2.000 individuos de la encuesta SICRI-2010 por grupos de
edad para cada sexo puede obtenerse haciendo una tabla de contingencia, y se obtienen los
mismos resultados que en el ejemplo anterior.
Resultados con Epidat 4:
http://dxsp.sergas.es 10
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Media
La media, también llamada media aritmética o promedio, es una de las medidas de
tendencia central más conocida y utilizada. Su cálculo se realiza sumando todas las
observaciones (x1, x2, …, xn) y dividiendo la suma entre el número total de sumandos (n), es
decir:
n
x x 2 ... x n
xi
i 1
x 1
n n
Por tanto, en este sencillo cálculo intervienen todas las observaciones y se obtiene un valor
único. Sin embargo, la media debe utilizarse con precaución cuando los datos siguen una
distribución muy asimétrica (con valores extremos, muy alejados de la media, colocados a un
lado de la distribución), ya que es muy sensible cuando la serie incluye tales valores. Estos
valores “tiran” de la media hacia ellos, por lo que su interpretación podría producir una falsa
ilusión de que la media refleja un valor “característico” o “típico” de la serie. . En estos casos
es recomendable utilizar la mediana como medida de tendencia central o, al menos,
presentar ambas medidas.
El siguiente ejemplo ilustra elocuentemente esta situación: en una muestra de 237 pacientes
ingresados con síndrome coronario agudo la estancia media en la unidad coronaria fue de
4,4 días. La tabla de frecuencias de la variable, obtenida con Epidat 4, es la siguiente:
Valor Frecuencia Porcentaje Porcentaje acumulado
0 2 0,84 0,84
1 23 9,70 10,55
2 68 28,69 39,24
3 53 22,36 61,60
4 37 15,61 77,22
5 19 8,02 85,23
6 11 4,64 89,87
7 10 4,22 94,09
8 7 2,95 97,05
10 1 0,42 97,47
11 1 0,42 97,89
12 1 0,42 98,31
13 1 0,42 98,73
15 1 0,42 99,16
35 1 0,42 99,58
185 1 0,42 100,00
Total 237 100,00
Puede observarse que para el 90% de los pacientes la duración de la estancia no superó una
semana, en tanto que la estancia de uno de ellos fue muy superior a la del resto (185 días). Si
http://dxsp.sergas.es 11
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
se recalcula la media eliminando este paciente, el resultado se reduce a 3,6 días, lo que
supone una diferencia considerable. El interés de calcular la media sin ese valor extremo
reside justamente en que 3,6 representa mejor que 4,4 al valor en torno al cual se ubican los
datos.
Una generalización de la media aritmética es la media ponderada, que se basa en la idea de que
las observaciones no tengan igual peso o importancia, y se calcula de la siguiente manera:
n
w x i i
x i 1
n
w
i 1
i
donde (w1, w2,…,wn) son los pesos correspondientes a las observaciones (x1, x2,…,xn).
Epidat 4 no contempla el cómputo de esta generalización; únicamente realiza el cálculo de la
media aritmética es decir, cuando todos los pesos de las observaciones toman el mismo
valor.
Mediana
La mediana es el valor de la variable que tiene la propiedad de dividir a la distribución en
dos partes iguales, de tal manera que deja por debajo al 50% de las observaciones y por
encima al otro 50%, una vez ordenados los datos en función de su magnitud.
A diferencia de lo que ocurre con la media, la mediana no es tan sensible a valores extremos,
ya que está basada en la posición que ocupan las observaciones y no en su magnitud. Si el
número de observaciones es impar, la mediana es el valor que ocupa la posición central, es
decir, el que está en el lugar (n+1)/2 de los datos ordenados de menor a mayor. Con un
número par de resultados, la mediana se calcula como la media aritmética de los dos valores
situados en el centro, que son los que ocupan las posiciones n/2 y (n/2)+1.
Siguiendo con el ejemplo de la estancia en la unidad coronaria, la duración mediana
calculada con los datos de los 237 pacientes es de 3 días, la misma que se obtiene si se elimina
el paciente que permaneció 185 días ingresado en esa unidad.
Moda
La moda es el valor que se presenta más frecuentemente en un conjunto de observaciones.
Este valor puede no ser único, de forma que cuando sólo existe una moda se dice que la
distribución de los datos es unimodal, cuando existen dos modas se dice que es bimodal, y
así sucesivamente. Esta característica le resta eficacia como medida de tendencia central por
lo que no resulta útil en la práctica.
Un ejemplo en el que no tendrían sentido la media ni la mediana y en el que sería adecuada
la moda es el siguiente: un profesor de estadística propone a sus 30 alumnos que resuelvan
un ejercicio consistente en calcular la varianza de un conjunto de datos, y anota en la pizarra
el resultado obtenido por cada uno de ellos. Muy probablemente, la moda de esos 30 valores
coincide con el resultado correcto del ejercicio.
Cuando los datos tienen una distribución aproximadamente simétrica y unimodal, es decir,
se distribuyen de forma similar a ambos lados de la media, entonces la media, la mediana y
la moda coinciden o tienen valores muy próximos. Cuando los datos no son simétricos,
http://dxsp.sergas.es 12
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Media geométrica
La media geométrica es un tipo de media poco usual, pero más adecuada que la media
aritmética para describir crecimiento proporcional. Se define como la raíz n-ésima del
producto de n observaciones; es decir, es el valor que multiplicado por si mismo tantas veces
como datos haya, resulta igual al producto de todos ellos. Formalmente, la fórmula es:
n
xg n
x
i 1
i
n
donde x
i 1
i representa el producto de todos los valores de la serie.
Es fácil comprobar que la media geométrica puede calcularse también como la exponencial
de la media aritmética del logaritmo neperiano de los valores de la variable:
n
Ln x i
x g exp i 1
n
La media geométrica es menos sensible a valores atípicos que la media, puesto que la
transformación logarítmica “contrae” los datos; pero también resulta más difícil de
interpretar. Un ejemplo que puede ilustrar bien su uso es el siguiente: el número de casos de
cierta enfermedad en una población se ha reducido un 87% en los últimos años, pasando de
1.509 en el año 2000 a 203 en 2009. La siguiente tabla recoge los casos anuales y los
porcentajes de cada año con respecto al año previo:
% respecto al
Año Casos año previo
2000 1509 -
2001 1360 90,1
2002 1303 95,8
2003 1255 96,3
2004 1055 84,1
2005 985 93,4
2006 851 86,4
2007 736 86,5
2008 636 86,4
2009 203 31,4
La media geométrica de los nueve porcentajes es 80, y este valor caracteriza el descenso
anual del número de casos durante el período, pues calculando sucesivamente el 80%
empezando en los casos del año 2000 se obtiene finalmente el valor de 2009:
http://dxsp.sergas.es 13
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Varianza
La varianza, denotada por s2, es una medida de dispersión que cuantifica el grado de
variabilidad de los datos en torno a la media. Se calcula como la media aritmética del
cuadrado de las distancias entre cada observación y la media de todas ellas y, por tanto, es
un valor positivo o nulo; este último caso se da cuando todas las observaciones son iguales
entre sí y, en consecuencia, no hay variabilidad. La razón de elevar al cuadrado las distancias
de cada observación a la media es convertirlas en positivas, ya que la media aritmética tiene
la propiedad de estar en el “medio” de los datos; es decir, unas distancias son positivas y
otras negativas, y la suma de todas ellas es igual a cero:
n
x
i 1
i x 0
La varianza permite hacerse una idea del grado de dispersión de una variable, de forma que
a mayor valor de la varianza, mayor dispersión de los datos. Sin embargo, más allá de esta
interpretación general, no es sencillo valorar el significado de su magnitud, ya que está
expresada en las unidades empleadas para las observaciones (que son las de la media, claro
está) pero al cuadrado. Si, por ejemplo, tuviéramos las estaturas medidas en metros para 100
sujetos, la media vendría dada también en metros, pero la varianza es una magnitud en
metros al cuadrado.
Si en la fórmula de la varianza se sustituye el número de observaciones n por n-1, se obtiene
la cuasivarianza. Esta medida tiene mejores propiedades que la varianza como estimador de
http://dxsp.sergas.es 14
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
la varianza poblacional; por esta razón su uso está muy extendido, sobre todo en el mundo
de la bioestadística, hasta el punto de que es habitual ver definida la varianza como la
cuasivarianza. Por este motivo, Epidat 4 calcula la varianza usando la fórmula de la
cuasivarianza y, en adelante, el término varianza siempre hará referencia a la cuasivarianza.
Desviación típica
La desviación típica o desviación estándar (s) se calcula como la raíz cuadrada positiva de la
varianza y, por tanto, está expresada en las mismas unidades que la media. Esta medida da
idea de la dispersión de los datos con respecto a su media aritmética; así, al comparar dos
grupos de datos, el grupo con menor variabilidad exhibe menor desviación estándar . Debe
tenerse en cuenta que la desviación estándar tiene unidades de medida, las mismas que la
media, por lo que carece de sentido comparar las desviaciones de dos variables que no estén
relacionadas o que estén expresadas en distintas unidades.
La pareja de valores conformada por la media y la desviación típica de un conjunto de datos,
permite en muchas ocasiones caracterizar su distribución de valores. Si la distribución es
aproximadamente simétrica y unimodal, puede decirse que aproximadamente el 95% de los
valores se encuentran en el intervalo x 2s . Para otras situaciones, la desigualdad de
Chebychev [6] permite afirmar que para cualquier número k1, por lo menos el [1-(1/k)2] de
las observaciones están dentro de k desviaciones estándar de su media; por ejemplo, si k=2,
el intervalo x 2s contiene al menos el 75% de los datos. Esta regla es menos específica
que la anterior, pero es independiente de la forma de los datos.
Coeficiente de variación
El coeficiente de variación (CV) es una medida de variabilidad relativa que relaciona la
desviación estándar de un conjunto de observaciones con su media, ya que, por ejemplo, una
desviación estándar de 10 cm no significa lo mismo en un conjunto de datos con media 10
que si la media es 1.000; en el primer caso, la variabilidad es el 100% de la media mientras
que en el segundo es solo el 1%. El CV se calcula como el cociente entre la desviación
estándar y la media, que están expresados en las mismas unidades, de modo que el resultado
es un coeficiente adimensional. En la práctica es habitual presentarlo multiplicado por 100,
aunque Epidat 4 no lo muestra de esa manera.
El CV es una herramienta útil para comparar la dispersión de variables que tienen distintos
valores medios, o que emplean distintas unidades, lo que impide una comparación directa
de sus desviaciones típicas ya que, normalmente, la variabilidad aumenta con la media. Por
ejemplo, el peso medio al nacer de los niños nacidos en Galicia durante el año 2005 fue de
3.219 gr., con una desviación estándar de 533 gr.; en una muestra de niños gallegos de 12
años seleccionados en 2005 para participar en un estudio de salud bucodental, el peso medio
fue de 47 Kg. con una desviación estándar de 10,1 Kg. Para comparar la variabilidad del peso
en las dos poblaciones es obvio que se podrían pasar todos los valores a las mismas
unidades, gr. o Kg., pero las medias son muy distintas, por lo que es más adecuado utilizar el
coeficiente de variación, que es del 17% en el caso de los recién nacidos y del 22% para los
niños de 12 años.
Para utilizar el CV, se recomienda que la variable tome solo valores positivos.
http://dxsp.sergas.es 15
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Recorrido
El recorrido (R) mide la amplitud de las observaciones y se calcula como la diferencia entre
los valores máximo y mínimo. El hecho de que este coeficiente utilice sólo dos valores de las
observaciones disponibles hace que sea una medida ineficiente, muy sensible a valores
extremos. Por este motivo, resulta más conveniente utilizar la varianza y la desviación típica
para medir la dispersión.
Recorrido intercuartílico
El recorrido intercuartílico (RI) se calcula como la diferencia entre el tercer y el primer cuartil
y se corresponde con el recorrido de los datos que ocupan el 50% central de las
observaciones.
1.3.3. Cuantiles
Los cuantiles son valores que dividen un conjunto de datos en grupos de igual tamaño. Para
obtener N grupos es necesario definir N-1 cuantiles, que reciben distintos nombres en
función del valor de N: percentiles (N=100), deciles (N=10), quintiles (N=5), cuartiles (N=4) o
mediana (N=2) [7].
Los percentiles son útiles en el análisis exploratorio de datos y en el análisis descriptivo
porque permiten valorar la dispersión, la simetría y la distribución de los datos, sobre todo
de forma visual mediante los diagramas de caja que se describirán más adelante. También
suelen utilizarse para categorizar variables continuas como, por ejemplo, el nivel de
colesterol, de forma que se clasifica a los individuos en grupos de igual tamaño. Esto facilita
la presentación de los datos en forma de tablas o gráficos, aunque supone una pérdida de
información, que será mayor cuanto más grandes sean los grupos.
Una aplicación muy extendida de los percentiles se realiza en pediatría, para valorar el
crecimiento de los niños. Las curvas de crecimiento desarrolladas a partir de estudios
longitudinales, como por ejemplo las de la Fundación Orbegozo [8], proporcionan una
estimación de los percentiles de peso y talla para cada edad y sexo, y esos valores se usan en
las revisiones infantiles como referencia de un adecuado crecimiento.
Asimetría
El coeficiente de asimetría cuantifica en qué medida las observaciones de un conjunto de datos
se distribuyen simétricamente alrededor de la media. Su interpretación, que solo tiene
sentido cuando la distribución es unimodal, es la siguiente: si la variable es simétrica
entonces el coeficiente de asimetría toma el valor cero; cuando la distribución de valores
presenta una cola hacia la izquierda, el coeficiente toma un valor negativo (asimetría
http://dxsp.sergas.es 16
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Curtosis
El coeficiente de curtosis (coeficiente de apuntamiento o exceso de curtosis) mide el grado de
apuntamiento de una distribución con respecto a la distribución normal con la misma media
y varianza. La interpretación de este coeficiente tiene sentido siempre que la distribución sea
unimodal y esencialmente simétrica, de forma que, si la distribución presenta el mismo perfil
que la normal con la misma media y varianza, entonces el coeficiente de curtosis toma el
valor cero (distribución mesocúrtica); cuando la distribución es más apuntada que la normal
correspondiente, el valor del coeficiente es positivo (distribución leptocúrtica) y, por último,
si la distribución es más “aplastada” se tiene un valor del coeficiente negativo (distribución
platicúrtica).
http://dxsp.sergas.es 17
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
Para caracterizar la distribución del índice de masa corporal en la muestra de adultos jóvenes
del SICRI-2010, se calculan estadísticos descriptivos de esta variable para hombres y mujeres
por separado en el grupo de 25 a 44 años. En Epidat, trabajando con el archivo SICRI-
2010.xls, hay que seleccionar la variable IMC para resumir, segmentar por SEXO y definir un
filtro con la condición GEDAD=2.
Resultados con Epidat 4:
http://dxsp.sergas.es 18
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Los resultados obtenidos indican que el promedio de IMC en los hombres de la muestra
supera ligeramente al punto de corte que indica sobrepeso (25 Kg./m2), mientras que en las
mujeres, la media está por debajo de dicho valor. En ambos casos, la media y la mediana
tienen valores próximos, lo que es indicativo de que la variable tiene una distribución
simétrica. En cuanto a la variabilidad, ocurre lo contrario que con la media, es mayor en las
mujeres, como indican los valores de varianza y desviación típica, así como el rango de
variación de la variable; el IMC máximo en esta muestra de mujeres es de 46,3, valor que está
en el rango de obesidad de tipo III (mórbida); en los hombres el máximo es próximo a 40, y
se clasifica como obesidad de tipo II [5]. Los cuartiles se pueden interpretar del modo
siguiente: el 50% de los hombres tienen un IMC igual o superior a 25,5, es decir, más de la
mitad tienen sobrepeso u obesidad (IMC 25 Kg./m2); en las mujeres, en cambio, el percentil
75 es 25,8, por lo que algo más de la cuarta parte tienen sobrepeso u obesidad. No se
calcularon la asimetría y la curtosis porque no son necesarios para este análisis.
1.4. Correlación
En términos generales, se dice que dos características o variables están correlacionadas si al
cambiar una de ellas tiende a cambiar la otra, en el mismo sentido o en sentido opuesto; por
ejemplo, en general el peso aumenta con la talla, por lo que hay una correlación positiva
entre estas dos variables. El concepto estadístico de correlación fue introducido en 1888 por
Sir Francis Galton y de sus trabajos, y las contribuciones de Edgeworth y Pearson, surgió el
llamado coeficiente de correlación de Pearson, que cuantifica el grado de relación lineal entre
dos variables cuantitativas así como la dirección, positiva o negativa, de dicha relación [10].
El coeficiente de correlación de Pearson es adimensional, es decir, no depende de las
unidades de medida de las variables, y toma valores entre -1 y 1, donde el signo indica el
sentido de la relación. Por otra parte, a medida que aumenta el valor absoluto del coeficiente
aumenta el grado de relación lineal entre las variables. Un valor de -1 o de 1 indica una
relación lineal perfecta entre las dos variables, en el primer caso negativa y en el segundo
positiva; de modo que al representar los datos en un diagrama de dispersión, se disponen
formando una línea recta decreciente o creciente, respectivamente. Si el coeficiente de
correlación fuera 0, entonces las variables no estarían relacionadas linealmente, aunque no se
puede descartar que exista otro tipo de relación entre ellas distinta de la lineal; sin embargo,
independencia implica incorrelación, es decir, cuando dos variables son independientes, el
coeficiente de correlación toma el valor cero.
Ejemplo
El índice de masa corporal es un indicador que se utiliza para caracterizar la obesidad, y que
se calcula como el cociente entre el peso (en Kg.) y la talla (en metros) al cuadrado. Los datos
de la encuesta SICRI-2010 indican que el IMC está muy correlacionado con el peso, pero no
con la talla. Para calcular estos coeficientes de correlación con Epidat 4 hay que seleccionar
las variables PESO, TALLA e IMC para resumir y, dado que la antropometría de hombres y
mujeres es diferente, podemos segmentar los resultados por SEXO.
http://dxsp.sergas.es 19
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Los diagramas de dispersión entre PESO-IMC y TALLA-IMC en hombres son coherentes con
los coeficientes de correlación obtenidos:
http://dxsp.sergas.es 20
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
se obtiene que la correlación entre Z y Z2 es baja (r=0,346) y, sin embargo, hay una
clara relación entre las dos variables, como se aprecia en el diagrama de dispersión:
- Correlación no implica causalidad [11][12]. Puede ocurrir que dos variables estén muy
correlacionadas (muchas veces debido a que las dos están causalmente relacionadas
con una tercera variable), pero que no haya relación causal entre ellas. También
puede darse la situación de que dos variables sin ninguna relación entre ellas, como
por ejemplo la tasa de mortalidad infantil y la prevalencia de caries en escolares,
calculadas para cada año de un determinado período, presenten una tendencia
decreciente durante ese lapso por lo que, probablemente, estarán positivamente
correlacionadas.
http://dxsp.sergas.es 21
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
1.5. Gráficos
Las representaciones gráficas proporcionan, respecto a las tablas, otra manera de describir un
conjunto de datos, de forma que, quizás de un simple vistazo es posible captar sus
características más destacables.
A la hora de elaborar un gráfico, el primer paso es decidir qué información desea
presentarse, y si el gráfico es la mejor herramienta para ello. Se recomienda utilizar gráficos
solo para mostrar información que no pueda ser resumida fácilmente de otro modo, ni con
texto ni mediante una tabla. A continuación, habrá que identificar las principales
características que condicionarán la construcción del gráfico (por ejemplo, el tipo de
variables: cualitativas o cuantitativas) y elegir el formato adecuado. El resultado debe ser un
http://dxsp.sergas.es 22
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
gráfico autoexplicativo, que contenga toda la información suficiente para poder interpretarlo
[15].
Tal como sugiere Molinero [16], un gráfico debe comunicar ideas complejas con precisión,
claridad y eficiencia, de tal manera que:
- Induzca a pensar en el contenido más que en la apariencia.
- No distorsione la información proporcionada por los datos.
- Favorezca la comparación entre grupos, si éste es su objetivo.
http://dxsp.sergas.es 23
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
- Los gráficos generados pueden guardarse en formato imagen (*.jpg o *.png) desde el
propio editor.
- Una vez que el gráfico se presenta en la ventana de resultados, es posible volver a
abrirlo con el editor haciendo doble click en él o a través de la opción “Editar gráfico”
(botón derecho del ratón).
http://dxsp.sergas.es 24
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
A la vista de los resultados, podemos decir que el gráfico de barras acumuladas representa
mejor la distribución de la variable de interés en cada grupo de edad. Puede observarse, por
ejemplo, cómo disminuye claramente el porcentaje de sujetos con peso normal a medida que
aumenta la edad, así como que esta reducción ocurre a costa de un aumento en el sobrepeso
y la obesidad; este porcentaje (sobrepeso y obesidad conjuntamente) pasa del 20% en el
grupo más joven al 70% en los mayores de 65 años.
El gráfico de barras simples sería más claro si solo se comparasen dos grupos; por ejemplo, si
se hicieran los mismos gráficos sustituyendo el grupo de edad por el sexo.
http://dxsp.sergas.es 25
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
Siguiendo con el ejemplo del diagrama de barras, se puede representar la distribución de las
categorías del índice de masa corporal mediante un gráfico de sectores. El resultado obtenido
con Epidat 4 es el siguiente:
Nótese que, ocasionalmente, la magnitud relativa de los sectores puede resultar difícil de
captar visualmente. En este caso, por ejemplo, resulta difícil (si no se repara en los
porcentajes) identificar cuál de las categorías entre peso normal y sobrepeso es más
frecuente; esto ocurre con cierta frecuencia con este tipo de gráfico, por lo que es
recomendable solicitar que figuren siempre los valores de las frecuencias o los porcentajes.
Una buena alternativa es utilizar el diagrama de barras, que no da lugar a equívocos.
Por otra parte, la comparación por grupos de edad solo podría hacerse con gráficos
separados, eligiendo la opción de segmentar por GEDAD; sin embargo, esta alternativa no
sería la más apropiada para ese propósito, pues supone comparar 4 gráficos distintos que, de
por sí, no son tan claros como el diagrama de barras.
http://dxsp.sergas.es 26
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
En Galicia, la esperanza de vida al nacer (EV) muestra una tendencia creciente en los últimos
años, al igual que ocurre en el conjunto de España. El archivo EV-GALICIA.xls, incluido en
Epidat 4, contiene la EV anual de Galicia en el período 1990-2007 para hombres y para
mujeres. Para representar estos datos en un gráfico de líneas utilizando Epidat 4 hay que
cargar los datos de forma automática utilizando el asistente, e identificar EV-HOMBRES y
EV-MUJERES como variables para las líneas y AÑO como categorías del eje X. En el gráfico
resultante no se visualizan las etiquetas correspondientes a los años, ya que el número de
valores a mostrar es grande (17) y no caben todos los textos. Para verlos correctamente hay
dos posibilidades: aumentar el tamaño del gráfico o indicar, en las opciones para el eje X, que
se muestren cada 2 etiquetas. El resultado es el siguiente:
http://dxsp.sergas.es 27
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
asistente de datos. Deben identificarse dos variables cuantitativas, una para el eje X y otra
para el eje Y y, opcionalmente, una variable categórica para segmentar los resultados.
Ejemplo
Para realizar el gráfico de dispersión mostrado en el apartado 1.4 (coeficiente de correlación)
que representa la relación entre el peso y la talla en mujeres de 16 a 24 años del SICRI-2010,
hay que cargar los datos de forma automática utilizando el asistente, e identificar la variable
PESO para el eje X y la variable TALLA para el eje Y; también hay que definir un filtro con la
condición “SEXO=1 y GEDAD=1”, y añadir una línea vertical correspondiente a un peso de
80 Kg. usando la opción disponible en la pestaña “Eje X” del editor de gráficos. Se reproduce
aquí el resultado:
1.5.5. Histograma
El histograma es uno de los gráficos más comunes para describir la distribución de
frecuencias de una variable cuantitativa. En el eje horizontal, el histograma representa los
intervalos en los que se dividen los valores de la variable; y en el eje vertical las frecuencias,
porcentajes o densidades de cada uno de los intervalos, en forma de rectángulos o barras
adyacentes [19].
La densidad de un rectángulo es el cociente entre la frecuencia relativa del intervalo
correspondiente y su amplitud; de este modo, el área del rectángulo (base=amplitud del
intervalo altura=densidad) coincide con su frecuencia relativa, y el área total del
histograma es 100%.
A la hora de interpretar un histograma, Oliveras [20] recomienda identificar primero el
patrón general que lo caracteriza y, a continuación, las desviaciones que puede haber
respecto a ese patrón. Este autor ilustra con algunos ejemplos la interpretación de distintos
histogramas. A modo de resumen, pueden darse las siguientes situaciones:
- Presencia de datos anómalos: el histograma permite identificar fácilmente los valores
anormalmente altos o bajos en relación al resto de las observaciones.
- Simetría: la forma del histograma indica visualmente cómo se distribuyen los valores
de la variable a ambos lados de la media, de forma que permite identificar si la
distribución es más o menos simétrica o tiene cierto grado de asimetría a la derecha o
la izquierda.
http://dxsp.sergas.es 28
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
- Histograma con varios picos: cuando la distribución tiene más de una moda, el
histograma presenta varios picos. Normalmente esto se debe a la superposición de
varias poblaciones que tienen medias distintas y deberían analizarse por separado.
- Histograma dentado: está asociado normalmente al sistema de medición de datos,
por ejemplo, la tendencia al redondeo con datos autodeclarados.
Para realizar un histograma en Epidat 4 hay que importar los datos individuales a partir de
un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del asistente
de datos. Debe identificarse una variable cuantitativa y, opcionalmente, una variable
categórica para segmentar los resultados. Cuando las barras representan densidades, el
programa ofrece la posibilidad de mostrar la curva normal con la misma media y desviación
estándar de los datos. Además, el usuario puede personalizar los intervalos o dejar que el
programa los calcule de forma automática. Esta última opción es recomendable como un
primer paso cuando se desconoce cómo se distribuyen los datos y, posteriormente, pueden
modificarse los intervalos si es necesario.
Ejemplo
La distribución de la talla de los 2.000 encuestados en el SICRI-2010 (archivo SICRI-2010.xls)
se muestra en el siguiente histograma:
En la figura se aprecian dos picos, que corresponden a los intervalos 160-165 y 170-175, y que
están identificando los valores más frecuentes en mujeres y hombres, respectivamente. Si se
representa este histograma segmentando por SEXO se obtiene el siguiente resultado:
Ahora las dos distribuciones obtenidas son unimodales. Además, puede observarse también
una ligera asimetría hacia la derecha en la talla de los hombres, mientras que la talla de las
mujeres tiene una distribución más simétrica.
http://dxsp.sergas.es 29
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Por otra parte, estos histogramas están construidos con intervalos de amplitud 5 cm. Si se
repite con intervalos de amplitud 2 cm, el resultado en hombres, por ejemplo, es el siguiente:
http://dxsp.sergas.es 30
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Valores atípicos
xmáx
Mediana
RI=Q3-Q1
Recorrido
intercuartílico
xmín
Algunos paquetes estadísticos, como SPSS, distinguen dentro de los valores atípicos los
llamados atípicos extremos, como aquellos con un valor inferior a Q1-3R o superior a Q3+3R.
Sin embargo, Epidat no hace esta distinción. Lo que permite el programa es no mostrar en el
gráfico los valores atípicos.
Para realizar un diagrama de cajas en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) mediante el
asistente de datos. Hay dos posibilidades para identificar las variables necesarias:
- Opción 1: una variable cuantitativa para resumir y una variable cualitativa para
definir las categorías del eje X; opcionalmente, se podrían identificar variables
cualitativas para definir grupos (es decir, series de cajas) y/o segmentar los
resultados. Esta opción se usaría, por ejemplo, para hacer un diagrama de cajas del
índice de masa corporal (Resumir) por grupos de edad (Categorías del eje X) en cada
sexo (Definir grupos). El resultado, con los datos del SICRI-2010, sería el siguiente:
http://dxsp.sergas.es 31
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Ejemplo
La prevalencia de obesidad en la población gallega de 16 años y más (fuente: SICRI-2010)
aumenta con la edad, y es mayor en hombres que en mujeres. Las estimaciones de las
prevalencias por grupos de edad y sexo, junto a los intervalos de confianza del 95%, se
presentan en la siguiente tabla:
http://dxsp.sergas.es 32
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Hombres Mujeres
P(%) IC(95%) P(%) IC(95%)
16-24 años 4,0 2,7 5,3 3,2 2,1 4,4
25-44 años 13,4 11,3 15,6 8,1 6,4 9,9
45-64 años 19,9 17,4 22,3 18,0 15,5 20,6
65 y más 23,6 20,7 26,4 20,3 16,9 23,7
Para representar gráficamente estos datos, en Epidat 4 hay que hacer un gráfico de intervalos
de confianza. Los datos pueden introducirse manualmente en una tabla con 2 variables y 4
categorías; la estimación 1 corresponde a los datos de los hombres y la estimación 2 a los de
las mujeres. El gráfico resultante, que se muestra a continuación, muestra claramente la
tendencia creciente de la prevalencia de obesidad con la edad, tanto en hombres como en
mujeres.
http://dxsp.sergas.es 33
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
Bibliografía
1 López-Moreno S, Garrido-Latorre F, Hernández-Ávila M. Desarrollo histórico de la
epidemiología: su formación como disciplina científica. Salud Pública Méx. 2000;42(2):133-43.
7 Altman DG, Bland JM. Statistics notes: quartiles, quintiles, centiles, and other quantiles.
BMJ. 1994;309:996.
14 Bland JM, Altman DG. Statistical methods for assessing agreement between two
methods of clinical measurement. Lancet. 1986;i:307-10.
http://dxsp.sergas.es 34
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.
17 Tufte ER. The visual display of quantitative information. Cheshire: Graphics Press;
1983.
18 Tufte ER. The visual display of quantitative information. 2ª ed. Connecticut: Graphics
Press; 2009.
19 Oliveras KG. El histograma (I). Qué es y para qué sirve. JANO. 1997;LII(1204):1070.
21 Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for
biomedical publications. Am Heart J. 1988;116 (6 Part 1):1663-5.
22 Williamson DF, Parker RA, Kendrich JS. The box plot: a simple visual method to
interpret data. Ann Intern Med. 1 Jun 1989;110(11):916-21.
23 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ.
2001;322:1479-80.
http://dxsp.sergas.es 35
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas
1. Tablas de frecuencias
2. Tablas de contingencia
3. Estadísticos descriptivos
4. Correlación
5. Gráficos
5.1. Barras
5.2. Sectores
5.3. Líneas
5.4. Dispersión
5.5. Histograma
5.6. Diagrama de cajas
5.7. Intervalos de confianza
http://dxsp.sergas.es 36
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas
Suma:
n
S xi
i 1
Media:
1 n
x xi
n i 1
Media geométrica:
1 n
xg Exp ln x i
n i 1
Desviación típica:
1 n
s xi x 2
n 1 i 1
Varianza:
1 n
s2 xi x 2
n 1 i 1
Coeficiente de variación:
s
CV
x
Recorrido:
R Máxxi Mínxi
http://dxsp.sergas.es 37
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas
Recorrido intercuartílico:
Percentiles [Altman & Bland (1994), Mood & Graybill (1963, p. 408)]:
Percentil de orden k:
Pk 1 f xr fx r 1
Cuartiles:
Deciles:
Dk=Pk, con k=10, 20, 30, 40, 50, 60, 70, 80, 90
Donde:
x1, x2, …, xn es la muestra ordenada de valores,
n 1k
R ,
100
r R es la parte entera de R, 0 r n,
f R r es la parte fraccionaria de R,
x0=x1 y xn+1=xn,
n es el número de observaciones,
k es el orden del percentil.
Asimetría:
m3
A 3
m2 2
Curtosis:
m4
K 3
m 22
http://dxsp.sergas.es 38
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas
Donde:
1 n
mk xi x k es el momento central de orden k, k=2, 3, 4.
n i 1
4.- CORRELACIÓN
Coeficiente de correlación de Pearson [Rosner (2000, p. 451-55)]:
n
x i x y i y
i 1
r
n n
x i x 2 y i y 2
i 1 i 1
rx , i rx ry , i ry
n
i 1
r
rx , i rx 2 ry , i ry 2
n n
i 1 i 1
Donde:
x1, x2, …xn son las n observaciones de la variable X,
y1, y2, …yn son las n observaciones de la variable Y,
rx,i es el rango de la observación xi, es decir, es la posición que ocupa xi en la
muestra ordenada. En caso de empate, a los valores iguales se les asigna la media
de sus rangos.
http://dxsp.sergas.es 39
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas
Bibliografía
- Altman DG, Bland JM. Statistics notes: quartiles, quintiles, centiles, and other quantiles.
BMJ. 1994;309:996.
- Mood AM, Graybill FA. Introduction to the theory of statistics. New York: McGraw-Hill;
1963.
http://dxsp.sergas.es 40
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
AJUSTE DE TASAS
http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
ÍNDICE
8.0. Conceptos generales...................................................................................................................... 3
8.1. Ajuste por el método directo ....................................................................................................... 3
8.2. Ajuste por el método indirecto .................................................................................................... 5
8.3. Algunas limitaciones del ajuste de tasas .................................................................................... 5
8.4. Recomendaciones .......................................................................................................................... 6
8.5. Manejo del módulo de ajuste de tasas y solución del ejemplo ............................................... 7
Bibliografía .......................................................................................................................................... 12
Anexo 1: Novedades del módulo de ajuste de tasas ..................................................................... 13
Anexo 2: Fórmulas del módulo de ajuste de tasas......................................................................... 14
http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
http://dxsp.sergas.es 3
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
http://dxsp.sergas.es 4
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
a) Una población enteramente artificial (por ejemplo, 1.000 sujetos en cada estrato).
b) Uno de los grupos de estudio, simplificando los cálculos, ya que las tasas observadas
en el grupo elegido serán las de la población estándar (por definición estandarizada).
Cuando uno de los grupos de estudio es particularmente pequeño debe usarse como
el estándar, de tal manera que minimice la variabilidad aleatoria.
c) La llamada población estándar de varianza mínima.1
1
Para ver el modo de calcular la población estándar de mínima varianza por estrato ver: Szklo M, Nieto J.
Epidemiology, Beyond the Basics. Maryland: An Aspen Publication; 2000. p. 269-270.
2
Para profundizar en el tema de usos y limitaciones del ajuste de tasas por edad pueden consultarse las
siguientes publicaciones:
Feinleib M, Zarate AO. Editores. Reconsidering age adjustment procedures: Workshop proceedings. National
Center for Health Statistics. Vital Health Stat 4(29); 1992.
Anderson RN, Rosenberg HM. Report of the second workshop on age adjustment. National Center for Health
Statistics. Vital Health Stat 4(30); 1998.
http://dxsp.sergas.es 5
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
- El ajuste no es apropiado cuando las tasas específicas en las poblaciones que se estén
comparando no tengan una relación consistente [1]. Por ejemplo, puede ser
incorrecto evaluar tendencias a lo largo del tiempo de tasas de mortalidad por cáncer
ajustadas por edad, porque las tasas específicas en los jóvenes tienden a descender
mientras en los grupos de edad superiores aumentan. Si se utiliza una población
estándar relativamente joven, la tendencia de las tasas ajustadas puede mostrar un
ligero incremento o incluso una reducción de la mortalidad; si la población estándar
elegida es relativamente vieja la tendencia de la mortalidad por cáncer mostrará un
fuerte incremento [4].
- Una tasa ajustada es una medida resumen cuya magnitud no tiene ningún valor
intrínseco, es una tasa artificial y sólo debe usarse con el objetivo de comparar [4].
- La magnitud de las tasas ajustadas varía en función de la población estándar que se
utilice [3][4].
- El hecho de que la tasa ajustada sea una medida resumen en principio facilita su
manejo, pero también enmascara la información que aportan las tasas específicas.
8.4. Recomendaciones
Antes de ajustar se deben estudiar las tasas específicas. De esta forma se podrá evitar que la
elección, necesariamente arbitraria, de la población estándar convierta en arbitrarios los
resultados [9].
- En caso de que se decida hacer un ajuste debe referenciarse la población estándar
utilizada [4] para facilitar la interpretación de los resultados y la comparación con
otros estudios.
- Siempre que sea factible presentar, además de las tasas ajustadas, las tasas crudas y
específicas.
Ejemplo
(Adaptado de: Londoño JL. Metodología de la investigación epidemiológica. Ed. Universidad
de Antioquia. 1995. p.114)[10].
Un investigador estudia factores de riesgo para el cáncer de cuello uterino; desea valorar su
conjetura de que la mortalidad es mayor en Cali que en São Paulo. Para ello debe comparar las
tasas de incidencia entre las mujeres de Cali (Colombia) y São Paulo (Brasil). Cuenta con la
siguiente información:
http://dxsp.sergas.es 6
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
Tabla 1. Población, número de casos y tasas anuales de incidencia de cáncer de cuello uterino
en Cali, Colombia 1977-1981 y São Paulo, Brasil 1978.
Cali São Paulo
Edad Población Casos Tasa x 105 Población Casos Tasa x 105
0-14 217.645 0 0,0 992.534 0 0,0
15-24 145.409 2 1,4 746.750 14 1,9
25-34 86.644 16 18,5 639.214 76 11,9
35-44 63.454 34 53,6 423.847 195 46,0
45-54 41.180 44 106,8 328.074 266 81,1
55-64 24.551 36 146,6 208.108 228 109,6
65 y más 19.042 37 194,3 173.968 186 106,9
Total 597.925 169 3.512.495 965
http://dxsp.sergas.es 7
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
ejemplo, véanse Tablas 3 y 4). Como novedad de la versión 4, es posible utilizar una o más
variables para identificar las poblaciones en las que se ajustan tasas, por ejemplo, unidad
geográfica y año o sexo.
En el ejemplo, los datos se encuentran en el archivo CALI-SAO PAULO.XLS; la hoja Cali-Sao
Paulo contiene los datos de estas ciudades, y Celade contiene las poblaciones estándar de la
Tabla 2.
Tabla 3. Formato de tabla preparada para importar datos desde Epidat 4 para el ajuste por el
método directo.
Identificadores Intervalos de Población por
de población edad intervalos Casos
CIUDAD EDAD POBLAC CASOS
Cali <15 217.645 0
Cali 15-24 145.409 2
Cali 25-34 86.644 16
Cali 35-44 63.454 34
Cali 45-54 41.180 44
Cali 55-64 24.551 36
Cali 65 y + 19.042 37
São Paulo <15 992.534 0
São Paulo 15-24 746.750 14
São Paulo 25-34 639.214 76
São Paulo 35-44 423.847 195
São Paulo 45-54 328.074 266
São Paulo 55-64 208.108 228
São Paulo 65 y + 173.968 186
Nota: Los textos que definen la unidad geográfica tienen que ser
idénticos en toda la tabla a importar. Por ejemplo, Epidat no
reconocerá como la misma unidad geográfica "São Paulo" y "Sao
Paulo".
Ajuste de tasas por el método directo. Para ajustar tasas por este método son necesarios, por
cada categoría de la variable que se desee ajustar (por ejemplo: edad) los datos siguientes:
- Las tasas específicas o bien el número de casos.
- Los tamaños de las poblaciones en estudio.
- La población estándar.
Si se precisa calcular los intervalos de confianza (método gamma [11] por defecto, o
aproximación de Byar [12] si el primero no se puede aplicar) deberá marcarse la casilla
correspondiente. Es importante tener en cuenta con qué multiplicador están expresadas las
tasas específicas y seleccionar el que corresponda en la variable "tasas por".
http://dxsp.sergas.es 8
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
Ajuste de tasas por el método indirecto. Para ajustar tasas por este método se necesitan, por
cada categoría de la variable que se desee ajustar (por ejemplo: edad), los datos siguientes:
- Las poblaciones específicas.
- El número de casos observados en cada población que se quiere ajustar.
- Las tasas estándar.
Se pueden calcular RME para varias causas al mismo tiempo, utilizando unas tasas estándar
para cada causa.
En la base de datos los casos pueden estar desagregados por categoría de comparación (por
ejemplo: edad) o totalizados en una cualquiera de las categorías (véase Tabla 4). Epidat 4
totaliza los casos para cada valor de la variable o variables seleccionadas en "identificadores
de población" (ver la nota de la Tabla 4), ya que para el ajuste por el método indirecto se
precisa el total de casos observados. En el archivo que contiene los datos del ejemplo, las
tasas de São Paulo, que sirven como estándar, se encuentran en la hoja Sao Paulo y están
multiplicadas por 100.000, lo cual se debe indicar al programa en el campo "Tasas por". Si se
precisa calcular los intervalos de confianza (método de Byar [12]) deberá marcarse la casilla
correspondiente. En la tabla de resultados se muestran los casos observados y los esperados
de cada población.
http://dxsp.sergas.es 9
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
Tabla 4. Formato de tabla preparada para importar datos desde Epidat 4 para el ajuste por el
método indirecto.
Identificadores Intervalos de Población por
de población edad intervalos Casos
CIUDAD EDAD POBLAC CASOS CASOS
Cali <15 217.645 0
Cali 15-24 145.409 2
Cali 25-34 86.644 16
Cali 35-44 63.454 34
Cali 45-54 41.180 44 169
Cali 55-64 24.551 36
Cali 65 y + 19.042 37
São Paulo <15 992.534 0
São Paulo 15-24 746.750 14
São Paulo 25-34 639.214 76
São Paulo 35-44 423.847 195
São Paulo 45-54 328.074 266
São Paulo 55-64 208.108 228
São Paulo 65 y + 173.968 186 965
Nota: Los casos pueden figurar divididos por cada categoría de la variable de
ajuste, como en la columna de fondo blanco, o sumados en una categoría
cualquiera de la variable que identifica poblaciones, en este caso unidad
geográfica, como en la columna sombreada (ver nota de la Tabla 3):
(0+2+16+34+44+36+37=169 y 0+14+76+195+266+228+186= 965).
http://dxsp.sergas.es 10
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
Los resultados indican con nitidez que la conjetura del investigador era correcta. Si bien las
tasas sin ajustar eran virtualmente iguales, una vez estandarizadas, la de Cali es claramente
mayor que la de São Paulo.
http://dxsp.sergas.es 11
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.
Bibliografía
1 Fleiss JL. Statistical methods for rates and proportions. New York: John Wiley & Sons;
1981.
3 Choi BCK, de Guía NA, Walsh P. Look before you leap: stratify before you standardize.
Am J Epidemiol. 1999;149:1087-96.
4 Curtin LR, Klein RJ. Direct standardization (age-adjusted death rates). Healthy People
2000 Statistical Notes No. 6 (revisado); 1995.
7 Kahn HA, Sempos CT. Statistical methods in epidemiology. New York: Oxford
University Press; 1989.
11 Fay MP, Feuer EJ. Confidence intervals for directly standardized rates: a method based
on the gamma distribution. Stat Med. 1997 Apr 15;16(7):791-801.
12 Breslow NE, Day NE. Statistical methods in cancer research. Vol II, The design and
analysis of cohort studies. Lyon: IARC; 1987.
http://dxsp.sergas.es 12
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 1: novedades
- El número de tasas que se pueden ajustar simultáneamente aumentó de 500 a 750 en esta
versión.
- En ambos métodos se tiene la posibilidad de identificar más de una variable para definir
poblaciones.
- En los resultados del método indirecto se muestran los casos observados y los casos
esperados.
- Se corrige el siguiente error en el método directo: los intervalos de confianza de las tasas
ajustadas se calculan utilizando un método que se basa en la distribución gamma. Para
determinados valores de los parámetros no es posible calcular la inversa de la función de
distribución, lo que implica que no se pueden obtener los límites del intervalo de
confianza. Para solucionar el problema se incorpora un nuevo método de estimación del
intervalo de confianza, basado en la aproximación de Byar, que se utiliza solo en el caso
de que falle la aproximación gamma. Cuando esto sucede, se indica en los resultados.
Además, se incluye en el anexo de fórmulas de la ayuda del módulo la descripción del
método basado en la aproximación de Byar.
http://dxsp.sergas.es 13
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas
1. Método directo
2. Método indirecto
http://dxsp.sergas.es 14
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas
Tasa bruta:
m
cj
j1 c
t m
p
pj
j1
Donde:
m es el número de intervalos de la variable por la que se ajusta,
cj es el número de casos en el j-ésimo intervalo, j=1,...,m,
m
c c j es el número total de casos,
j1
cj
tj es la tasa específica del j-ésimo intervalo, j=1,...,m,
pj
Intervalo de confianza (método gamma) de nivel (1-)% [Fay & Feuer (1997)]:
IC G1 1 , G2 1 1
2 2
Intervalo de confianza (aproximación de Byar) de nivel (1-)% [Breslow & Day (1987, p. 69)]:
c c c c
IC t est I S , t est S S
c c
http://dxsp.sergas.es 15
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas
Donde:
1- es el nivel de confianza,
G1 es la función de distribución gamma con parámetros a1 y b1:
2
t est S2
a1 y b1
S2 t est
2
p ej t j
m
S Var t est
2
j 1 p e p j
a2
test wM 2 y b2
S 2 wM 2
S 2 wM
2
t est wM
wM maxw1 ,..., wm
pej 1
wj , j=1, …, m
pe p j
m
c c j es el número total de casos,
j1
3 3
1 z 1 2 1 z 1
cI c 1 y c S c 1 1 2
,
9 c 3 c
9 c 1 3 c 1
z1 es el percentil de la distribución normal estándar, N(0,1), que deja a la
2
http://dxsp.sergas.es 16
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas
http://dxsp.sergas.es 17
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas
Bibliografía
- Breslow NE, Day NE. Statistical methods in cancer research. Vol II. The design and analysis
of cohort studies. Lyon: IARC; 1987.
- Fay MP, Feuer EJ. Confidence intervals for directly standardized rates: a method based on
the gamma distribution. Stat Med.1997 Apr 15;16(7):791-801.
http://dxsp.sergas.es 18
soporte.epidat@sergas.es
CAPITULO XV
DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUALITATIVA
Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la
primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el
número de individuos observados. Generalmente el cuadro se acompaña de una primera columna,
en la cual se ponen los porcentajes respectivos.
(Ver cuadro 84)
El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general
de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices,
porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo.
Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia
que comprender su utilización y aplicaciones.
La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más
fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comprobación de diversos resultados.
El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor
para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada
localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben
proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario
relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio
en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella
deben haber más o menos 5 veces más defunciones.
Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:
Hombres 297
Mujeres 99
Total 396
15.3.2. Porcentajes.
Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes,
basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el
resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 =
75%) y el 25% mujeres: (99/396) x 100 = 25%.
El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente
2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a
100.
El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los
dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de
su cálculo.
15.3.3. Tasas
En toda la población es importante conocer su composición y los cambios que acontecen en ella.
Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten
analizar completamente la información disponible. Supóngase que en la población de San Pedro
los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:
Cuadro 133
Accidentes automovilísticos según sexo de los conductores.
San Pedro, 1961
Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres
tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean
más cuidadosas al manejar.
Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de
que acontezca determinado fenómeno debe relacionarse con la población en la cual puede
acontecer. Tales relaciones reciben el nombre general de tasas.
Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió
determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente
dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el
fenómeno descrito en el numerador:
Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será
menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000,
10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en
1960 fue de 9 por 1000 que recordar que es 0.009.
Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera.
Entre ellas, tienen importancia en Medicina:
Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de
sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas
veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas
en particular.
Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas
crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se
denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas
por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica
como se quiera, desde que se disponga de los datos básicos necesarios.
Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo,
para que el denominador sea correcto.
Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y
de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de
habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población
especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues
se considera, que dicha población es intermedia entre la de principios y final de año.
15.3.3.1. Principales Tasas.
Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el
cálculo de las más comúnmente empleadas:
55.466 x 1.000
= 7.3 por 1.000 habitantes
7.600.000
340.433 x 1.000
= 44,7 por 1.000 habitantes
7.600.000
3.400.000
Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en
habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas
menores de 15 años. La tasa de mortalidad en menores de 15 años fue:
26.303 x 1.000
= 7,7 por 1.000
3.400.000
140 x 100.000
= 4,1 por 100.000
3.400.000
8.242 x 100.000
= 108,4 por 100.000
7.600.000
26 100 = 3.0%
861
Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no
puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos
se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna.
La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han
cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de
niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos
censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos
ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad
infantil se calcula mediante la fórmula siguiente:
Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de
1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de
mortalidad infantil fue:
Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año.
b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable
directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas
parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos,
quedando la tasa:
Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo,
parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad
materna fue:
2
1
Juan O. Talavera, Investigación clínica IV.
Rodolfo Rivas-Ruiz
Pertinencia de la
prueba estadística
1Centro de Adiestramiento en Investigación Clínica,
Coordinación de Investigación en Salud,
2 Servicio de Escolares y Adolescentes, Hospital de Pediatría
Resumen Summary
Cuando observamos la diferencia entre dos terapias o la aso- When we look at the difference between two therapies or the as-
ciación de un factor de riesgo o indicador pronóstico con su sociation of a risk factor or prognostic indicator with its outcome,
desenlace, tenemos que evaluar la certeza del resultado. Esta we need to evaluate the accuracy of the result. This assessment
evaluación se basa en un juicio que utiliza información relacio- is based on a judgment that uses information about the study
nada con el diseño del estudio y el manejo estadístico de la in- design and statistical management of the information. This
formación. En este artículo se menciona específicamente la paper specifically mentions the relevance of the statistical test
pertinencia de la prueba estadística seleccionada. Las pruebas selected. Statistical tests are chosen mainly from two characte-
estadísticas se eligen a partir de dos características: el objetivo ristics: the objective of the study and type of variables. The ob-
del estudio y el tipo de variables. El objetivo se puede dividir en jective can be divided into three test groups: a) those in which you
tres grupos de pruebas: a) en las que se desea mostrar diferen- want to show differences between groups or inside a group be-
cias entre grupos, o de un mismo grupo antes y después de una fore and after a maneuver, b) those that seek to show the rela-
maniobra; b) en las que se busca mostrar la relación entre las tionship (correlation) between variables, and c) those that aim to
variables; c) en las que se pretende predecir un desenlace. En predict an outcome. The types of variables are divided in two:
cuanto a los tipos de variables tenemos dos: las cuantitativas quantitative (continuous and discontinuous) and qualitative (ordi-
(continuas y discontinuas) y las cualitativas (ordinales y dico- nal and dichotomous). For example, if we seek to demonstra-
tómicas). Por ejemplo, si se busca demostrar diferencias en te differences in age (quantitative variable) among patients with
edad (variable cuantitativa), entre pacientes con lupus eritema- systemic lupus erythematosus (SLE) with and without neurological
toso sistémico, con y sin afección neurológica (dos grupos), la disease (two groups), the appropriate test is the “Student t test
prueba apropiada es la t de Student para muestras indepen- for independent samples”. But if the comparison is about the
dientes; pero si lo que se compara entre esos mismos grupos frequency of females (binomial variable), then the appropriate
es la frecuencia de mujeres (variable binomial), entonces la prue- statistical test is the χ2.
ba estadística pertinente es la χ2.
Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 401
Talavera JO et al. Pertinencia de la prueba estadística seleccionada
2. El tamaño de la muestra es suficiente para mantener la Cuadro I Peso de sujetos en estudio bajo dos esquemas
estabilidad de los datos y la prueba estadística es apro- terapéuticos
piada al objetivo.
Grupo A Grupo B
La planeación y el desarrollo del proceso se han mencio- 77 65
nado en los tres capítulos previos de esta serie. Por otra parte, 78 69
la estabilidad de los datos será discutida a detalle en un artícu- 80 77
82 78
lo posterior al hablar de tamaño de muestra y valor de p. 85 83.5 Promedio 85 83.5 Promedio
En este artículo discutiremos la pertinencia de la prueba es- 85 85.0 Mediana 85 85.0 Mediana
tadística seleccionada. Sin duda, este conocimiento nos permiti- 85 85.0 Moda 89 85.0 Moda
rá comprender con mayor precisión los resultados obtenidos en 86 93
estudios de investigación clínica y, por supuesto, incrementará 88 96
89 98
nuestra capacidad para hacer un uso adecuado de los mismos.
Las medidas de tendencia central son iguales, pero la dispersión de los
datos es distinta
Objetivo del estudio y tipo de variable
2. Mostrar relación (correlación) entre variables (por ejem-
Las pruebas estadísticas se eligen a partir de dos característi- plo, la creatinina sérica se eleva conforme disminuye la
cas: el objetivo del estudio y el tipo de variables. Dentro de función renal).
los objetivos del estudio podemos identificar tres: 3. Predecir un desenlace (por ejemplo, la probabilidad de
que el sujeto con vida sedentaria y sobrepeso desarrolle
1. Demostrar diferencias entre grupos o diferencias en un diabetes mellitus tipo 2).
mismo grupo antes y después de una maniobra (por ejem-
plo, el tratamiento con el fármaco A reduce en mayor pro- Frecuentemente se superponen los modelos, y es así que
porción la presión sanguínea que el tratamiento con el en ocasiones para demostrar diferencias entre dos grupos se
fármaco B). hace uso de modelos inicialmente identificados para prede-
30
25
20
Número
15
10
0
20 40 60 80 100
Edad
Media 59.79
Desviación estándar de 13.882. Dos desviaciones estándar a cada lado de la media reflejan 95 % de la población
Promedio de 59.79, con IC 95 % = 32.03-87.55
Figura 1 Histograma
402 Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405
Talavera JO et al. Pertinencia de la prueba estadística seleccionada
cir un desenlace; esto ocurre sobre todo cuando se requiere 1. Cuantitativas continuas y discontinuas o discretas: las pri-
ajustar la maniobra principal (fármaco A versus fármaco B) meras se caracterizan porque pueden tomar cualquier va-
por múltiples factores (edad, sexo, índice de masa corporal, lor a lo largo de un continuo (por ejemplo, talla 1.75 m).
etcétera). Pero también acontece el fenómeno opuesto, cuan- Por su lado, las discontinuas o discretas utilizan solo nú-
do se busca predecir un suceso que ocurrirá a futuro pero meros enteros (número de partos, 1, 2, 3…). En ambas, la
solo se cuenta con una o dos variables predictivas, en este distancia entre una unidad y otra a través de toda su esca-
caso se utiliza una prueba para demostrar diferencias. la es equidistante.
Es importante aclarar que la correlación básicamente sir- 2. Cualitativas: dentro de éstas se encuentran la ordinal y la
ve para ver la magnitud de la asociación entre variables, aun- dicotómica. La ordinal permite dar un orden a la caracte-
que debe quedar claro que no determina causalidad, de hecho rística en estudio, y a diferencia de las cuantitativas la
ninguna prueba estadística puede hacerlo, para ello se re- distancia entre dos categorías no es equidistante (por ejem-
quiere cubrir una serie de principios descritos por sir Austin plo, falla cardiaca grados I a IV). Las dicotómicas, como
Bradford Hill. su nombre lo dice, son en las que solo hay dos categorías,
Definir el tipo de variable resulta relevante debido a que que pueden ser binomiales (es una opción u otra, por ejem-
es el eje para seleccionar la prueba apropiada dependiendo plo, hombre o mujer) o nominales (se refiere a la presen-
del objetivo buscado. Dentro del tipo de variable existen dos cia o no de la característica, por ejemplo, vivo a seis meses,
grupos: sí o no).
34.13 %
13.59 %
2.14 %
0.13 %
Desviación estándar –3 –2 –1 0 +1 +2 +3
0.3413 0.3413
0.6826
0.4772 0.4772
Porcentajes
0.9554
0.4987 0.4987
0.9974
Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 403
Talavera JO et al. Pertinencia de la prueba estadística seleccionada
Es importante mencionar el manejo que sufrirá el tipo de tipo de medida de resumen más utilizado para las varia-
variable durante el proceso de análisis, empezando por la re- bles cuantitativas que no siguen una distribución normal
colección de datos en forma “cruda”, lo que significa que y para variables ordinales.
solo se trata de una compilación de información de un grupo c) Moda: se refiere al valor que más se repite en una distribución.
de sujetos. Para que estos datos tengan un significado de uti-
lidad se necesita organizarlos y resumirlos. La forma más sim- 2. Medidas de dispersión más comunes.
ple de organización son las tablas de distribución de frecuencia,
sin embargo, en ocasiones es más fácil entender su represen- a) Desviación estándar: refleja la variación entre todo el con-
tación gráfica a través de un histograma o polígono de fre- junto de datos y se utiliza cuando éstos siguen una distri-
cuencias. No obstante la utilidad de esta información, se bución normal.
necesita información cuantitativa de los datos recolectados, b) Percentil: describe la posición de un valor de la distribu-
es decir, se requieren índices numéricos que reflejen las dis- ción. Se utiliza para variables cuantitativas que no siguen
tintas distribuciones de probabilidad, cuya función primor- una distribución normal y para variables de tipo ordinal.
dial es modelar el comportamiento de una gran variedad de c) Rango: diferencia entre el valor más alto y el valor más
fenómenos biológicos. Dentro de estos índices numéricos en- bajo de la distribución.
contramos las medidas de tendencia central y las medidas de
dispersión. En investigación clínica, como en muchos otros fenóme-
nos de la vida real, los datos más frecuentemente analizados
1. Medidas de tendencia central (cuadro I y figura 1). son los cuantitativos, que en el más de los casos muestran
una distribución gaussiana, también conocida como distribu-
a) Media: es la suma de un conjunto de datos divididos por el ción normal, que se caracteriza por tener forma acampanada,
número total de ellos. El símbolo para representar la media ser simétrica respecto a su media, tener valores de frecuencia
de una población es la letra griega mu (μ), y la media de decrecientes conforme se alejan de la media y que nunca lle-
una muestra está representada por ,. Es la medida de resu- gan a cero (asintótica), la moda y la mediana son iguales a la
men más utilizada para variables cuantitativas. media, aproximadamente 68 % de los datos se encuentran en
b) Mediana: es el valor que se encuentra exactamente a la ± 1 desviación estándar respecto a su media y 95 % en ± 2
mitad del total de los datos. La mediana divide una distri- desviaciones estándar (figura 2). Es así que si la agrupación
bución de datos ordenados en exactamente dos partes igua- de datos son de tipo cuantitativo con distribución normal, su
les. La ventaja de la mediana como medida de tendencia medida de resumen será la media y su medida de dispersión,
central es que ésta no se ve afectada por el valor de datos la desviación estándar. Sin embargo, si su distribución no es
extremos, fenómeno que sí ocurre con la media. Es el gaussiana, al igual que para una variable de tipo ordinal, su
404 Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405
Talavera JO et al. Pertinencia de la prueba estadística seleccionada
medida de resumen será la mediana y su medida de disper- prueba apropiada es la t de Student para muestras indepen-
sión, el percentil o rango. Finalmente, habrá que mencionar dientes. Pero si lo que se compara entre esos mismos es la
que para las variables dicotómicas su medida de resumen es frecuencia de mujeres (variable binomial), entonces la prue-
la frecuencia y su medida de dispersión la desviación están- ba estadística pertinente es la χ2. Si lo que se compara entre
dar (su distribución se acerca a la normal). los dos grupos es su grado de actividad lúpica (escala ordinal),
la prueba estadística pertinente es la U de Mann-Whitney.
Por otro lado, si lo que nos muestran es la magnitud de la
Pertinencia de la prueba estadística asociación (relación) entre edad (variable cuantitativa con
distribución normal) y el grado de actividad lúpica (variable
Una vez que conocemos nuestro objetivo y las características de ordinal), la prueba pertinente es la r de Spearman. Finalmen-
nuestros datos (tipo de variable) podemos considerar la pertinen- te, si lo que se busca es predecir el peso de un niño (variable
cia de la prueba estadística (cuadro II). Sin embargo, existen dos cuantitativa) a partir de la edad (variable cuantitativa), tipo
consideraciones más cuando el objetivo sea demostrar diferencia: de alimentación (variable ordinal: buena, regular o mala) y el
sexo (dicotómica), la prueba pertinente es la regresión lineal.
1. Si se trata de un estudio donde se compara el valor de un Pero si lo que se quiere es predecir la probabilidad de infarto
dato antes y después de una maniobra ya sea observacional (dicotómica nominal) en los siguientes 10 años a partir de la
o experimental, se le conoce como de muestras relaciona- edad (cuantitativa), el riesgo aterogénico (ordinal, bajo, me-
das, pero si se trata de la comparación de datos entre dis- dio y alto) y el sexo (dicotómica binomial), la prueba perti-
tintos grupos se le denomina de muestras no relacionadas. nente es la regresión logística múltiple.
2. Si se trata de comparación entre distintos grupos es nece-
sario determinar si será entre dos o más grupos. Por último, esperamos que el presente artículo permita
entender la razón de la selección de las pruebas estadísticas
Ya con la información completa, con el cuadro II pode- más empleadas en la investigación en salud y que, de igual
mos verificar si la selección de la prueba estadística fue la manera, sirva de guía a quienes se inician en la estadística.
adecuado conforme la variable y el objetivo. Por ejemplo, si No es suficiente para definir si los resultados obtenidos son
se compara la edad (variable cuantitativa con distribución reales, será necesario tener en consideración el diseño y eje-
normal en este caso), entre pacientes con lupus eritematoso cución del estudio y la estabilidad de los datos, pero este úl-
sistémico, con y sin afección neurológica (dos grupos), la timo aspecto merece ser analizado en otro apartado.
Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 405
Rev Chil Anest 2014; 43: 116-121
LA DISTRIBUCIÓN NORMAL
1
Profesor Titular, División de Anestesiología, Pontificia Universidad Católica de Chile.
116
LA DISTRIBUCIÓN NORMAL
Para evitar la confusión muchos usan Normal con Las fórmulas para el cálculo de los parámetros
mayúsculas y aquí haremos lo mismo; otros hablan poblacionales de la distribución Normal son senci-
de distribución gaussiana o de campana de Gauss llas:
a pesar que fue Abraham de Moivre el primero en
describirla y Gauss solo la popularizó. Mediana:
La distribución Normal:
1) Tiene forma de campana.
2) Es simétrica.
3) Alcanza su máximo en µ (la media). Donde la letra griega Σ, sigma mayúscula, in-
4) La media es también la moda y la mediana. dica la sumatoria de los valores individuales de X,
5) Es asintótica al eje de las abscisas y, como no lo cifra que es dividida por el número de mediciones.
toca nunca, cualquier valor de X entre -infinito La variabilidad de los valores se calcula como
y +infinito es teóricamente posible. un promedio de las desviaciones con respecto a la
6) La posición relativa en el eje de las abscisas lo media. Como ya vimos, ya que la mitad de los va-
determina µ (más a la derecha mientras mayor lores son mayores que la media y la otra mitad son
sea) y su mayor o menor aplastamiento o ancho menores, el resultado final sería 0. Para eliminar el
lo determina σ (la desviación estándar), siendo signo negativo de la mitad menor, se eleva al cua-
más aplanada mientras mayor sea su magnitud drado cada desviación. Este promedio de desvia-
(Figura 1). Esta característica se denomina cur- ciones elevadas al cuadrado desde la media es la
tosis (del griego, curvado): angosta o leptocúrti- varianza.
ca (literalmente, curva angosta), media o meso-
cúrtica y ensanchada o platicúrtica (literalmen- Varianza:
te, curva ancha) (Figura 2). La altura de la curva
carece de importancia o uso en la práctica.
La varianza se expresa con el cuadrado de las calcular separadamente para cada valor. Sin embar-
unidades de la medición (cm2, kg2, mmHg2) y, ade- go, pueden ser puestas en una escala comparable
más, es más difícil de visualizar e interpretar por el usando equivalentes estandarizados. Como se vio,
hecho de ser un cuadrado. Por ello es más común cualquier posición en el eje horizontal puede ser
que se use la desviación estándar: la raíz cuadrada descrita como una distancia expresada en desvia-
de la varianza. ciones estándar desde la media con valor negativo
o positivo. Esta unidad se conoce como desviación
Desviación estándar: Normal estándar o puntaje z. Es equivalente a una
distribución Normal con una media de 0 y una des-
viación estándar de 1, una distribución Normal es-
pecial conocida como Normal estándar o Normal
típica.
La transformación requerida es:
Figura 3. Curva Normal estándar o típica. Se señalan las proporciones del área bajo la curva por sobre o debajo de
distintos valores de z. Como el área bajo la curva es igual a uno, las proporciones indican también probabilidad. Nótese
que para valores negativos de z sólo es necesario contar el límite hacia la izquierda de la media (D y E que corresponden
al valor negativo de z en B y C). También se puede observar en F que valores de z de + 1,96 o de -1,96 separan áreas
del 2,5% del total. Este detalle tiene especial importancia a la hora de discutir la inferencia estadística, los valores de p
y la significación estadística.
buena es esa estimación. Una aproximación es su- estará dentro de 1,96 errores estándar por sobre o
poner que podríamos obtener una serie grande de debajo de la media de nuestra muestra. Es evidente
muestras aleatorias de un determinado tamaño de que mientras mayor sea el tamaño de la muestra,
esa población. Matemáticamente se conoce como más pequeño es el error estándar y menor el rango
el teorema del límite central, y se puede demos- entre los límites de confianza.
trar que la distribución de las medias de esas mues- Se debe recalcar que el error estándar no es una
tras tienen las siguientes características: medida de la variabilidad de la muestra y no debe ser
usado con ese fin. Este es uno de los errores más fre-
1) La distribución de todas las medias de las mu- cuentemente detectados en la literatura médica, ya sea
chas muestras tomadas es Normal si la distri- por ignorancia o premeditadamente para dar la impre-
bución de los valores en la población es Nor- sión de una menor imprecisión de las estimaciones.
mal. Además, la distribución de las medias de
las muestras será aproximadamente Normal, no
importando cual sea la distribución de la varia- TRANSFORMACIONES HACIA UNA
ble en la población, siempre que las muestras DISTRIBUCIÓN NORMAL
sean suficientemente grandes.
2) El promedio de las medias de todas las muestras El coeficiente de sesgo o bies es una medida
posibles es igual a la media de la población. de la simetría. Una distribución simétrica tiene un
3) La desviación estándar de las medias de las coeficiente igual a cero. Una distribución sesgada
muestras, que se conoce como el error estándar hacia la izquierda, lo más frecuente, tiene un co-
de la media, depende de la variabilidad de la eficiente positivo y una desviada hacia la derecha
población y del tamaño de las muestras. tiene un coeficiente negativo. Para valores que no
pueden ser negativos, se puede inferir que una dis-
tribución es sesgada cuando la desviación estándar
Error estándar: es mayor que la mitad de la media. Lo contrario no
es necesariamente así, pero un histograma revelará
rápidamente cuándo una distribución es sesgada.
Una posibilidad de describir una población sesgada
es usar parámetros distintos que los de una distri-
Como no conocemos σ, usamos la desviación
bución Normal simétrica, generalmente la mediana
estándar de la muestra para una estimación del
y percentiles y para la inferencia se usarán pruebas
error estándar:
no paramétricas. Otra alternativa es usar una trans-
formación de los datos de manera que tengan una
Estimación del error estándar:
distribución más simétrica. La transformación más
frecuente es la de obtener logaritmos de los datos. El
antilogaritmo de la media aritmética de los valores
transformados es la media geométrica. Si la trans-
formación fue exitosa en eliminar el sesgo, la media
Se puede también calcular los límites de con-
geométrica será similar a la mediana y algo menor
fianza de la estimación de la media:
que la media aritmética de los datos originales. No
tiene sentido obtener el antilogaritmo de la desvia-
Límites de confianza:
ción estándar de los valores transformados. No se
debe asumir que una distribución sesgada puede ha-
cerse más simétrica con una transformación como la
mencionada por lo que debe comprobarse el efecto
Esto es, esperamos, con un 95% de confianza mirando un histograma de los datos transformados
de estar en lo cierto, que la media de la población o bien con pruebas como la W de Shapiro-Wilk.
Correspondencia a:
Dr. Jorge Dagnino S.
jdagnino@med.puc.cl
1
representación gráfica se parecía cada vez más a una campana. Lo de menos era la
forma final, lo interesante era la percepción de que se aproximaba a algo. Eso es un
aliciente irresistible para un matemático. Y no se resistió.
0,4 0,4
0,3
0,3 0,3
0,2
→ 0,2
→ 0,2 →
0,1
0,1 0,1
0 0 0
0 1 0 1 2 0 1 2 3 4
→ → →
0 1 2 3 4 5 6 7 8
Para quien no maneje con soltura las expresiones matemáticas, la fórmula anterior
puede generarle cierto estupor. Observa, no obstante, que todos sus elementos deben
resultarte familiares. S es la desviación tipo de la variable X, de la que puedes ver también
la representación del valor concreto (Xi) y la media aritmética ( X̄ ). e es el llamado
número natural, cuyo valor tiene una cantidad infinita de dígitos decimales
(2,71828182845904...). Y π es el número pi, cuyo valor, también provisto de infinitos
dígitos decimales, viene a ser 3,14159265358979... A la derecha observas la misma
función, pero expresada para puntuaciones tipo en lugar de puntuaciones originales. En
ese caso, sabes que S=1 (por lo que desaparece) y el exponente de e se simplifica
mucho.
2
Al representar gráficamente la función que encontró De Moivre, se obtiene lo que
puedes observar en la figura 2.
Casi un siglo después, a inicios del XIX, un ya famoso matemático y físico, Gauss,
lanzó al estrellato la curva normal. Este genio del siglo utilizó la curva casi hasta en la
sopa, especialmente para estudiar los errores de medición en astronomía, un asunto que
había cautivado a Galileo, quien por cierto casi desarrolla la curva normal un siglo antes
que De Moivre. Tal fue el papel de Gauss en la fama y utilización de esta función, que es
normal referirse a ella como campana de Gauss. Antes que este alemán de lujo, otro
francés, temido por los estudiantes de probabilidad desde hace tres siglos, Laplace,
formalizó varios desarrollos a partir de la curva normal, por lo que también se la conoce
como curva de Laplace-Gauss. En fin, para todos los gustos.
Eso, poco más o menos, es lo que les escuchaba a los vecinos cuando yo era
pequeño. Ella le gritaba “¿Tú cuándo vas a ser normal?”. Él le respondía “¡Y dale con lo
normal!”.
La curva normal aparece con frecuencia y es difícil de ver, depende del contexto.
Existen muchas características que parecen comportarse según una ley normal, es decir,
cuya representación gráfica se asemeja a la curva del señor De Moivre. Un ejemplo
clásico es la altura. Si medimos la altura de una población numerosa, encontraremos que
existe una gran aglomeración en torno a una altura media o característica. Conforme nos
alejamos de ella, la frecuencia disminuye rápidamente, hasta que esa disminución
desacelera, es decir, sigue disminuyendo pero con más suavidad, perdiéndose en los
extremos. Otras muchas características no siguen muy bien una función normal, pero se
aproximan en el sentido de que muestran cierta simetría y agolpamiento central con
dispersión en los extremos.
No obstante, en sentido estricto, hay pocas variables que sigan realmente una ley
normal. Lo que sí ocurre más o menos según De Moivre - Laplace - Gauss es que
muchas distribuciones indirectas son normales. Ocurre con las distribuciones muestrales,
lo que comprobaremos en el monográfico siguiente sobre la estimación estadística.
Recuerda que una distribución muestral es un conjunto de datos donde cada uno de ellos
proviene de medir un mismo estadístico pero en muestras diferentes. Por ejemplo, la
3
distribución muestral de medias es el resultado de calcular la media aritmética en una
infinidad de muestras (imagina, por ejemplo, un millón de muestras, de cada una de las
cuales se ha calculado la media aritmética obteniendo un millón de resultados). Pues
bien, la forma con que se distribuyen esas medias es habitualmente normal. Lo mismo
ocurre con la distribución muestral de proporciones, etc. La facilidad con que los
estadísticos se distribuyen según una ley normal es una circunstancia que ha desarrollado
la estadística muchísimo. Y lo veremos en otra unidad, si es que quieres que nos
encontremos en ella. El modo en que De Moivre llegó a formalizar la curva normal es un
buen ejemplo de lo que estamos hablando: una distribución originalmente binomial (tipo
éxito/fracaso o cara/cruz) se aproxima a la normal conforme aumenta n, es decir, el
número de veces que se lanza la moneda al aire y se cuenta si ha salido cara o cruz.
Podemos pensar que la curva normal se llama así porque es así, es decir, normal,
habitual o frecuente. También nos vale pensar en que el nombre indica que la curva sirve
para normalizar o estandarizar determinados procedimientos en estadística. Y también es
cierto. Pero lo que va a ser normal es que vamos a hartarnos de utilizarla. Así que vete
acostumbrando.
4
es el valor que se encuentra a 1 desviación tipo a ambos lados de la media.
(obviamente, es a ambos lados puesto que la curva es simétrica).
6. Aproximadamente el 95% de los datos (la gran mayoría) se encuentra, como
mucho, a 2 desviaciones tipo de la media. El 99% (la inmensa mayoría) llega a
poco más de 2,5 desviaciones tipo de distancia.
5
Recursos y tablas
La función gauss(X) devuelve el área bajo la curva normal que se encuentra entre
la media aritmética (centro de la distribución) y X desviaciones tipo hacia uno de los dos
lados. Da igual cuál, ya que recuerda que estamos ante una curva simétrica. Por ejemplo:
gauss(1,96) = 0,475. En las tres figuras siguientes, observamos cuatro tipos de
áreas diferentes calculadas a partir de la misma función gauss(X).
6
La siguiente tabla muestra un conjunto de datos (Xi) que provienen de una
distribución normal de media 50 y desviación tipo 10. Por ejemplo, X i = 52 se encuentra a
2 unidades por encima de la media. Como S = 10, esas dos unidades se estandarizan
como Zi = 0,2 (Zi = [52-50]/10). El objetivo de la tabla es calcular la probabilidad de
encontrar datos en esa distribución que se alejan de la media tanto o menos que cada
valor Xi. Por eso, el resultado se denomina % centrado, como podría llamarse área
centrada, entre otras posibilidades. Esa columna se expresa en porcentajes. Para utilizar
la función de cálculo, hay que introducir como argumento distancias estandarizadas, no
valores o puntuaciones directas. Por eso he creado la columna Zi. Lo que hace es traducir
el valor Xi a una distancia estandarizada, siguiendo la expresión que ya conocemos:
̄
Xi − X X − 50
Zi = = i
S 10
Otro ejemplo: un 66% de los datos de ese conjunto que sigue una ley normal se
alejan de la media (50) en no más de 9 unidades (pues 59-50=9). Para eso, imagina que
el valor 59 se encuentra en la celda A5, entonces primero se aplica la fórmula
=(A5-50)/10 para obtener Zi (por ejemplo, en la casilla B5). Acto seguido calculamos
=gauss(B5)*200 (es decir, *2*100 para que no solo se muestre el área centrada que se
corresponde con el doble de gauss() sino también para que se exprese en tantos por
ciento en lugar de tantos por uno o proporción).
Características
Media= 50
Desv. tipo= 10
Xi Zi % centrado
52 0,24 19
57 0,65 48
59 0,95 66
50 0,03 03
48 -0,20 16
62 1,23 78
61 1,06 71
43 -0,70 52
54 0,40 31
52 0,24 19
56 0,65 48
46 -0,40 31
66 1,63 90
53 0,32 25
55 0,45 35
7
Pasar de puntuaciones a proporciones con la tabla
Hay muchas posibilidades para construir una tabla de la curva normal tipificada. Y
hay muchas situaciones en las que podemos necesitarla. En los intervalos de confianza
(lo veremos en otra unidad), se manejan áreas centradas. En las pruebas de significación
de la hipótesis nula (otra unidad más), se utilizan áreas extremas que utilizan la misma
proporción en ambos extremos (prueba de dos colas) o solo en un extremo (pruebas de
una cola). Y en diversas situaciones hace falta otro tipo de áreas, como las que se inician
en el extremo izquierdo y superan la media (probabilidad acumulada).
Teniendo en cuenta todas las situaciones posibles, lo más usual es utilizar una
tabla que parta de áreas definidas entre la media aritmética y un valor de Z especificado.
A partir de esa tabla, con determinados cálculos, se llega a responder a todas las
necesidades. La lógica es exactamente la misma que has visto en el subapartado anterior,
que recurre a la función gauss(Z) de Calc:
1. La tabla suministra el área (A) que se encuentra entre la media y el valor de Z que
se introduce o se utiliza como referente.
2. Si interesa un área diferente, habrá que hacer operaciones:
a) Área centrada, es decir, entre -Z y +Z: 2A.
b) Área extrema, es decir, inferior a -Z y superior a +Z: 1-2A.
c) Área acumulada, es decir, desde -∞ hasta Z:
• Si Z>0, entonces el área es 0,5+A.
• Si Z<0, entonces el área es 0,5-A.
8
Pasar de proporciones a puntuaciones con Calc
9
más representativo (el 10% restante aglutina los valores de memoria más raros, sean por
exceso o por defecto).
Para resolverlo, lo más fácil es acudir a la tercera tabla, que ya maneja áreas
centradas. El 90% se corresponde con la fila 0,90 y la columna ,00. El valor de la casilla
es Z=1,645. Luego, el 90% de la población suministra valores de memoria comprendidos
entre -1,645 y +1,645 en número de desviaciones tipo que se alejan de la media. Hay que
traducirlo a puntuaciones directas para terminar convenientemente la tarea:
̄
Xi − X
Zi = ̄ ± Z i S = 100 ± 1,645 ·20 = 100 ± 32,9 = {67,1 ; 132,9}
⇒X i = X
S
10
Anexos: tabla de la distribución normal estandarizada
,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,00 ,000 ,004 ,008 ,012 ,016 ,020 ,024 ,028 ,032 ,036
0,10 ,040 ,044 ,048 ,052 ,056 ,060 ,064 ,067 ,071 ,075
0,20 ,079 ,083 ,087 ,091 ,095 ,099 ,103 ,106 ,110 ,114
0,30 ,118 ,122 ,126 ,129 ,133 ,137 ,141 ,144 ,148 ,152
0,40 ,155 ,159 ,163 ,166 ,170 ,174 ,177 ,181 ,184 ,188
0,50 ,191 ,195 ,198 ,202 ,205 ,209 ,212 ,216 ,219 ,222
0,60 ,226 ,229 ,232 ,236 ,239 ,242 ,245 ,249 ,252 ,255
0,70 ,258 ,261 ,264 ,267 ,270 ,273 ,276 ,279 ,282 ,285
0,80 ,288 ,291 ,294 ,297 ,300 ,302 ,305 ,308 ,311 ,313
0,90 ,316 ,319 ,321 ,324 ,326 ,329 ,331 ,334 ,336 ,339
1,00 ,341 ,344 ,346 ,348 ,351 ,353 ,355 ,358 ,360 ,362
1,10 ,364 ,367 ,369 ,371 ,373 ,375 ,377 ,379 ,381 ,383
1,20 ,385 ,387 ,389 ,391 ,393 ,394 ,396 ,398 ,400 ,401
1,30 ,403 ,405 ,407 ,408 ,410 ,411 ,413 ,415 ,416 ,418
1,40 ,419 ,421 ,422 ,424 ,425 ,426 ,428 ,429 ,431 ,432
1,50 ,433 ,434 ,436 ,437 ,438 ,439 ,441 ,442 ,443 ,444
1,60 ,445 ,446 ,447 ,448 ,449 ,451 ,452 ,453 ,454 ,454
1,70 ,455 ,456 ,457 ,458 ,459 ,460 ,461 ,462 ,462 ,463
1,80 ,464 ,465 ,466 ,466 ,467 ,468 ,469 ,469 ,470 ,471
1,90 ,471 ,472 ,473 ,473 ,474 ,474 ,475 ,476 ,476 ,477
2,00 ,477 ,478 ,478 ,479 ,479 ,480 ,480 ,481 ,481 ,482
2,10 ,482 ,483 ,483 ,483 ,484 ,484 ,485 ,485 ,485 ,486
2,20 ,486 ,486 ,487 ,487 ,487 ,488 ,488 ,488 ,489 ,489
2,30 ,489 ,490 ,490 ,490 ,490 ,491 ,491 ,491 ,491 ,492
2,40 ,492 ,492 ,492 ,492 ,493 ,493 ,493 ,493 ,493 ,494
2,50 ,494 ,494 ,494 ,494 ,494 ,495 ,495 ,495 ,495 ,495
2,60 ,495 ,495 ,496 ,496 ,496 ,496 ,496 ,496 ,496 ,496
2,70 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497
2,80 ,497 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,498
2,90 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,499 ,499 ,499
3,00 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,10 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,20 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,30 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500
11
Tablas de puntuaciones tipo correspondientes a una curva normal
12
08
2021
GRÁFICOS
ESTADÍSTICOS:
GUÍA PRÁCTICA
PARA ESTADÍSTICA
DESCRIPTIVA
Jorge Alejandro Obando-Bastidas
Universidad Cooperativa de Colombia
Sede Villavicencio
NOTA LEGAL
El presente documento de trabajo ha sido incluido dentro de nuestro repositorio institucional como Apropiación social de conocimiento por solicitud del autor,
con fines informativos, educativos o académicos. Asimismo, los argumentos, datos y análisis incluidos en el texto son responsabilidad absoluta del autor y no
representan la opinión del Fondo Editorial o de la Universidad.
DISCLAIMER
This coursework paper has been uploaded to our institutional repository as Social Appropriation of Knowledge due to the request of the author. This document
should be used for informational, educational or academic purposes only. Arguments, data and analysis included in this document represent authors’ opinion
not the Press or the University.
Este documento puede ser consultado, descargado o reproducido desde nuestro repositorio institucional (http://repository.
ucc.edu.co/handle/20.500.12494/7369) para uso de sus contenidos, bajo la licencia de Creative Commons Reconocimien-
to-NoComercial-SinObraDerivada 4.0 Internacional. http://creativecommons.org/licenses/by-nc-nd/4.0/
TABLA DE CONTENIDO
Resumen 7
Introducción 8
Propósito 8
Unidad de competencias 8
Marcos teóricos 8
Campo de acción 9
División 9
Población 9
Muestra 10
Variables 10
Variables cualitativas 10
Tablas de frecuencia 11
Gráficos estadísticos 12
Gráfico de barras 13
Gráfico de sectores 13
Gráfico de arañas 15
Ejemplo de aplicación 19
Histograma 21
Diagrama de Tortas 21
Ojivas 22
Polígonos de frecuencia 23
Otras graficas 23
Boxplot 23
Diagrama de Pareto 25
Ejercicios de aplicación 27
Referentes 32
ÍNDICE DE TABLAS Y FIGURAS
Resumen
Los gráficos estadísticos son objetos de la estadís-
tica con los que se pretende establecer un grado
de comunicación, breve, sencillo y didáctico. El
propósito general que motiva el desarrollo de este
documento es la apropiación de las características
de los gráficos construidos en las tablas de frecuen-
cias y en los datos no agrupados que provienen de
bases de datos reales. La importancia de adquirir
la habilidad de diseñar un gráfico radica principal-
mente en la necesidad de comunicar datos de una
manera visual, de manera que sea comprendido
ampliamente por muchos grupos. Generalmente,
los gráficos están en todos los medios de comu-
nicación visuales y transmiten la realidad de los
acontecimientos; el presente documento contiene,
desde la definición de variables hasta la construc-
ción de gráficos, estableciendo diferencias entre las
variables de tipo numérico y las variables de tipo
categórico. Los gráficos que aquí se muestran par-
ten de la construcción de una tabla de frecuencias
y son datos agrupados; sin embargo, gráficos como
los Boxplot, no necesitan agrupación de los datos,
puesto que, por su característica, estos gráficos sa-
len de las bases de datos y proponen una informa-
ción más precisa, ya que provienen de la fuente tal
y como se conciben. Finalmente, en el trabajo se
proponen algunos ejercicios de bases de datos rea-
les y como propósito de evaluación se entrega un
cuestionario de diez preguntas, diseñado con base
en los lineamientos y los requerimientos de la ta-
xonomía solo.
Palabras clave: datos agrupados, datos no agrupados,
frecuencias, variables categóricas, variables numéricas.
8 · Generación de contenidos impresos
120
105
100
80 69 68
60
40 32
20 5 10
0
1ero de ene - 2016
6 de ago - 2016
7 de ago - 2016
9 de jul - 2017
10 de jul - 2017
6 de ago - 2017
7 de ago - 2017
9 de jul - 2018
10 de jul - 2018
6 de ago - 2018
7 de ago - 2018
9 de jul - 2019
FIGURA 1. Asesinatos de líderes sociales (2016-2019). Tomado de la Consejería Presidencial de los Derechos Humanos (2019).
la fuente de donde provienen los datos. Por ejemplo, tamaño, edad, precios, rendimiento
ejemplo, la población de estudiantes de una académico o indicadores económicos.
universidad es finita, ya que se sabe que en los
programas existe una base de datos en los que
están inscritos todos los estudiantes de dicha VARIABLES ENTERAS O DISCRETAS
universidad. En este conjunto de variables, los valores que
se representan se visualizan como número
entero. Por ejemplo, número de estudiantes
Poblaciones infinitas en la universidad, número de personas diarios
que se contagian con el virus sars-CoV-2.
En este tipo de población, el conteo de uni-
dades observables se hace un poco difícil. El
término de infinito en estadística no se ajusta
VARIABLES REALES O CONTINUAS
a una definición semántica, puede hacer rela-
ción a un grupo de objetos, personas, cosas, en Es aquella que teóricamente puede tomar
las que se desconoce la fuente de donde pro- cualquier valor dentro de un intervalo de
vienen. Ejemplo: como el número de vendedo- valores, ella se mide uniformemente. Dentro
res informales, que dado la crisis de la pande- de la escala de los conjuntos numéricos, re-
mia de covid-19, se ha incrementado en todas presentan a los números reales. Por ejemplo,
las ciudades de Colombia y estos no se regis- estatura de los estudiantes de una universi-
tran en una base de datos, se puede considerar dad, salarios devengados por los docentes de
una población infinita. un núcleo educativo, temperaturas a ciertas
horas del día, edad de una persona.
Muestra
VARIABLES CUALITATIVAS
Se define como la mejor representación de la
población. La muestra es un subconjunto de Representan características propias de las
la población a la cual se le efectúa la medi- cualidades de los objetos que conforman la
ción con el fin de estudiar las propiedades del muestra o la población. Por ejemplo, sexo,
conjunto del cual es obtenida. El tamaño de la origen o color de piel.
muestra, la disponibilidad de recursos, la ho-
Las variables cualitativas se dejan expresar en
mogeneidad de los elementos y de los datos
niveles de categoría. Por ejemplo, sexo: mascu-
que la conforman le da la importancia su-
lino o femenino; origen: colombiano, venezola-
ficiente al uso adecuado de la muestra; un
no o panameño; color de piel: blanco, negro o
buen conocimiento de la población permite
amarillo.
encontrar una buena muestra representativa.
Existen muestras tomadas al azar y sin seguir
ningún modelo de muestreo que llevan a con- CLASIFICACIÓN DE LAS VARIABLES SEGÚN
clusiones inadecuadas y, por lo tanto, a tomar SU NATURALEZA
decisiones que no corresponden a la solución
Las variables sean enteras o continuas por su
de un problema planteado dentro de conjunto.
naturaleza se las puede clasificar como cate-
góricas y numéricas; a la vez, esta clasificación
responde a ciertos criterios de diferenciación.
Variables
Es el conjunto de características de las entida- Variables categóricas: establecen categorías
des que se interesan en una investigación; por de los datos. Producen muchas informaciones.
Gráficos estadísticos: guía práctica para estadística descriptiva· 11
Por ejemplo: las categorías de bajos, medios, de las de intervalo y tienen un origen. Por
altos superiores es una escala categórica de ejemplo, el peso de una persona.
estudiantes evaluados en una universidad.
En la tabla 1 se resume la clasificación de estas
Nominal: no establecen ningún orden. Corres- variables.
ponde a variables categóricas; por ejemplo,
estado civil, soltero, casado, viudo, unión libre.
Tablas de frecuencia
Ordinales: indican un orden. Por ejemplo, Muchas veces se presenta una muestra con
grado académico (primaria, bachillerato, uni- muchos datos, por lo que se hace necesario
versidad, especialización y maestría). organizarlos en una tabla de frecuencias o en
una distribución de frecuencias. Este tipo de
Variables numéricas: a diferencia de las an- tabla está formada por las distintas catego-
teriores, producen más información y mejores rías (valores o intervalos) del carácter X y por
procedimientos estadísticos. A toda variable las frecuencias absolutas, relativas, absolutas
numérica se la puede categorizar, pero pierde acumuladas y relativas acumuladas.
información y detalles de esta. Por ejemplo, las
edades, siendo numérica producen informa- A manera de definición, se puede decir que
ción relacionada con medias, medianas, modas, una tabla de frecuencias es un método para
entre otras. Se pueden categorizar como: niños, presentar la información en forma resumida,
jóvenes, adultos y tercera edad; en estas cate- muestra los datos tal como aparecen en la dis-
gorías ya no se puede obtener la información tribución, organizados en diferentes formas de
conteo de los elementos de una variable, a lo
que se obtuvo en el caso numérico.
que se denomina “frecuencia”. A continuación,
Para tal efecto, las variables pueden ser: se muestran los tipos de frecuencias que se
presentan para organizar los datos.
Intervalo: se pueden asociar en intervalos
de clase y corresponden a variables de tipo
continuo. Preservan de las variables ordina-
Frecuencias absolutas (f)
les el orden y se acomodan las distancias. Por Se llama frecuencia absoluta (f) de la variable o
ejemplo, salarios, edades, notas estudiantiles. categoría al número de datos que se presen-
tan en el conteo directo de los datos que se
Razón: son variables que conservan más infor- repiten en una distribución. La suma de todas
mación y detalles de las demás variables. Con- las frecuencias absolutas es el tamaño de la
servan el orden de las ordinales, la distancia muestra, como se aprecia en la ecuación 1.
TABLA 1
Clasificación y tipos de variables
TABLA 2
Frecuencia absoluta relativa (h) Estructura de una tabla de frecuencias
∑
f1 f2 f3 fn hi Nota. Elaboración propia.
n
+ n
+ n
+ ... + n
= n
= 100%
i=1
(3) Gráficos estadísticos
Los gráficos estadísticos son recursos visuales
que permiten comunicar la información, se
Frecuencias acumuladas (F) constituye en un instrumento estadístico para
Esta frecuencia se obtiene de la acumula- analizar los datos en forma eficiente y desde
ción sucesiva de las frecuencias absolutas. El diferentes niveles de lectura (Castellanos y
último dato acumulado es el tamaño de la Obando, 2013). Existen gráficos para los datos
muestra, como se aprecia en la ecuación 4. numéricos y para los datos categóricos.
n
F1 = f1 + f2 + f3 +
i=1
... . fn =
∑ fi
Gráficos para datos
(4) categóricos
De acuerdo con el tipo de frecuencias, se pueden
Frecuencias relativas encontrar gráficos, tipo barra, torta, arañas,
barras acumuladas, pictogramas, anillos, entre
acumuladas (H)
otros. A continuación, se propone una situa-
Estas se obtienen de la acumulación sucesi- ción problemas y se construye en Excel la tabla
va de las frecuencias relativas. El último dato de frecuencias con sus respectivos gráficos. Por
acumulado es el 100 % de la muestra, como se ejemplo, en un estudio realizado en el Meta y
aprecia en la ecuación 5.
que está relacionado con el turismo, una de las
n
preguntas de la encuesta aplicada tenía el si-
H =
F1
n
F2 F3
+ n + n + ... + n =
fn
i=1
Fi
n ∑
= 100% guiente contenido: ¿cuál es el principal motivo
por el que usted visita al departamento del
(5) Meta? Señale solo una opción:
Gráficos estadísticos: guía práctica para estadística descriptiva· 13
1. Paisaje. TABLA 3
Tabla de frecuencias para la variable motivos de visita al
2. Gastronomía.
departamento del Meta
3. Diversión. Motivos f h F H
2 4 5 1 6 2 3
Gráfico de barras
2 6 1 1 6 3 4
Es una figura que permite representar los
2 6 2 1 6 3 2 elementos de la variable de estudio con los
3 6 2 1 3 4 1 valores obtenidos en la frecuencia absoluta o
también se pueden representar los valores de
3 6 2 1 3 6 2 la frecuencia relativa. En el ordenado siempre
3 6 3 4 3 6 3 estarán los elementos que constituyen la va-
riable y en el eje de las abscisas el valor de las
5 3 3 4 5 6 3
frecuencias. La figura 2 se elaboró en Excel.
5 3 3 4 5 5 3
Obsérvese que, en la figura 2, se describen ex-
5 3 4 4 5 5 6 clusivamente los valores de la frecuencia ab-
1 3 4 4 4 4 soluta; cada barra evidencia el valor de la fre-
cuencia absoluta, propuesto en la tabla 3.
1 3 1 4 4 4
En Excel se pueden generar diferentes formas
1 2 1 5 4 3
para representar esta información; en la figura
1 2 1 5 3 2 3, se observa la misma gráfica, con la informa-
ción sobre las barras y con una tabla de deno-
4 2 5 5 3 2
minación de las unidades de variables. Queda
a gusto del diseñador la forma como represen-
Siguiendo un proceso de organización en
ta la información.
columna de los datos y en orden ascendente,
Excel es una de las mejores herramientas para
construir una tabla de frecuencias, ya que fa-
cilita su conteo y su proceso de construcción,
Gráfico de sectores
puesto que el uso de las fórmulas creadas en Denominado también “tartas” (pie), consiste
este permite con rapidez replicarla en otras en un círculo dividido en tantas partes o por-
celdas y obtener los demás resultados de una ciones como valores de frecuencia relativa
manera rápida y sencilla. La tabla de frecuen- existan, a cada valor de frecuencias relativa le
cias construida a partir de los datos anteriores corresponde en forma proporcional un arco de
se puede observar en la tabla 3. círculo (figura 4).
14 · Generación de contenidos impresos
24
22
20
18
16
14
12
10
8
6
4
2
0
Paisaje Gastronomía Diversión Calor Clima Descanso
Humano
Figura 2. Gráfico de barras para la variable motivos para visitar los Llanos orientales (1). Elaboración propia
haciendo uso de Excel como herramienta.
25
19
15 15
14
12
Figura 3. Gráfico de barras para la variable motivos para visitar los Llanos orientales (2). Elaboración
propia haciendo uso de Excel como herramienta.
Gráficos estadísticos: guía práctica para estadística descriptiva· 15
Descanso Paisaje
12% 15%
Clima
14% Gastronomía
15%
Calor Humano
19% Diversión
25%
Figura 4. Gráfico de torta para la variable motivos para visitar los Llanos orientales. Elaboración propia
haciendo uso de Excel como herramienta.
La lectura de estos gráficos es directa, se lo hace constituyen los anillos o los sectores. Son pe-
teniendo en cuenta el valor del porcentaje pro- queños sectores en forma de un aro o anillo,
puesto en cada unidad de variable. Por ejemplo, divido en forma proporcional de acuerdo con el
el 25 % de los turistas visitan el Meta, porque valor de dicha frecuencia (figura 6).
aquí encuentran diversión. Una interpretación
más general estará amarrada al objetivo de la Los diagramas para las frecuencias absolutas
investigación que generó la pregunta. acumuladas, denominados “diagramas integra-
les”, no tienen sentido en el contexto de las va-
riables categóricas, se observarán en el contexto
Gráfico de arañas de las variables numéricas, enteras y continuas.
Paisaje
15%
Descanso Gastronomía
15%
12%
14%
Clima Diversión
25%
19%
Calor Humano
Figura 5. Gráfico de araña o radar para la variable motivos para visitar los Llanos orientales. Elabora-
ción propia haciendo uso de Excel como herramienta.
Descanso Paisaje
12%
15%
Clima
14%
Gastronomía
15%
Calor Humano
19%
Diversión
25%
Figura 6. Gráfico anillos para la variable motivos para visitar los Llanos orientales. Elaboración
propia haciendo uso de Excel como herramienta.
Gráficos estadísticos: guía práctica para estadística descriptiva· 17
Estrato 5: 1,5%
Estrato 4: 4,6% Estrato 6: 0,80%
Estrato 2: 36,7%
Figura 7. Porcentaje de muertes por la covid-19 en Colombia por estratos sociales. Tomada de dane
(16 de octubre de 2020).
La triste realidad reflejada en la figura 7 (que por covid-19 en Colombia por estratos socia-
corresponde a una torta con frecuencias rela- les. Por ejemplo, en el estrato 1, a la fecha en
tivas) evidencia que la mayoría de las muertes las que se tomaron los datos de las bases de
en Colombia son de personas que carecen de datos del ministerio de salud pública de Co-
recursos económicos. Corresponde aquí rea- lombia, se observaban 16 910 personas en el
lizar otro tipo de gráficos que permitan evi- estrato 1. La figura 8 permite comparar resul-
denciar la información desde otro punto de tados; se observa, por ejemplo, que en los es-
vista. Para ello, lo recomendable es reconstruir tratos 1, 2, y 3 es donde más se han presenta-
la tabla de frecuencias y proceder a la cons- do casos de mortalidad por la covid-19. Estos
trucción de otras representaciones; de esta gráficos sencillos son ligeros de interpretación,
manera, se presenta la tabla 4, correspondien- son muy utilizados, ya que proponen la infor-
te a la tabla de frecuencias para la variable mación de manera directa.
que relaciona el número de personas falleci-
das en Colombia y discriminadas por estrato
TABLA 4
social (ver tabla 4).
Tabla de frecuencias del número de fallecidos por la COVID-19
en Colombia discriminado por estratos sociales
18863
16910 Estrato 1
Estrato 2
Estrato 3
12078 Estrato 4
Estrato 5
Estrato 6
2364
771 411
Figura 8. Número de muertes por covid-19 en Colombia por estratos sociales. Tomado de dane (16 de octubre
de 2020).
50986 51397
50215
47851
35773
16910
Figura 9. Diagrama integral para el número de muertes por covid-19. Tomado de dane (16 de octubre de
2020).
Gráficos estadísticos: guía práctica para estadística descriptiva· 19
Rango = Xmax – Xmin = 92 – 24 = 68 (12) Tabla de frecuencias de personas con la covid-19 que se
recuperan en el hospital
El rango indica que una persona de 92 años es
Edades f h F H
la de mayor edad que se encuentra hospita-
23-33 13 13 % 13 13 %
lizada y que la persona de menor edad en el
33-43 10 10 % 23 23 %
hospital tiene 24 años.
43-53 11 11 % 34 34 %
2. Número de intervalos (ver ecuación 13) 53-63 25 25 % 59 59 %
63-73 13 13 % 72 72 %
m = 1 + 3,3 * log(100) = 7,6 (13) 73-83 21 21 % 93 93 %
83-93 7 7% 100 100 %
Aquí, se pueden escoger 7 intervalos que co-
100 1
rresponde a un redondeo por defecto o 8,
si el redondeo es por exceso. Sin ajustarse a
Nota. Datos tomados del Ministerio de Salud de Colombia (2020).
ninguna regla se escogerá el redondeo por
defecto, entonces se tienen 7 intervalos.
25
21
13 13
11
10
Figura 10. Histograma de personas con la covid-19 que se han hospitalizado. Datos tomados del Ministerio
de Salud de Colombia (2020).
22 · Generación de contenidos impresos
este caso representa las categorías o los inter- absolutas como acumuladas. Para este gráfico,
valos de clase, formadas con la variable edad, en el eje horizontal, se ubican los intervalos de
de las personas que se han hospitalizado a clase; en el eje vertical, se leen las frecuencias
causa del contagio por covid-19 en Colombia absolutas acumuladas (figura 12).
(ver figura 11).
Como el salto de intervalo implica continuidad
en sus valores, su lectura se hace con base en
el valor acumulado de la frecuencia tomando
Ojivas
como final el extremo superior del interva-
Las ojivas son gráficos exclusivos de los datos lo. Por ejemplo, existen 34 personas con la
numéricos continuos que permiten visualizar covid19 que están recuperándose en el hospi-
el valor de las frecuencias acumuladas tanto tal por debajo de los 53 años.
83 ___ 93 23 ___ 33
7% 13%
73 ___ 83 33 ___ 43
21% 10%
43 ___ 53
11%
63 ___ 73
13%
53 ___ 63
25%
Figura 11. Diagrama de tortas de personas con la covid-19 que se han hospitalizado. Datos
tomados del Ministerio de Salud de Colombia (2020).
100
93
72
59
34
23
13
Figura 12. Ojiva de personas con covid-19 que se han hospitalizado. Datos tomados del Ministerio de
Salud de Colombia (2020).
Gráficos estadísticos: guía práctica para estadística descriptiva· 23
25
21
13 13
11
10
Figura 13. Polígono de frecuencias de personas con la covid-19 que se han hospitalizado. Datos tomados del
Ministerio de Salud de Colombia (2020).
24 · Generación de contenidos impresos
101
81
Mujeres
61 Hombres
41
21
1
Figura 14. Boxplot por género de personas con la covid-19 que se han hospitalizado. Datos
tomados del Ministerio de Salud de Colombia (2020).
80 __ 89 32713 30379
70 __ 79 69566 64592
Hombres
60 __ 69 134421 124829
Mujeres
50 __ 59 211638 196535
40 __ 49 249174 231393
30 __ 39 341887 317490
20 __ 29 322530 299514
10 __ 19 103220 95355
0 __ 9 49408 45882
Figura 15. Pirámide poblacional por género de personas con la COVID-19 en Colombia. Adaptado del Boletín
Epidemiológico COVID-19, por la Subred Integrada de Servicios de Salud. (2020).
73-83 21 21 % 93 46 %
DIAGRAMA DE PARETO 23-33 13 13 % 13 59 %
Un diagrama de Pareto es una técnica gráfica 63-73 13 13 % 72 72 %
simple para ordenar elementos, desde el más 43-53 11 11 % 34 83 %
frecuente hasta el menos frecuente (en forma
33-43 10 10 % 23 93 %
descendente), basándose en el principio de
83-93 7 7% 100 100 %
Pareto. En el caso que aquí se expone (ver
tabla 8), se trata de observar el grupo etario 100 1
de mayores casos de contagio por edades, a los
Nota. Datos tomados del Ministerio de Salud de Colombia.
que se los puede dividir en dos grupos: críti-
cos y poco críticos. La proporción de los grupos En la tabla 7, se han preparado los datos para
críticos para Pareto resulta ser de aproxima- la realización de la gráfica de Pareto. Los inter-
damente un 20 % para los “pocos críticos” de valos están dispuestos de acuerdo con el orden
un 80 %. Este 20 % serán los grupos etarios res- descendente de las frecuencias absolutas. La
ponsables de la mayor parte del efecto que preparación de los datos supone la división de
se produce en casos de hospitalización por la los grupos determinados en grupos críticos y
covid-19 en Colombia. poco críticos, lo cual se observa en la figura 16.
26 · Generación de contenidos impresos
Para obtener la figura 16, los datos tienen que lleguen al hospital producto del contagio por
estar ordenados de mayor a menor. Las causas la covid-19.
en el eje x, sobre el eje y izquierdo, se dispo-
Una lectura de la figura nos propone que el
nen los valores de la frecuencia absoluta acu-
72 % está generado por cuatro causas princi-
mulada; sobre el lado derecho, se observan los
pales, determinados por los grupos etarios de
valores de la frecuencia relativa acumulada.
53-63; 73-83; 23-83; 63-73. Una recomendación
a la luz de estos resultados propondría hacer
De acuerdo con lo dispuesto por Pareto, el 80 %
una revisión sobre estos grupos etarios, ya que
de las consecuencias es producto del 20 % de
aquí se concentra la mayoría de las personas
las causas. El grafico identifica el 80 %; como
con la covid-19 en el hospital.
este valor se observa sobre las frecuencias
acumuladas, para el caso que se observa el Si da clic en el siguiente enlace, podrá encontrar
valor cercano corresponde al 72 %, en el cual un video titulado “¿Cómo hacer un diagrama
se concentrará el esfuerzo de grupo etario de Pareto en Excel 2016?”, que le servirá de guía
por disminuir el número de personas que para la construcción de los diagramas de Pareto.
90 93% 90%
80 83% 80%
70 72% 70%
Porcentaje Acumulado
60 60%
59%
50 50%
46%
40 40%
30 30%
25%
20 20%
25 21
10 10%
13 13 11 10 7
0 0%
53 __63 73 __83 23 __33 63 __73 43 __53 33 __43 83 __93
Figura 16. Diagrama de Pareto de personas con la covid-19 que se recuperan en el hospital. Datos tomados
del Ministerio de Salud de Colombia.
Gráficos estadísticos: guía práctica para estadística descriptiva· 27
1. Primaria
Ejercicio n.° 1
2. Secundaria
En una encuesta aplicada a microempresarios
de la ciudad de Villavicencio se desea indagar 3. Técnica
sobre su formación. Se realizó la encuesta con
4. Universidad
150 microempresarios. Los resultados fueron
los siguientes: 5. Posgrado
2 3 4 4 4
pectivos gráficos.
2 1 3 3 3
2 4 2 3 4
Ejercicio n.° 2
3 4 3 4 4
Cuestionario, por niveles taxonómicos de solo,
2 4 4 4 4
con lectura de gráficos estadísticos.
4 3 3 3 4
3 3 3 4 4 Con el propósito de fortalecer la lectura y la
4 4 2 3 3 comprensión de los gráficos estadísticos se
hace uso de la taxonomía solo en sus cuatro
4 3 3 3 4
niveles. Con respecto a esta taxonomía Biggs
3 5 4 4 4
y Collis (1982) observaron que, “en la progre-
4 2 3 4 4
sión desde la incompetencia hasta la maes-
4 3 3 3 3 tría, los estudiantes muestran una secuencia
2 2 3 4 4 consistente, o ciclo de aprendizaje, que es ge-
4 3 4 2 4 neralizable a una gran variedad de tareas y
1 3 3 4 3 en particular a las tareas escolares”. Esta se-
4 5 4 3 4 cuencia se refiere a un progreso jerárquico en
la complejidad estructural de sus respuestas,
4 4 4 4 3
cualquiera que sea el modo de funcionar o
4 3 3 4 4
modo de representación, en el que se exprese
4 3 3 3 4
el aprendizaje. Lo anterior supone que el
4 4 4 2 3 proceso de indagar partirá de posiciones sen-
4 5 2 4 4 cillas para llegar a propuestas complejas en
3 4 3 4 4 las que se evidencia el grado de aprendizaje
4 3 2 3 2 en los estudiantes (Biggs y Collis, 1991). En las
4 4 2 4 4 siguientes preguntas.
4 4 4 4 2
Según la figura 1 que muestra los asesinatos
4 3 4 3 3 ocurridos a líderes sociales, responda:
28 · Generación de contenidos impresos
800
600
400
200
0
2016 2017 2018 2019 2016 2017 2018 2019
Figura 17. Radiografía de la deforestación en el Amazonas brasileño (junio del 2019). Tomado de Pasquali (2020), a partir
de efe, cifras de deter e inpe y adaptación infográfica etc.
30 · Generación de contenidos impresos
Residuos
8%
Energía
43% 44%
Agricultura,
silvicultura y otros
usos de la tierra
(AFOLU) 5%
Procesos industriales
y usos de productos
Figura 18. Emisiones GEI de Colombia en el 2012. Tomado de Inventario Nacional de Gases de Efecto Invernadero (2012).
Ejercicio n.° 3
C-Ciudadanas
Matemáticas
C-Naturales
Intervalos
L-Critica
A continuación, se proponen algunos datos
obtenidos en las pruebas saber-2019.
L-Critica Matemáticas C-Naturales C-Ciudadanas 26-34,5
47 48 37 30
60 65 54 59 34,5-43
66 57 41 74 43-51,5
62 54 61 73
51,5-60
63 57 55 57
49 29 41 41 60-68,5
76 70 70 68 68,5-77
57 65 63 66
Total
62 62 66 39
68 66 63 77
42 40 28 39
38 31 41 26 Ejercicio n.° 4
64 56 59 60
Para los datos no organizados de la prueba
52 66 54 52
saber, construya los Boxplot y establezca com-
54 49 40 33
paraciones entre las asignaturas que se pre-
52 55 61 50
sentan en la tabla.
63 68 54 69
48 54 58 50
52 55 49 32
61 38 44 45 Ejercicio n.° 5
55 64 57 57 Para los valores obtenidos en las asignaturas
57 51 45 38 de L-Critica y Matemáticas, elabore una pirá-
58 57 49 42 mide de resultados y establezca algunas com-
34 39 38 28 paraciones.
48 71 61 55
75 73 59 75
53 56 54 55
Ejercicio n.° 6
53 48 43 46
40 43 39 39 Al parecer, los resultados de la prueba de
69 57 63 61 lectura crítica están relacionados con la canti-
49 55 31 31 dad de libros leídos por un estudiante. A partir
59 51 51 45 de los datos obtenidos en la siguiente tabla,
65 64 54 62 dibuje un diagrama de Pareto. Concluya con
55 55 50 45 respecto a las variables de lectura.
56 51 49 51
Variables de lectura Intervalos Promedios
Para los datos propuestos, obtenga el valor
No leen 0 50
de las frecuencias absolutas, relativas y acu-
muladas, propuestas desde la siguiente tabla. Leen poco 0-10 51
Elabore histogramas para matemáticas y Lectura mediana 11-25 56
L-Crítica, Ojivas para C-naturales y diagramas
Bastante lectura 26-100 56,2
circulares para C-ciudadanas. Realice lecturas
Mucha lectura >10 58
para algunas graficas.
32 · Generación de contenidos impresos
REFERENCIAS
Batanero, C. y Díaz, C. (2011). Estadística con proyectos. Universidad de Granada.
Castellanos. M. T. y Obando J. (2013). Análisis y sistemas de datos poderoso escenario de aprendizaje cultural.
Revista Científica, 2(54), 504-508.
Contreras, A., Cárdenas, C., González, J., Toloza, S., Zambrano, L. y Pulido-Rojan, A. (2019). Herramientas estadísti-
cas para la mejora del control de inventarios: un caso de estudio. Investigación y Desarrollo en tic, 10(1), 13-24.
Consejería Presidencial de los Derechos Humanos. (2019). Informe sobre el balance de las acciones y estrategias ade-
lantadas en el marco de la protección de los líderes, lideresas sociales y defensores de derechos humanos. Consejería
Presidencial de los Derechos Humanos. http://www.derechoshumanos.gov.co/Prensa/2019/Documents/
INFORME%20LDDH%20ACTUALIZADO%2017%20DE%20JULIO_V2.pdf
Departamento Administrativo Nacional de Estadística. (dane). (2020). Boletín técnico. Estadísticas vitales – eevv.
Defunciones por covid-19. 2 de marzo al 4 de octubre de 2020pr. dane. https://www.dane.gov.co/files/investiga-
ciones/poblacion/defunciones-covid19/boletin-defunciones-covid-2020-02mar-04oct.pdf
Ingeniería Industrial Easy. (2017, 11 de marzo). Cómo hacer un diagrama de Pareto en Excel 2016. [Video de You-
Tube]. https://bit.ly/38TKbou
Instituto Nacional de Salud. (ins). (2020). covid-19 en Colombia. Instituto Nacional de Salud. https://www.ins.
gov.co/Noticias/Paginas/coronavirus-casos.aspx
Inventario Nacional de Gases de Efecto Invernadero. (gei). (2012). Tercera Comunicación Nacional de Cambio Cli-
mático. Programa de las Naciones Unidas para el Desarrollo (pnud). http://documentacion.ideam.gov.co/
openbiblio/bvirtual/023421/cartilla_INGEI.pdf
Microsoft Excel a Todo Nivel. (2016, 1 de agosto). Pirámide poblacional en Excel | Tips y trucos en Excel. [Video de
YouTube]. https://bit.ly/3nf0Nzh
Pasquali, M. (2020). La deforestación en la Amazonia brasileña alcanza su nivel más alto en una década. Sta-
tista. https://es.statista.com/grafico/16328/deforestacion-estimada-en-la-amazonia-brasilena/
Polanía, M. J., Pacheco, B. y Rosselli, D. (2018). El uso de pirámides poblacionales como representación gráfica
del sistema de salud colombiano. Archivos de Medicina (Manizales), 18(1), 127-133.
Subred Integrada de Servicios de Salud. (2020, 26 de agosto). Boletín Epidemiológico covid-19. Datos Abiertos Bogo-
tá. https://datosabiertos.bogota.gov.co/dataset/9de30caa-a772-4fc9-9d8c-6baf0cd5078f/resource/cdecb5cf-
6f63-46b1-bc4a-70d95b6394b4/download/boletin-epidemiologico.pdf
Walker, M. L., Dovoedo, Y. H., Chakraborti, S. y Hilton, C. W. (2018). Un diagrama de caja mejorado para datos
univariados. The American Statistician, 72(4), 348-353.
FAYAD CAMEL V.
Profesor de Bioestadística – Escuela de Salud Pública – Universidad Central de Venezuela
ESTADÍSTICAS MÉDICAS
Y DE
SALUD PÚBLICA
1.1 CONCEPTO
1.2 EL METODO CIENTÍFICO
1.3 LA ESTADÍSTICA Y EL METODO CIENTÍFICO
1.4 LA ESTADÍSTICA Y LA MEDICINA
1.4.1.Usos en medicina individual
1.4.2.Usos en medicina colectiva
LA ETAPA DE PLANIFICACIÓN
III 3.1.GENERALIDADES
3.2.PASOS DE LA PLANIFICACIÓN
3.3.PRIMER PASO: PLANTEAMIENTO DEL
PROBLEMA
3.3.1.Naturaleza e importancia del problema
estudiado
3.3.2.Determinación de objetivos
3.4.SEGUNDO PASO: BÚSQUEDA Y EVALUACIÓN
DE
LA INFORMACIÓN EXISTENTE
3.4.1.Evaluación de trabajos individuales
3.4.2.Evaluación global del material estudiado
3.5.TERCER PASO: FORMULACION DE
HIPÓTESIS
3.6.CUARTO PASO: VERIFICACIÓN DE LA
HIPÓTESIS
3.6.1.Diseño de la investigación
3.6.2.Ejecución de la investigación
3.7.QUINTO PASO: CONCLUSIONES Y
RECOMENDACIONES
LA ETAPA DE RECOLECCION DE LA
INFORMACIÓN
IV PASOS EN LA RECOLECCION DE LA
INFORMACIÓN
5.1.GENERALIDADES
5.2.ERRORES DEPENDIENTES DEL
OBSERVADOR
5.3.ERRORES DEPENDIENTES DEL METODO DE
OBSERVACIÓN
5.4.ERRORES DEPENDIENTES DE LOS
INDIVIDUOS
OBSERVADOS
5.5.RELACION ENTRE LAS DIVERSAS FUENTES
DE
ERROR
5.6.CONTROL DE ERRORES EN LAS
VI METODOS DE RECOLECCION DE LA
INFORMACIÓN
6.1.GENERALIDADES
6.1.1.Fuentes primarias de recolección
6.1.2.Fuentes secundarias de recolección
6.2.LA OBSERVACION
6.3.EL INTERROGATORIO
6.4.PRINCIPALES METODOS DE RECOLECCION
6.4.1.Encuestas y experimentos
6.4.2.Censo de población
6.4.3.Sistemas de registro
7.1.GENERALIDADES
7.2.UNIVERSOS Y MUESTRAS
7.3.VENTAJAS DEL EMPLEO DE MUESTRAS
7.4.DESVENTAJAS DEL EMPLEO DE MUESTRAS
7.5.CONDICIONES DE UNA BUENA MUESTRA
7.5.1.Cantidad de individuos en la muestra
7.5.2.Calidad de la muestra
7.5.3.Muestras representativas y muestras
seleccionadas
7.6.CLASES DE MUESTRAS
7.6.1.Muestras de conveniencia
7.6.2.Muestras probabilísticas
7.7.DEMOSTRACION PRACTICA
7.8.ELECCIÓN ENTRE MUESTRAS
PROBABILÍSTICAS Y
DE CONVENIENCIA
7.9.METODOS PARA LA OBTENCION DE UNA
MUESTRA PROBABILÍSTICA
7.10.DIFERENTES TIPOS DE MUESTRAS
PROBABILÍSTICAS
7.10.1.Muestras por azar simple
7.10.2.Muestras sistemáticas
7.10.3.Muestras estratificadas
7.10.4.Muestras de conglomerados
7.10.5.Muestras por procedimientos combinados
7.11.ANALISIS DE LOS RESULTADOS DE LAS
MUESTRAS
7.11.1.Valores del universo
7.11.2.Precisión de los resultados de la muestra
8.1.GENERALIDADES
8.2.ELABORACION DE LOS FORMULARIOS
LA ETAPA DE ELABORACIÓN DE LA
INFORMACION
IX PASOS EN LA ELABORACION DE LA
INFORMACION
XXVII 26.1.INTRODUCCIÓN
26.2.PRUEBA DE KRUSHKAL-WALLIS
26.2.1.Calculo e interpretación
27.1.GENERALIDADES
27.2.COMPARACIÓN DE LOS
PROMEDIOS DE DOS
MUESTRAS NO
INDEPENDIENTES
27.2.1.Prueba de significación
incorrecta
27.2.2. Prueba de significación
correcta
27.3. COMPARACIÓN ENTRE LOS
PORCENTALES DE
XXVIII DOS MUESTRAS NO
INDEPENDIENTES
27.3.1. Comparación incorrecta
27.3.2.Comparación correcta
27.3.3.Prueba de Mc Nemar
AJUSTE DE TASAS
Introducción
Este libro, el cual es simplemente un resumen de mis lecturas y de los conocimientos adquiridos
bajo la dirección de los profesores Dr. Shelly Hernández, John W. Ferlig y Leslic Kish, presenta la
Estadística desprovista de toda complicación matemática y el lector constatará, que un buen
conocimiento de las 4 operaciones elementales de la Aritmética, es absolutamente suficiente para
llegar a dominar las técnicas estadísticas de utilización más corriente por los médicos y
profesionales afines.
Con tal finalidad, se ha presentado de todo detalle técnico innecesario, procurando dar énfasis a la
Estadística como un método de raciocinio, pues se ha considerado, que es mucho más provechoso
conocer las posibilidades y limitaciones de una técnica, aún cuando no se tenga ninguna destreza
en su manejo, que dominar los más intricados secretos de su cálculo, cuando no se posee una
visión acertada de su aplicación.
Con propósitos prácticos, siempre teniendo en mente la comodidad del estudiante, tres detalles ya
utilizados en otros textos, se adoptaron en este libro:
METODOLOGÍA ESTADÍSTICA
CAPITULO I
1.1 Concepto.
La estadística deriva su nombre del hecho de haber sido aplicada primeramente a la recolección
de datos que permitieran la administración de los estados, pues con unos propósitos militares o
impositivos –lo cual constituía la primera preocupación administrativa de los antiguos imperios-, los
gobernantes necesitaban conocer cierta información referente al número y riquezas de sus
súbditos.
La palabra Estadística tiene hoy en día 2 significados diferentes. El término estadísticas, en plural
es sinónimo de datos numéricos mientras que la estadística, en singular, es el método utilizado en
el manejo de los datos anteriores, es decir el método de recolectar, elaborar, analizar e interpretar
datos numéricos.
A pesar de su concisión ésta definición nos permite entrever los vastos campos de acción de la
Estadística, pudiéndose decir que no hay prácticamente rama del saber humano en donde no
tenga utilización. Lo anterior no quiere decir que ella constituya el único mecanismo a través del
cual se puedan obtenerse nuevos conocimientos, o que el solo hecho de manejar una gran
cantidad de material numérico constituya un trabajo científico. La estadística, al menos la
Estadística práctica que será la única parte estudiada en este curso, más que una ciencia es
simplemente un método que enseña procedimientos lógicos de observación y análisis, necesarios
de tener en cuenta para aprovechar al máximo las experiencias de otras ciencias. En tal sentido
es un auxiliar irremplazable del método científico.
Tan variables como los motivos que dan origen a determinada investigación, son los
procedimientos que conducen a su realización. No hay en realidad reglas fijas que indiquen al
científico cual debe ser el punto de partida de su investigación o que limiten la escogencia de los
procedimientos que debe utilizar, pues en cualquier caso ellos varían de acuerdo a sus intereses e
inquietudes, a su preparación previa y a los recursos y presupuesto con que cuenta.
Bajo estas condiciones no puede hablarse del método científico como un camino único que
conduce al descubrimiento de la verdad y mucho menos como un esquema rígido e inmodificable
fuera del cual la investigación pierde su carácter científico. No obstante, es evidente que en las
ciencias médicas al igual que en los otros ramos de las ciencias naturales, los hechos surgen y
deben ser comprobados a través de la observación objetiva de los diferentes fenómenos.
Sin embargo la observación aislada de determinado fenómeno sería estéril si no pudiera resumirse
en una ley científica capaz de explicar racionalmente lo observado y a partir de la cual puedan
hacerse generalizaciones valederas. Antes de Fleming, numerosos bacteriólogos habían visto la
destrucción de sus cultivos en el laboratorio sin que tal observación fuera de ningún beneficio, pues
no se indagaron las causas que podrían explicarla con el fin de extraer nuevos conocimientos y
nuevas enseñanzas. Esa misma observación metodológicamente, analizada, condujo al científico
inglés al descubrimiento de la Penicilina.
De acuerdo a Bertrand Russel (31), las etapas del método científico pueden resumirse en los
siguientes tres pasos:
En la investigación real los pasos anteriores están tan íntimamente relacionados, que es imposible
pretender que todos los investigadores sigan siempre el anterior esquema de la misma secuencia
señalada. Se comprende por ejemplo que la formulación de una hipótesis previa es generalmente
necesaria para saber cuáles hechos se deben observar, y a su vez, la formulación racional de tales
hipótesis, requieren habitualmente ciertos conocimientos sobre el problema que se estudia. No es
difícil sin embargo encontrar numeroso ejemplo en la literatura médica que ilustran la manera como
los pasos anteriores se aplican en la investigación. Considérese al respecto, el descubrimiento del
bacilo tuberculoso:
Koch observó ciertas formas bacilares en los esputos de pacientes tuberculosos (primer paso), y
como hipótesis de trabajo atribuyó a ellas la causa de la enfermedad (segundo paso), lo cual
demostró más tarde, al comprobar que el bacilo se encontraba en los esputos de individuos
tuberculosos y nunca en los procedentes de individuos sin enfermedad (tercer paso).
No hay que creer que los pasos esbozados son privativos de las grandes investigaciones
solamente, pues no es difícil entrever como ellos se siguen rutinariamente, quizás
inconscientemente, aun en algo tan sencillo como la historia clínica de cualquier paciente. En
efecto, en todo diagnóstico:
a. Primero se recogen los datos sobre los antecedentes del enfermo, los cuales se complementan
por inspección, palpación, percusión o auscultación. Es decir, se hacen determinadas
observaciones.
b. En segundo lugar se hace el diagnóstico, el cual al principio es solamente un diagnóstico
provisional, es decir, una hipótesis de trabajo.
c. Finalmente se hará la verificación del diagnóstico, mediante nuevas observaciones, con la
ayuda del laboratorio y de otras técnicas especializadas, o en última instancia, observando los
resultados del tratamiento, los cuales serán favorables cuando el diagnóstico fue correcto.
La estadística cumple diferente papel en cada uno de los 3 pasos del método científico, siendo
especialmente importante en la observación de fenómenos y en la verificación de las hipótesis. En
la formulación de estas también tiene importancia aunque ello es un proceso en el cual intervienen
sobre todo la intuición y la imaginación de los investigadores.
Las consideraciones ya expuestas bastarían para explicar las relaciones existentes entre la
Estadística y la Medicina, la ciencia está caracterizada por los complejos y variables fenómenos
que estudia.
Para medico clínico, lo mismo que para el sanitarista, el método estadístico es un instrumento
invalorable a pesar de que a menudo se desconoce su gran utilidad. Al investigador médico que
trata de probar una hipótesis de trabajo o que pretende simplemente extraer ciertas deducciones
de las observaciones realizadas, la estadística le ayudara a decidir sobre el número de pacientes
que debe estudiar para que sus conclusiones tengan validez, a recoger adecuadamente los datos
pertinentes, a resumir y analizar convenientemente el material reunido y a presentar a otros el
fruto de sus investigaciones. El estudiante por su parte, solo podrá evaluar más objetivamente la
evidencia que otros investigadores le presentan, si es capaz de comprender el alcance y
limitaciones de los datos numéricos que han servido de base a las conclusiones de estudio, y esa
capacitación requiere un mínimo de conocimientos estadísticos.
La planificación de las actividades de Salud Pública, el control de los programas que se estén
desarrollando y la evaluación final de sus rendimientos y eficiencia solo podrá llevarse a cabo
mediante procedimientos estadísticos. En tal sentido, la estadística es tan imprescindible para el
trabajador de Salud Pública como lo es la contabilidad en las actividades de comercio e industria.
CAPITULO II
En el presente curso, se estudiaran los puntos más importante de cada una de estas etapas y
aunque se pondrá más énfasis en la enseñanza de aquellas técnicas más necesarias al
investigador médico, se procurara ante todo familiarizar al alumno con los principios básico del
método estadístico.
Hay buenas razones que justifican este proceder. Las técnicas estadísticas son muy numerosas y
aquellas que son más apropiadas para determinados problemas pueden no ser convenientes para
otros. En cambio los principios generales de método estadístico son universales en su utilización,
no importa cuál sea la investigación que se realice o el ramo de conocimiento humano a que se
aplique. Parece mucho más conveniente por lo tanto, conocer las posibilidades y limitaciones de
una técnica aun cuando no se tenga ninguna destreza en su manejo, que dominar los más
intrincado secretos de su cálculo cuando no se tiene una visión acertada de su aplicación.
CAPITULO III
LA ETAPA DE PLANIFICACIÓN
En estos últimos casos, planificar en esencial no solo para calcular el tiempo que durara la
investigación, el personal que se requiere y el presupuesto necesario, sino con el fin de que la
investigación se realice con metas perfectamente definidas, evitando improvisaciones durante el
desarrollo de la misma, que en general introduce fuentes de error capaces de invalidar o
desmeritar el estudio.
Básicamente la etapa de planificación tiene por fin el estudio de los detalles concernientes a la
recolección elaboración y análisis de la información, sobre la base de la cual se describirán las
características de determinada población o se confirmara o negara determinada hipótesis de
trabajo. Es obvio sin embargo que ninguna planificación podrá hacerse adecuadamente si antes no
se ha definido claramente la naturaleza y objetivos de la investigación y si no se ha hecho una
conveniente evaluación de los conocimientos que sobre el problema se poseen y de las hipótesis
que se han formulado para explicarlo.
Cuando intentamos realizar un estudio, comenzamos por hacer un planteamiento del problema en
el cual estamos interesados. Consideramos su naturaleza e importancia y a grandes rasgos
decidimos sobre los objetivos que perseguiremos en su realización.
Al plantear el problema que se va a investigar, debe darse especial consideración a los siguientes
puntos:
Definir la naturaleza del problema que se estudia es explicar QUE vamos a estudiar. Es obvio que
será imposible la planificación de las etapas posteriores si antes no se ha determinado claramente
el problema que se trata de investigar. No basta por ejemplo, decir que se va estudiar la Fiebre
Tifoidea, pues probablemente ningún investigador este en capacidad de cubrir todos los aspectos
de esta enfermedad. Debe acentuarse explícitamente se vamos a evaluar una técnica diagnóstica,
un nuevo tratamiento o algunos de sus aspectos epidemiológicos.
Definir la importancia del problema es cuantificar su extensión y equivale a explicar POR QUE se
va a estudiar. Un investigador puede abocarse al estudio de un problema por razones éticas.
Estéticas o metafísicas, pero la mayoría de las veces, es el deseo utilitarista el que lo guía.
Antes de proceder el estudio, el investigador debe revisar, en cuanto sea posible, lo que al
respecto se haya hecho, con el fin de percatarse de lo que realmente se conoce sobre el y
familiarizarse con las técnicas de estudio más convenientes para su propósito, pues solo en esa
forma tendrá posibilidades de investigar con éxito lo que se propone.
No basta sin embargo, conocer todo sobre determinado tópico se haya escrito, sino que debe
hacerse una cuidadosa revisión de tales publicaciones.
Debe en primer lugar, hacerse una búsqueda tan completa como sea posible haciendo uso de
todos los medios bibliográficos al alcance.
La evaluación tiene dos partes: a) Evaluación de los trabajos individuales y b) Evaluación conjunta
del material estudiado.
3.4.1. Evaluación de Trabajos Individuales.
Para la evaluación de los diferentes trabajos, no pueden darse reglas fijas, sobre todo que ella
depende en gran parte de la preparación de la persona que evalúa, pero quizás es de mucha
utilidad, tratar de dar respuestas a las siguientes preguntas propuestas por Donald Mainland (23).
Debe darse especial importancia, en primer lugar, a la manera como fueron recogidos los datos,
pues los procedimientos y métodos empleados en la recolección, servirán de guía para juzgar
sobre su precisión y limitaciones. En segundo lugar es preciso analizar cuidadosamente si las
conclusiones fueron legítimamente derivadas del material estudiado si fue correctamente la
interpretación de las asociaciones encontradas, pues hay muchos trabajos que a pesar de que
fueron cuidadosamente planificados y convenientemente realizados, han sido analizados
defectuosamente llegándose a conclusiones equivocadas.
La anterior evaluación nos permitirá destacar como inadecuados muchos de los trabajos
evaluados, a la vez el de aceptar como correctas algunas conclusiones. Estas conclusiones deben
analizarse ahora en su conjunto para ver si son consistentes entre sí o si existen algunas que son
contradictorias. Justamente, la presencia de tales contradicciones revela tópicos que deben
investigarse y guía al investigador hacia la Formulación de hipótesis que deben verificarse,
mientras que conclusiones unánimes sobre el mismo problema, quizás nos lleven a abandonar o
modificar nuestro primitivo plan de trabajo ya que por lo general no vale la pena duplicar un trabajo
ya hecho.
Ella permite centrar la observación sobre aquellos fenómenos que guardan relación con el
problema que se estudia evitando que muchos hechos importantes pasen inadvertidos o que el
investigador se pierda en un cúmulo de observaciones inconexas.
a. Definir la unidad que se observa, con el fin de incluir a la totalidad de los individuos que
presentan las características que se estudian y excluir a aquellos que no las presentan;
b. Definir lo que se va a observar para que todos los individuos sean uniformemente estudiados.
Así por ejemplo, si vamos a estudiar un número determinado de familias debe especificarse
claramente quienes deben considerarse formando parte de ellas. Para un estudio sanitario deben
incluirse todas las personas que vivan bajo un mismo techo aunque no tengan ningún parentesco,
pues todas ellas participan de las mismas condiciones sanitarias, las cuales modifican con su
presencia. En cambio para un estudio que tuviera por finalidad investigar la transmisión hereditaria
de cualquier característica biológica, la familia incluirá solamente a personas con lasos
consanguíneos, sin tomar en cuenta a los demás, aunque vivan bajo el mismo techo y aunque
haya de por medio cualquier otro tipo de vínculo familiares o legales.
Las definiciones que se adopten deben ser claras y precisas para evitar ambigüedades y con el fin
de facilitar las comparaciones entre los diversos investigadores, deben escogerse cuando existen
aquellas de aceptación universal.
Finalmente debe hacerse un balance entre los recursos que se tienen y los que se necesitan para
ejecutar la investigación conforme se ha planificado. Tal balance puede mostrar que los recursos
con que se cuestan son suficientes o que no lo son. En el primer caso podrá proseguirse con la
investigación pero en el segundo, habrá que decidirse por una de las siguientes alternativas 1)
Aumentar –cuando ello sea posible-la cantidad o el rendimiento de los recursos que se poseen
hasta el nivel necesario; 2) Planificar de nuevo la investigación de manera que pueda ejecutarse
con los recursos existentes y 3) Diferir la investigación hasta tanto se pueda conseguir los
recursos adicionales que se necesitan.
Ejecutado el estudio se considera si fue realizado conforme estaba planificado y con los resultados
a la vista se concluirá si la hipótesis han sido verificadas o no haciéndose las recomendaciones
pertinentes.
No es de esperarse que todas las veces se verifiquen las hipótesis, pero aun cuando ello no se
logre, el esfuerzo no ha sido en vano. En medicina experimental sobre todo, tan importante como
probar que un tratamiento es bueno, puede ser demostrar que una droga que sé venía aplicando
de rutina, no tiene ningún valor. Muchas drogas que por años se consideraron excelentes se han
abandonado luego por ineficaces o perjudiciales. Muchos males se hubieran evitado si antes de su
aplicación se hubiera exigido mayor evidencia sobre sus virtudes.
CAPITULO IV
Esta etapa tan a menudo olvidada, tiene para el investigador mucha más importancia que cualquier
otra. Mientras que la elaboración y el resumen de los datos recogidos pueden ser delegados en un
componente técnico estadístico, la recolección de la información tiene que ser vigilada
constantemente por el propio investigador y realizada conforme a los planes previamente trazados.
Como ya se ha advertido, solo si la información ha sido recogida de la manera correcta, podrán
tener validez las conclusiones que de ella deriven. En el caso contrario, no se justifica siquiera el
empleo de las Estadística, ya que ninguna técnica podrá corregir los errores presentes en los datos
básicos recogidos.
La decisión sobre los datos que van a recogerse y sobre la precisión con la que deben ser
obtenidos depende primordialmente del propósito de la investigación y del material estudiado,
siendo conveniente limitarse a recoger tan solo0 aquella información que va a ser utilizada pues el
deseo de investigar muchos datos, en la esperanza de que algún día serán de utilidad, conspira
contra la correcta obtención de aquellos que son realmente esenciales.
Entre los principales puntos que deben considerarse al recoger la información y que serán motivo
de los próximos capítulos figuran:
a. Los errores que pueden cometerse en la recolección de los datos y la manera de controlarlos.
b. Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la
información.
c. Las condiciones que deben reunir los individuos que se estudian y los procedimientos más
convenientes para su elección.
d. El diseño de los formularios que servirán para registrar la información que se recoja.
CAPITULO V
Los integrantes de toda población, a la vez que poseen características que le son comunes
presentan algunas diferencias que sirven para individualizarlos. Es justamente por la existencia de
tales diferencias que se justifica el empleo de la Estadística, pues si todos los individuos de
determinada población fueran exactamente iguales, bastaría describir uno de ellos, para tener una
descripción acertada del conjunto.
A lado de esta variación real, inherente a los individuos que se estudian, hay que considerar una
variación sobreentendida o espuria que solo es en realidad, errores determinados por los factores
que intervienen en toda observación, es decir dependientes de:
1. El observador:
2. El método de observación, y
3. El objeto o individuo observado.
La presencia de tales errores determina por lo tanto que ninguna medición sea absolutamente
exacta. Esto debe tenerse en cuenta cuando se comparan dos o más observaciones, con el fin de
no dar mayor importancia a la existencia de pequeñas diferencias, las cuales pueden deberse
simplemente al proceso de medición utilizada. Así por ejemplo, si un paciente mostró en un primer
examen sanguíneo que tenía 4’000,000 de glóbulos rojos por milímetro cúbico y luego, tras un
tratamiento con drogas anti-anémicas, un segundo contare señala 4’200,000, debemos considerar
que parte de esta diferencia se debe a errores del análisis, antes de que podamos alegrarnos por
el éxito del tratamiento. Por lo tanto, solo en la medida en que tales errores pueden controlarse,
podrán conocerse la verdadera variabilidad que intentamos medir.
Cuadro 26
Todos los métodos de observación tienen errores más o menos importantes y de ahí la continua
preocupación científica de mejorarlos o cambiarlos por otros más convenientes.
Cuadro 27
Método Eficiencia
Radioscopia 70%
Fluorofotografía de Abreu 90%
Radiografía estándar 95%
El cuadro muestra una marcada variación entre los diferentes métodos, siendo la radioscopia el
menos conveniente (variación Inter.-métodos). Se reconoce además, que para cada método en
particular hay una serie de factores que pueden conducir a falsear los resultados. Así por ejemplo,
una baja del voltaje de la corriente eléctrica o una pérdida de potencia de los líquidos reveladores
pueden dar radiografías de mala calidad que causan errores en su lectura (variación intra-
métodos).
Fuera de la variabilidad real que presentan los individuos que se observan, hay también una
variabilidad sobreañadida dependiente de ellos mismos, debido a las condiciones y al tiempo en
que se estudian.
La glicemia normal de varis individuos puede ser diferente por el solo hecho de que la sangre sea
tomada a intervalos diferentes después de la comida o porque algunos pacientes hayan ingerido
muchos hidrocarbonados y otros no (variación Inter.-individual).
Se comprende además, que para un mismo individuo, los factores acabados de mencionar harán
variar los resultados de una ocasión a otra (variación intra-individual).
A pesar de la clara distinción que hemos hecho entre las anteriores fuentes de error, no debe
pensarse que ellos son completamente independientes. Si se recapacita sobre el ejemplo dado
para ilustrar los errores dependientes del observador, puede admitirse que ellos dependen en gran
parte del método de observación utilizado, pues no se escapa que mientras más perfecto sea éste,
menores serán los errores cometidos. Si el método fuera tan perfecto, que al colocar una
radiografía en una pantalla se encendiera una luz cuando existiera una lesión, sólo una persona
ciega o que estuviera distraída, fallaría en el diagnóstico.
De la misma manera, muchos de los errores dependientes de los individuos que se observan,
pueden atribuirse a condiciones relacionadas con el método de investigación y de ahí la necesidad
de estudiar a los diferentes individuos en condiciones tan similares como sea posible.
Cualquiera que sea la causa de los errores anteriores, su control puede hacerse por reducción o
medición. Reducirlos primero hasta donde sea posible; medirlos luego, cuando ya no puedan
reducirse.
La reducción de los errores se logrará de acuerdo a las causas que los determinan. Aquellos
dependientes de los observadores, pueden reducirse aumentando la preparación y entrenamiento
de los observadores, vigilando sus condiciones físicas y poniéndolos en las más optimas
condiciones de trabajo. Para disminuir los errores causados por el método de observación, se
procurará seleccionar las mejores técnicas conocidas, estandarizar los métodos a emplear y
controlar constantemente el funcionamiento de los aparatos utilizados. Se procurará finalmente,
que los individuos estudiados se investiguen en las más favorables y similares circunstancias con
el fin de disminuir los errores que de ellos puedan depender.
Aunque algunos de los errores cometidos se deben a la técnica en sí, y otros a los observadores
que la utilizan, su separación es difícil y conviene considerarlos en conjunto. Cada investigador
debiera estimar los errores que comente en el trabajo habitual con las técnicas e instrumentos de
rutina y cada técnica debiera valorarse convenientemente, investigando los márgenes de error a
que pueda conducir su aplicación. Los procedimientos para tal evaluación ya implican un proceso
estadístico, cuyos fundamentos sólo se comprenderán en próximos capítulos, pero cuya utilidad
ilustran los siguientes ejemplos:
b. La mayoría de las veces, sin embargo, los errores que se comenten al realizar determinada
medición se hacen unas veces por exceso y otras por defecto. El siguiente sencillo experimento,
frecuentemente utilizado por los profesores de estadística, pone de presente la anterior afirmación.
Si se traza una línea en el tablero y se pide a un grupo de estudiantes que estimen a simple vista
su longitud, se constata que aproximadamente la mitad de los alumnos sobreestiman su valor,
mientras que la otra mitad da valores inferiores a las reales. Se constata además, que casi
invariablemente la verdadera longitud de la línea se encuentra aproximadamente a mitad del
intervalo determinado por el mayor y la menor de las estimaciones hechas.
a. La observación.
b. El interrogatorio.
Aunque la observación y el interrogatorio son los 2 únicos procedimientos generales que permiten
recoger información a partir de su fuente de producción, ellos, aislada y conjuntamente, forman
1
parte de métodos especiales que luego se estudiarán ( )
Cuando la información que nos interesa se encuentra registrada, como corresponde tan solo,
buscarla y hacer buen uso de ella. A veces se halla publicada en textos o revistas y entonces es
fácil encontrarla en cualquier buena biblioteca. Si por el contrario no está publicada, su obtención
suele dificultarse a causa del carácter confidencial con que ha sido recogida, aunque resúmenes
adecuados son generalmente fáciles de conseguir.
De existir varias fuentes con la misma información, la escogencia una con preferencia a las otras
debe basarse en 2 criterios:
a. Calidad de la información, y;
b. Accesibilidad administrativa.
Aunque es obvio que entre diversas fuentes debe preferirse la de mejor calidad, muchas veces no
hay lugar a tal escogencia, pues por razones administrativas o de otra índole, puede suceder que
no se tenga acceso a alguna de ellas. Antes de conformarse con aprovechar la única disponible,
debe evaluarse adecuadamente el material suministrado para constatar si reúne las necesarias
condiciones de fidelidad y exactitud.
6.2. La Observación.
1
En un sentido general “observar significa ganar conocimientos por cualquiera de los órganos de los sentidos, y por lo
tanto, el interrogatorio sería simplemente uno de los procedimientos de realizar observaciones, no habiendo razón de
contrastar sus versiones y desventajas con las de la Observación, de la cual formaría parte. Los dos términos sin embargo
sugieren procedimientos perfectamente diferenciables, mientras que en el interrogatorio hay participación activa del
individuo que se estudia, en la Observación hay pasividad por parte de éste, a pesar de que en ciertas oportunidades se
provocan sus reacciones. Los próximos párrafos no dejan ninguna duda sobre el significado que se ha querido dar a estos
dos términos.
investigar las manifestaciones subjetivas de los individuos, su comportamiento pasado o sus
actitudes futuras. Si en el estudio de un paciente se desea averiguar si tiene buen apetito o
conocer qué enfermedad ha padecido anteriormente o a cuáles actividades se dedicará una vez
mejorado, en tales casos tendremos que recurrir al interrogatorio.
6.3. El Interrogatorio.
Las ventajas del interrogatorio no son otras que las limitaciones señaladas en la observación
directa, siendo por lo tanto el único método a emplear cuando se averigua el pasado, el futuro o las
manifestaciones subjetivas de los individuos. Tiene como desventajas, el apelar a la memoria y a la
buena fe de los interrogados y dar diferentes resultados según el tipo de preguntas y la manera
como son formuladas.
El que un paciente registre entre sus antecedentes, el haber padecido determinada enfermedad,
depende de que guarde memoria del tal acontecimiento y de que tenga voluntad de confesarlo,
sobre lo cual influye desde luego, la claridad con que se haga el interrogatorio.
Al interrogar a una persona, las preguntas que se le formulan deben ser concisas y claras, evitando
aquellas ambiguas o capciosas y las que presuponen un hecho o sugieren una respuesta.
El interrogatorio directo es aquel que se hace por medio de entrevistas y su ventaja principal es
que puede complementarse con la observación directa. A un paciente puede preguntársele si ha
tenido viruela y si contesta afirmativamente, puede constatarse su respuesta buscando las
cicatrices indelebles que deja la enfermedad. En encuestas sociales es posible que la
personalidad, clase social, la inflexión de la voz y la manera de preguntar del entrevistador, hagan
varia las posibles respuestas.
a. Las encuestas y los experimentos, como ejemplos de métodos utilizados cuando la información
se recoge ocasionalmente.
b. El método censal, como tipo de información recogida periódicamente
c. El sistema de registros, como tipo de información recogida continuamente.
6.4.1. Encuestas y experimentos
Cuando una nueva droga se introduce o un nuevo tratamiento se recomienda, no hay al respecto
ninguna información registrada, simplemente porque no hay ninguna información existente. En
dichos casos, es necesario planificar un estudio con el fin de producir dicha información y luego
registrarla para subsiguientemente analizarla. En otras palabras, es necesario realizar un
EXPERIMENTO. En tales ocasiones la observación directa es el método habitual de recoger la
información, pero el interrogatorio puede ser también utilizado, como a menudo se hace en algunos
estudios de Sociología.
Hay otras ocasiones en que ya existe la información sobre la cual estamos interesados, pero no se
halla registrada. En dicho caso solo tenemos que buscarla y registrarla convenientemente para su
análisis posterior. Si queremos, por ejemplo, saber con que frecuencia se presentan quemaduras
en los trabajadores del petróleo o cual es el sueldo medio de los profesionales de la medicina,
nuestro trabajo consistirá solamente en buscar y registrar tal información. En dicho casos, la
técnica consiste en hacer una ENCUESTA en el grupo de personas en el que estamos
interesados. Tal encuesta puede hacerse por entrevistas personales o por medio de cuestionarios
postales, adoptando de acuerdo a los propósitos del estudio, uno cualquiera de los sistemas que
se describirán en el capítulo sobre Estadísticas de Morbilidad (Capitulo XXXII).
A menudo se cree que el Censo y la Encuesta difieren en cuanto a la población que cubren, pues
mientras que el primero se referiría a la totalidad del universo, la segunda solo estudiaría una
muestra de dicha población. Tal concepto es erróneo pues tanto el uno como la otra pueden cubrir
a toda la población o solo a un segmento de ella. La diferencia esencial radica en la naturaleza de
la información que se busca. En el Censo habitualmente se buscan datos generales de la
población. En la encuesta, por el contrario, se trata de lograr información sobre un tema concreto,
procurando profundizar en sus diferentes aspectos.
El censo cuyos detalles se estudiaran en el capítulo XXIX, puede compararse con una fotografía de
la nación en un momento determinado de su historia, siendo el medio mas seguro para conocer la
composición y principales características de las poblaciones humanas.
Esta información se refiere unas veces a la totalidad de determinada población o país, como es el
caso del Registro Civil de Nacimientos y Defunciones, y otra a fenómenos que suceden en
determinada institución, como es el caso de las Historias Clínicas de los Hospitales. Los principios
generales sobre la organización de estos sistemas de registro, se estudiaran a propósito de las
Estadísticas Vitales.
CAPITULO VII
Ya dijimos que cuando la información no está registrada, habrá que recogerla directamente de su
fuente de origen, es decir, de las personas en donde el fenómeno que nos interesa puede
acontecer. El problema que se presenta en tales ocasiones, es la acertada escogencia de las
personas que vamos a estudiar.
Este problema se presenta, porque muchas veces resulta imposible y otras impráctico estudiar la
totalidad de personas en donde puede encontrarse la característica en la que estamos interesados
y en tales casos, nuestro estudio tiene que limitarse a un grupo de dichos individuos, es decir, a
una muestra. No hay que olvidar, sin embargo, que aunque es la muestra la que observamos, es el
universo lo que queremos conocer, pues el estudio no tendría ninguna trascendencia sino
pudiéramos generalizar a la población los hechos observados en la muestra. Sin embargo, para
que esta generalización sea posible, los individuos integrantes de la muestra deben ser escogido
adecuadamente, y esto plantea una serie de dificultades que trataremos de estudiar en las
próximas páginas.
Se entiende por universo o población la totalidad de individuos o elementos en los cuales puede
presentarse determinada característica susceptible de ser estudiada. Una muestra a su vez, es
una parte o grupo del universo. Así por ejemplo, si con el fin de conocer la estatura media de los
1500 alumnos de la Escuela de Medicina escogemos un grupo representativo de 200 de ellos, el
universo en estudio estará formado por la totalidad de los 1500 alumnos, y la muestra constara de
los 200 escogidos.
Las anteriores definiciones ameritan algunas explicaciones. En primer lugar, las unidades que se
estudian pueden ser personas, animales o cosas o pueden ser conglomerados de unidades, como
ser una familia, una colonia de parásitos o un bloque de viviendas. En segundo lugar, los términos
universo y muestra son conceptos relativos, pues un conjunto de individuos puede ser considerado
como un universo para ciertos estudios o como una muestra para otros. Así por ejemplo, los
alumnos de la Universidad Central constituyen una muestra con respecto a la totalidad de los
universitarios del país, pero constituyen el universo para dicha universidad en particular.
Los universos pueden ser finitos e infinitos. El universo se denomina finito, cuando está formado
por un número limitado de unidades, como ser el número de alumnos de la Universidad, de
médicos en Venezuela, etc. Se denomina infinito, cuando cuenta con un número limitado de
unidades. El número de estrellas en el ciclo, son universos infinitos que nunca podrían ser
cuantificados. En ocasiones, el universo que se estudia puede ser hipotético y entonces se le
considera como infinito. Así por ejemplo, si con el fin de ensayar una nueva droga contra la Fiebre
Tifoidea se la prueba en una muestra de 20 enfermos. El universo correspondiente, estará
constituido por todos los pacientes que actualmente tienen la enfermedad y por todas las personas
que alguna vez puedan adquirirla. Igualmente si a determinado individuo se le mide la tensión
arterial en tres oportunidades diferentes esas tres mediciones constituyen el universo de infinitas
mediciones que en dicho individuo pueden practicarse.
Hay varias razones por las cuales el estudio de una muestra es preferible al de la totalidad del
universo.
Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de
universos infinitos o de universos limitados pero muy extensos, pues ningún investigador sería
capaz de tratarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales
el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba
la acción de ciertos casos en animales de experimentación.
Pero aun en el caso en que se quiera estudiar un universo perfectamente limitado, debemos
decidirnos por la muestra, pues su utilización tiene las siguientes ventajas:
En efecto, como será menor el número de investigadores que intervienen en el estudio, será
mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente: como se necesitaran
menos instrumentos de investigación, estos podrán vigilarse y calibrarse más cuidadosamente, y
como serán menos los individuos a estudiar, será posible controlarlos más adecuadamente, de tal
manera que todos ellos estén en la más óptimas condiciones de estudio. Todo lo anterior
disminuirá los errores en las observaciones y por lo tanto, los resultados obtenidos tendrán mayor
exactitud.
Al lado de las ventajas señaladas, la única desventaja del uso de muestras, es el llamado error de
muestreo, el cual sumado a los 3 tipos de errores antes mencionados, podría invalidar nuestro
estudio.
Este error por muestreo es una consecuencia e la variabilidad de las poblaciones. Como los
individuos de toda la población son muy variables los diferentes grupos o muestras que podemos
formar con ellos difieran también unos de otros y como nosotros solamente estudiamos una
muestra para generalizar luego a toda la población, los resultados serán algo distintos según la
muestra que hayamos escogido. Esta diferencia por el valor dado por la muestra y el verdadero
valor del universo, constituye el error por muestreo, a condición desde luego, que en uno y otro
caso se utilicen idénticos métodos de estudio, pues en caso contrario, gran parte de dicha
diferencia pudiera ser debida a errores inherentes a los métodos empleados.
Con el fin de aclarar el anterior concepto, supongamos una población de 4 personas que tuvieran
respectivamente 5, 3, 2 y bolívares. El capital total de esta población es Bs. 20, o sea un promedio
de Bs. 5 por persona (20/4=5). Si no se conociera dicho promedio y para averiguarlo se tomara una
muestra de dos personas digamos las dos primeras (Bs. 5 y Bs. 3), concluiríamos a través de esta
pequeña muestra que el capital promedio de cada persona de la población es Bs. 4 cuando en
realidad vimos que era 5. Esa diferencia de 1 bolívar entre el valor de la muestra y el valor del
universo constituye el error por muestreo.
La presencia del error por muestreo parecía indicar que el estudiar una muestra en vez de la
totalidad del universo, es desfavorable y no ventajoso como hemos indicado. Sin embargo
conviene tener presente, en primer lugar, que el error por muestreo suele ser mucho menos
importante que los errores debidos al observador, al método de observación y a los individuos
estudiados, y en segundo lugar, que el error por muestreo puede medirse estadísticamente y en
cierto modo puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra.
Por lo tanto, como una muestra bien tomada permite el control de los errores debidos al
observador, al método de observación y a los individuos estudiados y, como por otra parte, el error
por muestreo puede medirse y disminuirse, se comprende fácilmente el por que hemos dicho que
los resultados a partir de una muestra, son mucho más exactos que aquellos obtenidos del estudio
de todo el universo.
Por lo dicho anteriormente, se deduce que no todas muestras contienen información acerca de la
población de donde proceden y por consiguiente, la muestra debe ser escogida de tal forma que la
información buscada se encuentre en ella.
Las condiciones que la muestra debe tener para que sea buena, es decir, para que rinda la mayor
utilidad posible, son dos. La muestra debe ser adecuada en:
a. cantidad, y
b. calidad.
El que una muestra sea buena en cantidad, quiere decir que debe incluir un número óptimo y
mínimo de individuos. Hay fórmulas estadísticas que estudiaremos luego, mediante las cuales
podemos determinar el número de individuos que debemos incluir en cada investigación, pero
mientras tanto, las siguientes consideraciones ayudaran a aclarar este punto.
Supongamos una lista de alumnos de los cuales 15 sean hombres y una mujer. Si de esta lista
extraemos el nombre de un alumno y este es un hombre, a nadie se le ocurriría tomar esto como
evidencia para afirmar que todos los alumnos son del sexo masculino. Es evidente que en el
‘’mejor” de los casos, se necesitara extraer cuando menos dos nombres para poder afirmar que
hay hombres y mujeres en el curso, pero podría suceder que los 15 primeros nombres que
extraigamos sean de varones y en este caso extremo, sería necesario ver la totalidad de la lista
para indicar con absoluta seguridad cual es la composición verdadera del curso. De la misma
manera, si entre los 16 alumnos del curso hubiera 4 de cada una de las regiones geográficas del
país, sería imposible afirmar tal hecho, con una muestra que tuviera menos de 4 individuos.
Los ejemplos anteriores aunque aparentemente pueriles, permiten señalar que el número de
individuo que deben incluirse en la muestra, depende de 2 factores, a saber:
La variabilidad del universo que se estudias, pues se comprende que si todos los individuos que lo
forman fueran exactamente iguales, bastaría con estudiar uno solo para conocer todo el universo y
en el caso opuesto, en que todos los individuos fueran completamente diferentes, habría que
estudiarlos en su totalidad.
El que una muestra sea buena en CALIDAD, quiere decir que debe reflejar fielmente las
características del universo del cual procede y diferir de él, solo en el número de unidades
incluidas.
Los aspectos referentes a la calidad de la muestra, son más importantes que los referentes a su
cantidad y no debe pensarse que la calidad de la muestra depende de su cantidad. Si quisiéramos
estudiar las características del pueblo venezolano, y nos empeñáramos en estudiar solamente a
los habitantes de Caracas, aunque estudiáramos a todos ellos, nuestra muestra no seria todavía
representativa de toso el país.
Lo anterior quiere decir que si queremos generalizar que lo que es cierto en la muestra es cierto
también en todo el universo entonces la muestra debe ser perfectamente representativa de él. Si la
muestra no es representativa de su universo, se dice que es una muestra “seleccionada” y
generalmente no es conveniente trabajar con tales muestras. En el lenguaje corriente se llama
seleccionado algo que es excelente o de óptima calidad. En estadística por el contrario una
muestra seleccionada suele ser mala, ya que por definición, ella no representa su universo. No
quiere esto decir que una muestra seleccionada sea inútil significa tan solo, que es necesario
considerar ciertas limitaciones en las conclusiones que de ello se deriven. Por lo demás una
muestra seleccionada, que no es representativa para determinado problema puede ser
representativa para otro. Así por ejemplo, los estudiantes de la Facultad de Ingeniería forman una
mala muestra para un estudio que tuviera por fin, averiguar la proporción de hombres y mujeres en
la Universidad Central pues pocas mujeres eligen esta carrera, pero formarían una muestra
adecuada, si el problema fuera conocer el porcentaje de católicos en la Universidad, pues
aparentemente no hay ninguna relación entre los sentimientos religiosos y la elección de la carrera
que se estudia.
La selección puede ser voluntaria o involuntaria. En el primer paso el investigador conoce las
limitaciones del material que está estudiando y las conclusiones que deriven deben estar de
acuerdo con ellas. Un investigador, por ejemplo que estudia las variaciones del paso de un grupo
de escolares de 8 años, no podrá generalizar sus hallazgos a escolares de todas las edades sino
exclusivamente al grupo de edad investigado.
El segundo caso es más importante, porque como a menudo se agrupa dicha selección, se
pretenderá generalizar a toda una población conclusiones que no le corresponde. Generalmente
este error se comete por una de las tres causas siguientes:
a. Porque se toma la muestra de solo un sector del universo, creyendo equivocadamente, que
dicho sector constituye todo el universo.
b. Si se quisiera estudiar por ejemplo, el ingreso promedio del obrero venezolano y para ello se
obtuviera una muestra que incluyera solamente a trabajadores del Zulia, el promedio obtenido
no sería válido para toda Venezuela, pues se sabe perfectamente que los salarios en el Zulia
son muchos más altos que en el resto del país, a causa de las explotaciones petroleras. Una
muestra adecuada debería incluir trabajadoras delos diversos estados y territorios de la nación.
c. Como un segundo ejemplo, supongamos que se desea hacer un estudio para averiguar la
letalidad de la fiebre tifoidea, o sea la proporción de enfermos de fiebre tifoidea que fallecen.
Se sabe que la letalidad de la enfermedad varía en las diversas edades y depende del estado
nutritivo del paciente y del momento en que se inicia el tratamiento. Una buena muestra por lo
tanto, debe incluir pacientes de diversas edades, tanto desnutridos como bien nutridos en
diferentes etapas de la enfermedad. Si para dicho estudio se escogiera la muestra en el
Hospital Vargas de Caracas, tal muestro no nos revelaría la verdadera letalidad de la Fiebre
Tifoidea, pues como se sabe, a dicho Hospital solo asisten personas adultas, generalmente
pobres y desnutridos y en estado grave, pues los casos benignos permanecen en sus
domicilios. Las conclusiones derivadas de un estudio como el anterior, podrían generalizarse
solamente a enfermos de condiciones semejantes a los estudiados (adultos, desnutridos, etc.),
pero sería erróneo pretender aplicarlas a otras circunstancias.
d. Porque el método de escogencia de los individuos no es al azar, cual como veremos
enseguida es el único procedimiento que no garantiza una buena escogencia. Tal error se
comete siempre que se trabaja con muestras de conveniencia.
e. Porque una vez obtenida la muestra, existen circunstancias que nos impiden estudiar a, los
individuos escogidos. La muestra puede haber sido escogida de toda la población y por un
procedimiento al azar, con lo cual se elimina las dos causas de error acabadas de estudiar,
pero si no es posible recoger la información de las personas que deben estudiarse, ciertos
segmentos de la población no van a quedar representados, esto sucede por ejemplo, en
encuestas mediante cuestionarios postales, pues en general quienes contestan pueden ser
muy diferentes de quienes no lo hacen.
En Venezuela por ejemplo, una encuesta en tal forma seria contestada solamente por una clase
social relativamente alta, ya que los pobres son generalmente analfabetos.
Entran en esta categoría todas aquellas muestras en las cuales los individuos se escogen sobre la
base de la opinión de un experto por considerarlos representantes típicos del universo que se
quiere conocer.
Tal es la desventaja de este tipo de muestras: aun cuando sus resultados son bastantes
fidedignos, estamos en incapacidad de juzgar objetivamente sobre su posición. Hace falta pues un
mecanismo más objetivo de apreciación que ofrezca garantías de probabilidad y que a la vez nos
permita medir la exactitud de los valores encontrados. Esto se logra con las muestras
probabilísticas.
Son aquellas en que cada individuo de la población tiene una posibilidad perfectamente conocida
de ser incluido en la muestra. No es siquiera necesario que los diferentes individuos tengan una
posibilidad de pertenecer a la muestra, basta con que tengan cualquier posibilidad (diferente de
cero) de formar parte de ello y que la posibilidad sea conocida.
La elección de una muestra probabilística requiere dos condiciones fundamentales. En primer lugar
como acaba de mencionarse, es necesario que la probabilidad de elegir cada individuo sea
perfectamente conocida, pues si no lo es, no será posible calcular los errores que pueda
cometerse al hacer su escogencia. Así por ejemplo, muchas muestras de opinión pueden ser
representativas de su universo, pero por no llenar el anterior requisito, estamos en incapacidad de
juzgar objetivamente sobre su representatividad. En segundo lugar, es indispensable que los
individuos se elijan al azar, sin permitir la intervención de ningún factor que favorezca la elección
de unos en detrimento de los otros.
Elegir los individuos al “azar”, no quiere decir elegirlos sin ton ni son, a nuestra voluntad o a
voluntad de otros, quiere decir elegirlos por un método perfectamente estudiado en tal forma que la
voluntad no tenga ninguna participación en dicha elección, tal como se hace en el popular juego de
la lotería o bingo, en el cual la obtención de cualquier número es obra de la suerte. Veremos
enseguida, que solo para aquellos casos en los cuales el azar se utiliza como sistema de elección
de los individuos, ha sido posible determinar y valorar la variación que es dado esperar entre
diversas muestras.
Cada vez que se extraía una muestra se anotaba él número de metras blancas obtenidas y luego
de retornar las 10 metras a la caja se mezclaban convenientemente antes de obtener otras
muestras. En esta forma se obtuvieron 150 muestras en total, las cuales se presentan en el
próximo cuadro, clasificadas de acuerdo al número de metras blancas.
Antes de comentar los resultados obtenidos, obsérvese que esta demostración no es tan teórica
como parece y que ella es equivalente a muchos problemas prácticos. La caja con 1000 metras
blancas y negras pudiera ser una población de 1000 habitantes, unos sanos y otros enfermos, de
la cual el un primer investigador obtuvo una muestra de 10 individuas con el fin de conocer el
porcentaje de enfermos, luego un segundo investigador hizo lo mismo y así sucesivamente hasta
que 150 personas distintas estudiaron dicha población.
a. Hay cierta variación en los resultados obtenidos con las muestras. No todas ellas arrojaron el
mismo resultado.
b. Como fueron los mismos observadores quienes por el mismo método estudiaron el mismo
universo de metras, hay que concluir que la causa de la variación observada fue al azar
c. A pesar del variación presente, puede observarse que no todos los resultados se presentan en
la misma frecuencia. La mayoría de los valores están muy cerca del verdadero valor de la
población estudiada (50%) y los valores muy diferentes al del universo, van siendo mucho más
raros, mientras mucho más se aparten de él. En realidad no hubo ninguna muestra en que no
apareciera por lo menos una metra blanca, o en la cual todas las metras fueran blancas, a
pesar de que en ocasiones puedan presentarse. Los resultados que con mayor frecuencia se
presentaron fueron aquellos vecinos a la verdadera composición del universo de 1000 metras y
de hecho. Hubo 36 muestras en las cuales el porcentaje de metras blancas fue de 50 %, valor
exactamente igual al del universo
d. Puede observarse igualmente que los resultados no son desordenados, sino que presentan
cierta simetría. En efecto, puede notarse que las frecuencias aumentan paulatinamente hasta
llegar a un máximo, para decrecer luego en la misma forma si se unen los vértices de las
barritas que señalan las frecuencias puede observarse que se forma una curva de campana.
Esta curva cuyas características se estudiaran mas tarde, se conoce con el nombre de Curva
de Gauss o Curva normal
Distribución de 150 muestras de 10 metras cada una, de acuerdo al número de metras
blancas obtenidas.
Cuadro 46
Número de muestras
Metras blancas por muestra
obtenidas
0 0
1 3
2 6
3 20
4 30
5 36
6 28
7 18
8 8
9 1
10 0
Total 150
Gráfico 46
40
30
Frecuencia
20
10
0
1 2 3 4 5 6 7 8 9 10 11
A causa de esto, siempre que sea posible deben utilizarse muestras probabilísticas, a pesar de que
hay ocasiones- ilustradas en los siguientes ejemplos-en las cuales se precisa recurrir a muestras
de conveniencia.
a.- Muchas veces, por limitaciones nuestros recursos tenemos que estudiar un número de
individuos menor que el que fuera deseado y entonces la opinión de un experto puede ser
conveniente. Así por ejemplo, si al ensayar una nueva droga solo se tienen 5 o 6 dosis en vez de
escoger los individuos al azar, pueden seleccionarse solamente casos graves, ya que se presume
que la droga es efectiva en ella con mayor razón lo será en los casos benignos o corrientes de la
enfermedad. Igualmente, si se quiere conocer cualquier característica de una población a través
del estudio de unos pocos individuos se lograra una mayor exactitud, si se aprovecha de la
experiencia que se tiene, para estudiar tan solo a individuos que presenten en promedio la
característica que se investigue.
b.- Otras veces, no se puede obtener una lista completa de la población que se va a estudiar,
siendo por lo tanto imposible aplicar el azar. En tales casos, la selección de los individuos que se
estudian envuelve un proceso de opinión.
Finalmente, hay ocasiones en las cuales el principal interés está en localizar individuos con
determinadas características en una población muy numerosa, digamos los enfermos tuberculosos
de una comunidad en tales casos es preferible concentrarnos en el estudio de aquellos grupos en
los cuales la experiencia señala que hay posibilidades de encontrar a los individuos buscados.
Básicamente son dos los métodos para asegurar escogencia que una buena muestra:
a. El método de la lotería.
b. El método de los números al azar o aleatorio.
El método de la lotería: consiste en colocar en un recipiente fichas con los nombres de todos los
integrantes de la población que se va a estudiar y después de revolverlas bien, se extraerán tantas
fichas como individuos se quieren obtener. Se comprende que la población es muy numerosa este
procedimiento resulta poco práctico y por consiguiente, debe darse preferencia a la que
describiremos a continuación.
Las tablas de números al azar: son tablas con miles de números obtenidos con un procedimiento
como el de la lotería, es decir, por su procedimiento al azar. Algunas de ellas contienen hasta un
millón de dígitos y la que se inserta en la próxima página es solo un modelo obtenido en prácticas
de clase.
Aunque los números están agrupados de 5 x 5, tal distribución se hace simplemente con el fin de
facilitar la lectura, siendo indiferente que esta se realicen hacia abajo, hacia arriba, horizontal o
diagonalmente.
Para utilizar estas palabras se empieza por numerar a los individuos de la población desde el uno
en adelante y luego se extraerán tantos números como individuos vayan a incluirse en la muestra.
La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al azar la columna y la
fila de comienzo, para lo cual es suficiente colocar a siegas un dedo sobre el cuerpo de la tabla y
empezar en ese sitio la lectura.
Supongamos por ejemplo, que de una población de 5000 individuos previamente numerados del 1
al 5000 se desea extraer una muestra de 500. Como él número 5000 consta de 4 dígitos será
necesario utilizar 4 columnas de la tabla sin que tenga importancia cuales sean. Si mediante el
procedimiento mencionado sea decidido comenzar en la columna 7, fila 3, el primer individuo será
él número 01954, el segundo número será 4321. Luego aparecerán los números 9183 y 6956 los
cuales no se tomara en cuenta ya que la población solo consta de 5000 elementos y por lo tanto el
tercer individuo que se escogerá será el 139. Al terminar estas columnas se continuara en la parte
superior de la tabla con los números 2481, 2835, etc. (columnas 1 a 14) hasta que haya sido
obtenida la muestra de 500.
Cuadro 49
Tabla de números al azar
____________________________________________________________
Filas Columnas
____________________________________________________________
En el terreno práctico, las nociones anteriores suelen combinarse con el fin de lograr mayor
precisión en el muestreo. Entre los numerosos modelos utilizados y que describiremos muy
brevemente están:
Con el fin de señalar las diferencias, ventajas y desventajas de estos procedimientos, tomemos el
siguiente ejemplo teórico. Supongamos que en cada una de las 4 zonas geográficas del país hay
100 escuelas artesanales con 50 alumnos en cada escuela y que con el fin de estudiar
determinada característica, resolvemos extraer una muestra de 2000 alumnos.
Hay en total 400 escuelas con 20000 alumnos y la elección de los 2000 que vamos a estudiar
podrá hacerse por cualquiera de los siguientes procedimientos.
A partir de una lista con los nombres de los 20000 estudiantes del país se elegirán los 2000 que
deben estudiarse, por el método de la lotería o con la ayuda de una tabla de números al azar. El
procedimiento tiene tres inconvenientes:
1. Se necesita una lista detallada con todos los alumnos del país, lo cual no es fácil de obtener.
2. La muestra quedara tan dispersa, que probablemente haya necesidad de trasladarse a una
apartada región, para estudiar uno o dos alumnos.
3. No hay garantía de que las 4 regiones estén adecuadamente representadas en la muestra,
pues puede ser posible que mientras de una región se escojan 800 alumnos de otra se
obtengan solamente 100 o 200.
Como son 20000 alumnos de los cuales se estudiaran 2000, esto quiere decir que de cada 10 se
estudiara uno. Para obtener una muestra sistemática, nos procuraremos una lista de tolos alumnos
del país que numeraremos del 1 al 20000. Luego se escogerá al azar un número entre el 1 y el 10,
el cual indicara el primer alumno que se va estudiar y completaremos la muestra tomando de la
lista cada décimo niño. Si él número escogido fue 5, líos alumnos serán los correspondientes a los
números 5, 15, 25, 35, etc.
Cuando la lista está hecha al azar, este procedimiento es equivalente al descrito anteriormente y
presenta sus mismos inconvenientes. Pero dada la sencillez de su aplicación, suele utilizarse en
todos aquellos casos en los cuales existen ficheros o tarjeteros especiales con los nombres de
cada uno de los individuos de la población que se investiga. Así por ejemplo, si en los archivos de
un hospital hay 20000 historias clínicas numeradas del 1 al 20000 y se desea unas muestra de
1000 de ellas (una de cada 20), en vez de tomarnos la molestia de extraer 1000 números de tabla
de dígitos al azar será fácil obtener un número del 1 al 20, digamos el 10, el cual indica la primera
historia que se estudiara continuándose luego con cada 20 historias hasta completar las 1000
deseadas, o sea, que se escogerán las 10, 30, 50, 70, etc.
Sin embargo, si la lista no está hecha al azar, la utilización de muestras sistemáticas puede
conducir a serios errores. Considérese como ejemplo el siguiente caso extremo: 1000 parejas que
van a contraer matrimonio acuden a obtener el correspondiente certificado de salud, cuya copia es
archivada en el mismo orden que se examinaran las personas. Como por galantería la mujer
siempre se examinó de primero como los números impares corresponderán a historias de mujeres
y los pares a historias de hombres. En tales circunstancias, si quisiéramos extraer una muestra
sistemática del 10% de las historias con el fin de conocer por ejemplo, la edad promedio de los
contrayentes y comenzamos digamos en él número 3, todas las historias corresponderían a
mujeres (3, 13, 23, etc.).
En este sistema la población se divide primero en “estratos” y luego en cada uno de los estratos
escogen al azar los que compondrán la muestra.
Nuestro ejemplo hipotético, las cuatro zonas del país las consideraremos estratos diferentes de
cada uno de los cuales escogeremos los individuos para completar los 2000 de la muestra. La
escogencia se da con el método de la lotería o mediante una tabla de números al sustrayendo
sucesivamente 500 alumnos de cada uno de las zonas.
Esta al igual que los métodos anteriores requieren una lista detallada de todo los alumnos y a
pesar de que la muestra puede ser demasiado dispersa hay garantía de que las 4 zonas estarán
adecuadamente representadas.
En este procedimiento, en lugar de escoger a los individuos que van ha estudiarse. Se escogerá
grupos o conglomerados de individuos.
Como cada escuela tiene 50 alumnos, al escoger 40 escuelas tendremos los 2000 alumnos que
queremos estudiar.
En las muestras de conglomerado no se necesita tener una lista detallada de los alumnos pues
basta con numerar las 400 escuelas del país para escoger las que se estudiaran. Por otra parte se
evita la dispersión, pues aunque haya que estudiar una escuela en un pueblo lejano, al
trasladarnos allí lo haremos, no por uno o dos alumnos sino por 50 lo cual se traduce en un ahorro
de tiempo dinero y esfuerzos.
El único inconveniente pudiera ser que las zonas no nos quedaran adecuadamente representadas.
Además, las muestras de conglomerados no suelen dar resultados tan precisos como las
obtenidas con las estratificadas. Mientras que en estas debe procurarse que cada uno de los
estratos sea tan homogéneo como sea posible, en aquellas se obtendrán mayor precisión mientras
más heterogéneos sean los individuos que conformen el conglomerado, pues en tal caso, cada
conglomerado viene a ser como una población en miniatura.
7.10.5. Muestras por procedimiento combinado
Como las muestras de conglomerados evitan la necesidad de tener una lista detallada de la
totalidad del universo que se estudia evita la dispersión de la muestra y como a su vez la s
muestras estratificadas aseguran la representatividad de los diferentes sectores de la población se
comprende que una combinación elimina los 3 grandes inconvenientes del muestreo por azar
simple.
Habitualmente una vez que se escogen los conglomerados no se estudia la totalidad de las
unidades que los forman sino que se escogen al azar algunas de estas unidades. En nuestro
ejemplo note que para elegir los 2000 alumnos, cualquiera de las siguientes combinaciones será
posible:
E y A se escogen 5 alumnos de cada escuela pero 100 por ciento de alumnos están representados
en una muestra. En E solo se escogen 40 alumnos, pero el 100 % de sus alumnos deben ser
estudiados.
Cualquier combinación de las anteriores podría ser escogida, pero con miras a una mayor
precisión, esta aumentara mientras mayor sea el número de escuelas que se estudien
(combinación A mejor que B esta mejor que C y así sucesivamente). Nótese sin embargo, que
mientras más escuelas se estudien más dispersa quedara la muestra y en la combinación A sería
necesario tener una lista de toda la población, con lo que se pierden las dos grandes ventajas de
las muestras de conglomerados.
Una vez obtenida la muestra y convenientemente resumidos los hallazgos, el paso siguiente es la
generalización de los resultados de esta población de la cual procede. Dicha generalización exige
2 requisitos, A) estimar los valores del universo y b) juzgar sobre la posición de tales valores.
La estimación de los valores del universo depende del tipo de muestra que se haya utilizado.
Cuando se trata de una muestra por azar simple o de una muestra sistemática, los resultados
observados de ella pueden aplicarse directamente al universo. Si en el anterior ejemplo de los
escolares encontramos que el 40% de los escolares de Venezuela son mujeres.
El caso de las muestras por procedimiento combinado es más complicado siendo aconsejable el
asesoramiento de un técnico estadístico.
7.11.2 Precisión de los resultados de la muestra
Si en la muestra estudiada se encontró que el 40% de los escolares son mujeres, podemos aplicar
tal porcentaje de la totalidad de la población escolar de Venezuela, aunque se entiende desde
luego, que dicha cifra es tan solo una aproximación. Cabe preguntarse cuán exacta es tal
aproximación.
Este problema será dilucidado en próximos capítulos y tratado especialmente en el capítulo XIX,
pero mientras tanto, téngase presente que siempre que siempre que se hacen generalizaciones a
partir de una muestra, se corre el riesgo de que los valores dados por ella no correspondan
exactamente a los del universo. Sin embargo, aunque tal riesgo no puede eliminarse por cualquier
procedimiento, puede reducirse convenientemente y estimarse con bastante exactitud a partir de
los propios resultados de la muestra, a condición de que sea una muestra probabilística y que su
tamaño sea adecuado.
CAPITULO VIII
DISEÑO DE FORMULARIOS
8.1 Generalidades
Cuando se hace un estudio, se recogerá tal cantidad de datos que será imposible confiarlos a la
memoria. En tales caso, habrá necesidad de registrarlos en formularios adecuados como paso
previo para su resumen y análisis.
Los formularios deben ser planeados cuidadosamente, en tal forma que sean realmente útiles y
que faciliten y no dificulten la obtención de los datos. Ellos deben ayudar a recoger la información
de manera completa y eficiente, permitiendo uniformidad en las diferentes observaciones y
evitando la recolección de datos inútiles o irrelevantes al estudio.
En cuanto a los segundos deben tener un propósito perfectamente definido y ser pertinentes al
estudio.
Antes de elaborar el formulario debe considerarse el propósito para el cual será utilizado y las
circunstancias bajo las cuales se recogerá la información. Lo primero tiene importancia para decidir
sobre los datos que en última instancia se recogerán y lo segundo, para la adopción del tamaño,
forma y material más conveniente.
Aunque es imposible dar reglas fijas para la correcta elaboración de un formulario, los siguientes
puntos serán de utilidad:
1. Decidir sobre los datos que recogerán. Un formulario muy extenso, conspira con la exacta
recolección de los datos y de allí que solo deban recogerse aquellos útiles y pertinentes al
estudio. En esta decisión es conveniente:
a. Hacer una lista de todos los datos de acuerdo a la finalidad del estudio.
b. Considerar cuales datos son “factibles” de recoger de manera fidedigna y exacta. Averiguar si
una persona es o no adicta a la s drogas heroicas, es una información deseable de recoger,
pero generalmente no vale la pena investigarla, pues es raro que las personas Ester
dispuestas a suministrarla.
c. Limitar los datos aquellos “prácticos” de recoger. Así por ejemplo hay ciertas reacciones
serológicas mucho más específicas que el VDRL para el diagnóstico de la Sífilis, pero siendo
más complicadas posiblemente se prefiera no utilizarlas.
d. Limitar la información aquella que se usará. Generalmente se recogen muchos datos pensando
que algunos que hoy parecen sin importancia, posiblemente en el futuro sean de utilidad. Tal
actitud es justificada, solo cuando se tiene la seguridad de que esta investigación adicional
entorpecerá la recolección de los datos verdaderamente esenciales.
2. Decidir sobre el orden en que se asentarán los datos en el formulario. La distribución debe
hacerse en manera lógica y ordenada y así por ejemplo, datos sobre la ocupación, vivienda,
educación y otros referentes a las condiciones económicas y sociales no deben ser
separados.
3. En general la parte superior del formulario debe reservarse para datos clarificativos y de
identificación (nombre, dirección, área geográfica, etc.) y no ocuparla, como suele hacerse, con
el nombre de la oficina que hace el estudio.
4. Considerar cómo se hacen las preguntas.-Esto tiene mucha más importancia en los formularios
utilizados en ciertas encuestas sociológicas que en el caso de las historia clínicas o formularios
afines empleados por el médico.
5. En todos los casos en que ciertas preguntas deben ser formuladas, se procurará un lenguaje
simple, sin ambigüedades y como hemos señalado, se evitarán las preguntas insinuantes,
poco explicitas o insuficientemente específicas.
6. Planear como se anotarán las respuestas. No es infrecuente el hecho que para anotar ciertas
respuestas más o menos extensas, apenas se deja espacio para una o dos palabras, lo cual,
como es lógico, impide recoger la información de manera completa. El espacio que se deje
debe ser adecuado para las respuestas que se espere siempre que sea posible se adoptará el
sistema que exija el esfuerzo menor. Obsérvese como la misma información del sexo puede
consignarse de tres manera diferentes, aunque la segunda parece mucho más conveniente.
a. ¿Sexo?...............
Hombre
b. Sexo
Mujer
SI
c. ¿Hombre?
NO
7. Determinar Las características del formulario. Con respecto a este punto vale la pena
considerar:
De acuerdo a las anteriores preguntas, se deducirá sobre las formas, tamaño, material, color,
etc. de los formularios.
a) Forma y tamaño: Aunque una sola página facilita considerablemente su manejo a forma y
tamaño dependerá de la cantidad y extensión de los detalles que se van a recoger y de si el
formulario se usará directamente o no para las computaciones.
b) Material: Depende del empleo que se le dará al formulario, mientras que formularios que se
van a usar justifican un material de óptima calidad, otros que solo se utilizaran una vez, como
las órdenes para los exámenes de laboratorio, podrán ser hechos de papel corriente.
c) Colores: Cuando en una misma dependencia se utilizan varios formularios, suele ser
conveniente usar diferentes colores para distinguirlos fácilmente así por ejemplo, el Ministerio
de Sanidad usa el color blanco para consulta de lactantes, rozado para escolares, amarillo
para la consulta de prenatales, etc.
d) Probar la operatividad del formulario. Antes de que el formulario sea impreso de forma
definitiva, es conveniente probarlo en el terreno mediante un estudio piloto, para darse cuenta
de las fallas que aun puedan presentar y hacer las correcciones necesarias. Muchas veces,
solo después de múltiples experiencias puede llegarse a la adopción de un formulario
definitivo. La historia clínica por ejemplo a pasado por tres diferente etapas, antes de que se
empleara la forma que hoy se utiliza. Al principio era una simple hoja en blanco, en donde el
médico anotaba los hallazgos de su examen, lo cual tenía como inconveniente, la falta de
uniformidad de las observaciones haciendo imposible la comparación entre un grupo de
pacientes y otro. Después se transformó en una lista interminable de preguntas, de la cual el
médico no podría apartarse. Como se ha señalado, era un atentado contra la personalidad del
médico y del paciente. Hoy en día, en la historia clínica, a manera de recordatorio para el
médico, se señalan las grandes bases de datos que deben investigarse, pero se deja en
libertad al profesional para investigarlos en la forma y en detalle que juzgue conveniente.
8. Redactar las instrucciones necesarias. Estas pueden imprimirse en el mismo formulario cuando
no son muy extensas o en hojas aparte en caso contrario.
CAPITULO IX
Así por ejemplo, los datos referentes al peso de un grupo de 30 individuos, tal como aparecen a
continuación, no revelan fácilmente ninguna característica del grupo:
En cambio, los mismos datos ya elaborados, presentados en la forma que sigue, permite
formarse juicio bastante exacto, sobre el conjunto de personas estudiadas:
73 69 72 67 63 62
66 68 52 61 68 64
52 55 63 60 58 54
63 62 56 58 51 59
64 61 64 57 56 56
Cuadro 61
Individuos de acuerdo a su peso
Al resumir los datos en tal forma, algunos detalles sobre las variaciones individuales se han
perdido, pero las características generales del grupo se han conservado y son mas aparentes.
En la etapa de elaboración se consideran los tres pasos siguientes, cuyos detalles se estudiaran
en los próximos capítulos:
Hay que ver ante todo si el formulario está completo o si existen omisiones, es decir, ver si todos
los datos que debieron investigarse se encuentran asentados.
Hay que fijarse luego si dichos datos son correctos. No siempre será posible decidir sobre la
corrección o no de un dato, pero frecuentemente la existencia de otra información en el formulario
y cierto conocimiento de la materia que se estudia, ayudara al respecto. Así por ejemplo, una
persona nacida en 1950 puede aparecer como de 40 años, lo cual a todas luces es imposible, o un
niño de 5 años aparecer con un peso de 50 Kilos, lo cual, indudablemente, es una equivocación.
Cuando tales inexactitudes se comprueban, será necesario hacer las correcciones pertinentes
cuando ello sea posible, u omitir de las computaciones finales los formularios incompletos e
incorrectos. En este último caso se corre el riesgo de invalidar el estudio, pues generalmente se
trabaja con muestras y la eliminación de unos cuantos individuos puede viciar los resultados. Una
adecuado planificación de la investigación y una cuidadosa recolección de la información, serán la
manera lógica de precaverse contra tales eventualidades.
CAPITULO XI
Antes de que se haga cualquier computación, es necesario por lo tanto, haber decidido de
antemano el criterio bajo el cual serán clasificadas las personas estudiadas, pues un grupo de
individuos podrá clasificarse de muchas maneras diferentes, según la finalidad que se persigue: de
acuerdo al sexo, la raza, la edad, etc.
Como la presentación de los datos estadísticos y su análisis posterior depende en gran parte de la
manera como están clasificados, algunas consideraciones al respecto son convenientes.
Cualquiera que sea la escala que se escoja, debe reunir, entre otras, dos condiciones básicas:
El que la escala sea exhaustiva significa que debe permitir la clasificación de cualquier individuo
que se estudia. Una escala que dividiera las razas solamente en Blanca y Negra sería incompleta,
ya que no permitiría la inclusión de personas de otros grupos raciales.
El que las clases sean mutuamente excluyentes quiere decir, que no debe dejar dudas sobre
donde incluir a cada una de las unidades en estudio.
Grupos de Edad
Escala Escala
Incorrecta Correcta
0-5 0-4
5-10 5-9
10-15 10-14
15-20 15-19
etc. etc.
11.1.2.1 Escalas (Variables) cualitativas. Las escalas cualitativas solo permiten distribuir a los
individuos de acuerdo a ciertas características que le son comunes y por medio de las cuales
pueden distinguirse de otros individuos que no las poseen. Al clasificar a un grupo de personas por
sexo, raza, estado civil, región de donde proceden, enfermedad que padecen, etc., se está usando
una escala cualitativa.
b. Ordinales: presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La
nota en un examen: suspenso, aprobado, notable, sobresaliente.
c. 11.1.2.2. Escalas cuantitativas. Las escalas cuantitativas son mas precisas, porque a más de
permitir la diferenciación entre unos individuos y otros, señalan cuan grandes son las
diferencias observadas. La determinación del peso, la estatura, edad, pulso o tensión arterial
de una persona, o la división de las familias por el número de hijos de que constan o de
acuerdo a sus ingresos se hace mediante el uso de una escala cuantitativa.
a. Continuas
b. Discontinuas
Una escala cuantitativa se denomina continua cuando cualquier valor intermedio entre 2 íntegros
es posible. La edad de una persona por ejemplo, puede ser 40 años, o 40 años y 10 meses, o aún
podría expresarse como 40 años, 10 meses, 5 horas, 15 minutos, etc. De la misma manera el peso
de un hombre puede ser 60 Kilos, pero si se tuviera una balanza de precisión quizá podría
anotarse como 60 kilos, 300 gramos, 20 centigramos, etc.
Una escala se llama discontinua cuando solo admite valores de números enteros. Las familias
clasificadas según el número de hijos o los escolares por el número de dientes cariados que
tengan, son ejemplos de escalas discontinuas, porque una familia podrá tener 1,2.... 15 hijos; o un
escolar 1,2... 20 caries, pero ningún valor fraccionado tendrá significado.
Se comprende fácilmente que los individuos que se estudian pueden clasificarse según una escala
única o de acuerdo a dos o más escalas a la vez. Teniendo en cuenta esta noción, los datos
estadísticos podrán clasificarse en los tres tipos que a continuación se describen:
Datos como los anteriores, en donde un grupo de individuos se clasifica de acuerdo a una única
escala, sean su edad, peso, raza o estatura, reciben el nombre de Distribuciones de Frecuencia.
11.1.3.2. Datos de Asociación. Sin embargo, si se deseara saber cuántos hombres son de raza
blanca o cuantas de las personas negras son del sexo femenino, los datos presentados
anteriormente no permitirían responder tales preguntas. Para poder responderlas, las personas
deben clasificarse simultáneamente, de acuerdo a las dos escalas:
Cuadro 67
Raza
Sexo Total
B N
Hombres 36 9 45
Mujeres 44 11 55
Total 80 20 100
Note que el cuadro anterior resume los dos primeros, pero a partir de aquellos no puede elaborarse
este último. Para su elaboración se requiere una nueva computación de datos.
Casos como el anterior, en donde los individuos se clasifican simultáneamente de acuerdo a dos
escalas, como ser raza y sexo, o edad y sexo, estatura y edad, etc., constituyen los llamados Datos
de Asociación.
11.1.3.3. Series Cronológicas. Finalmente algunas veces la escala que se emplea es el tiempo,
para mostrar la evolución de un fenómeno en relación a él. Tales series ilustradas a continuación,
reciben el nombre de Series Cronológicas.
Cuadro 68
Aunque las subdivisiones o clases de la escala suelen escogerse arbitrariamente, tal escogencia
debe reunir ciertas condiciones.
11.1.4.1. Formación de las clases. Solo deben incluirse en una misma clase datos más o menos
homogéneos. Si por ejemplo, de 100 casos de una enfermedad se presentan:
Pues el número de casos es más o menos constante en cada año de edad (alrededor de 10 =
30/3)
No convendría formar una sola clase, pues es evidente que hay una gran diferencia entre una y
otro.
11.1.4.2. Número de clases. Si las clases son muy numerosas habría tantos detalles, que
relaciones importantes pueden pasar inadvertidas. Si hay por el contrario muy pocas clases,
importantes diferencias entre los individuos estudiados se pasarán por alto.
El número de clases debe ser tal, que se evite el detalle innecesario, pero que no conduzca a la
pérdida de más información de la que puede ser convenientemente ignorada. Al estudiar los
habitantes de una población, grupos quinquenales de edad son perfectamente adecuados, pero
ellos serían inconvenientes para clasificar los alumnos de una escuela, dado que en ésta, la
variabilidad es muy poca.
En todo caso, es preferible utilizar más clases que las necesarias, que utilizar menos de las que se
necesitan, pues si las clases resultan muy numerosas, podrán unirse varias de ella a voluntad y en
cambio será imposible subdividir una clase ya constituida, a menos que se hagan todas las
computaciones nuevamente. Por lo general, 8 a 15 clases suelen ser adecuadas.
11.1.4.3. Límites de la Clase. Ya se ha señalado que con el fin de evitar ambigüedades, las clases
se señalan como 50 – 54, 55 – 59 y no 50 – 55, 55 – 60, etc.
Sin embargo los verdaderos límites de esas clases son algo diferentes de los anotados. Si
estudiamos el peso de un grupo de personas y lo mismo es cierto siempre que el dato se
aproxime al dígito más cercano, cualquier individuo que pese algo más de 49.5 kilos o algo menos
de 50.5 kilos será registrado como peso de 50 kilogramos. Igualmente, un individuo que se registre
con 54 kilos pero en realidad entre 53.5 y 54.5.
Lo anterior debe tenerse presente, para poder determinar la amplitud y punto medio de cada clase,
pero antes de ocuparnos de estos aspectos hay que advertir que en el caso de la edad, la
determinación de los verdaderos límites es algo distinta. Como la edad no se aproxima al
cumpleaños más próximo, sino que se registra como años cumplidos, un individuo de 50 años
puede tener cualquier edad entre 50 y 50,999 años, o sea, prácticamente entre 50 y 51 años.
11.1.4.4. Amplitud de la Clase. Se entiende por amplitud de la clase, la diferencia que hay entre el
máximo y el mínimo valor observados en dicha clase. Para su determinación deben tenerse en
cuenta los verdaderos límites de la clase, tal como se explicó anteriormente. Por lo tanto, si la clase
fuera 50-54 kilos, su amplitud no sería 4, pues como sus límites verdaderos son 49.5 y 54.5 kilos la
amplitud sería: 54.5 – 49.5 = 5
De la misma manera, si se tratara de una escala de edades, como los límites son 50 y 54.999 la
amplitud sería nuevamente 5.
Aunque generalmente es recomendable que todas las clases tengan la misma amplitud, pues con
ello se facilitan muchos cálculos y en algunos problemas tal disposición no es posible, ya que
deben fijarse de acuerdo a los datos que se estudian y al método que se ha resuelto utilizar.
11.1.4.5. Punto medio de la clase. Se obtiene tomando los verdaderos límites de la clase. Note por
consiguiente si la escala fuera 50-54 años, los limites verdaderos serían 50 y prácticamente 55
años y el punto medio de la ecuación.
50 + 5
= 52.5
2
En cambio de una escala de peso, los limites verdaderos serian 49.5 y 54.5 Kilos, y el punto medio
de la clase 104/2 = 52 kilos.
Hay varios métodos de computación y la escogencia de uno influencia a los demás, depende del
número de individuos que hay y de la complejidad del análisis que se intenta y de los recursos
económicos con los que se cuenta.
Frecuentemente los resultados de un estudio se resumen en una larga lista, en la cual se destina
una línea para anotar las características correspondientes a cada individuo. En tales casos, la
computación se concentrara a buscar cuales individuos presentan determinada característica y a
contarlos mentalmente marcándolos con un signo convencional (v) o (x), con el fin de facilitar la
verificación al final.
Cuadro 71
Nombre
Estado Atención Causa de
del Sexo Edad Residencia Nacionalidad
Civil Medica Defunción
paciente
A.P. M 15 Soltero Urbana Extranjero SI TBC
B.D. F 25 Casada Rural Venezolana SI Eclampsia
H.O. F 30 Casada Urbana Venezolana SI Neumonía
T.P. M 56 Casado Rural Venezolana SI Diabetes
P.H. M 48 Casado Rural Venezolana NO Accidente
C.C. M 30 Casado Urbana Venezolana SI Neumonía
S.Q. M 27 Casado Urbana Venezolana SI Accidente
E.G. F 25 Soltera Urbana Venezolana SI TBC
I.P. F 23 Casada Urbana Venezolana SI Eclampsia
P.V. M 39 Casado Urbana Venezolana SI Diabetes
Como se comprende, el método solo es utilizable cuando son pocas las unidades que se estudian
y siempre que no se pretenda clasificarlas por más de dos escalas a la vez. En el presente
ejemplo, sería muy fácil contar cuantos individuos eran hombres o mujeres, o cuantos murieron por
Tuberculosis o Neumonía, pero el trabajo sería interminable si quisiéramos hacer computaciones
combinadas, con el fin de averiguar por ejemplo: cuantas mujeres extranjeras, menores de 30 años
y que residían en el campo, murieron por determinada enfermedad.
Consiste en poner en una hoja de trabajo un palote (/) por cada unidad que se cuenta, destacando
cada quinta unidad con el fin de facilitar la computación final.
Las computaciones pueden hacerse a partir de los formularios originales en los cuales se recogió
la información, o a partir de una lista como la anterior que la resuma.
Prácticamente estas tarjetas pueden usarse en cualquier estudio que se haga y sólo cuando el
número de casos es excesivo, digamos más de 5000, sería ventajoso utilizar las tarjetas tipo
Hollerith, que lo describiremos. Con ellas el trabajo es rápido, relativamente dinámico y los errores
en la computación se reducen al mínimo.
11.2.4.1. Descripción.
Son tarjetas de tamaño variable. Con una serie de orificios en sus bordes, a cada uno de los cuales
se le asigna la representación de una de las características que se estudian.
Los datos que van a inscribirse en la tarjeta, puede encontrarse en los formularios especiales o
pueden recogerse directamente en ella, caso en el cual se anotarán en su parte central. A veces,
cuando se hacen encuestas sencillas, en vez de escribir los datos, pueden asentarse directamente
en las tarjetas perforadas, marcando con tinta los orificios correspondientes que luego deban ser
desmarginados. Observe que esto se ha hecho en la tarjeta que se reproduce en el gráfico 75.
Datos
Información buscada Número de datos
investigados
Edad Lactantes pre-escolares escolares o adultos 4
Sexo Masculino o femenino 2
Estado Civil Soltero casado viudo o divorciado 4
Residencia Urbana o rural 2
Nacionalidad Venezolana o extranjera 2
Atención Médica Recibió o no-atención médica 2
Causas de muerte Según los 17 grupos de la clasificación internaciona 17
TOTAL 33
GRAFICO 75
Tarjeta con perforaciones marginales utilizadas con los datos ilustrados en el texto
(Nota: Loa orificios correspondientes a la edad, sexo, estado civil, ya han sido “abiertos”, mientras que los que indican
residencia, nacionalidad, etc. Solamente están señalados. La tarjeta indica que se trata de un adulto hombre casado con
residencia rural, extranjero, etc.)
Se podrá notar que como se investigaron en total 33 diferentes datos, al asignar un orificio a cada
uno, la tarjeta en su forma más simple tendrá que constar de 33 perforaciones aunque luego
veremos que algunas simplificaciones son posibles.
11.2.4.3. Utilización.
A cada individuo se destinará una tarjeta distinta y la inscripción de los datos se hará mediante un
“saca bocado”, con lo cual se destroza el orificio correspondiente, cortando la lengüeta que lo
separa del borde.
Debe tenerse cuidado de abrir convenientemente los orificios, pues de lo contrario, la tarjeta puede
engancharse en las vecinas y noquear en un momento dado.
11.2.4.4. Computaciones.
Si en el ejemplo que nos sirve de ilustración, quisiéramos clasificar a los individuos según el sexo y
el estado civil, procederíamos de la siguiente manera:
2.- Tomando el primer bloque ( digamos el de hombres), se pasará el punzón por los orificios que
representan el estado civil: primero por el “solteros” y luego sucesivamente por los “casados”,
“viudos” y “divorciados”, con lo cual el grupo de hombres quedarán divididos según su estado civil,
restando solamente contar y anotar cuántas personas hay en estas categorías.
3.- El paso anterior se repetirá con el bloque de las tarjetas de las mujeres, con lo cual se habrá
terminado la computación deseada.
Si hubiéramos querido hacer las computaciones de acuerdo a tres variables a la vez, para
averiguar por ejemplo, cuántas defunciones ocurrieron entre mujeres casadas extranjeras o entre
hombres solteros venezolanos, bastaría con dividir en dos partes cada uno de los bloques de
tarjetas obtenidas anteriormente aprovechando el procedimiento acabado de discutir.
11.2.4.5 .Codificación
Al utilizar las tarjetas perforadas pueden recurrirse a ciertas simplificaciones, gracias a los cuales
no habrá necesidad de utilizar un orificio diferente para cada dato que se inscriba. Para ello, antes
de asentar los datos en las tarjetas, se hará una transformación previa, conocida como
codificación.
La codificación es simplemente una “clave”, mediante la cual cada dato se designa por un número.
Así por ejemplo, si se estudia las diferentes causas de mortalidad, se puede convenir la
tuberculosis es la enfermedad Nº 1; el cáncer la Nº 2, etc. De igual manera, si se estudian los 23
Estados y Territorios de la nación, puede designarse al distrito federal con el número 1 al estado
Anzoátegui con el 2 y así sucesivamente.
Con los datos así codificados, solo se necesitarán 4 orificios para inscribir hasta 10 características.
Efectivamente, bastan solamente 4 dígitos (1, 2, 4 y 7) para representar cualquier número hasta el
9, pues para señalar el 6 se tomarán los números 4 y 2: para señalar el 9, se tomarán el 7 y 2:
para indicar el cero, se dejarán todos los orificios intactos.
7 4 2 1 7 4 2 1
Decenas unidades
Si los mismos 4 básicos dígitos se repiten de nuevo haciéndolos presentar las decenas, entonces
8 orificios serán suficientes y para representar hasta 100 características (del 00 al 99).
De las tarjetas que utilizan el procedimiento inventado por Hollerith, las más conocidas son las
mundialmente famosas tarjetas IBM, cuyo uso requiere complicadas maquinarias electrónicas, por
ello indicaremos solamente sus características, a pesar que es el sistema de computación más
perfecto que se conoce.
La utilización de moderadas unidades electrónicas permite clasificar varios miles de tarjetas por
minuto y de ahí que el sistema sea irremplazable en las grandes compañías y en los servicios
nacionales de estadística, que manejan millones de datos.
11.2.5.1. Descripción. La tarjeta IBM es una cartulina de material especial, que consta de 80
columnas, cada una con 10 filas numeradas del 0 al 9 (véase modelo anexo).
Aunque a primera vista la tarjeta solo permite escribir datos que den un máximo de 800
computaciones (80 columnas por 10 filas), la verdad es que una sola tarjeta puede recibir datos
que representen millones de combinaciones.
11.2.5.2. Requerimientos para su utilización. Para utilizar estas tarjetas es impredecible codificar
los datos previamente, de acuerdo a los principios ya señalados. Como cada columna tiene 10
filas, cualquier característica que no tenga más de 10 subdivisiones, podrá inscribirse en una sola
columna. Con 2 columnas se podrán inscribirse hasta 100 datos; con 3 columnas hasta 1.000, etc.
Esta codificación explica porque dijimos antes que en la tarjeta podrían asentarse millones de
combinaciones, pues como se desprenden de lo dicho, una característica que tuviera 100.000 (¡)
subdivisiones, solo necesita 5 columnas.
11.2.5.3. Inscripción de los datos. La inscripción de los datos en la tarjeta se realiza haciendo
pequeñas perforaciones rectangulares en los espacios que le corresponde, según el código
adoptado. Dichas perforaciones se hacen eléctricamente con una máquina especial que tiene un
teclado como una máquina de calculador.
La computación de las tarjetas se hace en otras máquinas especiales, que no solo las encuentran
y las separan de los grupos deseados, sino que llegan hasta totalizar e imprimir los resultados.
GRAFICO 79
Tarjeta I.B.M.
CAPITULO XII
CUADROS ESTADÍSTICOS
12.1. Características generales.
Aunque la disposición del cuadro variará de acuerdo a los datos que intenten resumir, hay algunos
principios comunes que deben tener en cuenta.
1. El título.
2. El cuadro propiamente dicho.
3. Las notas explicativas.
12.1.1. Título.
Como los resultados deben entenderse fácilmente. Sin necesidad de recurrir al texto que
acompañan, el título debe reunir las condiciones.
a. Ser completo: un título que sea completo, debe indicar claramente cuál es el contenido del
cuadro. En otras palabras, debe responder a las preguntas:
b. Lo más conciso posible: el titulo debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión. Observe como el primero de los dos títulos siguientes es
completo, pero le falta brevedad y no añade nada nuevo al segundo de ellos.
Titulo no recomendable:
Titulo correcto:
En la primera columna y la primera fila tiene una finalidad diferente a las restantes, porque en ellas
irán las diferentes subdivisiones de la clasificación que se adopte, a los encabezamientos que se
indiquen a que se refieren los datos numéricos escritos.
La primera fila, es la de los ENCABEZAMIENTOS, los cuales indican a que se refieren los datos
que van inscritos en las celdas subyacentes. Ellos al igual que las últimas, deben ser breves, pero
suficientemente explícitos. Así por ejemplo, en vez de poner simplemente EDAD, es preferible
poner “Edad en Años “o“ Edad en Meses “ según el caso. Igualmente, en vez de poner tan solo
“TASAS“ debe indicarse: “Tasa de Mortalidad por 1.000“,”Tasas de Mortalidad por 100.000“, etc.
La primera columna conocida como “COLUMNA MATRIZ“ se destina a asentar las diferentes
clases de la escala de clasificación utilizada. Cuando las observaciones se clasifican de acuerdo a
una única escala, digamos edad, las subdivisiones de esta, deben ir en esta columna (véanse
cuadros 83 y 84). Cuando dichas observaciones se clasifican simultáneamente de acuerdo a dos
escalas, digamos edad y sexo, cualquiera de estas dos características podrá ir en columna o
matriz, según veremos luego (véase cuadro 86).
Con el fin de que no haya duda sobre el contenido del cuadro, este se acompaña a veces de notas
explicativas, que pueden ir en la parte superior o inferior. Convencionalmente, las notas colocadas
en la parte superior afectan todo el contenido del cuadro, mientras que aquellas que se colocan en
la parte inferior, sólo se refieren a las cifras de determinadas celdas o de una fila o columna en
particular.
Estas notas, repetimos, sólo se utilizan en ocasiones aunque en trabajos que no son originales,
siempre deben ponerse al pie del cuadro, la fuente de donde se obtuvieron los datos, no son sólo
por reconocimiento de sus autores, sino para que el lector en un momento dado, pueda consultar
el trabajo original, de donde dichas cifras proceden.
Los primeros, los cuales sirven de base para la construcción de los segundos, son cuadros
extensos, de resumen, frecuentemente destinado a presentar material básico a otros
investigadores y de ahí que cuando se publican se acompañan de extensas notas explicativas y de
cuidadosa mención de los procedimientos y métodos utilizados en la recolección de los datos.
Los segundos, son cuadros generalmente elaborados con propósitos analíticos. Habitualmente se
intercalan en la presentación de trabajos y monografías originales y están destinados a mostrar
determinadas relaciones sobre las cuales el autor quiere llamar la atención y que constituyen el
núcleo de las conclusiones que de la investigación se derivan. Ellos serán los únicos a que
haremos referencia en los próximos párrafos.
Los cuadros más sencillos, son aquellos en que los individuos se agrupan de acuerdo a una escala
única de clasificación. Cuando se clasifican simultáneamente en dos, tres o más escalas, son
desde luego más complejos; aunque los mismos principios generales ya vistos son aplicables.
Si los individuos se clasifican de acuerdo a una única escala; el cuadro podrá hacerse como el que
aparece a continuación:
Cuadro 83
En cuadros de este tipo, se acostumbra poner una columna más con la distribución porcentual de
los casos, lo cual facilita grandemente las comparaciones:
Cuadro 84
Defunciones por accidentes, por causas. Venezuela, 1961
Obsérvese que aunque los dos cuadros anteriores se refieren a los mismos datos, los dos totales
no son iguales, pues como indica la nota del primero, allí se excluyeron 16 defunciones de edad
desconocida.
Sin embargo, como tales cuadros sólo pretenden mostrar la variación de un fenómeno de una
época a otra, en ellos se emite los totales y lógicamente, al no existir estos, será imposible el
cálculo de la respectiva columna de porcentajes.
Si los individuos se clasifican simultáneamente de acuerdo a dos escalas, por ejemplo: edad y
sexo (Datos de Asociación), una escala irá en la vertical y otra la horizontal. El que una u otra
vayan en la horizontal o en la vertical no cambia el significado del cuadro. Sin embargo, es
conveniente poner en la vertical, aquella escala que presente más subdivisiones, ya que el ojo
humano compara más fácilmente, números dispuestos de arriba abajo, que arreglados unos al
lado de otros, en filas horizontales.
Observe que como hay dos escalas la tabla debe tener dos totales. Estos suelen ponerse en la
última columna y en la última fila, pero si se prefiere puede colocarse en la primera columna y en la
primera fila.
Téngase en cuenta también, que es posible presentar en el mismo cuadro tanto las cifras
absolutas como los porcentajes o tasas correspondientes. Debe evitarse sin embargo que el
cuadro quede con demasiadas columnas, pues en tal caso su interpretación se hará difícil. En tales
ocasiones, es preferible presentar la información en 2 o más cuadros distintos.
Cuadro 86
Defunciones por sexo y grupos de edad
Venezuela, 1961
(Se excluyen 12 hombres y 4 mujeres cuya edad se desconoce)
Sexo
Años de edad Ambos sexos
Hombres Mujeres
0-4 275 226 501
May-14 288 165 453
15-24 519 86 605
25-44 835 96 931
45-64 400 99 499
65-84 115 103 218
Total 2432 775 3207
Si los individuos se clasifican al mismo tiempo de acuerdo a tres escalas, como edad, sexo y
causa del accidente, el cuadro aparecerá de la manera ilustrada en la próxima página.
Queremos advertir, que aunque por dificultades técnicas, los encabezamientos de algunos cuadros
del siguiente texto, fueron colocados verticalmente, es preferible sin embargo, por razones
estéticas y para facilitar la lectura, disponerlos de forma horizontal.
Como observación final, recuérdese la importancia de numerar las diferentes columnas del cuadro
cuando son muy numerosas, especialmente si han de hacerse referencia a ellas en el texto (verse
cuadro 87)
Cuadro 87
Defunciones por accidentes, por sexo, edad y causa externa que los produjo
Venezuela, 1961
(Se excluyen 16 casos, cuya edad se desconoce)
C
d
u
n
a
s
e
e
a
s
a
s
c
o
a
s
r
l
Hombres 1140 344 241 58 649 2132
15 años 170 110 45 32 206 563
15-44 712 191 101 20 330 1354
45 y más 258 43 95 6 113 515
Entre los errores que se cometen al elaborar un cuadro estadístico, deben evitarse especialmente
los siguientes:
a) Disposición incorrecta de los datos. Contrástese el cuadro anterior que es correcto con el
que aparece a continuación, el cual ilustra generalmente un error cometido por los principiantes. El
error consiste en que no se clasifica a cada individuo de acuerdo a tres escalas. En realidad son
dos cuadros diferentes colocados el uno al lado del otro.
Cuadro 88
Cuadro incorrecto que intenta presentar los datos del cuadro anterior
c. Cuadros que muestran solamente porcentajes. Por lo general, los cuadros no deben
mostrar solamente porcentajes sin indicar las cifras de donde proceden, pues un porcentaje del
50% puede indicar 1 caso en 2, 10 en 20, 100 en 200, etc. Y como es obvio mientras menor sea el
número de casos, menor valor tendrá el porcentaje.
d. Cuadros sobre cargados. Cuadros que intentan mostrar muchos datos a la vez, resultan
confusos e inadecuados. En tales casos es recomendable realizar varios cuadros separados.
Cuadros sobrecargados. Cuadros que intentan mostrar muchos datos a la vez, resultan confusos e
inadecuados. En tales casos es recomendable realizar varios cuadros separados.
Aun cuando la encuesta incluyó 22168 personas de todas las edades, solo nos referimos a un
grupo de adultos.
Cuadro 89
Porcentajes de enfermos por grupos de edad y sexo de la población adulta de los bloques y
ranchos de la urbanización 23 de enero. Caracas, 1960.
(Resultado de una muestra de 10983 personas mayores de 15 años. Como enfermo se consideró
a toda persona que manifestó sufrir de alguna dolencia).
Fuente: basada en J. D. Maldonado y M. Pizzi “una encuesta de mortalidad en el sector oeste de la urbanización 23 de
Enero. “Revista venezolana de sanidad y asistencia social. Vol. XXVI N. 1 marzo de 1960.
La lectura del título es necesaria con el fin de entender perfectamente a que se refiere el cuadro.
En el caso presente, el título indica claramente que el cuadro se refiere a los adultos enfermos
encontrados en la ciudadela 23 de Enero de caracas, distribuidos de acuerdo a su edad, sexo y
tipo de vivienda. Nos indicará también que los datos se expresan en forma de porcentajes. Tales
hallazgos suelen presentarse en formas de las tasas que indican el número de enfermos cada
1000 o 100000 habitantes, pero aquí hemos preferido los porcentajes puesto que este es un
término de más fácil comprensión para cualquier lector no familiarizado con los términos
estadísticos.
Las notas explicativas que acompañan al cuadro, permiten a que esté consultando su mejor
comprensión. En nuestro ejemplo, vemos en primer lugar que no se estudian todos los habitantes
de la urbanización sino solamente una muestra de 11000. Esto es importante pues ya sabemos
que los resultados obtenidos están sometidos al error por muestreo. Aunque solo en próximos
capítulos se aprenderá a medir este error, ya sabemos, no obstante, que su magnitud es pequeña
cuando la muestra es suficientemente grande y de ahí la importancia que se nos haya aclarado
que fueron 10983 las personas estudiadas.
En segundo lugar la nota indica que el estudio se trata de persona mayores a 15 años, con lo cual
se nos disipa cualquier duda que pudiéramos tener sobre a quienes se los consideró como adultos.
Finalmente se especifica que como “enfermo” debe entenderse a cualquier persona que
manifestase tener alguna dolencia. De nuevo, esta es una aclaración importantísima, por que el
hecho de catalogar a un individuo como sano o enfermo, depende en gran parte de la persona que
decide. Este será un punto que se discutirá posteriormente, pero debe señalarse desde ahora que
cuando es el mismo paciente quien decide si se encuentra o no enfermo, se introduce una
apreciable fuente de error, ya que frecuentemente tal decisión se presta para notables
arbitrariedades.
El título nos indica que no se están utilizando porcentajes, es decir que para cada grupo la cifra
indica el número de personas enfermas por cada 100 entrevistados. Note por consiguiente, que las
columnas y filas de totales no son la suma de porcentajes parciales, ni el promedio aritmético
corrientemente utilizado. Son en realidad promedios, pero promedios ponderados que después se
aprenderán a calcular.
El cuadro muestra que el 20,5 % de las personas entrevistadas, es decir 1 de cada 5 personas,
manifestó sentir alguna dolencia.
Esta cifra es desde luego extremadamente elevada, pero como señalan los autores del trabajo, no
deben de olvidarse que de este tipo de encuestas algunos tipos tienden a magnificar sus dolencias
con el objeto de recibir atención médica.
5.- Relacionar el promedio general del grupo con cada una de las variables que se estudian.
Las variables presentadas en el cuadro anterior son: edad, tipo de residencia y sexo, y ellas deben
de analizarse separadamente.
a. Edad: si nos fijamos en la última columna del cuadro, vemos que la morbilidad asciende
constantemente, al ascender la edad de las personas estudiadas. En realidad el porcentaje de
enfermos mayores de 55 años es tres veces mayor al del grupo de 15-24 años (45,7 versus 14,1%)
b. Sexo: Fijándonos en las últimas cifras de la penúltima y antepenúltima columnas-las de los
hombres y mujeres en la población total-. Vemos que la morbilidad es mucho mayor en las
hembras que en los varones (24,6% y 15,8% respectivamente).
Este hallazgo deberá de ser analizado posteriormente con mayor profundidad, pues como ya
sabemos la morbilidad es mayor en las personas ancianas que en las jóvenes, si el grupo de
mujeres tuviera más ancianas que el de los hombres, esto explicará por qué la morbilidad es mayor
en ellas.
Tipo de residencia: Con el fin de comparar la morbilidad en los bloques con la de los ranchos, se
examinará las cifras al final de las columnas (4) y (7). Su examen revela que mientras que en los
bloques el 20,1% de la población estaba enferma, en los ranchos las cifras ascendieron al 22.8%
una diferencia del 2,7%. Aparentemente tal diferencia es mucho menor de la que era dado
esperar, pues ya habíamos mencionado que las viviendas de los ranchos presentan condiciones
higiénicas deplorables. Sin embargo, lo mismo que para el caso del sexo, tal diferencia amerita un
examen más detallado pues como ya hemos encontrado una relación entre la morbilidad y la
edad, tal diferencia podría explicarnos por qué la diferencia entre los bloques y los ranchos no son
mayores, pues si en los bloques hubiera habido más ancianos que en los ranchos, su morbilidad
se presentaría mucho más alta por este simple hecho. Hay desde luego procedimientos
estadísticos que permiten mejorar tal comparación (ver tasas ajustadas), pero por el momento
seguiremos nuestro análisis prescindiendo de ellos.
Antes de proseguir el análisis podemos resumir nuestros hallazgos hasta el presente, diciendo que
la morbilidad es mayor en los viejos que en los jóvenes, en las hembras que en los varones, que
en los ranchos que en los bloques.
Esto es necesario pues como hemos mencionado, puede haber alguna interacción entre ellas, que
causen las diferencias observadas.
a. Edad: Comparando las columnas de totales para la población de los Bloques y la de los
Ranchos (columnas 4 y 7) se observa que el aumento de la morbilidad con la edad aparece en
ambos lugares. Sin embargo, puede notarse, que hasta los 45 años, los porcentajes son mayores
en los Ranchos, pero después de esta edad, se hacen superiores en los Bloques.
Si examinamos ahora la influencia de la edad con respecto a los sexos, para lo cual veremos las
cifras de la penúltima y antepenúltima columnas, se constata que el aumento de la morbilidad con
la edad es constante. Pero también observaremos que dicho aumento es algo menor para los
varones que para las hembras, pues mientras en los primeros la diferencia entre el grupo de 15 -
24 años y el de mayores de 55 años es de 24,1% (36,1%-12,0%) para las segundas es de 34,1%
(49,9%-15,8%)
En conclusión, los cambios en la morbilidad relacionados con la edad, son más importantes en las
hembras que en los varones. Para cada grupo particular de edad la morbilidad es superior en las
mujeres que en los hombres, ya vivan en los bloques o en los ranchos.
b. Sexo: Comparando los totales para los dos sexos, separadamente para los bloques y para
los ranchos (columna 2 versus 3 y 5 versus 6), concluimos que la influencia del sexo es
prácticamente igual en ambos tipos de residencia (8,8 y 9,3 respectivamente), con una morbilidad
mayor en las mujeres, conclusión que viene a confirmar nuestros hallazgos anteriores.
c. Tipo de residencia: Si comparamos el total para los hombres de los Bloques con el de los
Ranchos y luego hacemos lo mismo con las mujeres (columnas 2 versus 5 y 3 versus 6),
concluimos como anteriormente, que la influencia del sexo es prácticamente semejante en los
bloques y ranchos (2,8% para los hombres y 3,3% para las mujeres).
En el cuadro presente hay dos irregularidades que ameritan una investigación mas profunda. Los
varones de 45-54 años de los ranchos presentan una morbilidad algo menor que los del grupo 35-
44 años y las mujeres del grupo 55 y más años de los ranchos, prácticamente tienen la misma
morbilidad que las del grupo 45-54 años. Tales no parecen consistentes con los restantes del
cuadro, aunque al consultar los datos originales de la encuesta nos damos cuenta que dichos
porcentajes se basan en 92 y 78 personas respectivamente y por lo tanto podemos considerarlo
como fluctuaciones debidas al tamaño relativamente pequeño de la muestra entrevistada
8. Conclusiones Finales.
b. La morbilidad es mayor en los ranchos que en los bloques y en las mujeres que en los
varones.
c. La influencia del sexo es semejante en los bloques y ranchos y por lo tanto, las diferencias
observadas en los dos tipos de vivienda, no pueden ser atribuidas a distinta composición de los
pobladores con respecto a los sexos.
d. La relación entre la edad y la morbilidad es más acentuada en las hembras que en los varones
y por lo tanto la mayor morbilidad de aquellas pudiera ser debida a una composición estaría
diferente. Sin embargo, este factor puede ser descartado, pues como vimos en el punto 6 las
diferencias entre hombres y mujeres se mantienen para cada edad en particular.
e. La relación entre la edad y la morbilidad es más acentuada en ranchos hasta los 45 años, pero
sucede a la inversa a partir de esta época. Aparentemente la mayor morbilidad de los ranchos
puede deberse en parte a una composición estaría diferente, y para despejar esta duda abría
necesidad de recurrir a las llamadas tasas ajustadas (ver Estadísticas de Mortalidad)
Los gráficos dan una idea mucho más sintética que los cuadros estadísticos. Unas veces su
finalidad es simplemente tratar de mostrar a otras personas la evolución de determinado
fenómeno, pues mientras que la interpretación de un cuadro estadístico requiere ciertos
conocimientos, cualquiera puede comprender fácilmente que una línea ascendente traduce un
aumento del fenómeno estudiado y que una línea descendente significa una disminución. Otras
veces la finalidad del gráfico es ayudar al análisis de la información, poniendo de presente o
aclarando ciertas relaciones poco aparentes en el material tabulado.
a. El título
b. El gráfico propiamente dicho.
c. Las notas explicativas.
Sobre el título y las notas explicativas no es necesario insistir, pues todo lo que se dijo a propósito
de los Cuadros, es valedero para los gráficos.
Dejando a un lado contadas excepciones que se señalarán a su debido tiempo, la mayoría de los
gráficos presenta forma rectangular y se inscriben en las llamadas “coordenadas rectangulares”,
que son aquellas formadas por la intercepción de dos líneas en ángulo recto.
De estas dos líneas la horizontal o “abscisa” se destinará para las diferentes clases de la escala
que se utiliza y la vertical u “ordenada”, para anotar la frecuencia o número de veces que se
observa el fenómeno estudiado.
a. Las dos escalas deben ser de la misma longitud o algo mayor la horizontal que la vertical. En
general, salvo ocasiones se señalarán oportunamente, las dos escalas deben guardar una
proporción entre 1 a 1 y 1 a 2, es decir, que si la ordenada mide 10 cm. la abscisa debe medir
entre 10 y 20. Esta exigencia se hace con el fin de no distorsionar el fenómeno que se estudia.
b. Nótese en los tres primeros diagramas del gráfico 97 - los cuales representan el mismo
fenómeno - , que cuando se exagera la escala vertical (diagrama A), se tiene la impresión de
un descenso irreal y cuando se exagera la escala horizontal (diagrama B) parece que el
fenómeno estudiado no ha variado. Una impresión correcta se obtiene en cambio, cuando se
observa el diagrama C, en el cual hay un buen equilibrio en la longitud de las dos escalas.
c. De igual manera, para evitar la incorrecta apreciación de los hechos, las escalas deben
comenzar en 0 (cero), pero sin embargo cuando los valores que se representan son muy
elevados y con pequeñas fluctuaciones debe “partirse” el gráfico (diagrama E), para evitar
diagramas como el D, poco vistoso y sin mayor utilidad, pues es difícil formarse juicio sobre
las variaciones que se quieren representar. Ya veremos que en algunos diagramas tal
partición de la escala no es aconsejable.
d. Cada escala debe ser rotulada de tal manera que se comprenda fácilmente que representa:
edad en años o en meses, kilos o libras de peso, etc.
e. Como el gráfico de ninguna manera da una idea matemáticamente exacta de las fluctuaciones
estudiadas – para ello están los cuadros con los datos originales-, las escalas no deben tener
demasiadas subdivisiones. Aquellas que se utilicen deben ser por lo general, números
redondos.
Gráfico 97
Ilustración de los errores más comunes en la elaboración de los gráficos
Principales gráficos
- SIMPLES
- DOBLES
GRAFICOS A - COMPUESTAS
CUALITATIVAS
UTILIZAR
* DIAGRAMA DE SECTORES
* PICTOGRAMAS
TIPO DE
DISCONTINUAS
VARIABLES
O DISCRETAS
CUANTITAITVAS
* HISTOGRAMA
* POLIGONO DE FRECUENCIAS
* DIAGRAMA DE FRECUENCIAS
GRAFICOS A ACUMULADAS (OJIVA)
CONTINUAS
UTILIZAR
* DIAGRAMAS DE PUNTOS (XY o DE
DISPERSION)
* DIAGRAMA SEMILOGARITMICO
* DIAGRAMA DE CAJAS.
De acuerdo a lo señalado, pueden por consiguiente distribuirse dos clases de gráficos: aquellos
destinados a mostrar las variaciones de determinado fenómeno y aquellos utilizados con fines
analíticos, los primeros aunque muy demostrativos no son siempre los de mayor utilidad para el
investigador.
Dada la extraordinaria diversidad de gráficos existentes (2) solo nos referiremos a los más
generalmente utilizados. Estudiaremos sucesivamente:
Es aquel en el cual el fenómeno que se estudia queda representado por una serie de rectángulos o
barras, las cuales pueden dibujarse horizontal o verticalmente. Las barras deben ser de la misma
anchura y el espacio que los separa no debe ser mayor que el espesor de ellas mismas.
Si los datos representados no están en alguna secuencia que debe conservarse, deben ordenarse
de tal manera que las barras queden de mayor a menor, con lo cual se mejora la estética del
gráfico y se captan mejor las variaciones que se estudian.
Si se quieren representar por ejemplo, las variaciones mensuales de un fenómeno durante
determinado año, los meses deben colocarse ordenadamente de enero a diciembre cualesquiera
que sean las cifras correspondientes, pues sería ilógico que por razones estéticas se empezara por
marzo, seguido de noviembre, julio, etc. En cambio en el gráfico 101 las barras han sido
correctamente ordenadas de mayor a menor, pues es indiferente que un tipo de vacunación se
mencione de primero o de último.
(Note que en el diagrama de barras los rectángulos están separados y en el Histograma van unidos)
(Note la escala vertical en el diagrama lineal, dos números consecutivos siempre están a igual
distancia, pero no así en el semilogarítmico)
Debe interrumpirse, pues de lo contrario la visualización del fenómeno será errada. Observe dicho
error en el gráfico adjunto en el cual se representa dos enfermedades de la cual se conocieron 450
casos respectivamente.
Gráfico 100
Gráfico 101
Personas inoculadas
BCG
Antifica
Antipolio
Triple
Doble
Antivariólica
13.2.1.2. Diagrama de barras dobles. Esta diagrama, (gráfico cuya idea puede hacerse extensiva
para barras triples y cuádruples que se emplea para representar datos de asociación cuyas dos
barras sean cualitativas (defunciones por sexo y causa, etc.). También se emplea cuando se quiere
comparar dos distribuciones de referencias con relación al tiempo.
Gráfico 101 a.
Distribución por tipo de instrucción y sexo.
En el gráfico 102 se desea enfatizar la proporción en que intervienen las diferentes causas en la
mortalidad de cada sexo.
Gráfico 102
Este diagrama, el cual es uno de los más frecuentes empleados se utiliza con fines comparativos,
cuando se quiere mostrar los diversos componentes de una serie y con tal propósito a menudo se
emplea el lugar de diagrama de barras sencillas, a pesar de que no tiene ninguna ventaja sobre el.
En el pueden representarse cifras absolutas o porcentajes. Como círculo tiene 360º, la manera
más fácil de elaborarlo es expresar los datos que se estudian en forma de porcentajes, pues en tal
caso, el 1% corresponde al 3,6º del círculo.
13.2.2.1. Elaboración. En el cuadro 104 se presenta las muertes por diversos tipos de leucemias y
aleucemias ocurridas en Venezuela. Como para representar cada 1% se necesitan 3,6º del círculo,
los porcentajes se multiplicaran por 3,6 con el fin de averiguar cuántos corresponde a cada uno de
los sectores, por ejemplo, el sector que representa la leucemia tendrá (15,2% x 3,6% = 55º) y el
que representa la leucemia linfática tendrá 49º (13,6% x 3,6%= 49º)
Cuadro 104
Hechos los cálculos anteriores se inscribirán con un transporte sobre los correspondientes sectores
sombreándolos diferentemente para distinguirlos entre sí. Para indicar que representa cada sector,
puede usarse cualquiera de los procedimientos ilustrados en el gráfico 105.
13.2.3. Histograma.
En el histograma el fenómeno que se estudia queda representado por una serie de rectángulos
semejantes a los diagramas de barras. Sin embargo, las barras del histograma siempre se colocan
verticalmente y deben ir unas al lado de las otras, sin que haya ningún espacio que las separe.
Este gráfico se utiliza para representar distribuciones de frecuencia en escala cuantitativa continua,
como ser la distribución de un grupo de individuos de acuerdo a su edad, peso, estatura, etc.
13.2.3.1. Elaboración. Para elaborar el histograma véase gráfico 109. Deben seguirse los pasos
que a continuación se detallan, los cuales se encuentran esquematizados en el cuadro 107.
1. Antes de trazar el sistema de coordenadas, los datos originales deben ser transformados en tal
forma, que para cada clase se obtengan el número de casos promedio por unidad de la escala
para ello se buscara primero la amplitud de cada clase y se dividirá la frecuencia
correspondiente por dicha amplitud. Observen el ejemplo que la primera clase tiene amplitud
de 5 y como esa clase había 501 defunciones, al dividir 501 por 5, nos dará en promedio hubo
100 defunciones por cada año (omitiendo la fracción decimal).
Igualmente para el grupo (5-14 años), la amplitud de la clase en 10 y dividiendo por 10 las 453
defunciones observadas, se obtendrán que en promedio se presentaron 45 por cada año de la
vida.
Cuadro 107
Para entender la razón por la cual deben obtenerse estos promedios piénsese en una enfermedad
que afectará por igual a todas las personas, sin distingos de edades y que en determinada
colectividad hubiera producido 10 enfermos en cada uno de los años de la vida.
Si los pacientes se agruparan por edades, lógicamente aquellos grupos que comprendan más años
de edad mostraran más pacientes, dando la impresión de que la enfermedad tiene preferencia por
esas edades, cuando en realidad se ha visto que tal preferencia no existe. Por lo demás, sino se
obtuvieran los promedio, bastaría cambiar los grupos de edad para hacer variar la aparente
preferencia de la edad.
Observe la mencionada falacia, cuando los mismos 300 casos presentan, utilizando agrupaciones
diferentes.
Cuadro 108
3. Enumerar las escalas. La ordenada debe comenzar en cero (O), pero como las frecuencias
que se utilizaran para la elaboración del histograma, son los promedios acabados de obtener,
el límite máximo de dicha ordenada estará dado por el máximo promedio obtenido. Observe en
nuestro ejemplo, que aunque se observaron 931 muertes en el grupo 25-44 años, la ordenada
solo se numera hasta 100 ó 120, ya que el máximo promedio obtenido fue 100.
4. La inscripción de los rectángulos debe hacerse teniendo en cuenta que la altura de cada uno
es dada por la frecuencia que aparece en los datos originales, sino por los promedios
obtenidos en el paso número uno. En nuestro ejemplo el histograma hecho con los datos
originales no es correcto, como puede verse en el gráfico 109.
Gráfico 109
5. Un último detalle que se debe tener en cuenta es el siguiente: como la frecuencia en cada
clase se ha dividido por la amplitud de clase para obtener el numero promedio de muertes por
año de edad, en la escala vertical no debe ponerse simplemente “Defunciones”, sino que es
necesario especificar las defunciones por año tal como hemos hecho en el grafico
correspondiente
13.2.3.2 Caso especial de histograma. Según se recordara la relación entre varios números no se
altera si se dividen por la misma cifra. Así por ejemplo, si en la progresión: 40 :20: 10:, cuya razón
2, se divide cada termino por 10, se obtiene la nueva progresión 4: 2:1, en el cual la razón sigue
siendo 2, ósea, en ambas progresiones cada número es la mitad del que le precede.
40 . ___ .___ . ___ . ___. . ___ . ___ . ___ . ___ . 4
20 . ___ . ___ . . ___ . ___ . 2
10 .___ . . ___ . 1
Este recordatorio permite comprender que cuando las clases de una serie tiene la misma amplitud
(digamos 10), los rectángulos del histograma que representa dichas cifras guardara la misma
proporcionalidad, sea que se escriban los datos originales, o los promedios que resulten de dividir
la frecuencia de cada clase por su amplitud.
Por consiguiente en aquellas ocasiones en que todas las clases de una serie tiene la misma
amplitud, el histograma puede hacerse inscribiendo directamente las frecuencias dadas sin
necesidad de obtener los promedios de casos por unidad de las escala pues exceptuando la
graduación de la ordenada, los gráficos serán iguales obténgase o no los promedios mencionados
En el ejemplo siguiente nótese que los histogramas elaborados con los datos originales de la
segunda columna del cuadro 108 y con los promedios de las clases son exactamente iguales, pero
que la numeración de la ordenada es diferente, pues en el último caso la escala es de 1/10 de la
primera, pues como en cada grupo decenal se obtienen el promedio por año de edad, se han
representado “defunciones por año de edad “
Grafico 110
nº de muertes
800
600
400
200
0
0 10 20 30 40 50 60 70 80 90
años de edad
Todos los detalles mencionados a propósito del histograma son aplicables a la construcción del
polígono de frecuencias y por lo tanto lo mismo que en aquel, es necesario obtener el número
promedio de observaciones por año de edad cuando las clases son desiguales en amplitud.
La diferencia entre estos dos diagramas estriba en que el polígono de frecuencia no se usa
rectángulos, sino una serie de puntos que se colocan a la altura que ocuparían los rectángulos del
histograma y en la parte media de cada clase. Luego para dar la idea de continuidad dichos
puntos se reúnen para un trazo continuo.
Por regla general el histograma debe preferirse al polígono de frecuencias. Este debe destinarse a
aquellos casos a los que se debe destinar más de una serie en el mismo gráfico, con fines
comparativos. Si por ejemplo se quisiese comparar la distribución etaria de las defunciones por
accidentes para los dos sexos no se lograrían ninguna claridad con la superposición de dos
histogramas uno para cada sexo. La representación se hará correctamente en un polígono de
frecuencias, inscribiendo sucesivamente los datos para hombres y mujeres.
Gráfico 112
Y, utilizando un trazado diferente para cada serie de datos cuyo significado se aclarara al lado
De el gráfico (gráfico 103) (datos que ilustran la elaboración de un polígono de frecuencias)
900
800
700
600
500
Hombres
400
Mujeres
300
200
100
0
0-4 5 > 14 15-24 25-44 45-64 65-84
Gráfico 114
AÑOS AÑOS
Si ven los esquemas adjuntos se observará que las subdivisiones del tiempo (años, meses, días,
etc.) pueden colocarse entre dos ordenadas opuestas inmediatamente debajo de ellas
En el primer caso el año comienza en una ordenada y termina en la siguiente, es decir, que para
su representación se dispone de todo el espacio comprendido entre dos ordenadas. En tales
ocasiones, la inscripción del punto que representa determinada frecuencia, se hará generalmente
en la mitad de dicho espacio, salvo el caso de que se quiera descartar que la cifra corresponda al
total para un periodo especifico. Si por el contrario, los años se han puesto debajo de las
ordenadas los puntos correspondientes se inscribirán sobre ellas.
Antes de indicar la elaboración del diagrama obsérvese los datos presentados en el siguiente
cuadro. Las dos primeras columnas del cuadro muestran las muertes accidentales en el país en
1961 por grupos decenales de edad. Sumando sucesivamente las defunciones ocurridas, en los
diversos decenios se obtienen las cifras de la columna (3) que indican el número de defunciones
ocurridas a determinada edad. Así por ejemplo, hubo 748 en el grupo “0-9 años” y por lo tanto,
todas ellas fueron en menores de 10 años.
Como luego aparecen 457 en el grupo de “10 a 19años” al sumar esta cifra a la anterior 748 + 457
= 1205), se tiene 1205 defunciones ocurrieron en personas menores de 20 años. Igualmente hubo
1847 en menores de 30 años, ósea, las 748 menores de 10 años + las 457 del grupo de 10- 19, y
las 642 que el grupo de 20 a 29. Si se desea puede dividirse estas frecuencias acumuladas por la
frecuencia general del grupo, y multiplicar * 100 para obtener los porcentajes acumulados que
aparecen en la columna.
Cuadro 115
Defunciones por accidentes. Frecuencias acumuladas por grupos de edad. Venezuela, 1961.
Frecuencias acumuladas
Edad en años Número de defunciones
Número Porcentajes
1 2 3 4
0- 9 748 748 23.3
10 > 19 457 1203 37.6
20-29 642 1817 57.6
30-39 466 2313 72.1
40-49 340 2653 82.7
50-59 244 2891 90.2
60-69 156 3050 95.1
70-79 76 3126 97.5
80-89 81 3207 100
Total 3207
Grafico 116
Defunciones por accidentes, frecuencias acumuladas por grupos de edad, Venezuela, 1961.
3500
3000
2500
2000
1500
1000
500
0
1 0- 9 10 > 19 20-29 30-39 40-49 50-59 60-69 70-79 80-89
Fuente: Datos del cuadro 115.
13.2.5.1 Elaboración. La elaboración del diagrama de frecuencias acumuladas se resume en los
siguientes pasos:
3. La ordenada debe comenzar en cero y llegar hasta la cifra que corresponda al total del grupo.
4. Generalmente es preferible utilizar una doble escala como se ha hecho en el grafico 116 en el
cual la escala vertical derecha muestra los porcentajes acumuladas (0% - 100%) y la izquierda
el número de defunciones acumulada.
5. Inscribir las frecuencias acumuladas. Cada frecuencia queda representada por un punto, el
cual debe colocarse al final del espacio destinado a la respectiva clase, para indicar el número
de casos que hubo por debajo de dicho valor. Así por ejemplo, como aparecen 748
defunciones en el grupo “0-9 años” el punto debe ir encima del valor de la abscisa
correspondiente a 10 años, significando que 748 defunciones ocurrieron en menores de 10
años. Igualmente, como hubo 1205 en menores de 20 años, el punto estará colocando encima
del valor “ 20 años” de la abscisa
6. Unir los puntos inscritos, con una línea continua, para facilitar la lectura del gráfico.
b. Por ejemplo, para averiguar las muertes ocurridas en menores de 35 años, se levanta una
vertical a esta edad hasta la curva del diagrama y se proyecta en la escala vertical
izquierda, lo cual nos indica que por debajo de esa ocurrieron aproximadamente 2100
defunciones.
c. De las defunciones totales. ¿que porcentaje ocurrió por debajo de determinada edad?
d. Para el ejemplo anterior, se levanta una vertical hasta la curva y se proyecta en la escala de
los porcentajes obteniéndose que aproximadamente el 65% de las defunciones fueron en
menores de 35 años.
f. Por ejemplo, si se desea saber antes de que edad ocurrió el 50% de las muertes, se traza
una horizontal desde esta cifra hasta la curva del diagrama y bajando luego una vertical
hasta la abscisa, vemos que el 50% ocurre antes de los 26 años (Q) . En la misma forma
podemos ver que el 25% de las defunciones ocurre antes de los 11 años (Q1) y el 75%
antes de los 43 años (Q3). Desde luego, son valores aproximados y más adelante se
estudiarán métodos matemáticos más exactos.
Es aquel cuya escala vertical tiene una escala logarítmica, mientras que la horizontal presenta una
graduación aritmética como la utilizada en todos los gráficos vistos anteriormente.
Con fines recordatorios, puede decirse que un logaritmo no es otra cosa que el número que indica
cuantos ceros siguen a la unidad. Así por ejemplo, 100 tiene dos ceros y por siguiente su
logaritmo es 2, el número 1000 tiene tres ceros y su logaritmo es 3. Siendo 2 el logaritmo de 100
y 3 el logaritmo de 1000, cualquier número comprendido entre los anteriores, digamos 300, tendrá
un logaritmo entre 2 y 3, es decir, que su logaritmo será 2 más alguna fracción.
De lo anterior se deriva que los logaritmos 2, 3, 4, etc., representan números que están en
progresión geométrica: 100, 1000, 10000, etc. Por consiguiente cuando se utiliza la escala
logarítmica, aquellos números que representan una misma proporción, como ser: 1 y 2 o 3 y 6 ò
100 y 200 etc., quedaran en el gráfico separadas por una misma distancia, lo cual no sucede en la
escala aritmética corriente. Esto puede apreciarse en el esquema de la próxima página.
La escala consta de uno o varios ciclos exactamente iguales, de tal manera que si el primero
representa los números del 1 al 10, el segundo representara los números del 10 al 100 y así
sucesivamente. Note por consiguiente que la escala logarítmica, nunca empieza en cero. Su
comienzo puede ser 0,1; 1 ò 10 ò 100 de acuerdo a los datos que se representan.
13.2.6.1. Utilización del diagrama semilogarítmico. El papel semilogarítmico tiene, entre otros,
los siguientes usos:
a. Si se quieren representar en el mismo gráfico dos series cuyas cantidades son muy diferentes
unas de otras, como ser las variaciones en él número de glóbulos rojos y de glóbulos blancos, o los
casos y muertes de ciertas enfermedades, la escala aritmética no lo permitirá, como lo demuestra
el siguiente ejemplo:
GRAFICO 120
PROCEDIMIENTOS PARA OBTENER CICLOS LOGARÍTMICOS MÁS PEQUEÑOS (A) O MÁS
GRANDES (B)
CUADRO 121
1956 2.824 79
1957 1.420 76
1958 938 43
1959 4.476 118
1960 6.764 101
Al utilizar una escala aritmética para representar estos datos se caería en una de las dos
alternativas siguientes:
DIAGRAMA SEMILOGARITMICO
Frecuencias
7.000
5.000
CASOS
2.000
1.000
500
200
100 DEFUNCIONES
50
20
10
Gráfico 122 B
7.000
6.000
5.000
4.000
3.000
CASOS
2.000
1.000
DEFUNCIONES
La representación correcta de los datos anteriores puede hacerse fácilmente utilizando el papel
semilogarítmico. En el grafico 122 A la vez que se apreciaran las variaciones en él número de
casos, se apreciaran también las ocurridas en las defunciones.
3. Muchas veces se tiene interés en comparar, no los cambios absolutos que presentan 2 o
más series, sino los cambios relativos y en tales ocasiones, el papel Semilogarítmico es el
adecuado. Considere por ejemplo, los siguientes datos:
CUADRO 123
MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS
VENEZUELA, 1953 – 1957
Tasas por 100.000 habitantes
Note que de 1953 a 1957, la Bilharziosis descendió en más del 60% y la Tuberculosis solamente
en un 50%. Esto se aprecia correctamente en el diagrama Semilogarítmico pero en diagrama de
escala aritmética aparece que la Tuberculosis hubiera descendido mucho más que la Bilharziosis
GRÁFICO 124
SEMILOGARITMICO ARITMÉTICO
3.0 90
Tuberculosis
Tuberculosis
2.0 60
30
1.0 Bilharziosis
Bilharziosis
0.1 0
1953 1954 1955 1956 1957 1953 1954 1955 1956 1956
AÑOS AÑOS
Este gráfico se utiliza para aquellos casos en los cuales a cada individuo que se estudia se le
toman dos medidas diferentes, es decir, cuando cada individuo se clasifica al mismo tiempo en
relación a 2 escalas cuantitativas como ser peso y estatura, edad y peso, etc.
En el gráfico cada individuo queda representado por un punto según la forma como estos puntos
se agrupen, se podrá juzgar sobre el grado de asociación entre las dos variables, lo cual se
estudiará en detalle posteriormente.
1. Trazar el sistema de coordenadas. En este gráfico las dos escalas deben ocupar la misma
longitud, es decir, si la ordenada mide 15cms; la abscisa también debe medir 15cms.
2. Numerar las escalas. No es necesario como en otros gráficos, que las escalas comiencen en 0.
La numeración puede comenzar con el valor menor observado en los datos o con el número
redondo inmediatamente inferior y terminará con el máximo valor observado o con el número
redondo inmediatamente superior.
3. Como cada individuo va a ser representado por un punto, éste se colocará en la intercepción de
2 líneas imaginarias que pasen por los correspondientes valores.
Ejemplo: Con el fin de constatar si realmente los estudiantes que obtienen las mejores
calificaciones en sus ejercicios son quienes presentan los mejores exámenes finales, un
grupo de 20 estudiantes de estadística ha sido clasificado de acuerdo a las notas previas
obtenidas en los ejercicios y a los resultados del examen final.
El gráfico 126 representa los mencionados datos. Observe que en el diagrama se ha destacado el
o
valor correspondiente al individuo N 7, para mostrar cómo deben colocarse los puntos. Dicho
valor corresponde a un estudiante que tenía una nota previa de 11 puntos y obtuvo 10 en el
examen final.
25
20
15
NOTA PREVIA
10 NOTA FINAL
0
0 5 10 15 20 25
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o verticalmente.
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el
recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se
posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que
el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que
tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la
caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato
o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de
un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31 4 29 23 41 40 33 24 34 40
3. 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
4. Cálculo de cuartiles
5. Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
7. Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15.
Q2=(39 + 39) / 2 = 39
La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades
comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más
jóvenes están más concentrados que el 25% de los mayores.
EL ANÁLISIS DE LA INFORMACIÓN:
LOS ESTUDIOS DESCRIPTIVOS
FACTORES QUE DETERMINAN EL METODO DE ANÁLISIS
14.1. Generalidades:
El análisis de todo estudio, debe comenzar con una evaluación global de la información disponible
y de la manera como fue recogida.
Conviene examinar si los planes se cumplieron a cabalidad y si los datos se recogieron en la forma
prevista y sólo una vez que se está seguro de la fidelidad de la información, podrá iniciarse el
análisis estadístico propiamente dicho.
Las técnicas de análisis estadístico son muy numerosas, y la escogencia depende, entre otros
factores de:
- Descriptivos, y
- Comparativos.
En los estudios descriptivos interesa sobre todo, resumir adecuadamente la información y al mismo
tiempo destacar las características importantes del grupo que se estudia. En los estudios
comparativos interesa primordialmente averiguar si hay o no diferencias entre los dos o más
grupos que se estudian y si dichas diferencias existen, hallar razones valederas que puedan
explicarlas.
Es de advertir que esta tajante diferenciación entre estudio; descriptivos y comparativos, es más
bien aparente. En primer lugar, todo estudio comparativo debe comenzar con una descripción de
los hallazgos encontrados, pues solamente después que estos han sido resumidos
convenientemente, podrá hacerse con provecho las comparaciones deseadas. En segundo lugar,
no debe olvidarse que en muchos estudios descriptivos la finalidad última es hacer ciertas
generalizaciones a partir de los resultados observados, pues aunque por razones prácticas el
investigador solo estudia una muestra de la población en que está interesado, su deseo es llegar al
conocimiento de dicha población a través de los resultados de la muestra. Tal proceso de
inducción exige técnicas, distintas a las utilizadas en la simple descripción de los datos, las cuales
tienen mucho en común, con aquellas que se emplean en los estudios comparativos.
A pesar de las salvedades anteriores, con propósitos docentes se estudiarán separadamente las
técnicas estadísticas que se emplean los estudios descriptivos y aquellas que se utilizan en las
comparaciones de grupo, pues el perfecto conocimiento de las primeras, es imprescindible para
poder estudiar las segundas.
Cuando por el contrario, el estudio incluye una cantidad apreciable de individuos, ningún análisis
podrá hacerse si no se clasifican previamente en un determinado número de grupos o clases, tal
como señalamos en el capítulo noveno. Tales datos así presentados reciben el nombre de series
agrupadas.
Las técnicas estadísticas de análisis serán distintas según se traten de series agrupadas o de
series no agrupadas, siendo un poco más laboriosas las primeras
Las distribuciones de frecuencia en escala cualitativa se resumen por frecuencias relativas (tasas,
porcentajes, etc.) Si la escala es cuantitativa, pueden resumirse en la misma forma, pero
generalmente se resumen mediante las llamadas tendencias centrales (promedio, mediana, modo)
y medidas de dispersión (desviación, desvíos, percentiles, etc.)
Si las dos escalas son cualitativas, se resumirán en frecuencias negativas. Si una es cualitativa y la
otra cuantitativa, podrá escogerse, de acuerdo con la finalidad del estudio, cualquiera de las
medidas hasta ahora mencionadas y si ambas escalas son cuantitativas se emplearan el
Coeficiente de Correlación o el Coeficiente de Regresión.
DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUALITATIVA
Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la
primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el
número de individuos observados. Generalmente el cuadro se acompaña de una primera columna,
en la cual se ponen los porcentajes respectivos.
(Ver cuadro 84)
El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general
de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices,
porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo.
Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia
que comprender su utilización y aplicaciones.
La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más
fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comprobación de diversos resultados.
El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor
para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada
localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben
proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario
relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio
en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella
deben haber más o menos 5 veces más defunciones.
Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:
Hombres 297
Mujeres 99
Total 396
15.3.2. Porcentajes.
Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes,
basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el
resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 =
75%) y el 25% mujeres: (99/396) x 100 = 25%.
El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente
2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a
100.
El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los
dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de
su cálculo.
15.3.3. Tasas
En toda la población es importante conocer su composición y los cambios que acontecen en ella.
Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten
analizar completamente la información disponible. Supóngase que en la población de San Pedro
los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:
Cuadro 133
Accidentes automovilísticos según sexo de los conductores.
San Pedro, 1961
Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres
tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean
más cuidadosas al manejar.
Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de
que acontezca determinado fenómeno debe relacionarse con la población en la cual puede
acontecer. Tales relaciones reciben el nombre general de tasas.
Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió
determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente
dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el
fenómeno descrito en el numerador:
Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será
menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000,
10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en
1960 fue de 9 por 1000 que recordar que es 0.009.
Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera.
Entre ellas, tienen importancia en Medicina:
Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de
sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas
veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas
en particular.
Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas
crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se
denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas
por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica
como se quiera, desde que se disponga de los datos básicos necesarios.
Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo,
para que el denominador sea correcto.
Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y
de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de
habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población
especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues
se considera, que dicha población es intermedia entre la de principios y final de año.
15.3.3.1. Principales Tasas.
Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el
cálculo de las más comúnmente empleadas:
55.466 x 1.000
= 7.3 por 1.000 habitantes
7.600.000
340.433 x 1.000
= 44,7 por 1.000 habitantes
7.600.000
Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en 3.400.000
habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas
menores de 15 años. La tasa de mortalidad en menores de 15 años fue:
26.303 x 1.000
= 7,7 por 1.000
3.400.000
140 x 100.000
= 4,1 por 100.000
3.400.000
8.242 x 100.000
= 108,4 por 100.000
7.600.000
26 × 100 = 3.0%
861
Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no
puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos
se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna.
La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han
cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de
niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos
censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos
ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad
infantil se calcula mediante la fórmula siguiente:
Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de
1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de
mortalidad infantil fue:
Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año.
b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable
directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas
parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos,
quedando la tasa:
Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo,
parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad
materna fue:
DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUANTITATIVA
16.1. Presentación tabular.
Los cuadros que sirven para representar estos datos son en lo semejantes a los utilizados en otras
distribuciones de frecuencias (cuadro 83).
16.3. Análisis.
Lo mismo que las series anteriores, las distribuciones de frecuencias en escala cuantitativa pueden
analizarse mediante porcentajes, pero generalmente el análisis se efectúa mediante las llamadas
constantes centrales y de dispersión. Las primeras (promedio aritmético, mediana y modo) señalan
aquellas cifras alrededor de las cuales está la mayoría de las observaciones y las segundas
(desviación estándar, percentiles, etc.)
Señalan la manera como se distribuyen las observaciones con respecto a los anteriores valores
centrales.
El que se prefiera analizar una serie mediante porcentajes o mediante medidas centrales y de
dispersión depende de la finalidad que se persigue en el estudio. La información dada por unos y
otras es diferente y en ocasiones suelen utilizarse al mismo tiempo los dos tipos de medida.
Cuadro 141
Escolares de acuerdo a su peso
En muchas ocasiones como esta, el promedio puede ocultar diferencias importantes entre los
individuos que se estudian, mientras que el simple análisis de los porcentajes puede ser mucho
más ilustrativo. Supongamos por ejemplo, que el peso promedio normal para niños de la edad
estudiada hubiera sido fijado en 35 kilos.
El promedio para este grupo de 50 escolares, calculado por el método que luego se estudiará es
exactamente 37 kilos, el cual nos lleva simplemente a formarnos la impresión de que el grupo
estudiado, presenta un estado nutritivo normal. Sin embargo, el análisis de los porcentajes nos
muestra claramente que el 8% de los niños pesa entre los 24 kilos y que el 42% pesa menos de 35
kilos, o sea, que debido a nuestro patrón de normalidad, casi la mitad de estos escolares estarían
desnutridos.
El promedio aritmético es la cifra que se obtiene al dividir la suma de todos los valores observados
por el número de observaciones y se tienen 5 niños cuyos respectivos pesos son:
7, 4, 9, 6, y 4 kilos
El promedio aritmético se obtendrá sumando las cifras anteriores y dividiendo por 5 que es el
número de niños:
� =7+4+9+6+4
𝑋 = 30 = 6 kilos
5 5
Es decir, los niños pesan en total 30 kilos, y si todos ellos pesarán igual, esto es, si no existiera
variación, el peso de cada uno sería de 6 kilos.
La mediana es aquella observación que divide la serie en 2 partes iguales, en tal forma, que la
mitad de las observaciones son iguales o menores que dicho valor y la otra mitad, iguales o
mayores que él.
Para calcular la mediana, es necesario ordenar las observaciones de menor a mayor o viceversa.
Por lo tanto, en el ejemplo anterior, la mediana no es 9, pues ordenando los datos de menor a
mayor, se obtendría:
4, 4, 6, 7, 9
4, 5, 7, 8, 9, 10
se ve que no hay en realidad ninguna observación que “ocupe la mitad”, pues el límite estaría entre
el 7 y el 8. En dichos casos, para obtener la mediana, se promediarán los 2 valores centrales, en
este caso, los correspondientes a la 3ª y 4ª observaciones, es decir:
7 ÷ 8 = 7 1/2
2
El modo, o valor de moda, es aquel que se observa con mayor frecuencia. En el primer ejemplo, en
que los pesos eran:
7, 4, 9, 6, 4 kilos
El modo es 4, pues éste es el valor que se observa con mayor frecuencia.
Obsérvese que si los valores fueran 7, 4, 8, 3, y 5, no hay en realidad ningún valor que se observe
más frecuentemente que los otros. Lo mismo sucede si los valores fueran:
2, 2, 4, 4, 6, y 6
16.6. Constantes centrales en series agrupadas.
Para calcular el promedio, se asume que cada uno de los individuos en determinada clase tiene un
valor igual al punto medio de la clase. En el ejemplo que sigue, se ve que el punto medio de la
primera clase es 22 (recuérdese sección II ), lo cual significa que cada uno de los 4 individuos de
esa clase pesa 22 kilos y por lo tanto, los 4 pesarán en conjunto 88 kilos (22 × 4). Igualmente, el
punto medio de la segunda clase es 27, o sea que cada individuo de los 8 que hay, pesa 27 kilos y
por lo tanto, los 8 pesarán en total 216 kilos (27 × 8 = 216). Bastará entonces sumar estos
productos para saber cuántos kilos pesa la totalidad de los individuos estudiados y dividir esta
suma por el número de observaciones para encontrar el punto medio.
En las 2 primeras columnas del siguiente cuadro aparecen los datos sobre el peso de 50
escolares y en las restantes, los cálculos necesarios para obtener el promedio, los cuales se
resumen a continuación.
Cuadro 144
Escolares de acuerdo a su peso
(Cálculo del Promedio)
Peso en kilos No de Individuos fi Punto medio de la clase xi Peso total de cada clase fi xi
(1) (2) (3) (4)
20-24 4 22 88
25-29 8 27 216
30-34 9 32 288
35-39 10 37 370
40-44 7 42 294
45-49 6 47 282
50-54 6 52 312
Total 50 1.850
2. Multiplicar el punto medio de cada clase por los individuos en ella (Columna 4) y sumar estos
productos.
16.6.2. Mediana
Para calcular la mediana se considera que los individuos de cada clase se encuentran
uniformemente repartidos en ella. Así por ejemplo, en la clase 35-39, cuyos verdaderos límites son
34.5 y 39.5 kilos y cuya amplitud es 5, hay 10 individuos, o sea, que existe una diferencia de peso
entre uno y otro igual a 0.5 kilos (5 /10 ÷ 0.5).
Con estas explicaciones podemos ilustrar el cálculo de la mediana tomando el mismo ejemplo
utilizado en el cálculo del promedio en series agrupadas.
Cuadro 146
Escolares de acuerdo a su peso
(Cálculo de la mediana)
1. Escribir los verdaderos límites de cada clase. Esto no es esencial, pero es conveniente para el
principiante.
4. Observación mediana n = 50 = 25
2
5. Como la mediana es la observación número 25 y como hay 21 por debajo de 34.5 kilos (véase
columna 4), se necesitan 4 observaciones más (25 – 21 = 4) de las 10 que hay en la siguiente
clase. Puesto que se considera que dichas observaciones están a igual distancia una de otra,
se tomará 4/10 de la amplitud de esta clase y se añadirá a 34.5 que es su comienzo, con el fin
de obtener la mediana:
El lector observará que como se trata de un número par de observaciones (50), el valor de la
mediana correspondería al promedio de las observaciones 25 y 26 y no a la observación número
25. Un atento examen del esquema anterior muestra que el individuo 25 tiene un peso de 36.25 y
el individuo número 26 un peso de 36.75. El semipromedio de estos valores que sería la mediana
es de 36.5 kilos. Si para facilidades de cálculo se asume que el primer individuo de esta clase (el
número 22) está en el punto 35, en vez de estar en el punto 34.7, que es su verdadera colocación,
lo estamos desplazando ½ subintervalo hacia la derecha.
Para compensar este desplazamiento, en vez de formar el valor medio entre las observaciones 25
y 26 se tomará el valor de la número 25, como se ha hecho en la fórmula anterior, con lo cual
obtenemos el verdadero valor investigado.
a
16.7. Escogencia entre el promedio, la mediana y el modo ( )
De las tres constantes anteriores, el promedio aritmético puede ser más frecuentemente utilizado,
quizás por la facilidad de su computación a pesar de que en muchas ocasiones la mediana o el
modo resultan de mayor interés.
b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian haya
alguno muy diferente de los otros. Su valor extremo afectará el promedio por ejemplo, el
tiempo de hospitalización de 5 niños con gastroenteritis fuera respectivamente:
2, 3, 4, 6 y 30 días
El último valor, debido tal vez a alguna complicación de la enfermedad, hace aparecer la
permanencia en el hospital mucho más larga de lo que generalmente es. El promedio:
2 + 3 + 4 + 6 + 30 45
= = 9 días
5 5
Es engañoso, pero en cambio la mediana, que es 4 días, tiene la ventaja de no tomar en cuenta los
valores anormales extremos, dando una impresión más acorde de lo usual. Observe que si la
última observación fuera 300 en vez de 30, el promedio ascendería a 63 días, pero la mediana
continuaría siendo 4.
(a) Además del promedio aritmético ocasionalmente se utiliza el promedio geométrico y armónico cuya
enseñanza se omite por constatarlo de escaso interés, pero cuyo cálculo se ilustra en el Apéndice.
Note que cuando dichos valores extremos no existen, el valor del promedio y de la mediana
concuerda bastante bien y se hacen exactamente iguales si la serie es simétrica. Por ejemplo, si
se tiene:
3, 5, 7, 9, 11
Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio.
Tal sucede en aquellas series en las cuales la primera o la última clase no tienen límites precisos.
Si en el ejemplo de los 50 escolares dado anteriormente, la primera clase hubiera sido “menos de
25 kilos“ o la última figurara como “50 kilos y más” se comprende que habría sido imposible
calcular el promedio, a no ser que se fijaran arbitrariamente los límites de las mencionas clases.
Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre el promedio aritmético,
pues su valor depende solamente del número de términos, sin tomar en cuenta los valores
(∂)
numéricos de estos .
Hay ocasiones en que se quiere expresar en una sola cifra, los resultados de varios grupos de
individuos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el
caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En
dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los
promedios parciales, sino que es necesario tener en cuenta el número de observadores en que se
basa cada promedio. Tal promedio recibe el nombre de Promedio Ponderado.
Supongamos un grupo de 4 mujeres y otro de 6 hombres, cuyos pesos fueron los siguientes:
50 + 60
El promedio general para estas 10 personas no es = 55kg
2
El promedio correcto se obtiene ponderando cada promedio parcial por el número de personas que
incluye. Como 50 fue el promedio para las 4 mujeres, el grupo de mujeres peso en total 200 kilos
(4x 50) e igualmente los hombres pesaron en total 3360 kilos (6x60). Por consiguiente, las 10
personas pesaron 560 kilos en conjunto (200 + 360) y el verdadero promedio será: 560 ÷ 10 = 56
kilos.
n1 x1 + n2 x 2 + n3 x 3
Promedio Ponderado =
n1 + n2 + n3
(∂)
En la Sección 32.10 se estudiará la aplicación de la Mediana en el cálculo del Índice Endémico
es decir, basta multiplicar cada promedio parcial por el número correspondiente de personas
estudiadas, sumar luego estos productos y dividir por el número total de personas en los varios
grupos.
De la misma manera se procederá para promediar los porcentajes de varios grupos de individuos.
Si los porcentajes de mujeres en 3 escuelas diferentes fueran:
50 + 70 + 40 160
= = 53,3%
3 3
El porcentaje verdadero sería:
Supongamos que se tiene tres grupos de pacientes de 7 individuos cada uno y como ejemplo
ilustrativo supóngase además que el primer grupo sufre de Gastroenteritis, el segundo de
Bronquitis y el tercero de Amigdalitis.
No obstante las similitudes señaladas, las 3 series son muy distintas, pues como puede apreciarse
en el grafico siguiente:
DIAS DE HOSPITALIZACION
ENFERMEDADES
GASTROENTERITIS
BRONQUITIS
AMIGDALITIS
Las anteriores anotaciones señalan que cuando se tienen un grupo de observaciones no basta
conocer cuál es su promedio o su mediana, sino que además, es necesario tener una medida que
indique claramente cómo se distribuyen las observaciones alrededor de ese promedio o esa
mediana.
(∂)
Con tal fin se utilizan la llamada Desviación Estándar y el Intervalo Intercuartilar. Debe tenerse
en cuenta que cuando se busca el promedio aritmético, se debe calcular la Desviación Estándar y
es el Intervalo Intercuartilar, pues este último se utiliza solamente para medir la dispersión
alrededor de la mediana. Es decir: con el promedio se utiliza la desviación estándar y con la
mediana, el intervalo intercuartilar.
Como ilustración tonemos el ejemplo de la Bronquitis, dado anteriormente, es decir, los días de
hospitalización de 7 pacientes que fueron:
1, 2, 3, 7, 11, 12, 13
Para el cálculo, se dispondrán los datos convenientes, tal como aparecen en el siguiente cuadro:
(∂)
La Desviación estándar D. E. suele representarse con la letra griega sigma minúscula ( σ ) y a veces se
coloca su valor después del signo ± que sigue al promedio ( x = 10 ± 2 indica que la D. E. = 2) Como
ambos procedimientos se utilizan también para indicar el valor del Error Estándar que estudiaremos luego,
con el fin de evitar confusiones, utilizaremos D. E. y E. E. respectivamente, al referirnos a estas constantes.
Cuadro 153
49
Promedio = = 7 días
7
Desviación Estándar =
∑d 2
=
154
= 22 = 4,7 días (∂)
n 7
3. Como la suma de la columna (3) será siempre igual a cero (0), no se podrá saber cuál es en
promedio la desviación del grupo de observaciones. Para obviar este inconveniente se eleva al
cuadrado cada desviación de la columna (4). la cual se totaliza luego.
5. Como cada desviación la habíamos elevado al cuadrado y no tiene ningún significado hablar de
días cuadrados o de kilos cuadrados, con el fin de volver a las unidades primitivas se extraerá la
raíz cuadrada al anterior valor y dicha cantidad será la desviación estándar. En este ejemplo
D. E. = 22 = 4,7 días
(∂)
cuando se calcula la Desviación Estándar d un pequeño grupo de individuos. Es más exacto
dividir por (n - 1) que por (n), pero en grupos más o menos grandes, digamos más de 30
individuos, tal refinamiento no en necesario. Aunque es evidente que en el presente ejemplo la
división debe hacerse por 6 y no por 7, los cálculos tratan de ilustrar el caso general y no el caso
particular a que hemos hecho referencia.
16.9.3 Desviación Estándar en series agrupadas
Los diferentes pasos que deben seguirse para el cálculo de la Desviación Estándar y explicaremos
en seguida, aparecen resumidos en el siguiente cuadro, cuyas primeras cuatro columnas se
utilizan para calcular el promedio, conforme ya se ha estudiado.
Cuadro 155
Desviaciones
Número de Punto Desviaciones
Producto Desviaciones por número
Peso. Kg. individuos medio de al cuadrado
X1*f1 (d) 2 de individuos
(f1) clase (X1) (d )
(f1*d)(2*6)
1 2 3 4 5 6 7
20 -24 4 22 88 -15 225 900
25 - 29 8 27 216 -10 100 800
30 - 34 9 32 288 -5 25 225
35 - 39 10 37 370 0 0 0
40 - 44 7 42 294 +5 25 175
45 - 49 6 47 282 +10 100 600
50 - 54 6 52 312 +15 225 1350
Total 50 1850 4057
1850
Promedio = = 37,0
50
4,050
Desviación Estándar = = 81 = 9.0 kilos
50
1. Calcular el promedio por la técnica conocida para lo cual se utiliza las 4 primeras columnas del
cuadro.
2. Buscar la diferencia entre el promedio, y cada uno de los puntos medios de las clases (columna 5).
Estas cifras indican en cuantos difiere cada observación del promedio general del grupo.
3. Elevar al cuadrado las anteriores diferencias (columna 6).
4. Multiplicar reglón a reglón, las cifras de las columnas (2) y (6). Esto es necesario, pues las
diferencias de la columna 6 se refiere a un solo individuo y por lo tanto, si en la primera clase hay 4
individuos y cada uno difiere 225 unidades cuadradas de su promedio, los 4 individuos diferirán en
900 unidades ( 4 x 225 ).
5. Sumar los productos de la columna (7), para saber la diferencia global entre todos los individuos y su
promedio.
6. Dividir la suma anterior por el número de individuos estudiados
7. ( en nuestro caso n = 50 ).
(∂)
8. Extraer la raíz cuadrada. Este último valor será la Desviación Estándar
(∂)
una fórmula que suele ahorrar trabajo es la siguiente:
D. E. =
∑fd 1 1
2
=
4.050
= 9 kilos
n 50
Hemos dicho que la Desviación Estándar indica en que formas se distribuye las observaciones
alrededor del valor central representado por el promedio.
Su utilidad se debe a que ella, junto con el promedio, ayuda a determinar los limites dentro de los
cuales se encuentran las observaciones que se estudian, en tal forma, que basta conocer el
promedio y la D. E. para reproducir toda la información contenida en los datos originales, salvo,
desde luego, pequeñas variaciones. Esta interpretación se basa en las propiedades de la Curva
Normal.
La curva normal es una curva en forma de campana, perfectamente simétrica, de tal manera, que
una perpendicular que pase por el vértice la divide en 2 mitades exactamente iguales. Dicha
perpendicular representa el promedio aritmético (véase gráfico 158).
Puede observarse que en cada mitad, la curva es primero cóncava hacia arriba, y luego cóncava
hacia abajo, habiéndose dado el nombre de “punto de inflexión” a aquel en el cual la curva cambia
de dirección.
Hay por consiguiente, 2 puntos de inflexión, uno izquierdo y otro derecho. La distancia que separa
a cada punto de inflexión de la línea central que representa el promedio, constituye una desviación
estándar, aunque teóricamente, la curva nunca toca la horizontal para propósitos prácticos, puede
considerarse que la totalidad de al área se encuentra comprendida entre 2 líneas verticales
situadas a 3 D. E. a cada lado del promedio.
Los matemáticos han demostrado que aproximadamente un 68% del área de todo el área de la
curva se encuentra comprendida entre las 2 verticales que pasan por los puntos de inflexión, lo
cual equivale a decir que el 68% del área se encuentra entre el promedio más una desviación
estándar y el promedio menos una desviación estándar.
Igualmente se ha visto que entre el promedio más menos 2, D. E. se encuentra aproximadamente
el 95% del área de la curva y que prácticamente el 100% del área se encuentra entre el promedio
(∂)
más menos 3 D. E.
D. E. =
∑fx 2
1 1
−x
2
n
O sea: multiplicar cada una de las cifras de la columna (4) por el respectivo punto medio de la clase; sumar estos productos
y dividir por el número de observaciones. Restar al resultado anterior el cuadrado del promedio y extraer la raíz cuadrada.
(esta fórmula fue utilizada para e cálculo de la D. E. que aparea al final dela Pág. 199). Un método más abreviado se ilustra
en el apéndice.
(∂)
Exactamente un 95% del área de la curva se encuentra entre el x ± 1,96 D. E. y un 99% entre x ± 2,58 D. E.
Para fácil memorización dichas cifras se forman habitualmente como 2 y 2.8 D. E. Igual aproximación se utiliza en las
diversas aplicaciones del error estándar que se verán posteriormente.
GRAFICO 158
Curva Normal que muestra los porcentajes de su área total comprendidos entre diversos
múltiplos de la desviación estándar.
Y se quiere decir que las propiedades de la curva normal pueden servirse a cualquier
característica que tengan una distribución normal y así por ejemplo, si la edad promedio de los
individuos es 30 años y la D. E. = 3 años, entonces:
A través de los anteriores ejemplos puede verse como el promedio y la D. E. basta para resumir un
estudio. Debe advertirse sin embargo, que:
a. Cuando la serie es muy pequeña como en el ejemplo de la página 155, las anteriores
propiedades de la D. E. son difíciles de comprobar, y
b. Para que la interpretación sea correcta se requiere que la característica estudiada semeje una
curva normal, si tal similitud no existe, es preferible recurrir a la mediana y a los percentiles
para resumir la serie y conformarse con analizar esta mediante el uso de porcentajes.
Antes de enseñar a calcular el intervalo intercuartilar debe definirse que se entiende por percentiles
y cuartiles.
El término percentil deriva de “por ciento”, y por lo tanto una serie de observaciones no puede tener
más de 100 percentiles. Cada percentil indica el porcentaje de observaciones que en cada serie
está por debajo de él. El 10º percentil es el valor por debajo del cual el 10% de las observaciones y
el 25º percentil es el valor por debajo del cual se encuentra el 25% de las observaciones.
Según esto, la mediana es simplemente el 50º percentil, ya que debajo de ella se encuentra el 50%
de las observaciones, según lo estudiado anteriormente.
Al 25º percentil suele dársele el nombre de “primer cuartil”, por debajo de este valor se encuentra el
25% de las observaciones, es decir la cuarta parte de estas. De la misma manera, al 75º percentil
se le da el nombre de “tercer cuartil”, pues por debajo de él, dan tres cuartas partes de las
observaciones.
Para calcular el primer cuadril (Q1) se procederá de manera semejante como se hizo para el
cálculo de la mediana, tomando el mismo ejemplo que sirvió para lograr el cálculo (ver el cuadro
146) se procederá en la siguiente forma:
N = 50 / 4 = 12.5
d. Como el primer cuartil está situado en la posición 12.5 y como hay 12 observaciones por
debajo de 29,5 kilos, se necesita ½ observación + (12.5 - 12 = 0.5) de las que hay en la
siguiente clase. Como se ha asumido que las observaciones están igualmente escapadas se
tomara 0.5/ 9 de la amplitud de la respectiva clase y se añadirá a su punto de comienzo, con el
fin de obtener el valor del primer cuartil.
3𝑁 𝑃3 − 𝑓𝑎 𝑎𝑛𝑡
4
= 𝑃3 𝑄3 = 𝐿𝑖𝑛𝑓 + � 𝑓
�∗𝑖
Por lo tanto como hay 31 observaciones por debajo de 39.5 kilos se necesitan 6.5 observaciones
más de las siete que hay en la próxima clase, o sea que debemos tomar 6.5 / 7 de la amplitud de
la clase y añadirlo a su comienzo para averiguar el valor del tercer cuartil:
A pesar de que la mediana es 10 para ambos grupos, se observa que en el primero el 50% de los
pacientes tienen valores muy próximos a ella y en cambio, en el segundo grupo, la dispersión es
muchísimo mayor.
Sin la información adicional suministrada por el cálculo de los cuartiles Q1 y Q3, el resumen de la
serie quedaría incompleto.
En ocasiones se calcula la llamada desviación cuartana o cuartilar (Q), que es simplemente la
mitad del intervalo intercuartilar:
𝑄3 − Q1
𝑄=
2
Si la serie es perfectamente simétrica, entonces: Md ± Q
Si por lo contrario la serie es muy asimétrica, y en tales casos la desviación cuartana sugiere una
interrelación errónea, razón por la cual, casi nunca se utiliza.
Note que cuando el número de observaciones es muy pequeño, sólo se pueden calcular ciertos
percentiles. Si hay 5 observaciones sólo pueden calcularse: en realidad 5 percentiles; si hay 7,
podrán calcularse solo 7, etc.
En tales casos, para calcular determinado percentil, se utiliza la fórmula:
𝑛+1
𝑥 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑒𝑠𝑒𝑎𝑑𝑜
100
Supóngase por ejemplo, que se tienen las siguientes observaciones:
2, 3, 5, 9, 11, 15, 18
De acuerdo a la formula anterior:
7+1
𝑥 25 = 2
100
b. Es decir, la observación número 2 cuyo valor es 3.
7+1
𝑥 50 = 4
100
d. El tercer cuartil (75° percentil) será:
7+1
𝑥 75 = 6
100
O sea la observación número 6 cuyo valor es 15.
CAPITULO XVII
DATOS DE ASOCIACIÓN
Como se recordará, se llaman datos de asociación a aquellos en los cuales los individuos se
clasifican simultáneamente mediante dos escalas.
1. Ambas cualitativas.
2. Una cualitativa y otra cuantitativa.
3. Ambas cuantitativas.
Según se ha visto, una escala irá en la vertical y otra en la horizontal. Por lo general, aquella con
más subdivisiones se coloca en la vertical, salvo en los casos en que una de las escalas es
notoriamente más importante que la otra y por lo tanto debe ocupar dicho lugar. Como son dos
escalas, el cuadro mostrará una fila y una columna de totales.
Con fines analíticos, el cuadro suele llevar una o varias columnas con porcentajes o tasas, para
facilitar su interpretación por lo general no conviene presentar cuadros exclusivamente con
porcentajes, en ocasiones puede hacerse, pero en tales casos, debe editarse el número de
observaciones sobre los que se basan dichos porcentajes, como se han hecho en los cuadros 165,
166, y 167.
Cuadro 164
Sexo
Formas clínicas Ambos sexos
Hombres Mujeres
Linfoide 15 11 26
Mieloide 14 15 29
Agudas 51 40 91
Otras 23 22 45
Total 103 88 191
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela, 1961.
La presentación gráfica de estos datos en cualquiera de las formas del diagrama de barras (ver
gráfico 102 y 103).
17.1.3 Análisis
El análisis se hace mediante porcentajes, cuyo cálculo variara de acuerdo al propósito del estudio.
Como un cuadro de asociación tiene una fila y una columna de datos, como además de un total
general, pueden, por consiguiente, calcularse porcentajes de 3 maneras diferentes lo cual
ilustraremos con los datos del cuadro anterior.
a. En relación al gran total. De las 191 defunciones, 26 fueron por leucemia linfoide, o sea, el
13,7%:
126
𝑥 100 = 13.7
191
El 53,9% de las defunciones fueron en hombres:
103
𝑥 100 = 53.9 %
191
Cuadro 165
b. En relación a los totales de la última columna. De las 26 defunciones por leucemia linfoide 15
fueron en hombres, o sea el 57. 7 %:
15
𝑥 100 = 57.7 %
26
y de las 29 por leucemia mieloide, 15, o sea el 51.7% ocurrieron en mujeres.
15
𝑥 100 = 75.0 %
2
Cuadro 166
c. En relación a los totales de la última fila. De las 103 defunciones en el sexo masculino, 15, o
sea el 14.6% fueron a causa de leucemia linfoide:
15
𝑥 100 = 14.6 %
103
51
𝑥 100 = 49.5 %
103
Cuadro 167
Sexo
Ambos sexos
Formas clínicas Hombres Mujeres (N = 191)
(N = 103) (N = 88)
Linfoide 14.6 12.5 13.7
Mieloide 13.6 17.0 15.2
Agudas 49.5 45.5 47.6
Otras 22.3 25.0 23.5
Total 100.0 100.0 100.0
Lo anterior señala que hay que saber escoger los porcentajes que se usarán. Por regla general
puede decirse que los descritos en primer lugar no tienen mayor utilidad, pues en realidad
contribuyen muy poco a la mejor interpretación del cuadro. En cambio, las otras dos clases son
igualmente útiles, pues la información dada por ellos es algo diferente.
En el ejemplo presentado, si el interés está en saber cuál de las formas clínicas de la enfermedad
causa más muertes en cada uno de los sexos, los porcentajes calculados sobre los totales de la
última fila son los más convenientes (cuadro 167). Si por el contrario se desea averiguar cuál de los
dos sexos es afectado en cada forma clínica entonces los porcentajes en relación a los totales de
la última columna son los adecuados (cuadro 166).
Cuadro 168
Se hace en la misma forma que en el caso anterior, colocando de preferencia la escala cuantitativa
en la primera columna, salvo en el caso que la escala cualitativa tenga muchas subdivisiones
(véase cuadro 196)
Análisis
Este tipo de datos puede analizarse mediante el cálculo de constantes centrales y de dispersión, o
calculando, como en el caso anterior tasas y porcentajes.
Por lo general los datos que maneja el medico clínico y el experimentador se resume mejor usando
valores promédiales y de dispersión mientras que para el trabajador en salud pública o el
demógrafo, el análisis con tasas y porcentajes es más útil.
Lo anterior no quiere decir que datos susceptibles de un análisis no puedan ser analizados por el
otro método. La escogencia es cuestión de lo que se quiera poner más de patente. De todas
maneras recuérdese el siguiente principio: si no hay seguridad sobre que método usar debe
utilizarse las tasas y los porcentajes
Cuadro 169
En el cuadro anterior se calcula primero para los hombres y luego para las mujeres el promedio
estándar y la desviación estándar respectiva podemos concluir que el promedio de al nacer de los
niños 3144gr mientras que para las niñas es de 3047gr.
Sin embargo para un sanitarista, quizás es importante conocer que el 43% de las niñas pesan
menos de 3kg (37/86), mientas que solo el 30% de los niños pesan menos de 30kg (28/94).
17.3 Ambas escalas cuantitativas
Entra en esta categoría todos aquellos casos en los cuales a cada uno de los individuos estudiados
se le investiga dos medidas diferentes como ser cantidad de oxigeno inalado y CO2 exhalado,
contenido de oxígeno en la sangra arteria y venosa edad y estatura, etc.
El análisis de cuadros presenta dos aspectos diferentes. Unas veces nuestros intereses esta en
conocer si las dos variables están variadas y medir hasta qué punto los cambios en una pueden
explicares por los cambios en la otra. En tal caso tenemos el problema de correlación y la unidad
de medida es el llamado coeficiente de correlación (r).
Otras veces cuando estamos seguros que existe un alto grado de variación entre 2 variables sea
porque lo conozcamos por experiencia o porque así los indique el coeficiente de correlación
previamente calculado el análisis se encamina a cuantificar la relación existente con el fin de
predecir cuáles serán los valores de una variable, cuando se conocen los valores de la otra. En
este caso se trata de un coeficiente de regresión y la medida utilizada es el coeficiente de
regresión (b)
Supóngase por ejemplo, que al estudiar la mortalidad por determinada enfermedad, se sospecha
que hay una serie de causas que actúan sobre ella. Mediante técnicas de correlación precisaremos
cuales de esas causas están más íntimamente ligadas con la enfermedad y cuando ya han sido
identificadas, las técnicas de regresión ayudaran a determinar hasta qué punto cada una de esta
causas es responsable por las variaciones observadas en la mortalidad.
Hay sin embargo, ciertas limitaciones en la escogencia de la técnica más apropiada para cada
caso. Muchas veces es muy fácil constatar que los valores de una escala están determinados o
dependen de los valores de la otra. Así por ejemplo la estatura de un niño " depende " de su edad y
la cantidad de oxígeno en la sangre venosa "depende" de la cantidad de oxígeno en la sangre
arterial. Hablemos entonces de una escala independiente (x) y dependiente (y), y es justamente en
tales casos cuando es correcto el ejemplo de las técnicas de regresión.
Otras veces la anterior relación no es cierta. NO puede decirse que ciertos valores determinen los
otros, si no que unos y otros varían conjuntamente. Así por ejemplo, es frecuente observar que al
aumentar las pulsaciones, aumentan también las respiraciones, sin que por ello se pueda concluir
que el aumento de las pulsaciones dependen del aumento de las respiraciones o viceversa, en tal
caso no puede hablarse propiamente de un variable dependiente y otra independiente, sino de una
mutua relación entre las dos. Las técnicas de correlación serán empleadas electivamente en tales
ocasiones
Si los individuos son pocos bastara con especificar a lado de cada uno, los valores de las
observaciones hechas tal como puede verse al cuadro que acompaña al próximo gráfico, pero si
son más de 50 o 60 se agruparan en clases.
17.3.3 Presentación gráfica
En cualquier problema de regresión lo primero que se debe hacerse es un gráfico. Los principios
generales para su elaboración ya fueron estudiados y el único detalle adicional que debe tenerse
presente es de los valores de la variable independiente, se acostumbra colocarlos
proporcionalmente en la abscisa, mientras que la ordenada se reserva a los valores de la variable
dependiente.
Cuadro 172
Estatura y peso del curso de estadística
La distribución de los puntos del diagrama sugiere que la relación entre las dos variables puede ser
resumida adecuadamente mediante una línea recta tal como la trazada en el gráfico. Claramente
se observa que tales puntos tienden a agruparse alrededor de la línea y el peso aumenta
uniformemente cuando aumenta la esta uniformemente cuando aumenta la estatura
Grafico 173
Estatura y peso de un grupo de alumnos de metodología estadística
Peso
Estatura
Lógicamente, mientras más tienda los puntos a caer sobre la línea de regresión, más estrecha es
la relación entre las 2 variables y constatarse que si a cada aumento de 1 cm corresponderá a un
aumento de 2 kg entonces todos los puntos se dispondrían en una línea recta.
Si por lo contrario no existiera ninguna asociación entre las 2 variables, de tal manera que altos
pesos hubieran sido presentados distintamente por alumno distintos “altos” y “bajos”, los puntos
tenderían a alejarse considerablemente de la línea, formando una especie de círculo o cuadrado.
En tal caso se concluiría que no existe asociación entre las 2 variables y con ello se terminara el
análisis.
Si el fenómeno estudiado puede ser resumido por una línea recta, como en nuestro ejemplo
podemos intentar resumir matemáticamente dicha relación, con lo cual nos será posible predecir
los valores de la escala dependiente (Y) cuando se conoce los de la escala independiente (X).
La medida estadística utilizada es el coeficiente de regresión (b) el cual indica q los valores en la
escala dependiente cambia b unidades por unidad que cambia los valores de la escala
independiente. En el método presente al utilizar el ejemplo que luego estudiaremos, encontramos
que b = 0,80; lo cual quiere decir que por cada aumento de 1cm en la estatura se observa un
aumento de 0,80 Kg. de peso.
El coeficiente de regresión puede tener cualquier valor negativo. Si es positivo, significa que ambas
variables disminuyen o aumenta a la vez; si es negativo, quiere decir que cuando una variable
aumenta, la otra disminuye o viceversa; si fuere 0, tendríamos que para cualquier valor de la
escala independiente habría siempre el mismo valor para la escala independiente, o que para cada
valor de la escala independiente pudiéramos observar cualquier valor en la escala independiente
(ver gráfico 1745).
GRAFICO 175
Cuadro 176
Talla y peso de un grupo de alumnos del curso de Metodología Estadística
(Cálculo del coeficiente de regresión)
255
b = = 0,80 kilos
316
Los pasos a seguir en el cálculo del coeficiente de regresión se resumen a continuación:
∑ dxdy =
255
= 0,80 kilos
∑ dx 2
316
Y = ( Y – b X ) + bX
En donde:
Y = valor de variable dependiente que se quiere conocer dado determinado valor de la variable
independiente.
Ejemplo: se quiere conocer el peso (Y) de un individuo que mide 180 centímetros de estatura (X).
Y = 62
X = 164
b = 0,80 kilos
además:
X = 180, ser de la estatura del individuo cuyo correspondiente peso (Y) queremos conocer.
El cálculo de b solo debe hacerse cuando el gráfico correspondiente señala que la relación
estudiada es lineal. Si no se llena esta condición su cálculo no tiene ningún significado.
Por lo demás, el coeficiente no puede aplicarse para predecir valores que excedan los límites de la
serie en donde fue calculado.
Así por ejemplo, es un hecho que la estatura depende de la edad, pero esto solo es cierto hasta el
final de la edad del crecimiento y será absurdo averiguar cuál sería la estatura de un hombre de 50
años, utilizando el coeficiente de regresión.
Finalmente, téngase presente que b no es una medida de la intensidad de la asociación que existe
entre dos variables. Si b es 800 en lugar de 0,80, esto no significa que en el primer caso la
asociación sea 1000 veces mayor que en el segundo caso. El valor de b depende de las unidades
de medición que se empleen y puede constatarse con los datos del cuadro 176, en donde b = 0,80
kilos que si hubiéramos expresado el peso de los estudiantes en gramos, entonces b hubiera sido
igual a 800.
17. 3. 5. Coeficiente de correlación
En un problema de correlación no puede decirse que una variable sea independiente y otra
dependiente. Si a un grupo de individuos tomamos el número de pulsaciones y respiraciones, sería
igualmente valedero preguntarse qué cambios se producen en el número de pulsaciones al
aumentar las respiraciones o viceversa. Para resumir los datos habría que calcular dos coeficientes
de regresión: b’ que indicará los cambios en las respiraciones por cada pulsación que aumenta y
b’’ que indicará los cambios en el número de pulsaciones al variar las respiraciones.
Con el fin de reducir las dos constantes a una sola, se utiliza el coeficiente de correlación r, que es
simplemente igual a la raíz cuadrada del producto de los dos coeficientes de regresión
mencionados ( b’ y b’’). Por lo tanto:
El cálculo del coeficiente de correlación se hace fácilmente con los datos de cuadro 176 para lo
cual se tomará los totales de las 3 últimas columnas, pues siendo r = b' xb' ' , si se considera
primero que la estatura, es la variable independiente, entonces, conforme ya se ha visto:
Σdxdy 255
b’ = = = 0,80 kilos
Σdx 2 316
y si se considera luego que el peso es la variable independiente, entonces se calculará b’’, para lo
cual solo variará el denominador del quebrado:
Σdxdy 255
b’’ = = = 0,91centímetros
Σ dy 2 278
y por lo tanto:
3. 5. 2. Valores de “r”.
El coeficiente de correlación puede tener cualquier valor entre –1 y +1. Valores positivos indican
que las dos variables aumentan o disminuyen al tiempo: valores negativos significan que cuando
una variable aumenta, la otra disminuye o viceversa. (Véase gráfico 181).
Si “r “es exactamente igual a –1 o +1, quiere decir que hay una perfecta asociación entre las dos
variables, en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra
cambia siempre igual número de unidades. En dichas ocasiones los puntos en el gráfico caerían
todos sobre una línea recta. Tal sería el caso si a cada aumento de una pulsación correspondiera
siempre el mismo aumento en el número de respiraciones (esquema A) o si a cada aumento de
una pulsación se observara siempre una misma disminución en el número de respiraciones
(esquema B).
Si “r “ = 0, significa que no hay ninguna asociación entre las dos variables, o que de existir, no es
una relación lineal. El gráfico que entonces se obtendría sería semejante al del esquema C, lo cual
se observaría, si para cada número de pulsaciones pudiera encontrarse cualquier número de
respiraciones.
Sin embargo, valores de r = 0 o iguales a la unidad, son más bien teóricos. En primer lugar aunque
no haya ninguna asociación entre 2 características, las variaciones causadas por el azar suelen
dar una correlación aparente. En segundo lugar, aun tratándose de correlaciones perfectas, no es
de esperar que r sea exactamente igual a 1, a causa de los errores que se cometa al hacer las
observaciones.
En la práctica pues, solo se observan valores intermedios entre 0 y ± 1 . Si las pulsaciones y las
respiraciones aumentaran o disminuyeran al mismo tiempo, pero sin que a cada aumento de una
pulsación corresponda siempre el mismo aumento en las respiraciones, se obtendría un gráfico
como el esquema D. Finalmente, si cuando las pulsaciones aumentan las respiraciones disminuyen
o viceversa, pero sin que haya la misma variación en las respiraciones por cada unidad que
cambia las pulsaciones, entonces se observaría algo como el esquema E.
Gráfico 181
Diagrama de puntos que ilustran diferentes grados de correlación
A: r = + 1 B: r = - 1
C: r = 0 D: r = 0.50
E: r = - 50
3. 5. 3. Interpretación de “r”.
En el ejemplo que nos sirvió para el cálculo del coeficiente de correlación encontramos que r =
0,86. Este valor no debe interpretarse como se hace corrientemente, en el sentido de que el 86%
de las variaciones en el peso son causadas por las variaciones en la estatura.
Para una interpretación, hay que obtener el Coeficiente de determinación que es la forma más
2 2 2
correcta debe tomarse r . En nuestro ejemplo r = (0,86) = 0,74, nos indica que un 74% de los
cambios en el peso se explican por las variaciones de la estatura. Si se hubiera encontrado que r =
2
0,71 y por lo tanto r = 0,50 se concluiría que solo el 50% de los cambios observados en el peso
son explicables por las variaciones en la estatura, quedando todavía un 50% de variación no
atribuible a esta última variable. La anterior explicación ayuda a comprender por qué coeficientes
de correlación menores de 0,50 son por lo general difíciles de interpretar, no debiéndose dar
demasiada importancia a tales hallazgos.
17. 3. 5. 4.Recomendaciones finales. Al interpretar las asociaciones entre dos variables, deben
tenerse en cuenta, finalmente, los siguientes principios:
2. Las asociaciones encontradas no deben aplicarse indebidamente a valores que excedan los
límites de las series estudiadas. Ya dijimos que la estatura aumenta con la edad, pero eso solo
es válido hasta el final de la edad del crecimiento y a nadie se le ocurriría predecir la estatura
de un adulto de 50 años en base a la anterior asociación.
Por lo demás la relación existente puede no ser lineal. En el esquema próximo r = 0 a pesar de
que existe una perfecta relación curvilineal. En ocasiones como esta el cálculo de la
correlación es mucho más difícil y al asesoramiento por un técnico estadístico se hace
imprescindible.
a. Gráfico 184
Perfecta correlación curvilíneal en donde r = 0
De la misma manera, si muestras repetidas se extraen de determinado universo y para cada una
se calcula el coeficiente de correlación o el de regresión, dichos coeficientes, como sucede en el
promedio, pueden diferir del verdadero valor del universo en una cantidad más o menos
apreciable. Sin embargo, mientras mayor sea el tamaño de la muestra, menor variabilidad
presentarán dichos coeficientes y mayor será su validez. Se ha visto por ejemplo que aun en
poblaciones en las cuales no existe ninguna asociación (r = 0 por lo tanto) es posible encontrar
valores de r tan altos como 0,30 para muestras de 40 individuos, debido simplemente a accidentes
del muestreo. Esta es una nueva dificultad para la interpretación del coeficiente de correlación, la
cual debe tenerse siempre presente, para no dar mucha importancia a valores de r que se basen
en muestras muy pequeñas.
b. Cuando se estudia un grupo grande de individuos es necesario agrupar los datos en un número
conveniente de clases, con el fin de facilitar las complicaciones, las cuales sin embargo siguen
siendo muy laboriosas y se prestan a múltiples equivocaciones cuando se carece de práctica. Si el
investigador no puede recurrir al asesoramiento de un técnico estadístico es preferible analizar los
datos a la manera descrita anteriormente, pues el tiempo adicional consumido en tal análisis,
queda compensado por errores de cálculo que han podido evitarse. Si la realización de una
investigación ha exigido meses de trabajo, unas cuantas horas destinadas a su análisis estadístico
no representa una inversión inútil.
CAPITULO XVIII
SERIES CRONOLÓGICAS
Las series cronológicas son aquellas que estudian la variación de un fenómeno a través del
tiempo. El fenómeno estudiado puede referirse a: los casos o muertes de una enfermedad, al
ingreso per cápita de una colectividad, al número de estudiantes universitarios, etc.
El análisis de una serie cronológica puede tener por único propósito, describir la marcha histórica
de un fenómeno. Sin embargo, habitualmente se persigue evaluar los cambios ocurridos por la
introducción de alguna actividad particular o resumir la evolución de un fenómeno con miras a
predecir su posible ocurrencia en el futuro.
Cualquiera sea el propósito, el análisis de tales series es por lo general difícil, y aquí solo se
explicarán las técnicas más corrientes, no debiéndose olvidar, que la presentación tabular y gráfica
es paso previo indispensable para decidir sobre el análisis.
Como ya se vio anteriormente, el cuadro que resume una serie cronológica consta habitualmente
de dos columnas: la primera se destina a la escala del tiempo y la segunda a la inscripción del
número de veces que acaeció el fenómeno estudiado.
Sin embargo, cuando se describen las variaciones de una población, es conveniente colocar una
tercera columna de tasas, las cuales señalan la frecuencia con que se presentó el fenómeno por
cada 1.000, 10.000 o 100.000 habitantes, etc., con lo cual se facilitan grandemente las
comparaciones.
Cuadro 187
Tuberculosis. Mortalidad estimada y tasas por 100.000 habitantes.
Venezuela, 1956 – 1960
Los gráficos utilizados para la presentación de las series cronológicas ya fueron descritos
anteriormente, pudiéndose utilizar el papel aritmético corriente o el semilogarítmico. Se recordará,
que cuando el interés está en conocer los cambios absolutos en el periodo, debe preferirse la
escala aritmética, pero si por el contrario se desea estudiar los cambios relativos de la serie, el
papel semilogarítmico es preferible. En los estudios médicos, por lo general el mayor interés se
encuentra en conocer los cambios absolutos ocurridos: en averiguar por ejemplo, cuántas vidas se
han salvado o cuántos casos de determinada enfermedad se han evitado, en tales ocasiones el
gráfico en papel aritmético debe por consiguiente ser utilizado.
Es a consecuencia de la ocurrencia conjunta de estos tres tipos de variación, que el análisis de las
series cronológicas se dificulta. Mientras que el examen de las tendencias seculares solo es
factible cuando se hace abstracción de las pequeñas variaciones que ocurren cada año, se
comprende fácilmente que los cambios anuales solo pueden interpretarse tomando en
consideración las variaciones cíclicas y seculares del fenómeno. Desconocer la anterior
interrelación ha conducido frecuentemente a numerosos errores de interpretación. Observe por
ejemplo el esquema siguiente, el cual representa una enfermedad con exacerbaciones cada 10
años: 1940. 1950, 1960.
En cualquiera de los casos anteriores, el grafico de una serie cronológica es muy importante, pues
de una simple mirada, podemos apreciar las variaciones habidas en lapso estudiado. Si se quiere
no obstante expresar la magnitud de las variaciones observadas, será necesario recurrir a otros
métodos, cuya escogencia depende de gran parte del aspecto que presenta los datos previamente
acentuados en el gráfico.
Cuando el grafico muestra que la serie asciende o desciende en forma más o menos lineal, el
análisis es bastante sencillo y cualquiera de las técnicas que a continuación se describen pueden
ser utilizadas
GRAFICO 189
Enfermedades con ciclos epidémicos decenales
Si la serie presenta por el contrario muchas irregularidades o si el grafico muestra que su tendencia
es más bien curvilínea, entonces el análisis es mucho más complicado. La suavización de los datos
mediante el método de los promedios móviles descrito en la sección 18.3.1.3. puede servir de
ayuda en la descripción de estas series.
Este método consiste en buscar la línea o curva que represente mejor los datos estudiados, en tal
forma, que sin tenerse en cuenta las fluctuaciones menores, se destaque la tendencia general a
través de los años.
Dicha línea o curva viene a ser una línea promedio y mediante ella puede leerse en la ordenada,
los valores que corresponden a las distintas fechas.
Aunque existen técnicas matemáticas especiales para encontrar la mejor línea en cada caso,
debido a su complejidad, solo mostraremos métodos aproximados más sencillos.
18.3.1.1 Línea de tendencia a mano libre. Una vez hecho el grafico con los datos
correspondientes, se traza a mano una línea recta o curva, que aproximé lo más fielmente los
hechos descritos, evitando prolongar el trazo más allá del periodo en cuestión.
Desde luego, que si prolonga la línea un poco más allá del último año estudiado, se podrá predecir
la intensidad del fenómeno en los años futuros. Sin embargo, tales estimaciones asumen que el
fenómeno investigado varia en la misma forma que en el pasado, lo cual no siempre es verdadero,
y de ahí que por lo general solo son correctas cuando se hacen por el inmediato futuro.
Por lo demás, el método es solo aproximado, pues es difícil que dos personas distintas obtengan
los mismos resultados.
18.3.1.2. Línea de tendencia usando semipromedios. Este método solo debe utilizarse cuando
el grafico de los datos señala que ellos pueden ser representados por una línea recta.
a. L os datos del periodo que se estudia se divide en dos grupos iguales y en cada uno se obtendrá el
promedio respectivo. Si el número de años es impar como en el ejemplo presente , el año de la
mita se incluirá en ambos promedios
Años Tasas
1956 45,0
1957 43,0
……………………………… …………………… ………
1958 36,2 .
1959 32,3 .
1960 29,5 .
………………………………………. ………
Gráfico 191
Mortalidad Estimada Por Tuberculosis, Venezuela, 1956 – 1960
18.3.1.3. Línea de tendencia con promedios móviles. Cuando las variaciones de las series son
muy irregulares es a veces difícil captar con la claridad la tendencia general del fenómeno que se
estudió. En tales ocasiones puede recurrirse a suavizar los datos mediante los promedios móviles.
Según el número de términos de la serie, puede calcular promedios móviles que incluyen 3,5 o
más años a la vez. En general, mientras mayor el número de años que se incluyen en la obtención
de los promedios, más regular se hace la línea de tendencia, pero en esos casos, más probabilidad
hay de que se pierdan importantes situaciones de la serie que se estudia y de ahí que el número
de los escogidos, no debe ser tan numeroso.
Para ilustrar la obtención de estos promedios, tomaremos los casos de Lepra, conocidos en el área
de Notificación Organizada durante el periodo 1941-1960. Dicha área comprende aquellas
regiones del país en las cuales los servicios sanitarios están bien organizados, en tal tema que los
datos sobre morbilidad y mortalidad se conocen de manera bastante exacta.
Cuadro 192
Lepra. Casos notificados por 100000habitantes. Área de notificación organizada 1941 – 1960.
(Cálculo de promedios móviles para 5 años)
Los datos del cuadro anterior pueden suavizarse calculando promedios móviles de 5 en 5 años.
Para ello:
a. Se sumaran las tasas de los 5 primeros años disponibles y esta cifra, la cual representa el total
para el primer quinquenio, se colocara frente al año intermedio (1943).
b. Los totales sucesivos se obtendrán excluyendo del total precedente el primer año del
quinquenio y añadiéndole el siguiente año (1941 a 1945). (1942 a 1946) (1943 a 1947), etc.
c. Se obtendrán los promedios móviles dividiendo por 5 cada una de las cifras de la columna
anterior.
d. Una vez obtenidos estos promedios, se inscribirán en el mismo grafico en el cual se hayan
inscrito los datos originales.
Gráfico 193
Se observa en la serie anterior que no ha podido calcularse un promedio móvil para los 2 primeros
y los 2 últimos años, pues ellos se basan en datos que no figuran en el cuadro. Si los promedios
hubieran sido para tres años, en tal caso no se hubiera podido calcular el promedio para el primer
año y para el último de la serie.
A pesar del uso frecuente de los promedios móviles, ellos pueden ocultar oscilaciones importantes
de la serie o dar origen a dar irregularidades ficticias. Puede observarse en la serie anterior que en
los años en los cuales las tasas fueron elevadas, se hacen menos aparentes, pero el ascenso se
manifiesta dos años antes y termina dos años después.
Consiste en averiguar mediante una simple resta, cual ha sido el aumento o el descenso absoluto
observado en el periodo y dividir por el número de años correspondientes, con el fin de obtener la
variación promedia anual.
En el ejemplo del cuadro 187, como la enfermedad descendió de 45.0 en 1956 a 29.5 en 1960 o
sea un descenso de 15.5 al dividir por 4 (1960 – 1956= 4), obtendremos que la tasa disminuyo 3.9
cada año. Observe que hemos dividido por 4 y no por 5, pues en el periodo solo hay en realidad 4
descensos anuales y no 5.
Conviene insistir en dos observaciones finales: a) el método sólo debe utilizarse cuando la
representación gráfica de los datos sigue más o menos una línea recta; b) proyecciones futuras
solo deben hacerse para años inmediatos. Observe que de acuerdo a nuestros datos, puede
estimarse que la tasa para 1961 será 25.6 (29.5 en 1960 – 3.9 = 25.6) pero si la proyección fuera
para 1970 se obtendrían un valor negativo (29.5 – 10 x 3.9 =-9. 5.
Se observara que en este cálculo, al igual que en el método anterior, sólo se toman en cuenta los
valores del primero y del último año y el resultado siempre será igual cualesquiera que sean las
cifras intermedias. De ahí que el método solo debe usarse, cuando los datos ascienden o
descienden siguiendo una línea recta.
Cuando la serie estudiada puede resumirse adecuadamente por una línea recta, como en los datos
del cuadro 187, las técnicas de regresión son aplicables.
El cálculo del coeficiente de regresión da una mejor estimación del cambio anual que experimenta
el fenómeno que se estudia, pues toma en cuenta todos los valores de la serie, y no solamente los
valores inicial y terminal. Los cálculos son idénticos a los aprendidos en el capítulo XVII, pero
reemplazados los años 1956, 1957, etc. por 1, 2, 3, etc.
− 41.7
b= = - 4.17
10
Lo cual indica que en promedio, la tasa desciende en 4.17 cada año.
19.1. Introducción.
Al resumir los resultados de un estudio mediante, cualquiera de las medidas estadísticas acabadas
de ver (promedios, porcentajes, etc.), hay que tener en cuenta que tales constante pueden
adolecer de los mismos defectos que presentan las mediciones individuales.
Los errores debidos al observador, al objeto observado método de observación, pueden algunas
veces desaparecer al utilizar una medida de resumen o hacer al contrario más aparentes.
Un observador a causa de su impericia o fatiga puede registrar como negativos exámenes que en
realidad son positivos. Una técnica defectuosa, la pérdida de potencia de los reactivos utilizados o
la observación de los individuos bajo condiciones desfavorables, pueden conducir a cometer el
mismo error .En tales casos, al resumir los resultados encontrados, el número de reacciones
positivas será mucho menor de lo que en realidad es a causa de que se ha cometido un error
sistemático en una misma dirección.
Otras veces, los errores que se cometen no se hacen siempre en una misma dirección. Al tomar el
metabolismo basal de un grupo de individuos , unas veces se peca por exceso y otras por defecto
y en tales casos ,al resumir los resultados mediante un promedio por ejemplo, los errores en más o
menos, tienden a compensarse y el promedio así calculado representara el verdadero valor o un
valor muy cercano al que quiere conocerse.
En realidad no existe ningún método estadístico que permita valorar exactamente los anteriores
errores una vez cometidos. Una perfecta preparación de los observadores, un control adecuado de
las técnicas y aparatos utilizados en las observaciones y la estandarización de un método que
permita estudiar a todos los individuos en las mejores condiciones serán imprescindibles para
reducir a un mínimo tales errores.
Existe sin embargo otro tipo de error susceptible de controlarse estadísticamente. Conforme hemos
mencionado previamente por lo general resulta imposible estudiar la totalidad de la población en la
cual puede observarse determinado fenómeno, teniendo que limitarnos al estudio de una muestra
de dicha población. Pero de la misma manera que los individuos difieren unos de otros, las
diferentes muestras formadas con ellos diferirán también unas de otras, dando origen nuevamente
a una nueva fuente de error. Ese error el cual se debe simplemente al hecho de que no estamos
estudiando la totalidad del universo solo una porción de él, se conoce con el nombre de Error por
Muestreo y el representante en realidad la diferencia que hay entre el valor dado por la muestra y
el verdadero valor del universo que tratamos de averiguar a través del estudio de aquel.
La constante estadística que permite la medición del error por muestreo recibe el nombre de error
estándar.
Desde luego que cada una de las medidas de resumen conocidas tendrá su correspondiente error
estándar. Podrá hablarse por consiguiente del error estándar del promedio, del error estándar de
un porcentaje o del error estándar de coeficiente de correlación, etc. y las fórmulas utilizadas para
su cálculo varían en cada caso.
19.2.2 Origen del Error estándar.
Aunque es difícil explicar sucintamente el origen del error estándar los resultados de la
demostración práctica comentados en la sección 7.7 y ayudaran a su comprensión. Según se vio
entonces si de una población determinada se obtiene un número grande de muestras del mismo
tamaño en cada una se calcula el promedio, estos promedios se distribuirán alrededor del
verdadero valor del universo formando una curva normal.
Por consiguiente como los promedios del conjunto de muestras extraídas de determinado universo
se distribuye alrededor del verdadero valor del universo formando una curva normal, puede
afirmarse: que ninguna muestra diferirá del valor del universo en más de tres veces la desviación
estándar, pues ya se sabe que entre X ± 3D.E. se encuentra prácticamente el 100% del área de
la curva.
Ahora bien, si con el fin de averiguar el verdadero valor del promedio de determinado universo, se
obtiene una muestra y se calcula su promedio, esto no será exactamente igual al del universo, pero
si conociéramos la desviación estándar de un conjunto de muestras extraídas de dicho universo
bastaría tomar X ± 3D.E. para determinar los limites dentro de los cuales se encuentra el
promedio del universo que se quiere conocer.
Sin embrago, para calcular este desviación estándar habría necesidad de obtener, digamos 100 o
200 muestras diferentes, lo cual es impráctico, pues en la investigación real se extraen solamente
una muestra y a partir de ella, se tratara de conocer la población de donde procede.
No obstante, se ha demostrado que la desviación estándar de un conjunto de muestras obtenidas
de determinada población, puede estimarse con bastante exactitud a partir de una sola muestra.
Con el fin de contestar que tan bien el error estándar puede estimar la desviación estándar de un
conjunto de muestras, volveremos nuevamente a los resultados de la demostración de la sección
7.7 en dichas demostraciones como se recordara teníamos un universo de metras en el cual el
50% eran blancas y de él extrajeron 150 muestras de 10 metras cada una. El resultado es obtenido
entonces los que se copian en el siguiente cuadro, en el cual se han añadido las dos últimas
columnas para el cálculo del promedio y la desviación estándar.
El promedio y la desviación estándar calculados por los métodos estudiados por el capítulo XVI
son respectivamente (véase cuadro 200)
7420 407000
X = = 49.5% D.E = − (49.5) 2
= 16.3%
150 150
CUADRO 200
Porcentaje de N° de muestras
metras blancas observadas FX FX2
0 0 0 0
10 3 30 300
20 6 120 2.400
30 0 600 18.000
40 30 1.200 48.000
50 36 1.800 90.000
60
Calculemos ahora el error estándar de esta serie, para apreciar si él realmente estima la desviación
estándar acabada de obtener. La fórmula para calcular el error estándar de un porcentaje, que
será estudiada con más detalle en la sección 19.4.2., es la siguiente:
𝑝∗𝑞
𝐸. 𝐸 = �
𝑛
en donde:
50 𝑥 50
𝐸. 𝐸 = � = √250 = 15.8 %
10
Puede apreciarse que este valor estima con bastante exactitud la desviación, estándar calculada
anteriormente, que fue 15.8%.
Antes de seguir adelante, conviene tener en cuenta la diferencia que hay entre la desviación
estándar y el error estándar.
La desviación estándar, como hemos señalado, sirve para indicar la variación que presentan los
individuos de una muestra, alrededor de su promedio.
El error estándar por su parte, mide la variación de un conjunto de muestras y puede considerarse,
por lo tanto, como la desviación estándar de un conjunto de muestras.
Por lo tanto, si queremos describir la manera como se distribuyen alrededor del promedio los
individuos de la muestra que estamos estudiando, debemos calcular la desviación estándar, pero si
lo que deseamos es saber cómo se distribuyen los promedios de diferentes muestras alrededor del
verdadero valor del universo, entonces debemos calcular el error estándar.
Como este error no es otra cosa que la desviación estándar de un conjunto de muestras, los
conceptos estudiados a propósito de esta son también aplicables a él y por lo tanto, podemos
afirmar que:
Diferencia E.E: Diferencia observada, expresadas en unidades de curve normal. Esta columna
también se refiere al intervalo comprendido entre el promedio y determinada múltiplo de la D.E.
P: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia igual o mayor de la
observada o proporción de los individuos estudiados que se encuentran fuera de los limites
comprendidos entre el promedio más sanos al múltiplo de la D.E indicado en la columna anterior.
IP: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia menor que la observada
o proporción de los individuos estudiados que se encuentran entre los limites comprendidos entre
el promedio más sanos múltiplo de la D.E.
De la misma manera, al afirmar que el promedio del universo se encuentra comprendido entre el
promedio de la muestra más o menos 3 veces su error estándar, tendremos la seguridad de estar
en lo cierto, prácticamente en un 100 de los casos.
La explicación anterior parecería indicar que al hacer afirmaciones como las ilustradas, debiera
buscarse siempre una certeza del 100%, usando el promedio más o menos 3 veces el error
estándar. Sin embargo, las siguientes explicaciones permitirán comprender por qué esto no es
siempre posible.
Reconocer que es cierto o falso, algo que en realidad lo es, constituye la meta de todo
investigador, buscándose evitar los errores envueltos en las 2 últimas afirmaciones. Sucede sin
embargo, que en estadística, mientras más procuramos no cometer el primer error, mayores
probabilidades tenemos de cometer el segundo.
Puede observarse que mientras más procuramos no cometer el primer error, más caemos en el
segundo y viceversa. Por lo tanto, aspiramos a tener un 68%, un 95% o un 100% de certeza en
nuestras afirmaciones, depende del problema de que se trate.
Se ha señalado que cada una de las medidas de resumen tiene su correspondiente error estándar.
A continuación se señalan las fórmulas utilizadas para calcular el error estándar de un promedio y
el de un porcentaje. Otras fórmulas se explicarán a medida que sea necesario.
𝐷. 𝐸
𝐸. 𝐸 =
√𝑛
En su cálculo se seguirán los siguientes pasos:
𝑝∗𝑞
𝐸. 𝐸 = �
𝑛
En esta fórmula:
p: es el porcentaje de personas que poseen determinadas características, y,
q: el porcentaje de personas que no la poseen.
Si en un grupo de personas que se estudian, el 25% son hombres.
P = 25% y
q = 75%
q = 100 - p
1. Para conocer dentro de que límites se encuentra el verdadero valor del universo.
2. Para estimar el tamaño que debe tener una muestra para lograr determinada precisión.
3. Para saber si una muestra procede o no de determinado universo.
Las dos primeras de estas aplicaciones se estudiarán a continuación y en cuanto a la tercera, será
vista a propósito de los estudios comparativos.
Aunque el investigador toma una muestra con el fin de inferir partir de ella el verdadero valor de la
totalidad del universo, los resultados arrojados por la muestra no corresponden exactamente a los
del universo. Si con el fin de calcular la estatura promedio de alumnos de la Universidad,
estudiamos un grupo de 400 jóvenes encontramos que el promedio es 160 centímetros, esta cifra
no representa exactamente el verdadero valor para todos los universitarios, aunque sí es una cifra
muy aproximada.
Pero, ¿qué tan aproximada es esa estimación? El cálculo del error estándar, nos permitirá dar
contestación a esta pregunta.
El procedimiento general es el mismo, pero el cálculo del error estándar se hará utilizando las
correspondientes fórmulas vistas anteriormente.
Ejemplo: Con el fin de conocer la edad promedio de los 20.000 estudiantes de la Universidad
Central, se estudió una muestra de 400 alumnos, encontrándose que su promedio fue 23 años y la
desviación estándar 2 años.
En base al resultado de esta muestra, se desea saber dentro de que límites se encuentra el
verdadero promedio de los 20.000 estudiantes. Se desea poder hacer tal afirmación con un 95%
de certeza.
Si los límites anteriores parecieran muy amplios, es decir, si se quisiera lograr mayor exactitud en
los resultados, sería necesario aumentar el tamaño de la muestra, pues como señala la fórmula,
mientras mayor el número de individuos estudiados, mayor el denominador del quebrado y menor
por consiguiente el error estándar.
Así por ejemplo, si en vez de 400 estudiantes se hubieran estudiado 1.600 y se hubiera encontrado
el mismo promedio y la misma desviación estándar, entonces el error estándar sería:
2 2
𝐸. 𝐸 = = = 0,20 𝑎ñ𝑜𝑠
√1600 40
y los límites dentro de los cuales estaría la edad promedio de los 20.000 universitarios sería:
23 ± 2 x 0.05 = 23 ± 0,1
es decir, entre 22,9 y 23, 1 años.
Ejemplo: Con el fin de conocer el porcentaje de personas vacunadas contra la viruela, en una
población de 20 000 habitantes se estudió una muestra de 400 personas, de las cuales 300
estaban vacunadas, es decir, un 75%.
En base al resultado anterior se desea saber dentro de que límites se encuentra el verdadero
porcentaje de vacunados en la población. Se desea hacer tal estimación con un 95% de certeza.
pq
E.E. =
n
en donde
75 * 25
(E. E.) = = 4.69 = 2.16
400
Como al tomar 2 errores estándar tenemos una certeza del 95%, podemos afirmar que el
verdadero porcentaje de vacunados, estará entre:
75% ± 2 (2.16) = 75 ± 4.3, es decir, entre el 70.7 % y 79.3%
Lo mismo que en el caso anterior si estos límites parecen muy amplios y se desea mayor precisión,
podrá lograrse aumentando el tamaño de la muestra.
Así por ejemplo, si hubiera estudiado 1600 personas en vez de las 400 estudiadas y asumiendo
que si hubiera obtenido el mismo 75% de vacunados el E.E sería:
75x 25
= 1.17 = 1.08
1600
Algo que inquieta frecuentemente al investigador, es el tamaño de la muestra que debe utilizar.
Esta preocupación es obvia, pues si la muestra es demasiado pequeña los resultados pueden
carecer de validez y si es demasiado grande, quizás represente al gasto de energías y recursos. El
tamaño de la muestra depende principalmente, de los siguientes factores:
1. Variabilidad del universo que se estudia, pues mientras más variable sea este, mayor ha de ser
el tamaño de la muestra.
2. Precisión que se quiere en los resultados, es decir, magnitud del error que podemos tolerar. Se
comprende que para afirmar el promedio del peso de un grupo de individuos está entre 40 y 60
kilos, se necesitará una muestra mucho más pequeña que si quisiéramos afirmar, que dicho
promedio está entre 50 y 51 kilos.
3. Margen de certeza que se desea obtener (95% o 99%), pues para determinada precisión
mientras mayor sea la certeza que se busca, mayor debe ser el tamaño de la muestra.
4. Como la precisión a que se aspire y la certeza que se desee, dependen del problema que se
estudie, podemos señalar que el tamaño de la muestra dependerá en parte de la aplicación
que se va a dar a los resultados que se obtengan (ver 19.3). Para fijar el tamaño de la muestra
debemos en primer lugar decidir sobre el margen de certeza que deseamos y sobre la
precisión que aspiramos en nuestros resultados. Luego, suponiendo por ejemplo, que
deseemos un 95% de certeza, mediante la igualdad: precisión deseada = 2 E.E., nos será fácil
despejar n. Como se ilustra en los siguientes párrafos en los cuales se estudia separadamente
el caso de los promedios y de los porcentajes.
Ejemplo: para conocer el promedio de peso de un grupo de escolares, se desea tomar una
muestra, en tal forma que el promedio estimado no difiere más de ½ kilo del verdadero valor del
universo, y que se pueda afirmar con un 95% de certeza que dicho resultado es correcto.
Como se quiere tener un 95% de certeza, hay que tomar 2 errores estándar, pues ya sabemos que
el 95% de las observaciones se encuentran en el intervalo determinado por:
x ± 2 E.E.
Esto quiere decir que el promedio de la muestra no debe diferir en más de 2 E.E, del promedio
verdadero del universo, o sea que si P es la precisión deseada o máximo error que podemos
tolerar, entonces podemos escribir:
P = 2 E.E
D.E
Y como ya sabemos que el error estándar del promedio es igual a: , reemplazando en la
n
igualdad anterior tendremos:
D.E
P=2
n
2 D.E 2
n=( ) ( ∗)
P
Antes que debamos responder cuál debe ser el número de individuos que hay necesidad de
estudiar, es necesario conocer el valor de la Desviación Estándar. Es lógico que este valor solo
puede conocerse una vez que se haya hecho la investigación, pero un valor aproximado puede
obtenerse consultando la opinión de algún experto, o basándose en un estudio previo o recurriendo
a una encuesta piloto.
Ahora bien, como la desviación estándar es aproximadamente 1/6 de la amplitud total de la serie
(pues X ± 3D.E incluye la totalidad de la curva) podemos estimar, en el ejemplo dado, que:
48 − 30
D.E. = = 3
6
Si admitimos que para nuestro ejemplo presente D.E. = 3, entonces, con el fin de no cometer una
equivocación mayor de ½ kilo (P = 0.50), el tamaño de la muestra sería:
2 D.E. 2 2X 3 2
n=( ) = ( ) = 144
P 0,5
Ejemplo: Se desea conocer con un 95% de certeza y sin cometer un error mayor de 3%, el
porcentaje de mujeres que hay en la Universidad.
Como se quiere tener un 95% de certeza hay que tomar 2 E.E. y por lo tanto; P, la precisión
deseada sería:
P = 2 E.E.
y como se sabe que el error estándar de un porcentaje es igual a 2 pq /n reemplazando en la
equivalencia anterior:
∗
Como X = 2.58 cubre el 99% de las observaciones, si se quisiera una certeza del 99% la fórmula quedaría:
2.58 D.E
n =( )2
p
P=2 pq /n
4 pq
n = P2 ( ∗)
Este valor no necesita que sea muy preciso, pues note como p + q = 100, el producto de p x q es
más o menos igual, si “p” varía dentro de los límites prudenciales:
Si p = 40 entonces 40 x 60 = 2.400
Si p = 50 entonces 50 x 50 = 2.500
Si p = 60 entonces 60 x 40 = 2.400
Si en el ejemplo presente suponemos que alrededor del 20% de los estudiantes son mujeres (p =
20%), el número de individuos que debería tener la muestra con el fin de no cometer un error
mayor del 3% (P = 3%) sería, de acuerdo a la fórmula anterior:
4 pq 4(20 X 80 ) 710
n= = =
P2 P(3) 2 (3) 2
De la misma manera, si se supone que alrededor del 30% de los estudiantes son mujeres (p =
30%) y se quiere no cometer un error mayor del 5% (P = 5%), el tamaño sería:
4 pq 4(30 X 70)
n= = = 336
P2 (5) 2
Desde luego, no es indispensable examinar exactamente 336 alumnos, ya que de acuerdo al “p”
que encontraremos al tomar la muestra, el número anterior puede variar.
La fórmula sólo nos da un dato aproximado, pero de todos modos, tal dato es mucho más útil que
si se tomará arbitrariamente determinado número de individuos.
∗
Si se deseara una certeza del 99% la fórmula quedaría:
6,6 pq
n=
P2
en donde 6,6 es el cuadrado de 2,58 ya que como se recordará, el intervalo X = 2,58 E.E. cubre el 99%
de las observaciones.
CAPITULO XX
ANALISIS DE LA INFORMACION:
1. Falta de comparabilidad entre los 2 grupos, es decir, que los 2 grupos de pacientes no tenían
características semejantes.
2. Variación explicable por azar, pues según se ha visto, si 2 muestras son obtenidas del mismo
universo, los resultados no siempre serán exactamente iguales.
3. Mayor efectividad de la Penicilina con respecto a la Sulfadiazina.
Ahora bien, para poder concluir que el mejor resultado observado se debe a que la Penicilina es
más efectiva, habrá que descartar primero las otras 2 posibles causas:
Habrá que probar en primer lugar, que los grupos son comparables, pues de no serlo, ello ya sería
una explicación adecuada de las diferencias observadas. Será necesario luego, demostrar que no
es probable que el azar haya producido tales diferencias, pues si ellas pueden explicarse
fácilmente por éste, no sería necesario recurrir a otras explicaciones.
Si por ejemplo, se está estudiando alguna enfermedad cuya mortalidad, depende en parte de la
edad, estado nutritivo y sexo de los pacientes, los 2 grupos deberán estar igualmente constituidos
con respecto a estos factores.
Sucede sin embargo, que aunque igualemos los 2 grupos con respecto a las características que
son conocidas, todavía pueden existir otras características desconocidas que influencian el
fenómeno que se estudia. En tal caso, la única manera de igualar los 2 grupos es mediante el
sistema al azar, el cual, a la larga, tiende a uniformizar su composición, haciéndolos equivalentes.
Si al azar no se ha usado como sistema de elección de los individuos que se estudian, nunca se
podrá estar seguro que los grupos son valederamente comparables y quedará duda si la diferencia
observada en la comparación se debe a una afectividad real del tratamiento o a una falta de
comparabilidad entre los grupos.
CIGARRILLO
FACTOR DESCONOCIDO
CÁNCER
Nuestros actuales conocimientos médicos nos permiten descartar la hipótesis de que el cáncer
induzca al hábito de fumar, pero la tercera de las explicaciones mencionadas todavía sigue en pie.
Si se pudieran formar dos grupos al azar, de tal manera que a los individuos de un grupo se les
ordenará fumar y a los componentes del otro se les prohibiera hacerlo, podría estudiarse del
cáncer en unos y otros y cualquier diferencia encontrada podría atribuirse al cigarrillo, pues el azar
al igualar los grupos, haría una distribución más o menos homogénea de todos los factores,
conocidos o no, que pudieran influenciar la aparición de la enfermedad.
Como tal experimento no es posible, en la primera práctica se toman 2 grupos tan semejantes
como sea posible, pero nunca se puede igualar con respecto a todas las características conocidas
que puedan tener relación con la enfermedad y como es obvio, tampoco aquellas que son
desconocidas. En tales condiciones, de existir un factor desconocido que a la vez produjera el
cáncer y el hábito de fumar, el grupo de grandes fumadores sería a la vez el que tuviera más
cáncer y viceversa, y aunque exista una indudable asociación entre los 2 factores, dicha asociación
no podría interpretarse en el sentido de que el hábito de fumar produce la enfermedad.
Al comparar 2 o más grupos debe tenerse en cuenta que en ocasiones, especialmente cuando las
muestras son muy pequeñas puede suceder que a pesar que el azar haya sido utilizado como
sistema de elección, se presenten ciertas diferencias, debidas exclusivamente al hecho de que los
resultados que se comparan no son realmente comparables.
Vamos a suponer que con el fin de probar la hipótesis de que el estado nutritivo es mejor en las
familias pudientes que en las pobres, se hubieran escogido muestras probabilísticas de 2 escuelas
diferentes: la escuela A en donde asisten solamente niños ricos y la escuela B para los niños
pobres. Supongamos que los resultados hubieran sido los siguientes:
Cuadro 217
Peso de dos grupos de alumnos, por sexo
Escuela A Escuela B
Alumno Sexo Peso Alumno Sexo Peso
1 M 34 1 M 31
2 M 36 2 M 33
3 M 33 3 M 35
4 M 34 4 M 37
5 M 32 5 F 32
6 M 35 6 F 30
7 M 33 7 F 31
8 M 35 8 F 31
9 F 29 9 F 30
10 F 31 10 F 31
11 F 32 11 F 32
12 F 32 12 F 31
El investigador desprevenido, calculará los promedios respectivos para las dos escuelas y al
encontrar que los alumnos de la Escuela A pesan un promedio 1 kilo más que los de la escuela B,
daría por probada su hipótesis de trabajo.
Pero son en realidad comparables los grupos anteriores?. Puede observarse en los datos
precedentes que en la muestra de la Escuela A hay muchos más hombres que mujeres (8 vs. 4) y
que en la Escuela B, sucede lo contrario. Como el peso es una característica que en gran parte
depende del sexo, este factor no debe pasarse por alto al hacer la comparación. Si comparamos
los promedios de los varones para las 2 escuelas y hacemos luego lo mismo con las hembras,
encontraremos:
Este ejemplo ilustra por consiguiente la necesidad de ver primeramente si los grupos que van a
compararse son homogéneos con respecto a las características que tengan en relación con el
problema que se estudia, pues de no serlo, una comparación global de los resultados seria
inadecuada.
Comparar, por lo tanto involucra la existencia de un patrón de comparación con el cual puedan
contrastarse los resultados que estarás tratando de medir. Dicho de otra manera, en todo estudio
en que se pretenda probar que el tratamiento es eficaz, o se trate de determinar causa y efecto, a
lado del grupo experimental, debe haber un grupo control.
Son pocas las ocasiones en que dicho grupo control no es necesario. Así por ejemplo, se ha
señalado que, ningún control fue necesario para afirmar que la Estreptomicina era efectiva en el
tratamiento de la meningitis tuberculosa, ya que la experiencia había señalado que antes del
advenimiento de la droga, la enfermedad era siempre mortal. De la misma manera, cualquier
droga que pueda disminuir la letalidad de la rabia, no necesitar la existencia de un grupo control
para decidir que es efectiva, pues ya sabemos que la enfermedad una vez declarada conduce
inexorablemente a la muerte.
En todas las otras ocasiones, el grupo control es imprescindible y para que él sea conveniente,
debe ser escogido de tal forma, que sea perfectamente comparable con el grupo experimental.
a. control histórico
b. control simultáneo
c. individuo de grupo experimental como sus propios controles
d. el universo como grupo control.
En esta modalidad, los resultados son observados en el grupo experimental y compactados con
aquellos obtenidos en épocas pasadas. Así por ejemplo, si se investiga la acción de una nueva
droga sobre la viruela, la letalidad observada en los pacientes sometidos a nuevo tratamiento, se
compara con la letalidad habitual observas en el pasado en pacientes con dicha enfermedad. Sin
embargo, para que esta comparación fuera valedera, habría que estar seguro de que atrevas de
los años no ha habido ningún cambio marcado en la virulencia de los gérmenes, en la
susceptibilidad de los individuos, ni en las condiciones que favorece la interacción entre gérmenes
y susceptibles. Como nunca tendremos certeza sobre los puntos anteriores, solo si se exceptúa
los casos en los cuales hay grandes diferencias entre el grupo experimental y el control histórico,
queda la duda sobre si dichas diferencias son debidas a la acción del nuevo tratamiento o que los
grupos no son comparables.
Por los motivos anteriores, el grupo control debe escogerse en tal forma, que los individuos que lo
integran sean similares al grupo experimental, en todas aquellas características importantes en
relación con el problema que se estudia. Es necesario que antes de asignar cada individuo al
grupo respectivo, se decida de antemano si él va a ser incluido o no en la investigación, pues en
caso contrario puede llegarse a una selección de la muestra. Hecha esta decisión los individuos se
repartirán por cualquier procedimiento al azar que garantice, su correcta distribución. Entre estos
procedimientos hay tres principales:
2. Pareamiento. Si son dos grupos, se escogen primero pares de individuos que sean tan
semejantes como sea posible, con respecto a determinado número de características (mismo
sexo, misma edad, mismo peso, etc.) y luego, mediante al azar, se determina el grupo al que
pertenecerán los integrantes de cada par. El mismo procedimiento general se aplica cuando
se trata de más de dos grupos.
3. Azar simple. Los individuos se asignan a los grupos mediante el uso de tablas de números al
azar, según lo explicado en el capítulo sobre muestreo. En la práctica, si son, dos grupos, se
prepare una serie de sobres cerrados, la mitad para el grupo control y la otra mitad para el
grupo experimental. Una vez que se decida que el individuo formara parte de la investigación,
se tomara un sobre para decidir el grupo en que se incluirá.
20.2.4 Los mismos individuos como su propio grupo control.
En ocasiones los mismos individuos hacen a la vez de grupo experimental y de grupo control, para
lo cual se hacen determinadas indecisiones en cada individuo, antes y después de aplicarle las
droga que se estudia o de someterlo al estímulo que se investiga. Este método debe utilizarse
siempre que las condiciones de la investigación lo permitan.
Los resultados observados en una muestra que ha sido sometida a un estímulo especial, se
comparan con lo que ocurre en el universo del cual fue extraída la muestra.
Una vez seguros que las muestras son comparables y Antes que tratemos de investigar las
causas de las diferencias observadas, es necesario descartar la influencia del azar, pues ya
sabemos que debido al error por muestreo, habitualmente se observan ciertas diferencias entre
diversas muestras provenientes del mismo universo.
No hay en realidad ningún procedimiento que nos indique con certeza absoluta cuales muestras
proceden de un determinado universo y cuáles no, pero podemos aceptar el criterio de que
aquellas muestras que ocurren con una frecuencia menor al 1% (0 al 5%) son tan improbables
que en ausencia de información al respecto, se considerarán como provenientes de otro
universo.
El problema por lo tanto, se reduce a averiguar con qué frecuencia se presentan las diferentes
muestras, cuando muestras repetidas se extraen de determinados universos.
Ahora bien, se ha señalado que el azar es ordenado y al estudiar el error estándar, concluimos
que:
Dicho de otra manera: si la diferencia entre el promedio de una muestra y el promedio del universo
es mayor que 2 veces el error estándar, tal diferencia solo puede observarse por azar en menos
del 5% de los casos y si dicha diferencia es mayor que 3 veces el error estándar su ocurrencia es
mucho menor al 0.3%.
Por consiguiente, si hemos adoptado el criterio de llamar improbables resultados que se presentan
con una frecuencia menor al 5% designaremos como tales, todas aquellas diferencias mayores a 2
errores estándar. Igualmente, si adoptamos el criterio de llamar improbables solamente aquellos
resultados que se presentan con frecuencia menor al 0.3%, se designaran como tales las
diferencias que exceden a 3 veces el error estándar.
Dichas diferencias, tan improbables en su aparición (menos del 1% o del 5%, según el criterio que
se adopte), se denominan “estadísticamente significantes” o simplemente “significantes”.
El hecho de que clasifiquemos como improbables las muestras qu4e se presentan con frecuencia
menor al 1% o al 5%, es una cuestión arbitraria que debe decidirse de acuerdo a cada problema
particular. Al estudiar el error estándar, señalamos que mientras más exigente nuestro estándar
acerca de lo que es improbable (1% en vez del 5%), más probabilidad hay de fallar en reconocer
diferencias en realidad son verdaderas. Si por el contrario, rebajamos nuestro estándar (5% en
vez del 1%), corremos el peligro de calificar como reales, diferencias que en verdad no lo son.
Recuérdese sección 19.3.
Un resultado se denomina significante cuando no puede explicarse fácilmente por azar, pero esto
no quiere decir que no pueda haber sido producido por él.
De la misma manera, un resultado se cataloga como “no significante”, cuando puede ser fácilmente
producido por el azar, a pesar de que en el caso estudiad este no haya intervenido en su
producción.
Al interpretar estos resultados hay 2 importantes limitaciones que deben tenerse en cuenta:
Son numerosas las pruebas estadísticas utilizadas con la finalidad de medir la influencia del azar y
cada una de ellas suele tener aplicaciones perfectamente definidas. La escogencia de la prueba
más conveniente depende principalmente de los siguientes factores:
a. Número de grupos que se comparan, es decir, según se trata de 2 grupos, o 3 o más.
b. Número de individuos en cada grupo, pues si son pocos, las técnicas son por lo general mucho
más difíciles. Tales pruebas no serán estudiadas en este curso.
c. Escala de clasificación utilizada, pues las pruebas estadísticas son mucho más fáciles cuando la
escala es cualitativa.
d. Grupos independientes o no. Cuando los individuos de un grupo son distintos a los del otro, las
muestras se llaman independientes. En los casos en los cuales los individuos se usan como
grupo control o cuando se escogen por pares semejantes antes de asignarlos al respectivo grupo,
las muestras se llaman dependientes y las técnicas de análisis son diferentes a las del caso
anterior.
Teniendo en cuenta os anteriores puntos, podemos resumir de la manera siguiente, las técnicas de
análisis que serán motivo de los próximos capítulos:
A. Muestras independientes.
Cuadro 225
1140
D.E.= = 71.25 =8.45
16
Se desea saber con un 95% de certeza, si el promedio observado en este grupo se diferencia
significativamente del valor de 70 pulsaciones, considerado como normal.
21.2. Discusión.
DE
n
Esta fórmula se recordará, es el error estándar del promedio, donde “0” es la desviación estándar
de la muestra que se está estudiando, calculada por el método previamente aprendido y “n” el
número de personas estudiadas.
Como ya sabemos que el promedio más o menos 2 EE, determina el límite dentro, del cual está
el 95% de la muestra, solo quedará un 5% fuera de estos límites. Este 5% de muestras tan
diferentes del universo y de aparición poco frecuente, debe considerare proveniente de otros
universos, a no ser que se sepa de ante mano que proviene de él.
𝐷𝐸 8.45
= = 2,11
√𝑛 √16
y por lo tanto, los límites dentro de los cuales estará el 95% de la muestra será:
70 ± 2 (2.11)
es decir, entre 65,78 y 74,22 pulsaciones por minuto.
Gráfico 227
Como el promedio de nuestra muestra (74) se encuentra dentro de estos límites, podemos
concluir que ella proviene de un universo cuyo promedio es de 70,o usando la terminología
estadística, la muestra no difiere significativamente de 70.
a. Puede dividirse la diferencia que existe entre el promedio de la muestra y el promedio del
universo (74-70=4) por el error estándar:
Diferencia 74 − 70 4
= = = 1,89
ErrorEs tan dar 2,11 2,11
y buscar este resultado en Tablas de Áreas de la Curva Normal (ver página 202), para conocer la
probabilidad que existe de encontrar por azar una muestra que como la presente difiera en 4
pulsaciones del valor del universo. En nuestro ejemplo, buscando en tales tablas el valor 1,89
vemos que esta probabilidad es casi 6% y como hemos adoptado el criterio de que un fenómeno
que se presente con una frecuencia mayor del 5% no es improbable, concluiremos como antes,
que nuestra muestra no difiere significativamente de 70.
Una vez obtenido el promedio y la D.E. del grupo que se estudia se seguirá los siguientes pasos:
1. Obtener la diferencia entre el promedio del grupo y el promedio general del universo:
Diferencia = 74 – 70 = 4
2. Obtener el error estándar del grupo que se estudia mediante la fórmula: σ / n , en donde σ es
la desviación estándar de la muestra y n el número de personas que se han observado:
8,45 8,45
E .E . = = = 2,11
16 4
Diferencia 4
= = 1,89
E.E. 2,11
4. Buscar en una tabla de áreas de la curva normal, la probabilidad correspondiente al valor que se
acaba de calcular o simplemente ver si es mayor que 2, según se ha indicado.
Note que si la misma D.E.= 8,45 se hubiera obtenido en una muestra de 25 personas en vez de 16,
entonces se hubiera concluido que el promedio de la muestra difería significativamente del
promedio de 70 pulsaciones.
σ 8,45
E .E = = = 1,69
25 5
Diferencia 74 − 70 4
y = = = 2,4 valor significante ( ∗).
E.E 1,69 1,69
∗
En esta prueba de significancia, al igual que en las otras que se ilustran en próximos capítulos, un resultado se clasificará
como “significante” cuando la probabilidad de que aparezca por azar sea menor al 5% es decir, cuando Diferencia Error
Estándar sea mayor que 1,96. Debe recordarse no obstante, que algunos catalogan como significantes, solamente aquellos
resultados que pueden aparecer por azar 1% o menos de las veces (diferencia / E.E. igual o mayor que 2,58) y como “no
significantes” cuando su aparición es igual o superior al 5%. Si se adopta este criterio, toda diferencia que se presente con
una frecuencia entre el 1% y el 5% (diferencia / Error Estándar entre 1,96 y 2,58), se catalogará como resultado de
De una manera general, la fórmula DE / n señala, que el error estándar es directamente
proporcional a la desviación estándar e inversamente proporcional a la raíz cuadrada de tamaño de
la muestra. Mientras mayor el tamaño de ésta, menor será el error estándar y más probabilidades
habrá de que determinada diferencia sea significante.
“significancia dudosa”, lo cual quiere decir que la decisión debe ser aplazada hasta que haya más evidencia disponible.
Aunque este proceder es aparentemente acertado, parece una cautela innecesaria si se tiene siempre presente lo expuesto
en la sección 20.31 a propósito de la interpretación de la Significancia Estadística (véase página 222).
CAPITULO XXII
COMPARACIÓN ENTRE EL PORCENTAJE DE UNA MUESTRA Y EL DEL UNIVERSO
En una epidemia de viruela mayor se presentaron 80 casos de los cuales murieron 24, o sea que
hubo una letalidad del 30%.
Como la fatalidad usual para esta enfermedad es 25%, se desea saber con un 95% de certeza, si
la diferencia del 5% que se observa (30-25=5) puede ser explicada por azar.
22.2 Discusión.
p´q´
n
Esta fórmula es “error estándar de un porcentaje” en la cual:
Se notará que esta es la misma fórmula estudiada en el capítulo XIX, pero mientras allí
utilizábamos los valores p y q de la muestra, por no conocer los del universo, ahora usamos p´ y q´,
es decir los correspondientes valores del universo, ya que siendo ellos conocidos, no es necesario
estimarlos a partir de la muestra,
p´q´
en nuestro ejemplo, el valor
n
es igual a 4,8% y según el criterio adoptado anteriormente, los límites de no - significancia estarán
entre:
25% ± 2(4,8) , es decir, entre 15,4% y 34,6%.
Gráfico 231
Como la letalidad del 30% observada en nuestra muestra se encuentra dentro de estos límites, se
puede concluir que la observada diferencia del 5%, muy posiblemente fue obra del azar.
En igual forma que el ejemplo del capítulo anterior, hay dos procedimientos alternativos:
a. Dividir la diferencia que existe entre el universo y la muestra por el correspondiente error
estándar:
Diferencia 30 − 25
= = 1,04
ErrorEstándar 4,8
y buscar en Tablas de Áreas de la Curva Normal (véase página 202), la probabilidad que existe de
encontrar por azar una muestra que difiera de su universo en el porcentaje observado. En nuestro
ejemplo, la probabilidad correspondiente a 1,04 es aproximadamente 30%, o sea, que 30 veces de
cada 100, se encontrarán por azar, diferencias como la observada, lo cual desde luego, es una
ocurrencia demasiado frecuente, para considerar significante.
b. De una manera más breve, cuando no se está interesado en hallar la probabilidad de tal suceso,
sino en saber simplemente si la diferencia es o no significante, se dividirá dicha diferencia por el
error estándar y si el resultado es mayor que 2, se concluirá que es significante. En nuestro caso,
Diferencia 30 − 25
= = 1,04
ErrorEstándar 4,8
En nuestro ejemplo:
p´q´ 25 × 75
E.E = = = 4,8
n 80
Diferencia 30 − 25 5
= = = 1,04
Estándar 4,8 4,8
22.4 Observaciones.
a. Si en vez de porcentajes estuviéramos usando por ejemplo, tasas por 1.000, el procedimiento
sería el mismo, recordando tan sólo que p`+ q´ = 1.000.
250 × 750
E .E = = 48 ; y,
80
Diferencia 50
= = 1.04 , como anteriormente.
E.E 48
b. Lo mismo que en el ejemplo del capítulo XXI, mientras mayor el tamaño de la muestra, mayor
será la probabilidad de encontrar significancia estadística. Si la muestra hubiera sido cuatro veces
mayor, el error estándar se hubiera reducido a la mitad:
25 × 75
E.E = = 2,4 ; y, entonces:
320
Diferencia 30 − 25
= = 2,1
E.E 2,4
valor significante que indicaría que la diferencia observada no es fácilmente explicable por el azar,
y entonces cabría suponer que el actual brote epidémico es de una gravedad mayor que la usual, o
que el tratamiento últimamente empleado no es tan efectivo como el antiguo. En fin, la evidencia
estadística se reunirá a cualquiera otra disponible con el fin de hacer las correspondientes
deducciones.
CAPITULO XXIII
Supongamos que al mismo tiempo se estuvieran estudiando 16 mujeres, con los resultados que a
continuación aparecen.
Cuadro 235
Pulsaciones por minuto en 16 mujeres normales
1.232
Pr omedio = = 77
16
618
D.E. = = 38,62 = 6,21
16
Se desea saber si el promedio de pulsaciones para los hombres difiere significativamente del de
las mujeres o si la diferencia observada es fácilmente explicable por el azar.
23.2 Discusión.
Aunque no hubiera ninguna distinción entre hombres y mujeres con respecto al número de
pulsaciones por minuto, no quiere esto decir que los promedios de las dos muestras tengan que
coincidir exactamente. En efecto, si repetidos pares de muestras de 16 individuos cada una, se
extraen del mismo universo, en cada par se podrá computar el promedio para la primera y para la
segunda muestras X 1 y X 2 respectivamente. La diferencia entre estos dos promedios (-) será
unas veces cero y otras veces mayor o menor. De todas maneras, diferencias muy grandes,
positivas o negativas serán extraordinariamente raras.
Estas diferencias se distribuirán en forma de una curva normal centrada en 0 (cero) y con una
desviación estándar dada por la fórmula:
Como ya sabemos que el promedio más o menos 2 errores estándar incluirá el 95% de las
muestras, sólo se considerarán como provenientes de diferentes universos, diferencias ( X 1 - X 2 )
que se encuentran fuera de los límites determinados.
En nuestro ejemplo: el valor (E.E )12 + (E.E )22 , calculado por el método que luego se explicará,
es igual a 2,6 y por lo tanto, los límites dentro de los cuales estará el 95% de las diferencias entre
pares de muestras procedentes del mismo universo será:
Gráfico 237
Como la diferencia entre los promedios de las dos muestras que estamos estudiando (77-74=3) se
encuentra dentro de estos límites, se concluye que la diferencia observada no es significante.
Alternativamente del mismo modo que hicimos en los problemas anteriores, podemos:
a. Dividir la diferencia de los dos promedios (77-74=3) por el error estándar de la diferencia:
Diferencia 3
= = 1,1
E.E 2,6
CAPITULO XXIV
En un hospital se trataron por el método clásico, 80 casos de viruela mayor, de los cuales murieron
24, una letalidad del 30%. Otros 120 pacientes fueron sometidos a un nuevo tratamiento, sobre
cuya efectividad existía favorables indicios, En este último grupo fallecieron 30 pacientes, una
letalidad del 25%. Se desea saber si la diferencia del 5%, observada entre los dos grupos de
pacientes, puede ser atribuida al azar o si se debe buscar otra explicación.
Cuadro 240
Viruela, Casos y Defunciones, por tratamiento
24.2 Discusión
Si una muestra de 80 y otra de 120 fueran tomadas del mismo universo de pacientes, aunque el
tratamiento no tuviera efecto, la diferencia entre las dos tasas de letalidad no sería necesariamente
0 (cero).
po qo po qo
(E.E) p1-p2 = +
n1 n2
La fórmula anterior llamada “error estándar de la diferencia entre dos porcentajes” y cuya
aplicación luego veremos, nos da en nuestro ejemplo un valor igual a 6.4%.
Gráfico 241
Como X ± 2 E.E incluye 95% de las muestras, tomando E.E a cada lado del promedio,
encontraremos que diferencias entre muestras, que se encuentran entre – 12.8% no se
consideran como significantes y por consiguiente la diferencia de 5% observada entre nuestros dos
grupos de enfermos (30%-25%=5%), puede haber sido producida por el azar.
Diferencia 5
= = 0.78
E.E 6.4
buscar la probabilidad que existe de encontrar por el azar una diferencia como la observada.
La probabilidad correspondiente a 0.78 es de 43% es decir, que de cada 100 veces habrá 43 en
las cuales puede encontrarse por azar una diferencia como la anotada. Fenómenos que se
presentan con esta frecuencia no son raros y por consiguiente, podemos concluir que no hay
evidencia suficiente para afirmar que un tratamiento sea mejor que el otro.
1) Los datos deben colocarse como en el cuadro de la página anterior, con el fin de saber
cuántas defunciones ocurrieron en los dos grupos juntos y conocer cuál fue la letalidad en el total
de pacientes. Como en el total hubo 200 pacientes, de los cuales murieron 54 la letalidad conjunta
fue del 27% es decir:
54 × 100
= 27%
200
Como no se conoce la letalidad del universo, esta letalidad conjunta de 27% se tomara como una
buena estimación de aquella. Ella será p o , la probabilidad que un paciente muera y por lo tanto,
qo , la probabilidad que un paciente no muera, será igual a 100-27= 73%.
po qo po qo
+
n1 n2
En el cual:
En nuestro ejemplo:
27 × 73 27 × 73
(E.E.) p1− p 2 = + = 6.4
80 120
3) Se averigua la diferencia entre la letalidad del primer grupo de pacientes y la del segundo:
4) Dicha diferencia se divide por el “Error estándar de la diferencia” encontrado en el punto (2), es
decir:
Diferencia 30 − 25 5
= = = 0.78
E.E 6.4 6.4
5) Si el anterior valor es menor que 2 se concluirá, como en el caso presente, que la diferencia
observada en la letalidad de los dos grupos de pacientes, no es significativa.
24.4 Observaciones.
p1 q1 p 2 q 2
+
n1 n2
Considérese como ilustración de lo anterior los siguientes datos teóricos sobre 100 pacientes.
Cuadro 244
po qo po qo 19 × 81 19 × 81
E.E= + = + = 9.8
n1 n2 80 20
Diferencia 35 − 15
= = 2.1 significante.
E.E 9.8
p1 q1 p 2 q 2 15 × 85 35 × 65
E.E.= + = + = 11.3
n1 n2 80 20
Diferencia 35 − 15
= = 1.8 no significante
E.E. 11.3
CAPITULO XXV
CHI CUADRADO X
25.1 Introducción
La curva normal solo puede usarse cuando son dos los grupos que se comparan.
Cuando quieren compararse 3 o más muestras, su aplicación es incorrecta a causa del siguiente
hecho: “Al comparar 2 grupos, si tomamos 2 E.E., tenemos un 95% de certeza en nuestras
afirmaciones y podemos estar equivocados en el 5% restante de los casos. Si comparamos 3
grupos, A, B, C, por el mismo procedimiento, habría que hacer tres comparaciones diferentes, A, vs
B, A vs C, y B vs C y como en cada comparación se puede cometer el 5% de error, el error global
cometido podría alcanzar el 15%. Si fueran 4 los grupos estudiados, habría 6 comparaciones
diferentes y el error que pudiera cometerse alcanzaría al 30%.
Cuando se desea comparar más de dos grupos, no puede aplicarse por lo tanto, las pruebes de
significancia estudiadas hasta ahora.
Si se quisiera comparar los promedios de varios grupos de individuos, habría que recurrir al
llamado Análisis de la Variancia, cuya técnica por ser muy complicada, no se estudiara, aunque en
el próximo capítulo ilustremos un procedimiento sencillo que permite hacer correctamente tales
comparaciones.
Cuando lo que se quiere comparar es una serie de porcentajes tasa, puede recurrirse a la llamada
“Prueba de Chi Cuadrado”, cuya aplicación general se ilustrara en el siguiente ejemplo.
Tres drogas diferentes se ensayaron para el tratamiento del catarro común midiéndose su
efectividad de acuerdo al porcentaje de pacientes que mejoraron dentro de las 24 horas siguientes
a la iniciación del tratamiento. Los resultados de dicho tratamiento aparecen resumidos en el
siguiente cuadro:
Cuadro 247
Se desea saber si las diferencias observadas se deben a distinta efectividad de los tratamientos
empleados o si ellas pueden explicarse razonablemente por el azar.
25.3 Discusión
El porcentaje general de curaciones para los 3 grupos tomados en conjunto fue de 20% (60 ×
100/300=20%). Si tomamos dicho porcentaje como una buena aproximación de lo que sucede en
el universo de donde proceden los pacientes que se estudian podemos darnos cuenta que si los
tres tratamientos fueran eficaces en igual grado, el porcentaje de curaciones en cada uno de ellos
fuera del 20% en vez de 24%, 18%, y 21% como se ha observado en los datos del problema.
Por lo tanto, asumiendo un porcentaje de curación de 20% para cada uno de los grupos, se podría
calcular el número de pacientes que debiera mejorar con cada tratamiento.
Así por ejemplo, en los pacientes del primer grupo, él número de curaciones seria 10 de las 12
observadas (20% de 50=10) y él número de persona s que no curaron seria c40, es decir 50 – 10 =
40.
Igualmente de los 150 pacientes que recibieron la droga B, debieron curar 30 (20% 150 = 30) y de
los que recibieron la droga C, debieron haber curado 20 en vez de 21 que curaron.
Estas frecuencias teóricas (T) junto con las frecuencias observadas (O) en el experimento servirán
de base para el cálculo de Chi Cuadrado.
En el siguiente cuadro se resumen los cálculos necesarios para la obtención de X 2 los cuales se
explicaran a continuación.
Cuadro 248
1. Se obtendrán las frecuencias teóricas (T) correspondientes a cada una de las casillas del
cuadro lo cual se logra según se acaba de explicar multiplicando el porcentaje global del
cuadro por el total de pacientes en cada tratamiento. El mismo resultado puede obtenerse,
multiplicando para cada cifra observada (O), los dos subtotales que le son comunes y
dividiendo por el total general del cuadro. Así por ejemplo (véase en el cuadro 247) los dos
subtotales para los 12 pacientes que curaron con la droga A, son: 50 y 60 y por consiguiente la
respectiva frecuencia teórica será:
50 × 60
= 10
300
Igualmente para los 27 pacientes que curaron con la droga B los subtotales correspondientes son:
60 y 50 y la frecuencia teórica será:
60 × 150
=30
300
Estas frecuencias teóricas aparecen en las columnas 3 y 7 del cuadro anterior
2. Se restara cada valor observado (O) el correspondiente valor teórico (T) acabado de calcular
(columnas 4 y 8)
3. Cada una de las diferencias anteriores (O- T) se elevara al cuadrado y se dividirá por la
respectiva frecuencia teórica, o sea:
(O − T ) 2
X2 =∑
T
El cual en nuestro ejemplo dará:
25.5 Interpretación de χ2
a. Sin tomar en cuenta los totales, se ven cuántas columnas (c) y cuantos renglones (r ) tiene la
tabla.
b. Multiplicando:
gl = (c – 1 ) x (f – 1 ); donde:
calcularse, se buscará en tablas especiales que existen para ello. En la práctica lo que
generalmente interesa es saber si las diferencias observadas entre los grupos son fácilmente
explicables por azar o no.
Si aceptamos el criterio de llamar significante toda diferencia que por azar pueda ocurrir sólo 5
veces o menos en 100 experimentos análogos, bastará conocer qué valor debe alcanzar χ
2
para poderse llamar significante. En la tabla siguiente aparecen algunos de dichos valores
ordenados de acuerdo al correspondiente grado de libertad.
En nuestro ejemplo encontramos que con 2 grados de libertad χ = 0,93. Como este valor está
2
muy por debajo de 6,0 - valor dado por la tabla – concluimos que las diferencias observadas son
fácilmente explicables por azar y no hay necesidad de recurrir a otras explicaciones.
Cuadro 251
Valores de la distribución de X²
25.6 Relación entre χ2 y la Curva Normal.
Todos aquellos casos en que se comparan 2 grupos mediante la Curva Normal, pueden
compararse también mediante Chi Cuadrada.
Diferencia 0.78
Error Estándar
√ x² = Diferencia
Error Estándar
0.608 = (0.78)²
Debe recordarse que la anterior relación solamente es cierta cuando χ 2 tiene 1 grado de libertad.
CAPITULO XXVI
COMPARACION ENTRE LOS PROMEDIOS DE TRES O MAS MUESTRAS INDEPENDIENTES.
26.1. Introducción.
Con el fin de hacer correctamente comparaciones entre los promedios de tres o más muestras se
utiliza la técnica de Análisis de la Variancia. Dicha técnica no está al alcance del estudiante
corriente, pero en su lugar puede utilizarse la llamada prueba de Kruskal-Wallis, de aplicación
sencilla y cuyos resultados son casi equivalentes a los del Análisis de la Variancia.
Esta prueba consiste en dar un número de orden a cada una de las observaciones y calcular el
valor “H” el cual puede interpretarse con la tabla de χ2.
Con el fin de no distraerse en los cálculos aritméticos, supóngase que se ha tomado la estatura de
los alumnos de cuatro escuelas diferentes y se desea saber si los cuatro promedios difieren
significativamente o si tales diferencias pueden explicarse fácilmente por el azar.
1. Sin tomar en cuenta el grupo al que pertenece, se dará a cada observación un número de
orden de uno en adelante, empezando por la menor y terminando por la mayor. Cuando hay
varias observaciones iguales, a cada una se le dará el promedio del número que corresponda.
Note en el cuadro siguiente que la menor estatura observada fue 135 y a ese individuo se le
dio el número 1. Luego aparece un escolar con 136, a quien corresponde el 2 y otro de 137, a
quien corresponde el número 3. Hay en seguida tres escolares de 138 centímetros, a quienes
corresponderán los puestos 4, 5 y 6 pero no miden exactamente igual, se tomó el promedio de
estos tres números (15/3 = 5) y a cada uno se le dio un valor de 5. Desde luego, el próximo
valor (140 cm) no será 6 sino 7 pues los 3 valores con 5, que representan los escolares
cuarto, quinto y sexto.
Cuadro 254.
Estatura en centímetros de los alumnos de cuatro escuelas.
(Cálculo de la prueba de Kruskall-Wallis).
2. Para cada escuela separadamente se suman los números de orden acabados de calcular
(valores T1 del cuadro anterior).
Como indica la fórmula, cada una de las sumas (T1) debe elevarse al cuadrado y dividirse por el
número de escolares en la respectiva escuela y luego sumar los resultados de tales divisiones.
Para que el valor “H” con tres grados de libertad sea significante cuando se desea un 95% de
certeza, la tabla de x² muestra que debe exceder a 7.8. Como nuestro valor calculado fue 3.42,
el cual está muy por debajo del valor d la tabla, concluimos que las diferencias en la estatura
entre las cuatro escuelas, muy posiblemente se deban al azar.
CAPITULO XXVII
COMPARACION ENTRE DOS MUESTRAS NO INDEPENDIENTES.
271. Generalidades.
Cuando los individuos que se estudian sirven como su propio control como en el caso en el cual se
le toma a cada individuo determinada medición “antes” y “después” de cualquier tratamiento, o
cuando con fines comparativos dos métodos diferentes se aplican a los mismos individuos, es claro
que en tales ocasiones, los valores que quieren compararse no son independientes. Así por
ejemplo, sin con el fin de evaluar la acción hipertensiva de una droga se toma la presión arterial a
un grupo de individuos “antes” y “después” de su aplicación, naturalmente que los valores después
de aplicada la droga dependerán de la tensión original, pues una persona cuya tensión sistólica
original sea de 150, posiblemente ascienda a 180, pero es dudoso que quien tenga inicialmente
una tensión de 100, presente luego un valor de180. Los métodos apropiados para hacer estas
comparaciones son algo distintos de los estudiados hasta ahora y lo mismo que en el caso de las
muestras independientes, debe tenerse en cuenta si los resultados se han resumido mediante
promedios o porcentajes.
Los resultados, copiados de los cuadros 225 y 235 son los siguientes:
Cuadro 257
Pulsaciones por minuto en 16 individuos normales, antes y después de la aplicación de la Droga
“A”
(Cálculo del promedio y de la D.E. de los “cambios” observados)
Si se considera erróneamente que las mediciones antes y después de la inyección de la droga son
independientes, se aplicaría la prueba estadística vista en el Capítulo XXIII a propósito de la
comparación de 16 hombres y 16 mujeres.
En tal caso:
y conforme ya se vio:
Para hacerse esta prueba debe trabajarse con los “cambios” observados de la manera siguiente:
a. Buscar los cambios observados, restando para cada individuo el valor observado “Después” de
la aplicación de la droga, el que se observó “Antes” de que ésta hubiera sido aplicada. Debe
tenerse cuidado en conservar los signos (+) y (-).+
b. Sumar estos valores tomando en cuenta los signos algebraicos y dividir por el número de
individuos estudiados para obtener el promedio de los cambios (X = 48/16=3).
Note por ejemplo, que el tercer individuo presenta un descenso en las pulsaciones (-3) y al restar a
esta cifra el promedio (3), se obtiene:
-3 – (3) = - 6
d. Elevar al cuadrado cada desviación y sumar la columna correspondiente para obtener la
desviación estándar por el método conocido:
Xe = Xd – Xa = (77 – 74) = 3
Entonces:
Note que la prueba correcta señala que las diferencias observadas son significantes, mientras que
si se hubiera utilizado incorrectamente la prueba para muestras independientes, habríamos
concluido que tales diferencias no eran estadísticamente significantes.
Muchas veces se evalúa la eficacia de una nueva técnica diagnóstica comparando los resultados
que se obtienen con ella, con aquellos que se obtienen en lo mismo individuos con la utilización de
otra técnica de reconocida eficiencia.
Si a cien niños se les hubiera aplicado PPD intradérmica en un antebrazo y PPD por escarificación
en el otro para determinar cuál procedimiento es mejor, no se obtendrían todas las ventajas de
este experimento si nos contentáramos con averiguar el porcentaje de niños positivos a cada una
de las pruebas.
Por lo tanto, la presentación de tales datos, no sería correcta en tal forma, ni tampoco sería
correcta aplicar la prueba de significancia estadística estudiada en el capítulo XXIV, como si se
tratara las muestras independientes.
Cuadro 260
Resultado Porcentaje de
Vía de ubicación Total
Negativo Positividad positividad
Intradérmica 30 70 100 30,0
Escarificación 20 80 100 20,0
Total 50 150 200 25,0
25x75
( E.E.)1 = = 4.33
100
25x75
( E.E.) 2 = = 4.33
100
Diferencia 30 − 20
= = 1.63 no significante
E.E. 6.12
27.3.2 Comparación correcta
Con el fin de comparar correctamente los resultados del experimento anterior, ellos deben
presentarse de tal manera, que se pueda averiguar cuantos niños fueron positivos o negativos a
las dos reacciones a la vez y cuántos de quienes dieron positividad a una reacción fueron
negativos a la otra o viceversa.
Contraste el cuadro anterior, que no permite conseguir tal información, con el siguiente que sí la
suministra:
Cuadro 261
Escarificación
Intradérmico Total
- +
+ 16* 14 30
- 64 6* 70
Total 80 20 100
Puede apreciarse que la diferencia de 10% entre 30% de positividad al PPD intradérmico y el 20%
de positividad al escarificado, se debe al hecho de que hubo 16 individuos positivos a la primera
prueba y negativos a la segunda, mientras que solo hubo 6 niños positivos a la escarificación y
negativos a la reacción intradérmica, es decir:
Si los niños hubieran estado divididos en 11 y 11, entonces las dos pruebas diagnósticas habrían
mostrado la misma positividad. Puede averiguarse por lo tanto, si la discordancia anterior es
significante, comparando con 50% cualquiera de los 2 porcentajes anteriores. Pues observe que
72.7% - 50% = a 22.7% e igualmente 50% - 27.3% = 22.7%. Para efectuar la prueba estadística,
simplemente:
a. Calcule el error estándar correspondiente a los 22 individuos en los cuales las pruebas no
.
concordaron, tomando p = 50%, o sea:
b. Divídase por este error estándar, la diferencia entre cualquiera de los 2 porcentajes en
discordancia y 50%, o sea:
50% − 27.3% 22.7
= = 2.13 significante.
E.E. 10.65
Mientras que la prueba correcta que se acaba de efectuar muestra una diferencia significante entre
el PPD intradérmico y el escarificado, la prueba incorrecta nos llevaba a una conclusión contraria.
En lugar de la prueba acaba de explicar, puede utilizarse la prueba de Mc. Nemar que consiste en
calcular Chi Cuadrado, en base, solamente a los valores en los cuales las dos reacciones no
concuerdan:
Wasserman
Kahn
- +
+ A B
- C D
( A − D) 2
X2 =
A+ D
o sea, con los datos del ejemplo anterior:
(16 − 6) 2 10 2
X2 = = = 4.5
(16 + 6) 22
2
Buscando este valor en la tabla de X (cuadro 251) vemos que es significante, conclusión
idéntica a la alcanzada con la prueba aplicada en la sección anterior (27.3.2)
Note de paso:
(2.13) 2 = 4.5
2
lo cual confirma nuevamente, que cuando x tiene solamente un grado de libertad, entonces:
Diferecia 2
( ) = X2
E.E.
AJUSTE DE TASAS (Tasas corregidas o estandarizadas)
Al querer comparar dos o más poblaciones que difieran en su composición por edad, sexo o raza,
deben tenerse en cuenta estos factores para que la comparación sea correcta.
Así por ejemplo, la tasa cruda de mortalidad en dos poblaciones puede diferir exclusivamente por
el hecho de que en una de ellas la población sea más vieja que en la otra, a pesar de que las tasas
específicas por edad sean semejantes.
Desde luego que una comparación correcta podría hacerse comparando una a una las tasas
específicas, por edades, pero cuando se desea resumir el estudio en una simple cifra, es necesario
recurrir a un procedimiento que elimine la influencia del factor que está viciando la comparación.
Para tal fin, son de utilidad las tasas corregidas.
Aun cuando la explicación que sigue se refiere concretamente a la corrección de tasas por edades,
el procedimiento es el mismo para la corrección de tasa por sexo, raza, etc. Pueden inclusive
presentarse tasas corregidas simultáneamente por edad y sexo o por edad y raza; según se
requiera.
Población estándar
Para él cálculo de las tasas corregidas se requiere una población estándar, sin que tenga mayor
importancia la población que se escoja como tal.
Si se comparan dos ciudades, la población estándar puede ser la suma del número de sus
habitantes o puede escogerse una de ellas como población estándar.
Si la comparación es entre varias ciudades de un mismo país, puede escogerse la población del
país como estándar.
a) Método directo
b) Método indirecto
El método directo equivale a preguntarse cuál sería la mortalidad de la región que se estudia si
ella tuviera la misma composición etaria que la población estándar o cual sería la tasa cruda de
mortalidad de las dos o más regiones que se comparan, si ellas tuvieran la misma composición
etaria.
El método indirecto equivale a preguntarse cuál sería la mortalidad de la región que se estudia, si
ella estuviera sometida a las mismas tasas de mortalidad por edades de la población estándar.
Método directo.
Con el fin de facilitar la verificación de los cálculos tomemos el siguiente ejemplo teórico, en donde
se comparan los datos de dos poblaciones: la primera una población joven en progresión y la otra,
una población vieja, estacionaria.
Cuadro 1
Mortalidad Mortalidad
Grupos de por 1.000 por 1.000
edad Habitantes Defunciones habitantes Habitantes Defunciones habitantes
(1) (2) (3) (4) (5) (6) (7)
- 15 años 40.000 400 10,0 30.000 270 9,0
15 – 49 años 50.000 300 6,0 50.000 250 5,0
50 y + años 10.000 200 20,0 30.000 540 18.0
Todas las 100.000 900 9,0 110.000 1.060 9,6
edades
Puede verse en el cuadro que antecede que a pesar que las tasas por edad son menores en San
Juan, su tasa cruda de mortalidad es mayor que la de san Pedro, lo cual se debe desde luego, a
que en la primera ciudad hay un número mayor de personas de 50 y más años, edades en donde
la mortalidad es mayor.
Para la corrección de tasas por el método directo puede seguirse cualquiera de los dos siguientes
procedimientos.
2) Averiguar el número de muertes que se habrían producido en esta población si ella hubiera
estado sometida a las tasas de mortalidad de cada grupo de edad de la primera de las
ciudades que se estudian. Para ella se multiplicara el número de habitantes en cada grupo
etario de la población estándar por la tasa correspondiente observada en la primera ciudad
(columna 2 x 3. La suma de estos productos será el total de muertes teóricas para la
primera ciudad.
3) Repetir el paso anterior utilizando las tasas de la segunda ciudad (columna 2 x 5).
4) Dividir las muertes teóricas obtenidas en los dos pasos anteriores (total de columnas 4 y
6) por la población estándar total y dichos resultados representaran las tasas corregidas
para las ciudades que se estudian.
Cuadro 2
Cálculos para la corrección de tasas por el método directo, utilizando como población
estándar, la suma de los habitantes de las 2 ciudades
2.100
Para San Pedro * 1.000 = 10.0 por 1.000 habitantes
210.000
1.850
Para San Juan * 1.000 = 8,8 por 1.000 habitantes
210.000
Las tasas anteriores señalan, que se las dos poblaciones hubieran tenido una distribución etaria
semejante, la tasa cruda de mortalidad de San Juan habría sido inferior a la de San Pedro y no
superior como lo es en el ejemplo. De hecho, la tasa de San Juan es:
8,8 * 100
= 88% de la de San Pedro
10
Segundo procedimiento. Un habitante de San Juan podría preguntarse cuál sería la tasa de
mortalidad de su ciudad, si ella tuviera la misma distribución etaria de San Pedro. En este caso
podemos tomar como población estándar la de San Pedro.
Cuadro 3
Cálculos para la corrección de tasas por el método directo, tomando como población
estándar la de la ciudad de San Pedro
SAN JUAN
Habitantes en la
Grupos de edad Mortalidad por 1.000 Mortalidad teórica
población estándar
habitantes (2)*(3)
(1) (2) (3) (4)
- 15 años 40.000 9 360
15 – 49 años 50.000 5 250
50 y + años 10.000 18 180
Todas las edades 100.000 790
La tasa corregida para San Pedro, que ha sido tomada como población estándar, será su misma
tasa cruda de mortalidad (9 x 1.000). La tasa corregida para San Juan será:
790 * 1.000
= 7,9 x mil habitantes
100.000
7,9 * 100
= 88% de la de San Pedro
9
Método indirecto
Los siguientes pasos esquematizados en el cuadro 369 resumen los correspondientes cálculos:
1. Escoger la población estándar y buscar su tasa cruda de mortalidad y sus tasas de mortalidad
por grupos de edad (columna2.
2. Averiguar la distribución por edades de la población de cada una de las ciudades que se
comparan ( columnas 3y5)
3. Averiguar las muertes teóricas que se producirían en la primera ciudad si estuviera sometida a
las tasas de mortalidad de la población estándar. Para ello se multiplica cada una de las tasas
de la población estándar (columna 2) por el correspondiente número de habitantes de la
primera ciudad (columna 3. La suma de estos productos será el total de muertes teóricas en
dicha ciudad (columna 4.
5. En cada ciudad dividir el número total de muertes que realmente ocurrieron por el
correspondiente total de muertes teóricas. Con esto se obtiene un factor correctivo que
expresa la relación entre la mortalidad del aria estudiada y la mortalidad de la población
estándar.
6. Obtener las tasas corregidas para las ciudades que se estudian, multiplicando los valores
encontrados en el paso anterior por la tasa cruda de mortalidad de la población estándar.
Cuadro 4
Cálculos para la corrección de tasas por el método indirecto, utilizando las tasas de
mortalidad de una población teórica.
900
Factor correctivo para San Pedro = 1,10
820
1.060
Factor correctivo para San Juan = 0,86
1.240
Las tasas corregidas para las dos ciudades se obtendrán aplicando los anteriores valores para la
tasa cruda de la población estándar, en este caso 7 x 1000:
6,02 * 100
La tasa de San Juan es: = 78% de la de San Pedro
7,7
Aun cuando el método directo parece mucho más lógico que el indirecto, este último tiene como
ventajas:
2. Cuando las poblaciones son pequeñas, sus tasas de mortalidad pueden presentar grandes
fluctuaciones debidas al azar y en esos casos las tasas de población estándar por ser muy
estables suministran una excelente mortalidad teórica.
Se habrá observado que según la población que se escoja como estándar las tasas obtenidas son
diferentes. Sin embargo, la importancia relativa de dichas tasas, que es lo que importa conocer,
permanece casi inmodificable. Puede verse que los ejemplos que sirvieron de ilustración, a pesar
de que los valores que se encontraron para las dos ciudades variaron considerablemente según el
método y la población estándar utilizada, el cambio relativo fue muy semejante en los tres
ejemplos: 88%, 88% y 78% respectivamente.
Debe tenerse en cuenta que las tasas corregidas no añaden ninguna nueva información a las tasas
de mortalidad especificas por edades. Por el contrario mucha información se pierde y por lo tanto,
ellas no deben sustituir a las tasas específicas, cuyo análisis detallado es mucho más importante
que el dato resumido de una tasa corregida.
Revista Mexicana de Pediatría
Volumen Número Marzo-Abril
Volume 70 Number 2 March-April 2003
Artículo:
edigraphic.com
Trabajo de revisión Revista Mexicana de
Pediatría
MEDIGRAPHIC
Vol. 70, Núm. 2 • Mar.-Abr. 2003
pp 91-99
RESUMEN
Se describen las pruebas no paramétricas resaltando su fundamento y las indicaciones para su empleo cuando se trata de una
sola muestra (Ji cuadrada, binomial, de rachas, Kolmogorov-Smirnov), de dos muestras con datos independientes (U de Mann-
Whitney, Kolmogorov-Smirnov, Moses, o de las rachas de Wald-Wolfowitz), de dos muestras con datos pareados (T de Wil-
coxon, del signo, McNemar), de varias muestras con datos independientes (H de Kruskal-Wallis, de la mediana) y de varias
muestras con datos pareados (Ji cuadrada de Friedman, W de Kendall, Q de Cochran).
SUMMARY
A description of non parametric tests is done. Emphasis about its usefulness when it is studied one sample (chi square, binomial chi,
of runs, Kolmogorov-Smirnov one sample test), two samples with independent data (Mann-Whitney, Kolmogorov-Smirnov of two sam-
ples, Moses or Wald-Wolfowitz), two samples with paired data (Wilcoxon, of the sign, McNemar), several samples with independent
data (Kruskal-Wallis, of the median), or several samples with paired data (Friedman, Kendall, Cochran) it is done.
Key words: Non parametric statistics, non parametric test, uses of statistical methods.
91
Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas
tos que toman diferentes valores, magnitudes o inten- una distribución normal (sesgo de -0.5 a +0.5 y curto-
sidades. En el proceso de medición de ellas se les asig- sis de 2 a 4). 4
nan números o códigos de observación. La manera Desde sus inicios, las computadoras se han utilizado
más aceptada para ordenar y cuantificar una variable, en el manejo de los datos y en ellas se puede hacer uso
propuesta por Stevens, 3 es dividirlas en cualitativas de las técnicas estadísticas, por lo que hay paquetes esta-
(según su calidad o atributo) o cuantitativas (de acuer- dísticos entre los cuales el SPSS (Statistical Package for
do a la magnitud de su medición). Cuando la variable the Social Sciences)® es, quizá, el más usado, con más de
cualitativa no tiene punto de comparación como el tres décadas en el mercado.5
color de los ojos (café, azul, verde, negro) se le deno- El procedimiento estadístico que se usará para el aná-
mina variable cualitativa nominal; cuando hay un de- lisis depende de: 1) El tipo de medida de la variable a
terminado orden como clase social :rop odarobale
(alta, FDP
media, baja), sustraídode-m.e.d.i.g.r.a.p.h.i.c
analizar; 2) La distribución que caracteriza a las medicio-
duración de una enfermedad (aguda, subaguda, cróni- nes de las variables, la homogeneidad de las varianzas en
ca), orden en la VC ed AS,
familia cidemihparG
(primero, segundo, tercero, los grupos de ellas, el impacto de los residuos y el tama-
etc.) se le llama variable cualitativa ordinal. Cuando la ño de la muestra; 3) El poder de la prueba que se usará,
variable cuantitativa sólo se puede medirarap en valores es decir, la capacidad de aceptar o rechazar, correcta-
enteros: como el número de alumnos, el número de mente, la hipótesis nula.6 En el cuadro 1 se presenta una
acidémoiB
partos, el número arutaretiL :cihpargideM
de empleados, se le denomina va- guía para la valoración de los datos estadísticos de carác-
riable cuantitativa discreta, discontinua o de intervalo, ter cuantitativo.
mientras que si la variable se puede expresar en frac- Cuando se pretende probar una hipótesis respecto a
ciones, como peso al nacimiento (3,460 g) o estatura uno o más parámetros de una población que tiende a
(51.3 cm), se les denominan variables cuantitativas una distribución normal, las pruebas usadas son las de la
continuas o de razón y puede ser que los datos tengan estadística paramétrica, como la t de Student. 1 En el
cuadro 2 se presentan las características comunes a es-
tas pruebas paramétricas.7 Por lo contrario, si los pro-
Cuadro 1. Valoración de las características de los datos. cedimientos estadísticos no requieren plantear inferencias
acerca de los parámetros de la población (su media y dis-
1. Determinar el nivel de medida de la variable de interés. persión) se le conoce como no paramétricos, o de dis-
2. Valorar la distribución de las variables. tribución libre (ya que no se hacen suposiciones acerca
• Medidas de tendencia central para cada variable. de la distribución de la población de donde procede la
• Sesgo y curtosis para cada variable.
muestra. En el cuadro 3 se presentan las características
• Valoración visual de la distribución de los datos.
• Examinar los diagramas de las probabilidades de la distri-
que son comunes a las pruebas de hipótesis no paramé-
bución. tricas.6-10
• Si se considera necesario transformar las variables. Con las pruebas no paramétricas se puede trabajar
• Ver los resultados de la transformación. con muestras pequeñas de datos categóricos u ordinales,
3. Ver la homogeneidad de las varianzas. independientemente de la distribución de las muestras
4. Ver el tamaño de muestra total y de los subgrupos. que se desea contrastar.6 Moses8 considera que las prue-
5. Determinar qué prueba estadística paramétrica o no para- bas no paramétricas: 1) Son más fáciles de aplicar; 2) Son
métrica es la más adecuada. aplicables a los datos jerarquizados; 3) Se pueden usar
cuando dos series de observaciones provienen de distin- Distribución de frecuencias observadas y esperadas
tas poblaciones; 4) Son la única alternativa cuando el ta-
maño de muestra es pequeño; y, 4) Son útiles a un nivel
de significancia previamente especificado. En el cuadro 4 Invalidez Invalidez Funcionamiento Mejoría
se pueden ver las características más importantes de las total parcial normal funcional
pruebas no paramétricas. Frecuencias 31 casos 45 casos 73 casos 106 casos
En términos generales, se puede considerar que aun- observadas
que la potencia de las pruebas estadísticas paramétricas (Fo)
es mayor que la que ofrecen las pruebas no paramétri- Frecuencias 25.10% 30.87% 29.22% 14.81%
cas, ya que con ellas es la probabilidad de rechazar la hi- esperadas de 255 = de 255= de 255 = de 255 =
pótesis nula cuando ésta realmente es falsa (error de (Fe) 64 casos 79 casos 74 casos 38 casos
tipo II: 1-β), es conveniente comentar que el adecuado
tamaño de muestra es un requisito indispensable para
Tercero: Cálculo del valor de χ2 mediante la fórmula:
aumentar la eficacia de una prueba: a medida que au-
menta el tamaño de muestra, disminuye la posibilidad de
χ2 = Σ ( o-e )2
cometer el error de tipo II.9 En el cuadro 5 aparecen al-
e
gunas de las pruebas paramétricas más usadas y sus al-
ternativas no paramétricas.6,9,10 y en el cuadro 6 se En donde : o = frecuencia observada en una modalidad
resumen las indicaciones de las pruebas estadísticas no e = frecuencia esperada en la misma
paramétricas. modalidad
son 3 grados de libertad (número de columnas menos Segundo. Conocer el número total de casos observa-
uno); así, en la tabla de χ2 al cruzar renglón de los grados dos (N).
de libertad con las columnas de los niveles de significan- Tercero. Conocer la frecuencia de las ocurrencias en
cia al 0.05 se obtiene un valor crítico de p=0.05 de 7.81 cada una de las categorías
y al 0.01 es de 11.34. En vista de que el valor calculado Cuarto. Se habla de valores binomiales, con una N de
de la ji cuadrada rebasa, en ambos casos, los valores crí- 2-30, k de 0-30 y p desde 0.01 a 0.50.
ticos de las tablas al nivel de 5 % y 1 %, se puede recha- Quinto. Si la probabilidad asociada con el valor obser-
zar la hipótesis nula ( Ho: Fo = Fe ) con una p < 0.01. vado de valores aún más extremos, es igual o menor al
de alfa se rechaza la hipótesis nula.12-16
Conclusión. Existen diferencias en la frecuencia de pa- Alternativa. Debido a que se utilizan sólo datos cate-
cientes ubicados en las diversas modalidades de los resul- góricos no hay opción. Si la variable de la prueba no es
tados obtenidos con la técnica quirúrgica nueva respecto a dicotómica, por lo que se requiere considerar más de
las frecuencias que se encontrarían en las mismas modali- dos categorías, se deberá usar la Ji cuadrada para bondad
dades si se hubiera aplicado la técnica quirúrgica usual, al de ajuste.
menos en el caso de estos 255 pacientes intervenidos.
Prueba de las rachas
Prueba binomial
La prueba de las rachas mide hasta qué punto en una va-
La prueba binomial compara las frecuencias observadas en riable dicotómica la observación de uno de sus atributos
cada una de las dos categorías de una variable dicotómica puede influir en las siguientes observaciones; es decir, si el
con respecto a las frecuencias esperadas bajo una distribu- orden de ocurrencia en la observación de uno de los atri-
ción binomial que tiene un parámetro de probabilidad es- butos de una variable dicotómica ha sido por azar. 12-16
pecífico que, por defecto, para ambas categorías es 0.5. Una racha es una secuencia de observaciones de un mis-
Para cambiar las probabilidades se puede ingresar una mo atributo o cualidad. Una serie de datos en los que
proporción de la prueba para el primer grupo por lo que hay muchas o pocas rachas, hacen pensar que éstas no
la probabilidad para el segundo será 1 menos la probabili- han ocurrido por azar.
dad especificada para el primero. La prueba está basada Alternativa. Para probar que dos muestras vienen de
en la distribución binomial, que permite estimar que la poblaciones con las mismas distribuciones, se emplea la
probabilidad en una muestra de sujetos que puedan pro- prueba de rachas sugerida por Wald-Wolfowitz.
ceder de una población binomial cuyo valor de p y q (don-
de q es la probabilidad contraria) son similares a los de la Prueba de Kolmogorov-Smirnov
población de donde se obtuvo la muestra. Se asume que: Para una muestra
1) Las observaciones son seleccionadas al azar, son inde-
pendientes y se obtienen de una sola muestra; 2) Los da- La prueba se usa para definir si el grado de ajuste de los
tos son de dos categorías distintas, que se les ha asignado datos a una distribución teórica: que puede ser con ten-
un valor de 1 y 0. Esto quiere decir que si la variable no es dencia a la normal, a la de Poisson o exponencial. La prue-
dicotómica se deben colapsar los datos en dos categorías ba Z de Kolmogorov-Smirnov (K-S), se computa a partir
mutuamente excluyentes; y, 3) Se debe de especificar la de la diferencia mayor (en valor absoluto) entre la distri-
probabilidad de ocurrencia de un evento en la población bución acumulada de una muestra (observada) y la distri-
dada. Esta proporción teórica puede venir de registros bución teórica. La bondad de ajuste de la muestra permite
públicos, censos o investigaciones previas. La prueba bino- suponer de manera razonable, que las observaciones pu-
mial está indicada cuando la variable a ser examinada es dieran corresponder a la distribución específica.
dicotómica, es especialmente útil en casos de tamaño de La contribución de Kolmogorov17 corresponde al pro-
muestra pequeños, que no se cumplen los requisitos de la blema relacionado con una sola muestra, mientras que la de
bondad de ajuste de la Ji cuadrada. Smirnov18 se ocupa de responder al problema respecto a
dos muestras, tratando de probar la hipótesis de igualdad
Pasos a seguir entre las poblaciones de origen de una con respecto a la de
Primero: Planteamiento de hipótesis estadísticas la otra. La prueba de K-S no precisa que las observaciones
Ho: p = po Las frecuencias observadas son iguales a sean agrupadas (como es el caso de la Ji cuadrada). Se usa
las frecuencias esperadas
edigraphic.com
Ha: p ≠ po Las frecuencias observadas difieren de las
en cualquier muestra de cualquier tamaño, mientras que la
Ji cuadrada requiere muestras con un tamaño mínimo. Esta
frecuencias esperadas prueba no se debe usar cuando los parámetros tienen que
ser estimados a partir de la población y es útil, especialmen- derosa que la U de Mann-Whitney cuando se llenan to-
te cuando se conoce la estructura en que subyace la distri- das las asunciones, mientras que si los datos no se distri-
bución de la variable en estudio. Es más poderosa que la Ji buyen normalmente, el tamaño de muestra es pequeño,
cuadrada, especialmente cuando el tamaño de la muestra los grupos son de diferente tamaño, la U de Mann-Whit-
es pequeño y el nivel de medición de la variable es ordinal. ney es más poderosa, sobre todo cuando las colas de la
Se considera más poderosa que la Ji cuadrada y que la prue- distribución son grandes y hay la presencia de residuales.
ba binomial; requiere que la variable dependiente sea una Una alternativa no paramétrica que puede ser utilizada,
variable cuantitativa continua. sobre todo si las colas de la distribución no son similares
Alternativa. No hay opción paramétrica. Una alterna- es la prueba de la mediana.
tiva no paramétrica es la prueba de bondad de ajuste de La prueba Z de Kolmogorov-Smirnov está basada en
Ji cuadrada.12-16 la diferencia absoluta máxima entre la función de distri-
bución acumulada observada para ambas muestras.
PRUEBAS DE DOS MUESTRAS INDEPENDIENTES Cuando esta diferencia es significativamente grande, las
dos distribuciones son consideradas diferentes.
Las pruebas de dos muestras independientes comparan La prueba de las reacciones extremas de Moses20 asu-
dos grupos de casos con una variable. Hay disponibles me que la variable experimental afecta algunos sujetos
cuatro pruebas para ver si las dos muestras independien- en una dirección y otros sujetos en la dirección opuesta.
tes (grupos) vienen de la misma población y son la U de Se prueba las reacciones extremas comparadas a un gru-
Mann-Whitney,19 la Z de Kolmogorov-Smirnov, las reac- po de control. Esta prueba se enfoca en la distribución
ciones extremas de Moses20 y la prueba de rachas de del grupo de control y es una medida de cuantos valores
Wald-Wolfowitz.12-16 extremos del grupo experimental influencian la distribu-
La U de Mann-Whitney es la más popular de las prue- ción cuando se combinan con el grupo de control.
bas para el estudio de dos muestras independientes. Es La prueba de rachas de Wald-Wolfowitz es una alter-
equivalente a la prueba de suma de rangos de Wilcoxon nativa no paramétrica para contrastar si dos muestras
y a la prueba de dos grupos de Kruskal-Wallis. Es la alter- con datos independientes proceden de poblaciones con
nativa no paramétrica a la comparación de dos prome- la misma distribución. Combina y acomoda las observa-
dios independientes a través de la t de Student. Se utiliza ciones de ambos grupos.
cuando se desea efectuar la comparación de dos grupos Si las dos muestras son de la misma población, los dos
en quienes se les ha medido una variable cuantitativa grupos deben distribuirse al azar a lo largo de la clasifica-
continua que no tiene una distribución normal o cuando ción jerárquica. Si hay pocas rachas habla de que se tra-
la variable es de tipo cuantitativa discreta. Tiene tres tan de grupos diferentes mientras que, si hay muchas
asunciones: 1) La variable independiente es dicotómica y rachas no hay diferencias significativas en la distribución
la escala de medición de la variable dependiente es al de los dos grupos.
menos ordinal; 2) Los datos son de muestras aleatorias La prueba Z de Kolmogorov-Smirnov y la prueba de
de observaciones independientes de dos grupos inde- rachas de Wald-Wolfowitz son pruebas más generales
pendientes, por lo que no hay observaciones repetidas; que detectan diferencias en la localización y formas de
3) La distribución de la población de la variable depen- las distribuciones.
diente para los dos grupos independientes comparte una
forma similar no especificada, aunque con una posible PRUEBAS PARA DOS O MÁS MUESTRAS
diferencia en las medidas de tendencia central. Las ob- INDEPENDIENTES
servaciones de ambos grupos se combinan y acomodan,
con el rango promedio en el caso de pares. El número Las pruebas para muestras independientes comparan las
de pares debe ser pequeño en relación al número total variables de dos o más series de casos; permiten supo-
de observaciones. Si las poblaciones son idénticas en si- ner que las muestras provienen de la misma población.
tuación, los rangos deben mezclarse al azar entre las dos Las más conocidas son la de Kruskal-Wallis,21-23 la de la
muestras. Se calcula el número de veces que una cuenta mediana,24 y la de Jonckherrere-Terpstra.12-16
del grupo 1 precede una cuenta del grupo 2 y el número La prueba de Kruskal-Wallis o de H es una extensión
de veces que una cuenta del grupo 2 precede una cuen- de la de U de Mann-Whitney; de cierta manera es el
ta del grupo 1. La U de Mann-Whitney es el número más equivalente no paramétrico del análisis de varianza de
pequeño de estos dos números.
Alternativas. La alternativa paramétrica es la t de
edigraphic.com una vía y permite conocer si hay diferencias en las distri-
buciones de la variable en estudio en las poblaciones. Su
Student para muestras independientes, que es más po- aplicación asume: 1) Que los datos provienen de un gru-
po aleatorio de observaciones; 2) Que la variable depen- y la prueba H de Kruskal-Wallis, las que generalmente se
diente es, al menos, ordinal; 3) Que la variable indepen- prefieren cuando se conoce el rango exacto de valores
diente es nominal, con más de dos niveles; 4) Que las de la variable dependiente, ya que se toma en cuenta el
observaciones son independientes dentro de cada grupo tamaño de las diferencias entre los resultados observa-
y entre los grupos; 5) Que no hay medidas repetidas o dos y la gran mediana.
categorías de respuestas múltiples; y, 5) que es similar la Cuando, a priori, hay un ordenamiento natural (ascen-
forma en que la distribución de la variable dependiente dente o descendente) de las poblaciones, la prueba de
dentro de cada uno de los grupos, excepto por la posible Jonckheere-Terpstra es más poderosa.
diferencia de las medidas de tendencia central en al me-
nos uno de estos grupos. Se utiliza cuando la variable in- PRUEBAS DE DOS MUESTRAS DEPENDIENTES
dependiente tiene más de dos grupos y la variable
dependiente es cuantitativa continua. Las pruebas para dos muestras dependientes compara
Alternativas. La alternativa paramétrica es el análisis en ellas las distribuciones de dos variables que se asume
de varianza de una vía, en la que se asume la normalidad están relacionadas. Para seleccionar la prueba es preciso
de la distribución dentro de cada nivel de la variable de- conocer el tipo de datos que se tienen. Si los datos son
pendiente y la igualdad de las varianzas entre los niveles continuos se usa la prueba del signo1,25 o la prueba de
de la variable independiente. Las alternativas no paramé- rangos signados de Wilcoxon,26 pero si los datos son bi-
tricas son la prueba de la mediana, la Ji cuadrada de Man- narios se usa la prueba de McNemar.27 La prueba del sig-
tel-Haenszel y la Ji cuadrada para varias muestras no1,2,12-16 es una prueba simple, versátil y fácil de aplicar;
independientes. puede ser usada para saber si una variable tiende a ser
La prueba de la mediana está indicada cuando la varia- mayor que otra. También es útil para probar la tendencia
ble independiente es categórica y la variable dependien- que siguen una serie de variables ordinales positivas o
te tiene, al menos, un nivel de medida de tipo ordinal, para una valoración rápida de un estudio exploratorio. La
aunque ésta habitualmente es cuantitativa continua, y se desventaja es que no toma en cuenta la magnitud de la
desea investigar diferencias entre dos o más grupos con diferencia entre dos variables pareadas: computa las di-
relación a su mediana, sea porque no cumplen las con- ferencias entre las dos variables para todos los casos y
diciones de normalidad para usar el promedio como medi- clasifica la diferencia como positiva, negativa o empate.
da de tendencia central o porque la variable es cuantitativa Si las dos variables tienen una distribución similar, el nú-
discreta. mero de diferencias positivas y negativas no diferirá sig-
Se define como mediana al valor que en una serie or- nificativamente.
denada de datos deja por debajo de ella a la mitad de los Alternativas. La alternativa paramétrica es la t de
valores y la otra mitad por arriba de ella. Responde a la Student pareada, aunque a la prueba del signo se consi-
cuestión de que si dos o más grupos proceden de pobla- dera una eficiencia de 95% al compararla con la t de Stu-
ciones que tienen distribuciones similares. Es especial- dent, por lo que esta prueba es particularmente útil
mente útil cuando los valores exactos de resultados cuando el tamaño de las muestras es pequeño o cuando
extremos son truncados por abajo o por arriba de cierto no se cumplen los requisitos que exige una prueba para-
punto de corte. También está indicada cuando no hay si- métrica, como son que las variables sean nominales o
metría en la forma de la U de Mann-Whitney. La prueba que las distribuciones estén sesgadas. Cuando las varia-
es directa, fácil de aplicar y es particularmente útil cuan- bles son, al menos, ordinales, una alternativa no paramé-
do no se conocen los valores exactos de todos los resul- trica es la prueba de rangos signados de Wilcoxon, que
tados, en especial en los valores extremos. La limitación permite una mejor valoración de las diferencias cuantita-
es que esta prueba considera únicamente dos posibilida- tivas entre los pares de observaciones.
des: por arriba o por debajo de la mediana, y no se toma Rangos signados de Wilcoxon1,2,12-16 es una prueba
en cuenta el tamaño de la diferencia entre los resultados flexible que se puede utilizar en distintas situaciones, con
observados respecto a la mediana, por lo que es menos, muestras de diferente tamaño y con pocas restricciones.
es de menor potencia que la U de Mann-Whitney y la H Lo único que se requiere es que la variable sea continua
de Kruskal-Wallis. y que sean observaciones pareadas, es decir, que sean
Alternativas. Hay dos alternativas paramétricas que sujetos de una misma muestra con medidas pre y pos-
son: la t de Student, cuando la variable independiente es prueba, o bien sujetos que hayan sido pareados bajo crite-
dicotómica y, cuando la variable independiente tiene
edigraphic.com
más de dos niveles, el análisis de varianza de una vía. Las
rios bien definidos. Contiene varias asunciones críticas:1)
Que los datos sean observaciones pareadas, de una
alternativas no paramétricas son la U de Mann-Whitney muestra seleccionada al azar u obtenida por pares, o
bien mediante sujetos considerados como sus propios naria y considera una respuesta multinomial; prueba los
controles; 2) Que los datos que se van a analizar sean cambios en las respuestas que se obtiene y usa la distri-
continuos, o al menos ordinales, dentro y entre las ob- bución Ji cuadrada. Es útil para reconocer cambios de la
servaciones pareadas; y, 3) Que haya simetría en los re- respuesta debido a la intervención experimental en dise-
sultados de las diferencias con la mediana verdadera ños antes y después.
de la población. Alternativas. No hay alternativa paramétrica. Cuan-
Para efectuar esta prueba se calculan las diferencias do hay más de dos periodos de colección de datos (ej:
entre los pares de datos y se registran los valores absolu- preprueba, posprueba y seguimiento) se recomienda la
tos entre ellas. Luego, los valores absolutos de las dife- Q de Cochran y si los datos son continuos y ordenados
rencias entre las dos variables se ordenan del valor adecuadamente, la alternativa no paramétrica es la prue-
menor al mayor y para finalizar, a cada rango se le da un ba del signo o la de Wilcoxon.
signo positivo o negativo, dependiendo del signo de la
diferencia original. Los signos positivos y los negativos se PRUEBAS DE VARIAS MUESTRAS RELACIONADAS
suman separadamente y se obtienen los promedios. Los
pares que no tienen cambio alguno se retiran del análisis. Las pruebas para varias muestras relacionadas comparan
Se usa el valor de Z para probar la hipótesis nula de la no las distribuciones de dos o más variables. Hay tres prue-
diferencia entre los pares. Si la hipótesis nula es cierta, la bas disponibles para comparar las distribuciones de va-
suma de los rangos positivos debe ser similar a los rangos rias muestras relacionadas.
negativos. Como la prueba de los rangos signados de Prueba de Friedman. Es una extensión de la prueba
Wilcoxon incorpora más información acerca de los da- de Wilcoxon para incluir datos registrados en más de dos
tos, es más poderosa que la prueba del signo. periodos de tiempo o grupos de tres o más sujetos parea-
Alternativas. La alternativa paramétrica es la t de dos, con un sujeto de cada grupo que ha sido asignado alea-
Student para muestras pareadas, o relacionadas. Las al- toriamente a una de las tres o más condiciones.28,29 La
ternativas no paramétricas son la prueba del signo y la prueba examina los rangos de los datos generados en cada
prueba binomial. periodo de tiempo para determinar si las variables compar-
Prueba de McNemar. Es especialmente útil cuando ten la misma distribución continua de su origen. Es especial-
se tiene un diseño pre y posprueba, en el que el sujeto sir- mente útil cuando la variable dependiente es continua pero
ve como su propio control y la variable dependiente es di- su distribución se encuentra sesgada.
cotómica.27 Se usa cuando hay una situación en la que las Alternativas. La contraparte paramétrica es el análi-
medidas de cada sujeto se repiten, por lo que la respues- sis de varianza intrasujetos, cuando ésta es medida de
ta de cada uno de ellos se obtiene dos veces: una vez an- manera repetida. Se compara con la prueba de F del aná-
tes y la otra después de que ocurre un evento específico: lisis de varianza y se considera que tiene un poder del
examina la extensión del cambio de la variable dicotómica 64% cuando son dos series (k = 2), de 80% cuando k =
antes y después del evento. Si la frecuencia de la respues- 5 y llega a ser de 87% cuando k = 10.
ta en una dirección es mayor de lo esperado por el azar, Prueba W de Kendall. En cierta forma es una nor-
se rechaza la hipótesis nula (de que no hay cambio algu- malización de la estadística de Friedman.30 Se interpreta
no). Tiene cuatro presunciones críticas: 1) Que la variable como el coeficiente de concordancia, que es una medida
dicotómica que se va a medir tenga valores asignados para de acuerdo entre los rangos. Cada caso es una base o
cada nivel (ej: 0 y 1), con el mismo valor en los dos perio- rango, y cada variable se considera un artículo o persona
dos; 2) Que los datos representen frecuencias, no valores; a juzgar. Para cada variable se computa la suma de cada
3) Que las medidas dicotómicas sean observaciones pa- línea. Su valor final está comprendido entre 0 (ningún
readas, de la misma selección aleatoria de sujetos o de sus acuerdo) y 1 (acuerdo completo). Tiene las mismas indi-
pares; 4) Que los niveles de la variable dicotómica sean caciones que la prueba de Friedman, aunque su uso en
mutuamente excluyentes, lo que significa que un sujeto investigación ha sido, principalmente, para conocer la
sólo puede asignarse a un nivel de la variable dicotómica concordancia entre rangos, más que para probar que hay
que va a ser examinada en todo el tiempo. una diferencia entre las medianas.
Para efectuar la prueba lo primero es colocar los da- Q de Cochran. Esta prueba es idéntica a la prueba
tos en una tabla de 2 x 2, en la que numéricamente se de Friedman, pero se aplica cuando todas las respuestas
representen los cambios de cada individuo antes y des- son binarias.31-33 Es una extensión de la prueba de McNe-
pués de la intervención. Si los datos son categóricos se
usa la prueba de homogeneidad marginal; ésta es una
edigraphic.com mar ante la situación de k-muestras. La Q de Cochran
prueba la hipótesis de que varias variables dicotómicas
extensión de la prueba de McNemar de la respuesta bi- que están relacionadas entre sí, tienen el mismo prome-
dio. En observaciones múltiples las variables son medidas 11. Pearson ES. The choice of statistical test illustrated on the inter-
en el mismo individuo o en individuos pareados. Tiene la pretation of data in a 2 x 2 table. Biometrika 1947; 34: 139-67.
12. Ferran-Aranaz M. SPSS para Windows. Análisis estadístico.
ventaja de examinar cambios en las variables categóricas. Madrid: Osborne McGraw-Hill, 2001.
Alternativas. No tiene equivalente paramétrico. Si 13. Armitage P, Berry G. Estadística para la investigación biomédica.
los datos son continuos se prefiere la prueba de Fried- 3ª ed. Madrid: Harcourt Brace, 1997: 424-43.
man, en especial cuando el tamaño de muestra es pe- 14. Visauta-Vinacua B. Análisis estadístico con SPSS para Windows.
Estadística básica. Madrid: McGraw-Hill, 1997: 238-74.
queño (< 16) y los datos son ordenados. 15. Álvarez-Cáceres R. Estadística multivariante y no paramétrica con
SPSS. Aplicación a las ciencias de la salud. Madrid: Díaz de San-
CONCLUSIONES tos, 1996.
16. Pérez-López C. Técnicas estadísticas y SPSS. Madrid: Prentice
Hall, 2001.
Cuando se usan variables cuantitativas continuas y la media 17. Kolmogorov AN. Sulla determinazione empirical di una legge di
aritmética y desviación estándar de las muestras tienden a distribuzione. Giornale Inst Ital Altuari 1933; 4: 83-91.
tener una distribución normal, con varianzas similares (ho- 18. Smirnov NV. Estimate of deviation between empirical distribu-
mogeneidad), y el tamaño de las muestras es suficiente (ma- tion functions in two independent samples. Bull Moscow Univer-
sity 1939; 2: 3-16.
yor a 30 casos) se deben utilizar las pruebas estadísticas 19. Mann HB, Whitney DR. On a test of whether one of two ran-
paramétricas. En caso de que no se cumplan estos requisi- dom variables is stochastically larger than the other. Ann Math
tos, y sobre todo cuando la normalidad de las distribuciones Stat 1947; 18: 50-60.
de la variable en estudio esté en duda y el tamaño de la 20. Moses LE. Nonparametrical statistics for psychological re-
search. Psychol Bull 1952; 49: 122-43.
muestra sea menor a once casos, el empleo de las pruebas 21. Kruskal WH, Wallis WA. Use of ranks in one-criterion variance
no paramétricas está indicado. analysis. J Am Stat Assoc 1952; 47: 583-621.
Cuando una o varias muestras es menor a 11 casos, la 22. Kruskal WH. A nonparametric test for the several sample prob-
potencia estadística de las pruebas paramétricas y no pa- lem. Ann Mat Stat 1941; 12:461-3.
23. Kruskal WH. Ordinal measures of association. J Am Stat Assoc
ramétricas es similar; a medida que aumenta el tamaño 1958; 1958; 53: 814-61.
de las muestras las pruebas paramétricas aumentan su 24. Reynaga-Obregón J, Gómez-Gómez M. Análisis estadístico en
potencia, por lo que las pruebas no paramétricas están ciencias de la salud. México: UNAM, 2002: 125-8.
indicadas cuando la muestra sea menor de once o bien 25. Clayton D, Hills M. Statistical models in epidemiology. Oxford:
Oxford University Press, 1996: 246-7.
cuando hay una muestra mayor pero no se cumplen los 26. Wilcoxon F. Individual comparison by ranking methods. Bi-
requisitos de aplicabilidad de las pruebas paramétricas. ometrika 1945; 1: 80-3.
27. McNemar Q. Psychological statistic. 4th ed. New York: Wiley,
Referencias 1969.
28. Friedman M. The use of ranks to avoid the assumption of nor-
mality implicit in the analysis of variance. J Am Stat Assoc 1937;
1. Daniel WW. Biostatistics. A foundation for analysis in the health 32: 675-701.
sciences. 7th ed. New York: John Wiley and Sons Inc, 1999: 658- 29. Friedman M. A comparison of alternative test of significance for
736. the problem of rankings. Ann Mat Stat 1940; 11: 86-92.
2. Gómez-Gómez M, Danglot-Banck C, Velásquez-Jones L. Bases 30. Kendall MG. Rank correlations methods. 2th ed. New York:
para la revisión crítica de artículos médicos. Rev Mex Pediatr Hafner, 1955.
2001; 69: 152-9. 31. Dawson-Saunders B, Trapp RG. Bioestadística médica. 3ª ed.
3. Stevens SS. On the theory of scales of measurement. Science México: Manual Moderno, 2002: 184-5.
1946; 103: 677-80. 32. Cochran WG. The χ2 test of goodness of fit. Ann Mat Stat 1952;
4. Reynaga-Obregón J. Estadística básica en ciencias de la salud. 23: 315-45.
México: DEMSA, 2001. 33. Cochran WG. Some methods for strengthening the common χ2
5. Norusis MJ. SPSS 10.0.1 for Windows. Chicago: SPSS Inc, 1999. tests. Biometrics 1954; 10: 417-51.
6. Pett MA. Nonparametric statistics for health care research. Thou-
sand Oaks, Cal: Sage Publications Inc, 1997.
7. Bradley JV. Distribution-free statistical tests. Englewood Cliffs, Correspondencia:
NJ: Prentice-Hall, 1968. Dr. Manuel Gómez Gómez
8. Moses LE. Non-parametric statistics for psychological research. Parque Zoquiapan 25,
Psychol Bull 1952; 49: 122-43. Col. del Parque, CP 53398,
9. Downie NM, Heath RW. Métodos estadísticos aplicados. 5ª ed. Naucalpan de Juárez,
México: Harla, 1986: 251-65. Estado de México
10. Siegel S, Castellan NJ. Estadística no paramétrica aplicada a las Teléfono: 55 76 56 06
ciencias de la conducta. 4ª ed. México: Editorial Trillas, 1995: Correo electrónico:
151-7. mangomez38@hotmail.com
edigraphic.com
99 Rev Mex Pediatr 2003; 70(2); 91-99
Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial
formación continuada
CURSO DE INTRODUCCIÓN A LA INVESTIGACIÓN CLÍNICA
Capítulo 7: Estadística: Estadística Descriptiva y Estadística
Inferencial
T. Seoanea, J.L.R. Martína,b, E. Martín-Sáncheza, S. Lurueña-Segoviaa,c y F.J. Alonso Morenod,e
aÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo.
bUnidad de Investigación Aplicada. Hospital Nacional de Parapléjicos. Toledo.
cFENNSI Group. Fundación Hospital Nacional de Parapléjicos. Toledo.
dCentro de Salud Sillería. Toledo.
eResponsable de Investigación de Semergen.
La estadística estudia los métodos científicos para recoger, Statistics is the study of the scientific methods for collec-
organizar, resumir y analizar datos, permite obtener conclu- ting, organizing, summarizing, and analyzing data; it makes
siones válidas y tomar decisiones razonables basadas en el it possible to reach valid conclusions and make reasonable
análisis. decisions on the basis of the analysis.
La estadística es, por tanto, la ciencia que recoge, clasifica Statistics is, therefore, the science of gathering, classif-
y analiza la información que se presenta habitualmente me- ying, and analyzing information that is usually presented
diante datos agregados que permiten que las observaciones through aggregated data that enable observations to be quan-
puedan cuantificarse, medirse, estimarse y compararse utili- tified, measured, estimated, and compared using measure-
zando medidas de tendencia central, medidas de distribu- ments of central tendency, measurements of distribution,
ción, métodos gráficos, etc. La estadística aplicada trata so- graphical methods… Applied statistics deals with how and
bre cómo y cuándo utilizar los procedimientos matemáticos when to use the mathematical procedures (mathematical sta-
(estadística matemática) y cómo interpretar los resultados tistics) and how to interpret the results that are obtained
que se obtienen. using these procedures.
Así, la bioestadística es la rama de la estadística que en- Likewise, biostatistics is the branch of statistics that tea-
seña y ayuda a investigar en todas las áreas de las ciencias de ches and helps the investigator to carry out research in all of
la vida donde la variabilidad es la regla. Se divide en dos the different branches of the life sciences where variability is
grandes ramas, la bioestadística descriptiva y la bioestadísti- the rule. Biostatistics can be divided into two main areas: des-
ca analítica o inferencial. criptive biostatistics and analytical or inferential statistics.
La estadística descriptiva resume la información conteni- Descriptive statistics summarizes the information contai-
da en los datos recogidos y la estadística inferencial de- ned in the data collected and inferential statistics demons-
muestra asociaciones y permite hacer comparaciones entre trates associations and makes it possible to make compari-
características observadas. sons among the characteristics observed.
Palabras clave: estadística, bioestadística, variable, estadística Key words: statistics, biostatistics, variable, descriptive statistics,
descriptiva, inferencia estadística, contraste de hipótesis, regresión. statistical inference, hypothesis testing, regression.
INTRODUCCIÓN
La estadística se define como la ciencia matemática que se
refiere a la recopilación, estudio e interpretación de los da-
tos obtenidos en un estudio.
Correspondencia: J.L.R. Martín. Se aplica a una amplia variedad de disciplinas, entre las
Área de Investigación Clínica. que cabe destacar las ciencias de la salud; en particular, en
Fundación para la Investigación Sanitaria en Castilla-La Mancha
(FISCAM). Edificio Bulevar. el campo de la Atención Primaria es necesario conocer los
C/ Berna, n.o 2, local 0-2. 45003 Toledo. fundamentos de la estadística ya que la medicina es cada
Correo electrónico: jlrmartin@jccm.es
vez más cuantitativa, los resultados se utilizarán para la to-
Recibido el 30-07-07; aceptado para su publicación el 30-07-07. ma de decisiones pues se obtienen conclusiones correctas
de procedimientos diagnósticos y de diversas pruebas. ción contenida en los datos reales, o bien utilizando re-
La bioestadística es la disciplina que trata del desarrollo presentaciones gráficas que son muy útiles, ya que pueden
y aplicación de la teoría y métodos estadísticos en aquellos aportar mucha información en un solo golpe de vista5,7.
fenómenos que surgen de las ciencias biomédicas1,2. Si la variable a estudio es una variable cualitativa utiliza-
Como hemos estudiado en el capítulo “Selección de la remos tablas de frecuencias, que consisten una representa-
muestra” de esta serie, para aplicar un análisis estadísti- ción estructurada de toda la información que se ha recogi-
co necesitamos recopilar información de cierta población do sobre dicha variable. En estas tablas se detalla cada uno
que se define como el conjunto homogéneo de elemen- de los valores diferentes en el conjunto de datos con el nú-
tos que reúne unas características determinadas objeto de mero de veces que aparece, la frecuencia absoluta. Se pue-
estudio. Por razones prácticas se estudia un subconjunto de completar añadiendo la frecuencia relativa que repre-
de la población denominado muestra, sobre el que reali- senta la frecuencia en porcentaje sobre el total de datos.
zamos las mediciones o el experimento para obtener con- Si describimos una variable cualitativa gráficamente de-
clusiones generalizables a la población. Los datos recogi- bemos utilizar un diagrama de barras en el que se repre-
dos se analizan estadísticamente siguiendo dos propósitos: sentan tantas barras como categorías tiene la variable, de
descripción e inferencia. forma que la altura de cada uno de los rectángulos es pro-
porcional a la frecuencia de casos en cada clase; o un dia-
TIPOS DE DATOS grama de sectores, en el que se divide un círculo en tantas
La naturaleza de las observaciones es importante a la hora porciones como clases tiene la variable, de forma que a ca-
de elegir el método estadístico más apropiado para el aná- da una de las clases le corresponde un arco de círculo pro-
lisis. La característica observada de cada individuo de la porcional a la frecuencia absoluta o relativa.
muestra se denomina variable, por ejemplo: el peso, la edad, Supongamos que hemos recogido de una muestra de
el nivel de colesterol en sangre, etc., y se pueden clasificar 100 individuos la variable “hábito tabáquico”, dicha varia-
en dos grupos según el tipo de valores que toman3-5: ble tiene tres categorías: “fumador, no fumador y ex fuma-
dor”. La tabla de frecuencias se puede observar en la tabla
1) Variables cualitativas: son variables que representan 1 y las figuras 1 y 2.
una cualidad, no pueden medirse numéricamente pero Las variables cuantitativas se describen mediante gráfi-
pueden clasificarse en una o varias categorías. A su vez las cos y medidas características.
variables cualitativas se dividen en ordinales y nominales, Las medidas características se clasifican en cuatro gru-
dependiendo de que esas categorías admitan cierto orden. pos:
Por ejemplo, el estado de un paciente (leve, moderado,
grave) es una variable cualitativa ordinal y la variable sexo 1) Medidas de tendencia central: nos indican el valor al-
(hombre, mujer) es una variable cualitativa nominal. rededor del cual se agrupan los datos, dentro de este tipo
2) Variables cuantitativas: son variables que toman va- de medidas distinguimos:
lores numéricos y que se dividen a su vez en dos catego- – Media: que se obtiene sumando los valores de la va-
rías: variables continuas, asociadas a procesos de medición riable divididos por el número total de datos.
como la edad, el peso, etc., y variables discretas, asociadas
n
a procesos de conteo, por ejemplo, número de hijos, de ca-
– x + x2 + ... + xn = ⌺
xi
sos de sida, etc. X= 1 n
i=1
n
Puede realizarse una transformación de una variable
cuantitativa pasándola a una escala ordinal, este proceso se – Mediana: es la observación que ocupa la posición cen-
denomina categorización de una variable. Partiendo de tral después de haber ordenado los datos, si el número de
una variable numérica creamos grupos de casos colapsán- casos es impar será el dato que ocupa la posición (n + 1)/2,
dolos en k categorías. Por ejemplo, supongamos que he- en el caso de que el número de observaciones sea par, la
mos recogido la variable edad de los individuos que for- mediana se obtiene calculando la media de los datos que
man nuestra muestra, a partir de esta variable podemos ocupan las posiciones n/2 y (n/2) + 1.
crear una nueva variable (edad categorizada) de la forma – Moda: es el valor o valores más frecuentes de la dis-
siguiente: categoría 1 = joven (menores de 25 años), cate- tribución.
goría 2 = mediana edad (individuos entre 26-59 años) y 2) Medidas de dispersión: cuantifican la variabilidad de
categoría 3 = mayor (individuos mayores de 60 años). la distribución, es decir, nos dan una idea de la dispersión
de los datos. Entre estas medidas distinguimos:
ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva es la parte de la estadística que Tabla 1. Distribución de frecuencias
sintetiza y resume la información contenida en un con-
junto de datos, por tanto, un análisis descriptivo consiste Frecuencia absoluta Frecuencia relativa
en clasificar, representar y resumir los datos2,3,6. La des- Simple Acumulada Simple Acumulada
cripción se puede hacer utilizando dos tipos de procedi- Fumador 45 45 0,45 0,45
mientos: mediante el cálculo de índices estadísticos que No fumador 27 72 0,27 0,72
son números que resumen de modo sencillo la informa- Ex fumador 28 100 0,28 1
50
45 A B C
40
30 28
26
X
0 1 2 3 4 5 6
20
Figura 3. Asimetría. A = asimétrica por la derecha; B = función simétrica;
C = asimétrica por la izquierda.
10
0 A
Fumador No fumador Ex fumador
Fuma
B
Figura 1. Diagrama de barras.
Ex fumador
X 0 1 2 3 4 5 6
40
Fumador
30
Frecuencia
No fumador
20
1 n
S2 = n ⌺ (xi – x–) Figura 5. Histograma, representa la variable aleatoria altura de una
i=l muestra de 316 individuos.
– Desviación típica: que se define como la raíz cuadrada 4) Medidas de forma: describen dos aspectos de la dis-
de la varianza, informa sobre la dispersión de la distribu- tribución:
ción y se expresa en las mismas unidades que la variable. – Asimetría: se define el coeficiente de asimetría como
– Rango: es la diferencia entre el valor mayor y el valor el grado en que los datos se reparten por encima y por de-
menor de la distribución, por tanto, está muy influencia- bajo de la tendencia central (fig. 3).
do por los outliers. – Curtosis: indica el grado de apuntamiento de la dis-
3) Medidas de posición: entre este tipo de medidas dis- tribución en la zona central (fig. 4).
tinguimos: Para resumir una variable aleatoria numérica continua,
– Percentiles: el percentil de orden k es el valor de la va- como por ejemplo la edad, se puede utilizar el histograma,
riable que deja por debajo el k% de las observaciones. en el cual el rango de valores de la variable se divide en in-
– Cuartiles: dividen el conjunto de datos en cuatro gru- tervalos de igual amplitud, sobre cada intervalo se repre-
pos de igual tamaño, el Q1 o 1.er cuartil deja por debajo el senta un rectángulo de forma que su altura mantiene la
25% de los datos, el Q2 o 2.o cuartil es la mediana y el Q3 proporción entre las frecuencias (absolutas o relativas) y
o 3.er cuartil deja por debajo de sí el 75% de los datos. la longitud del intervalo (fig. 5).
3) Pruebas de relación: evalúan la relación entre varia- Cuando analizamos la muestra obtendremos la signifi-
bles. cación del contraste, que se representa con la letra p, es un
indicador de la discrepancia entre la hipótesis nula y los
Los contrastes de hipótesis o tests de hipótesis10 permi- datos muestrales, de forma que cuanto más se acerque a
ten comprobar si la información muestral concuerda con cero tenemos mayor evidencia en contra de la hipótesis
la hipótesis estadística formulada, nos permiten cuantificar nula (si p es menor que el nivel de significación rechaza-
hasta qué punto los resultados de un estudio particular de- remos H0).
penden de la variabilidad de la muestra. Debemos tener en cuenta que la significación estadísti-
La hipótesis que se contrasta se denomina hipótesis nu- ca depende de la magnitud de la diferencia que queremos
la y se denota por H0, se puede interpretar como la hipó- probar, cuanto mayor sea esta diferencia más sencillo será
tesis que normalmente sería aceptada mientras los datos demostrar que es significativa. Al mismo tiempo depende
no indiquen lo contrario. Rechazar la hipótesis nula supo- también del tamaño muestral, cuanto más grande sea el
ne asumir una hipótesis complementaria, la hipótesis al- número de observaciones más sencillo es detectar diferen-
ternativa (H1), como correcta. cias.
Para realizar un contraste de hipótesis debemos definir
la hipótesis nula y la alternativa y definir una medida, el MODELOS DE REGRESIÓN
estadístico de contraste, que permite cuantificar la magni- Los modelos de regresión estudian la relación cuantitati-
tud de la diferencia entre la información que proporciona va12 entre una variable de interés, que se denomina varia-
la muestra y la hipótesis H0. Se pueden cometer dos tipos ble respuesta o dependiente (Y), y un conjunto de varia-
de errores11: bles explicativas (X1,X2,…,Xk). Puede ocurrir que exista
una relación funcional, de forma que el conocimiento de
1) Error tipo I: rechazamos la hipótesis nula cuando es las variables explicativas determina el valor de la variable
cierta. dependiente, o, en cambio, que no exista ninguna rela-
2) Error tipo II: no rechazamos la hipótesis nula cuan- ción, lo que significa que conocer el valor de las variables
do es falsa. (X1,X2,...,Xk) no aporta ninguna información sobre la va-
riable Y. Lo habitual es que exista cierta relación entre ellas
En la práctica no es posible saber si estamos cometien- de manera que el hecho de conocer el valor de las varia-
do un error tipo I o un error tipo II, pero existen ciertas bles independientes nos permite predecir el valor de la va-
recomendaciones para disminuir dichos errores. Por riable respuesta. Existen tantos modelos como funciones
ejemplo, para disminuir el error tipo I deberíamos depu- matemáticas, los más utilizados son: el modelo de regre-
rar la base de datos para evitar posibles outliers o valores sión lineal, polinómico, logístico, de Poisson, etc.
extremos que puedan producir resultados significativos, Los modelos de regresión se utilizan con dos objetivos:
utilizar un nivel de significación pequeño y disponer de 1) Predicción: se pretende predecir la variable depen-
una teoría que guíe las pruebas. Para reducir el error tipo diente utilizando un conjunto de variables independien-
II es aconsejable incrementar el tamaño muestral, estimar tes.
la potencia estadística o incrementar el tamaño del efecto 2) Estimación: el interés se centra en apreciar la relación
a detectar. entre la variable respuesta y las variables explicativas.
Es necesario establecer a priori el nivel de significación Cuando utilizamos los modelos de regresión para la es-
(␣) que se define como la probabilidad de cometer un timación debemos tener en cuenta dos conceptos impor-
error tipo I, normalmente se elige un valor pequeño, el 5% tantes, la interacción y la confusión. Existe interacción
o el 1%. El valor del nivel de significación divide en dos cuando la asociación entre la variable respuesta y la varia-
regiones el conjunto de posibles valores del estadístico de ble independiente varía según los diferentes niveles de otra
contraste: variable. Y existe confusión cuando la asociación entre la
variable respuesta y la de exposición difiere significativa-
1) Zona de rechazo (con probabilidad ␣, bajo H0). mente si se considera, o no, una tercera variable, denomi-
2) Zona de aceptación (con probabilidad 1-␣, bajo H0). nada variable de confusión.
El modelo de regresión más sencillo es el Modelo de Re- 4. Dawson-Saunders B, Trapp RG. Bioestadística Médica. 2.ª ed. Mé-
xico: Editorial el Manual Moderno; 1996.
gresión Lineal13 que estudia la posible relación lineal entre
5. Altman DG, Bland JM. Statistics Notes: Presentation of numerical
la variable dependiente, que es una variable cuantitativa, y data. BMJ. 1996;312:572.
las variables independientes. 6. De la Horra J. Estadística aplicada. Díaz de Santos; 1995.
La metodología de la regresión lineal no se puede apli- 7. Singer PA, Feinstein AR. Graphical display of categorical data. J
Clin Epidemiol. 1993;46:231-6.
car cuando la variable respuesta es dicotómica, por ejem-
8. Wassertheil-Smoller S. Biostatistics and Epidemiology. A primer for
plo, presencia/ausencia de una enfermedad. En estos casos health professionals. 2nd ed. New York: Springer-Verlag; 1995.
el modelo de regresión que se debe utilizar es el Modelo 9. Altman DG. Preparing to analyse data. En: Practical statistics for
Logístico14. medical research. London: Chapman and Hall; 1991. p. 132-45.
10. Jekel JF, Elmore JG, Katz DL. Epidemiology Biostatistics and Pre-
ventive Medicine. Philadelphia: W.B. Saunders Company; 1996.
11. Daly LE, Bourke GJ. Interpretation and uses of medical statistics.
BIBLIOGRAFÍA 5th ed. Oxford: Blackwell science; 2000.
1. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la 12. Pita Fernández S, Rey Sierra T, Vila Alonso MT. Relaciones entre
salud. México: Ed. Uteha. Noriega Editores; 1995. variables cuantitativas (I). Cuadernos de Aten Primaria. 1997;4:
2. Martín Andrés A, Luna del Castillo J. Bioestadística para las cien- 141-5.
cias de la salud. 4.ª ed. Madrid: Ed. Norma; 1994. 13. Altman DA. Practical statistics for medical research. 1th ed. repr.
3. Cao R, Francisco M, Naya S, Presedo MA, Vázquez M, Vilar JA, Vi- 1997. London: Chapman & Hall; 1997.
lar JM. Introducción a la Estadística y sus aplicaciones. Ed. Pirámi- 14. Hosmer DW, Lemeshow S. Applied Logistic Regression, 2nd ed.
de; 2001. New York: Wiley; 2000.
www.elsevier.es
Correspondencia: José Antonio García García. Dr. Balmis N° 148, Colonia Doctores, Delegación Cuauhtémoc, C.P. 06726, México
D.F., México. Teléfonos: 5004 3842, 5004 3843. Conmutador: 2789 2000, ext. 1164. Correo electrónico: drjagarcia2@prodigy.net.mx
ISSN en trámite - see front matter © 2013 Facultad de Medicina Universidad Nacional Autónoma de México. Publicado por Elsevier México. Todos los derechos reservados.
218 García-García JA et al
know how many individuals it is necessary to study in order to estimate a parameter with the
desired degree of confidence, or the number needed in order to detect a certain difference
between the study groups, assuming that exist actually.
The calculation of the sample size is a mathematical function that expresses the relationship
between the variables, amount of participants and statistical power.
A sample from a study should be representative of the population of interest. The main goal
of selecting a sample is to make statistical inferences about the population from which comes
from. The selection must be probabilistic.
Statistical factors that determine the sample size are: assumptions, error alpha, beta error,
statistical power, and variability, losses in the study and size effect.
We review the formulas used for calculating the sample size in the most common situations
in research, as well as the revision of formulas for a faster calculation.
It´s included examples of research in medical education.
Also reviewed are important issues such as: sample size for pilot studies, strategies to reduce
the required number of subjects, and software for the sample size calculation.
Prueba t muestras independientes: cálculo del tamaño de muestra Comparación de 2 proporciones: cálculo del tamaño de muestra
Dos medias: prueba t, muestras independientes (H0: μ1 = μ2 Dos proporciones: prueba Z (H0: Pi1 = Pi2)
n vs. poder (alfa= 0.05) n vs. poder (alfa= 0.05)
350 50
300
40
250
35
200
30
150 * 25 *
100 20
0.6 0.7 0.8 0.9 1.0 0.70 0.75 0.80 0.85 0.90 0.95 1.00
Poder estadístico Poder estadístico
Figura 1. Representación gráfica de la función para el cálculo del tamaño de la muestra, tanto para comparar dos medias como dos pro-
porciones. En el eje de las ordenadas se muestra el número de integrantes de la muestra y en el eje de las abscisas el poder estadístico. La
función está representada por la línea, y el asterisco sobre ella representa el valor resultante de la fórmula matemática correspondiente,
obteniendo así el tamaño de la muestra para un poder estadístico del 80%, que es utilizado habitualmente.
del protocolo, como para el desarrollo de las diferentes población es la que se desea investigar y se le denomi-
fases de la investigación. En este orden de ideas, es exi- na población de interés, blanco, objeto o diana. Para que
gible la misma severidad para estimar el tamaño de la la extrapolación (inferencia estadística) tenga validez, la
muestra en investigación en educación médica, que en muestra debe ser representativa, y alude a que el estima-
otras áreas del conocimiento.5 Lo anterior aplica para la dor muestral de las variables de interés debe tener una
mayoría de los estudios contenidos en la brújula o compás distribución similar a las de la población de dónde pro-
de la investigación en educación médica.6 viene. Para cumplir este supuesto de representatividad
es deseable que la muestra sea probabilística (Figura 2).8
Abraham Flexner, en su trascendental documento, in-
¿En dónde se anota el desarrollo del cálculo
cluyó al 100% de la población diana que fueron todas las
del tamaño de la muestra? escuelas de medicina de Estados Unidos de Norteamérica
Los sitios en donde se desglosa este proceso son: el proto- y Canadá. La muestra fue igual en número a la población,
colo de la investigación, también aparece en las tesis de un hecho muy difícil de emular.9
Maestrías y Doctorados en Ciencias Médicas y de la Salud Un aspecto diferente de muestreo es el caso de los
y eventualmente en las de licenciatura. Pero no aparece estudios para determinar la eficacia y seguridad de algún
en los artículos publicados, se da como un valor entendido medicamento, comparado con los tratamientos estánda-
que se realizó con rigor metodológico. Lo que aparece en res o contra placebo. En ellos, el interés reside en con-
los artículos científicos es la muestra en el estudio, pero trastar hipótesis sobre una intervención (tratamiento o
no las variables y sus valores que se consideraron para la maniobra) que interesa al investigador. En este caso, el
estimación del número. muestreo suele ser a conveniencia.10
Este artículo se enfoca en el diseño y la determinación
del tamaño de la muestra para obtener representatividad
Aspectos básicos en el proceso de muestreo. o validez externa en las conclusiones.
De población a muestra y viceversa
Población (cantidad representada en las fórmulas como Muestras y proceso de aleatorización en los
N), es el conjunto total de elementos del que se puede
estudios
seleccionar la muestra y está conformado por elementos
denominados unidades de muestreo o unidades muestra- Una vez que los sujetos de estudio son seleccionados, se
les, con cierta ubicación en espacio y tiempo. Las uni- hace una aleatorización para asignar la intervención que
dades de muestreo pueden ser individuos, familias, univer- recibirá cada uno. En este caso es adecuado que la aleato-
sidades, grupos de alumnos, profesores, etc. Una muestra rización se haga por bloques. Si el investigador conoce de
(cantidad representada en las fórmulas como n), no es antemano la existencia de factores que modifican la va-
más que un subconjunto de la población que se obtiene riable dependiente, es recomendable hacer estratos para
por un proceso o estrategia de muestreo.4,7 controlar a la variable confusora, que es una variable pre-
El objetivo fundamental para seleccionar una muestra dictora del cambio en la variable dependiente, externa a
es hacer inferencias estadísticas (estimaciones de uno o la relación principal que se analiza pero simultáneamente
más parámetros acerca de una población de interés). Esta relacionada con la variable independiente. Cada estrato
220 García-García JA et al
Realidad en la población
Existen diferencias (H0 falsa) No existen diferencias (H0 cierta)
Hay diferencia significativa
Correcto Error tipo I (α)
Resultado de la (se rechaza H0)
investigación No hay diferencia significativa
Error tipo II (β) Correcto
(se acepta H0)
Cálculo del tamaño de la muestra 221
Tabla 2. Valores frecuentemente utilizados de la distribución nor- 7. Relevancia del tamaño del efecto y signifi-
mal para Z.
cancia estadística
α Zα/2 (2 colas) β Zβ (1 cola) La magnitud de la diferencia del efecto que se desea de-
0.1 1.65 0.2 0.84 tectar entre los grupos evaluados, es la condicionante
más importante para el cálculo del tamaño de la muestra.
0.05 1.96 0.1 1.28
Con frecuencia, la obtención de una diferencia estadísti-
0.01 2.58 0.05 1.65 camente significativa (diferencia en los resultados al con-
trastar dos o más valores o grupos con una prueba esta-
dística, generalmente se fija un punto de corte para decir
que si hay diferencias entre los valores. Por convención,
tolerable de mayor aceptación en la comunidad científica lo más frecuente es aceptar la propuesta de Karl Pearson,
va de 0.1 a 0.2.4 que hay diferencias significativas cuando el valor de p es
≤0.05) no resulta relevante para el área en que se está
4. Poder estadístico investigación, práctica clínica, educación médica, etc. El
investigador debe determinar si la magnitud de esa dife-
Es la probabilidad de que un estudio de un determinado rencia es relevante para el área de interés, independien-
tamaño detecte como estadísticamente significativa una temente de que haya sido estadísticamente significativa.
diferencia que realmente existe. Se espera que cualquier diferencia de relevancia también
Se define como 1 - b. Es decir, P(aceptar H1 | H1 es sea estadísticamente significativa.10,18
cierta) = 1 - b Si en un estudio se han considerado los factores arri-
Su valor depende del error tipo II que se acepte. Si b ba descritos, pero no se ha anticipado que el resultado
= 0.2, se tendrá una potencia de 1 - b = 0.8. En términos sea relevante en educación médica, pierde utilidad. Para
porcentuales se dice que la prueba tiene una potencia ejemplificar: se realizó un estudio cuyo objetivo fue me-
del 80%, que es el mínimo aceptado en la literatura bio- dir el conocimiento en medicina familiar de dos muestras
médica. de estudiantes que tomaron clases con profesores distin-
Cuanto menores sean los riesgos calculados para los tos, y el instrumento de medición del nivel de conoci-
errores alfa y beta, mayor será el tamaño muestral re- miento fue un examen de opción múltiple de 100 ítems.
querido. Cuanto menor sea la variabilidad, menor será la Al momento de analizar estadísticamente los datos, se
muestra estimada. A menor diferencia que se desea de- encontraron diferencias entre ambos grupos (p<0.05),
tectar, mayor será el número de participantes.2,16 pero en el análisis se identificó que las diferencias fue-
ron solamente del valor de dos respuestas, por lo anterior,
se puede afirmar que hay diferencias estadísticamente
5. Variabilidad significativas, pero carece de relevancia para la toma de
Es la dispersión esperada de los datos. Se evalúa depen- decisiones educativas.
Al calcular el tamaño de la muestra se utilizan fór-
diendo de la variable de interés. Si éstas son numéricas
mulas matemáticas que consideran en forma simultánea
continuas (grupo de valores infinitos que incluyen deci-
varios de los siete factores estadísticos antes descritos,
males), el tamaño de muestra estará determinado por la
para la mayoría de ellos ya existen valores aceptados por
variable con el mayor coeficiente de variación (CV) [CV
— — — convención o incluso asignados de manera arbitraria; al
(Y) = (SY/Y)], donde SY es la desviación estándar y Y es
momento de sustituir valores en tales fórmulas nos en-
la media. Por otra parte, cuando las variables de interés
contramos que los rubros de variabilidad y tamaño del
son categóricas, por convención se recomienda utilizar la
efecto requieren revisión bibliográfica, estudios piloto o
estimación de la proporción que más se acerque a 0.5, ya
la opinión de expertos para asignar un valor apropiado.
que proporciona el mayor número muestral. Para deter-
minar la variabilidad se debe recurrir a la literatura pu-
blicada de la variable de interés, cuando el dato no está Tamaños de muestra de acuerdo a distintos
disponible se usarán datos de pruebas piloto y en última diseños de muestreo
instancia a estimaciones hechas por expertos.8,17
Para la determinación del tamaño de muestra, también
hay que considerar el tipo de diseño empleado en la inves-
6. Pérdidas en el seguimiento del estudio tigación. Existen diseños de tamaño fijo (los más usados
en estudios clínicos, epidemiológicos y en investigación
Durante la realización del estudio, puede haber pér- educativa) y de tamaño variable. En los de tamaño fijo, el
didas de participantes por diversas razones. El tamaño tamaño de muestra se fija desde el inicio de la investiga-
mínimo de muestra necesario para obtener resultados ción; en los estudios de tamaño variable, el número de su-
estadísticamente significativos está pensado, de acuerdo jetos se irá incrementando hasta obtener un tamaño pre-
con en el número de sujetos al final del estudio y no con determinado (diseño secuencial) o el diseño experimental
el inicial. Es recomendable adicionar al cálculo inicial, un que involucra un solo caso. En el resto del documento sólo
10% a 20% de participantes. Una forma sencilla de estimar se hace referencia a los diseños de tamaño fijo.2,4
el cálculo es: n(1/1-R), donde n representa el número de La mayoría de las fórmulas utilizadas para el cálculo
participantes sin pérdidas, y R es la proporción de pérdi- del tamaño de muestra, parten del supuesto de una distri-
das esperadas.2 bución normal de los valores de las variables en cuestión;
222 García-García JA et al
sin embargo, existen herramientas estadísticas para ana- grupo con una intervención alternativa, D=(Mc-Me), Mc es
lizar los datos cuando ese supuesto no se cumple. la media del primer grupo y Me es la media del segundo,
S2 es la varianza de ambas distribuciones, que se suponen
iguales, Zb es el valor del eje de las abscisas de la función
1. Cálculo del tamaño de muestra de una me- normal estándar en dónde se acumula la probabilidad de
dia (1-b). Esta fórmula para estimar nc = ne se emplea cuando
El intervalo de confianza para estimar la media pobla- se trata de un contraste de hipótesis bilateral; en caso de
cional a partir de una muestra es el siguiente: I C = y± , un contraste unilateral, se sustituirá Za/2 por Za.2,10
donde y es la media estimada a partir de la muestra,
s
n
4. Cálculo para el tamaño de muestra de la
) , y Z
2
=Z * , (y y
es el valor del eje de comparación de dos medias repetidas (parea-
i
2
s= 2
n i=1
n 1
11. Box GE, Hunter JS, Hunter WG. Estadística para investigadores. 18. Sullivan GN, Feinn R. Using effect size - or why the p value is not
Diseño, innovación y descubrimiento. 2ª edición. España: Edito- enough. J Grad Med Educ 2012;4:279-282.
rial Reverté; 2008. p. 133-172. 19. Marrugat J, Vila J, Pavesi M, et al. Estimación del tamaño de
12. Sánchez-Mendiola M, Kieffer-Escobar LF, Marín-Beltrán S, et al. muestra en la investigación clínica y epidemiológica. Med Clin
Teaching of evidence-based medicine to medical students in 1998;111:267-276.
Mexico: a randomized controlled trial. BMC Med Educ 2012;12: 20. Sullivan AM, Lakoma MD, Block SD. The status of medical edu-
107. cation in end-of-life care. A National Report. J Gen Intern Med
13. Landero HR, González RMT. Estadística con SPSS y metodología 2003;18:685-695.
de la investigación. México: Trillas; 2007. p. 67-75. 21. Babbie E. Fundamentos de la investigación social. 3ª edición.
14. Cobo E, Muñoz P, González JA. Bioestadística para no estadísti- México: Thomson editores; 2000. p. 232-256.
cos. España: Elsevier; 2007. p. 212-228. 22. Consultado el 08 de mayo de 2013. http://www.sas.com/tech-
15. Elorza PTH. Estadística para las ciencias sociales, del compor- nologies/analytics/statistics/stat/index.html
tamiento y de la salud. 3ª edición. México: CENGAGE Learning; 23. Consultado el 02 de mayo de 2013. http://www.sigmaplot.com/
2008. p. 319-338. products/sigmaplot/sigmaplot-details.php#sa.
16. Acock AC. A gentle introduction to Stata. 3th edition. Texas: Stata
Press; 2012. p.170-177.
17. Hulley SB, Cummings SR, Browner WS, et al. Design clinical re-
search. 3th edition. Philadelphia, USA: Lippincott, Williams & Wi-
lkins; 2007. p. 65-69.
N
xi N
i =1
xi
1 Características de los datos i =1
N
( xi μ) 2 N
i =1
2
=
N
Las poblaciones pueden definirse especificando una regla un subíndice i-ésimo que identifica el elemento del conjunto
(o reglas). Éstas pueden ser: características de individuos, lími- que posee la característica.
tes geográficos, grupos ya existentes, límites de tiempo, etc.
Por ejemplo: residentes de Guadalajara, asistentes a un paseo Ejemplo explicativo 1–1
escolar, derechohabientes del IMSS, enfermos de cólera.
Un investigador está interesado en los valores de hemoglo-
bina en sangre de los trabajadores de un taller dedicado al
mantenimiento de automóviles. Para ello, decide estudiar
a todos los trabajadores que laboran en el taller. Después
Datos de recabar los datos de interés, decide organizarlos de la
Datos PROCESO
manera que se presenta en el cuadro 1–1.
Información
De acuerdo con los datos reportados, el universo se
Datos compone de cinco trabajadores; por tanto, N = 5. En el
cuadro 1–1, el investigador representa la variable “sexo”
con la letra X, la variable “edad en años cumplidos” con la
Figura 1-1. Generación de información a partir de datos.
letra Y, y la variable “hemoglobina en sangre” con la letra
3
4 Bioestadística
Z. Identifica a Miguel Domínguez con el valor i-ésimo 1, sificar los elementos en estudio. Cuando se trata de variables
“sexo” x1 = masculino, “edad en años cumplidos” y1 = 45 y cuantitativas la decisión suele ser sencilla, pero no cuando la
“hemoglobina en sangre (mg/dl)” z1 = 12. Para el caso de variable es cualitativa o cuando una variable cuantitativa se
Domitila Hernández, los valores x2, y2, z2 son femenino, 23 presenta agrupada. En cualquier caso, se espera que la escala
y 13, respectivamente. Lo mismo se hace con el resto de de la variable permita clasificar a todos los elementos, sin
los trabajadores hasta completar todos los elementos que excepción, y que cada elemento sea contado sólo una vez en
conforman el universo definido por el investigador. relación con esa variable: en otras palabras, la escala ha de
ser exhaustiva y excluyente.
Definición operativa
Tipos de variables
Todas las variables que se utilicen en cualquier trabajo de
estadística han de ser definidas con claridad, de tal manera Las variables se pueden clasificar en cualitativas y cuantitati-
que se eviten confusiones, se facilite la búsqueda y análisis de vas. Cuando sus características se expresan como categorías
los datos, y se garantice la comparabilidad de los resultados se dice que se trata de variables cualitativas, mientras que
con los obtenidos en otros estudios previos o posteriores. Esto cuando se expresan como valores se les identifica como va-
es particularmente importante cuando las variables pueden riables cuantitativas.
definirse de maneras diferentes.
1. Las variables cualitativas proporcionan datos nominales
Ejemplo explicativo 1–2 (en los que se tiene, o no se tiene, la característica de
interés) y datos ordinales (en los que la característica es
El sarampión es una enfermedad viral caracterizada por graduable).
síntomas prodrómicos (fiebre, conjuntivitis, coriza, tos y a) Una variable nominal es aquélla cuya característica se
manchas de Koplik en la mucosa bucal) que del tercer al define por un nombre y no implica ser más o menos
séptimo días presenta en cara erupción exantemática que que la característica definida por un nombre diferente.
se generaliza al resto del cuerpo y desaparece de 4 a 7 días Por ejemplo, “sexo” es una variable nominal, ya que
después. Durante el periodo de incubación, enfermedad ser “masculino” no significa ser más o menos que
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
y convalecencia, se presentan modificaciones inmunes “femenino”; la ocupación también es una variable
características del proceso morboso. El término “enfermo nominal, ya que ser “ingeniero” o “abogado” no sig-
de sarampión” puede definirse operativamente de diversas nifica ser más o menos que “médico”. Aquellas varia-
maneras, entre las que se pueden encontrar las siguientes: bles nominales que se conforman de dos categorías
• Pacientes con manchas de Koplik en mucosa bucal. (nacional, extranjero; con diarrea, sin diarrea, etc.) se
• Pacientes con exantema maculopapular de tres o más designan como dicotómicas.
días de duración, fiebre y cualquiera de las tres siguien- b) Las variables ordinales son aquéllas cuyas caracterís-
tes: tos, coriza o conjuntivitis. ticas pueden recibir algún orden subjetivo. Su carac-
• Pacientes con IgM específica para virus del sarampión. terística principal es que, al ser clasificadas de alguna
La selección de una de éstas como definición operativa de manera, se puede asumir que se es más o menos que
sarampión tiene implicaciones importantes en el desarrollo las otras, aunque se desconozca qué tanto más o qué
de la investigación. El equipo de trabajo tendrá que utilizar tanto menos. En relación con el dolor, por ejemplo, el
una de ellas, u otra que se adapte a sus necesidades, y preci- paciente puede decir que le duele “poco” o “mucho”
sarla de tal manera que quienes conozcan su trabajo sepan y quien lo interroga puede asumir con seguridad que
a qué se refiere con el término “enfermo de sarampión”. “mucho” significa más dolor que “poco”, aunque no se
podría saber qué tanto es “mucho” ni qué “distancia”
Una vez que la variable ha sido definida operativamente, se existe entre “poco” y “mucho”. Aun se podría asignar-
debe especificar la escala de valores que se utilizará para cla-
Características de los datos 5
le una graduación subjetiva más detallada y no por de esa temperatura. La edad en años cumplidos, por otra
eso dejaría de ser ordinal. Tal es el caso cuando se le parte, sí tiene un valor de 0 absoluto, porque nadie llega a
pide al paciente que ubique, entre el “0” y el “100”, tener menos de cero años de edad. La temperatura en grados
qué tanto dolor siente. En este caso, al igual que al Kelvin también tiene una escala de razón, porque no existe
clasificarlo como “mucho” o “poco”, se le asigna un una temperatura por debajo de 0° Kelvin. La distinción de
orden en el cual “25” significa más que “15” y menos estas dos escalas resulta importante para la interpretación de
que “35”, pero se desconoce qué tan grande es la una razón. Por ejemplo: supongamos un niño que pesaba 50
distancia entre “15” y “25” y no se puede asumir que kg y ahora tiene 60 kg. Podemos decir correctamente que el
sea la misma que existe entre “25” y “35”, ni que el aumento del peso fue de 20%. Por otra parte, si un líquido que
“15” en una persona corresponda al “15” en otra. Las tenía una temperatura de 50° C llega a los 60° C no podremos
variables ordinales, al igual que las nominales, también afirmar lo mismo, porque la escala de temperatura en grados
pueden dicotomizarse sin que cambie su escala de Celsius no tiene un cero absoluto.
medición. Por ejemplo, al definir el comportamiento
como “bueno” o “malo” se divide la variable en dos Ejemplo explicativo 1–3
categorías, en las cuales “bueno” representa algo más
deseable (o indeseable) que “malo”. Una investigadora estaba interesada en identificar algunas
2. Las variables cuantitativas también permiten diferenciar condiciones de la madre que pudieran relacionarse con el
entre los individuos, pero además señalan cuán gran- bajo peso de los niños al nacer. Para ello, decidió estudiar
des son las diferencias observadas. Las observaciones las variables que se muestran en el cuadro 1–2, en el cual
cuantitativas brindan datos discretos (en los que sólo se las variables se clasifican según su escala de medición.
admiten valores individuales en números enteros) y datos
continuos (en los cuales es posible un número infinito de Regularmente, la clasificación de las variables es una tarea
fracciones entre dos puntos de la escala). sencilla, pero en ocasiones genera algunas dificultades meno-
a) Se definen como variables discretas aquéllas cuyos res. Por ejemplo, el tiempo es una variable continua porque
valores en la escala están separados entre sí por una entre un instante y otro cualquiera existe una cantidad infinita
cantidad determinada, por ejemplo, el número de de divisiones, pero la edad (al menos como frecuentemente
consultas otorgadas por médico en un día o el conteo se registra) es una variable discreta: un niño que cumple 10
de linfocitos en sangre. A diferencia de las variables años sigue reportando la misma edad durante todo el año
ordinales, la “distancia” absoluta entre 5 y 7 consultas hasta su siguiente cumpleaños, fecha a partir de la cual em-
es la misma que entre 105 y 107 consultas, y también pezará a decir que tiene 11 años. Por otra parte, el número de
se puede saber qué tantas más son 100 consultas en moléculas de glucosa (o de cualquier otra sustancia) es una
relación con 10 consultas. Un rasgo distintivo de estas variable discreta, porque al dividirse la molécula deja de ser
variables es que la unidad no puede fraccionarse, por- glucosa, pero la concentración de glucosa en sangre es una
que pierde su naturaleza. Así, si se parte por la mitad variable continua, porque la dilución (mg/dl) está medida en
un paciente, éste deja de serlo para convertirse en dos una escala que tiene un número infinito de divisiones.
mitades de cadáver.
b) Las variables continuas son aquéllas en las cuales la
Cuadro 1-2. Algunas características de mujeres durante el
escala de medición se puede dividir en una cantidad embarazo
infinita de valores entre dos puntos cualquiera. Entre
éstas se encuentran las medidas de longitud, peso, Variable Escala
tiempo y volumen. Por ejemplo: entre 0 y 100 metros de medición
existe un número infinito de valores que pueden carac- · Edad de la madre (en años cumplidos) Discreta, de razón
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
terizar al elemento en estudio, pero también es infinito · Talla de la madre (en centímetros) Continua, de razón
el número de valores que se encuentran entre 0 y 10
metros o entre 0 y 10 centímetros. Al igual que con las · Estado civil (soltera, casada, unión libre, Nominal
otro)
variables discretas, la “distancia” absoluta entre dos
puntos se mantiene a lo largo de la escala. Algunas · Escolaridad (menos de primaria, primaria, Ordinal
variables parecen no respetar la última característica; secundaria, preparatoria o más)
tal es el caso de las titulaciones que se reportan como · Temperatura (en grados Celsius) Continua, de inter-
1:1, 1:2, 1:4, 1:8, etc. Sin embargo, mediante una valo
transformación matemática (logarítmica para el caso) · Ocupación durante el embarazo (según la Nominal
se puede observar que sí se apegan a las características Clasificación Mexicana de Ocupaciones)
señaladas para las variables continuas.
· Exposición al humo de tabaco durante el Ordinal
embarazo (no, fumadora pasiva, fumado-
Las variables cuantitativas también pueden clasificarse según
ra activa)
tengan o no en su escala un valor de cero absoluto en variables
de intervalo (no tienen cero absoluto) y variables de razón · Hemoglobina en sangre (mg/dl) en la Continua, de razón
(sí lo tienen). Por ejemplo, la temperatura medida en grados primera consulta prenatal
centígrados tiene un valor de 0° C, pero éste es arbitrario y no · Número de consultas prenatales antes Discreta, de razón
es un valor absoluto porque existen otros valores por debajo del tercer trimestre del embarazo
6 Bioestadística
Ejercicios
1. En las variables que se presentan a continuación, Primero identifique la variable IMC con la letra W, la variable
indique de qué tipo de variable se trata mediante las Colesterol-HDL con la letra X, la variable glucosa en sangre
siguientes abreviaturas: N para una variable cualitativa con la letra Y, y la variable Fumador con la letra Z. Luego
nominal, O para una variable cualitativa ordinal, D para escriba cuáles son los valores individuales que representan
una variable cuantitativa discreta y C para una variable las siguientes referencias:
cuantitativa continua.
Referencia Valor Referencia Valor
Variable w1 ( ) y3 ( )
1. Concentración de triglicéridos en sangre (mg/dl) ( ) w2 ( ) y4 ( )
2. Diabetes (sí, no) ( ) w3 ( ) y5 ( )
3. Colesterol total (mg/dl) ( ) x2 ( ) z4 ( )
4. Creatinina (mol/L) ( ) x3 ( ) z5 ( )
5. Número de cigarrillos fumados el día anterior ( ) x4 ( ) z6 ( )
6. Índice de masa corporal (peso/talla2) ( )
7. Número de consultorios en la clínica ( )
8. Presión arterial diastólica (mm Hg) ( )
9. Intensidad del dolor (escala de 0 a 10) ( )
10. Opinión del servicio (bueno, regular, malo) ( )
11. Edad en años cumplidos ( )
12. Uso de drogas antihipertensivas (sí, no) ( )
13. Presencia de cefalea (sí, no) ( )
14. Sexo (masculino, femenino) ( )
15. Porcentaje de grasa corporal ( )
16. Depósito de agua (aljibe, balde, alberca, tina, otro) ( )
Índice de
Identificación masa Glucosa
(número corporal Colesterol en Fuma-
progresivo) (IMC) HDL sangre dor
1 24 52 110 sí
2 27 50 95 no
REFERENCIAS
Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. Nunnally, J. C., & Bernstein, I. (1997). Psychometric Theory (3a. ed.).
1, 1a. ed.). Mérida, Venezuela: Universidad de los Andes. EUA: McGraw-Hill.
Variables
¿Qué es una variable?
¿Cómo se clasifican?
12
variables numéricas), sino una característica no medible. Ejemplo, el color de un fruto
es verde cuando está inmaduro y amarillo cuando está maduro, así tenemos la variable
color que se puede describir no con una medida, sino con una característica (también
conocido como atributo), en este caso verde o amarillo.
CUADRO 01
Clasificación de variables
Son variables formadas por datos que incluyen Por ejemplo la altura de un árbol, el diámetro a la
valores decimales. Entre un número y otro hay una altura del pecho del mismo árbol, la altura a nivel
Variables infinidad de decimales (1∞2), la palabra “continuo” del mar, la precipitación, la temperatura, el pH, la
Continuas representa que un valor no termina en un número pendiente del terreno, peso de un ave, densidad,
entero como “1” o “2”, sino que el valor continúa hacia entre otros, todos involucran valores numéricos
la cuenta decimal “1.345323” o “2.000038”. con decimales.
Variables Son variables formadas por datos que no incluyen Por ejemplo la cuenta del número de huevos en
Numéricas decimales, en este sentido son números enteros. El nido de aves, no puede aparecer 1.5 huevos en
término discreto alude a que el número no continúa un nido, sino 0, 1, 2, 3 o 4. Otros ejemplos son: el
Variables hacia la cuenta decimal o “tiene un límite”. Con el número de árboles en una parcela; número de
Discretas procedimiento adecuado, estas variables se madrigueras en un transecto; número de
transforman en variables continuas. Por ejemplo, al parásitos externos en un animal; número de
calcular la media entre los números discretos “1” y pétalos en una flor; número de frutos en un
“2”, el resultado es un número con decimal “1.5”. racimo, entre otros, todos tienen datos de
variables discretas.
La palabra “nominal” proviene de “nombre” e indica Iluminación de la copa de los árboles puede
números que representan nombres. Muchas veces en clasificarse como: 1 = bajo sombra; 2 =
lugar de usar el nombre de un dato categórico, se usa parcialmente iluminado y 3 = totalmente
Variables un número que es más adecuado para administrar en iluminado. La respuesta a una pregunta por
Categóricas bases de datos y es más rápido de usar en los parte de los encuestados puede ser 1 = positiva;
formularios de campo. En un estudio de 2 = negativa; 3 = indiferente. En
comportamiento de aves se puede designar al comportamiento, la búsqueda de alimento de un
Variables número 1 como un ave con comportamiento animal puede ser 1 = activa; 2 = pasiva; 3 = sin
Nominales agresivo, 2 como temeroso y 3 como indiferente. En reacción. Observar que los números son usados
este caso el número “1” solo representa al nombre como códigos de un nombre.
“comportamiento agresivo”. Notar que jamás puedo
hacer operaciones matemáticas con estos nombres,
por ejemplo si 1 representa verde, 2 amarillo y 3 rojo,
jamás puedo sumar estos tres datos y calcular una
media.
13
Las variables ordinales también son variables Los colores de edad de un ave se pueden
nominales, ya que se refieren a un número codificar como 1 = amarillo (cuando son
representando un nombre, con la diferencia que las pichones); 2 = marrón (cuando son juveniles); 3
variables ordinales, además, denotan un orden, de ahí = negro (cuando son adultos). Observar que el
su nombre “ordinales”. Los estratos del bosque se número denota el orden de incremento de edad
Variables pueden codificar como 1 = estrato herbáceo; 2 = del ave. La toposecuencia de una microcuenca
Ordinales estrato arbustivo; 3 = estrato arbóreo; 4 = árboles se puede clasificar como 1 = parte baja; 2 = parte
Variables
emergentes. Observar que el número no solo media; 3 = parte alta. Notar que el orden de los
Categóricas representa un nombre, sino un orden, ya que los números representa el orden de incremento de la
estratos se cuentan desde abajo hacia arriba, desde toposecuencia en la microcuenca.
las hierbas hasta los árboles emergentes o sea,
desde 1 hasta 4.
Son conocidas también como variables de doble Por ejemplo, el determinar si una enfermedad
estado y en sí son variables nominales que solo está “ausente” o “presente” en un número
tienen dos categorías o niveles, por ejemplo: determinado de plantas. El determinar si la
“ausente” versus “presente”; “si” versus “no”; “verde” sobrevivencia de animales liberados es “exitosa”
Variables versus “amarillo”; “juvenil” versus “adulto”; “alto” o “no exitosa” para cada uno. En estudio de
Dicotómicas versus “bajo”; “abundante” versus “raro”. dinámica de bosque se determina si el árbol esta
“muerto” o “vivo” después de cierto tiempo de un
muestreo preliminar. Notar que todas las
variables responden a dos estados
contrastantes.
Variables derivadas
En una base de datos, nos encontraremos con variables derivadas que resultan de
operaciones matemáticas o estadísticas que involucran una, dos o más de dos variables.
Por ejemplo, el cálculo de proporciones. Una proporción se calcula dividiendo el
valor de cada dato de una
CUADRO 02
variable entre el valor total,
generando una nueva
variable.
Ejemplo de variables derivadas
En el cuadro 2 se calcula la
Especies Número de individuos Proporción proporción de abundancia
para especies (de cualquier
Especie 1 4 0.15 grupo de organismos)
Especie 2 5 0.19 usando la variable discreta
Especie 3 7 0.26 “número de individuos”.
Especie 4 2 0.07 Como resultado se
obtiene la nueva variable
Especie 5 9 0.33
“proporción”.
Total 27 1
14
De la misma forma, y con los debidos procedimientos se pueden derivar otras variables,
mediante cálculo de coeficientes, medidas de tendencia central, índices, entre otras.
Una variable categórica puede tener categorías incluyentes o excluyentes entre ellas
mismas. Por ejemplo, la variable “hábitat de preferencia” para animales silvestres tiene
tres categorías: bosques cerrados, bosques intervenidos y áreas abiertas.
De tal forma que se pueden encontrar especies que prefieren bosques intervenidos y
áreas abiertas; bosques cerrados y bosques intervenidos; o las tres categorías. En este
caso se pueden incluir no solo una, sino dos o las tres categorías para un mismo registro
(especie), por lo que concluimos que es una variable con categorías incluyentes.
Por el contrario, en las variables con categorías excluyentes, solamente una categoría
mandatoriamente se puede incluir, porque la elección de una opción (categoría)
excluye a la otra.
15
embargo es recomendable conocer que los programas pueden confundir los números
usados en las variables categóricas como datos numéricos discretos, y es aquí donde
tenemos que abrir los ojos para no incurrir en errores. De igual forma, los análisis
matemáticos o estadísticos son diferentes en dependencia del tipo de variable, aunque
con el procedimiento adecuado los tipos de variables pueden ser intercambiables. Por
ejemplo, variables categóricas se pueden transformar en numéricas y las numéricas
en categóricas. Sin embargo, para objeto de este documento no se incluirán estos
procesos.
16
Villasís-Keever MA et al. Las variables de estudio
Resumen
Las variables en un estudio de investigación constituyen todo aquello que se mide, la información
que se colecta o los datos que se recaban con la finalidad de responder las preguntas de
investigación, las cuales se especifican en los objetivos. Su selección es esencial de los protocolo
de investigación. Este artículo tiene como propósito señalar los elementos que deben considerarse
en la sección de las variables. Para evitar ambigüedad, es necesario seleccionar sólo aquellas
que ayudarán a concretar los objetivos del estudio. Posteriormente debe definirse cómo serán
medidas para que los hallazgos puedan ser reproducidos; para ello es conveniente incluir las
definiciones conceptuales y operacionales. Desde el punto de vista metodológico, la clasificación
de las variables ayuda a entender cómo se ha conceptualizado la relación entre estas. Conforme
al diseño del estudio, se deberá señalar las variables independientes, dependientes, de confusión
y universales. Otro elemento indispensable para la planificación de los análisis estadísticos por
realizar es la escala de medición de las variables. Por ello, se debe especificar si las variables
corresponden a una de las siguientes cuatro: cualitativa nominal, cualitativa ordinal, cuantitativa
de intervalo o cuantitativa de razón. Finalmente, se deben detallar las unidades de medición de
cada variable.
Abreviaturas y siglas
IMC, índice de masa corporal
mos cada uno de los elementos que debe contener formularla en términos de hechos objetivamente ob-
el apartado de variables, dentro del protocolo de servables, suficientemente claros y explícitos para
investigación. evitar ambigüedades o interpretaciones diferentes.
Si es pertinente, especificar el método por el cual la
Definición de las variables o las mediciones serán obtenidas. Si se toma el mis-
Una vez que se han seleccionado las variables a es- mo ejemplo de la obesidad en adultos, la definición
tudiar, es necesario que dentro del apartado corres- operacional pudiera escribirse de esta forma: “IMC
pondiente se señale con claridad cómo serán medi- ≥ 30”, o bien, “circunferencia de cintura ≥ 88 cm
das. Lo anterior es porque cada variable puede tener para las mujeres y ≥ 102 cm para los hombres”. Si
representaciones similares; por ejemplo, la obesidad el estudio fuera en niños, entonces se podría utilizar:
puede ser evaluada de acuerdo con el peso para la “IMC ≥ percentil 95”.
edad, mediante el índice de masa corporal (IMC), la
cuantificación del perímetro de cintura, o el porcen- Definición de las enfermedades
taje de grasa corporal. Un punto a destacar es que en todo protocolo de
Todas estas formas pueden ser correctas; sin investigación es importante especificar la manera
embargo, es esencial considerar que al definir cada o los métodos para identificar que los pacientes tie-
variable los investigadores contribuyen a que el es- nen una enfermedad determinada, un estadio de la
tudio pueda ser replicado para obtener resultados enfermedad, una complicación o una comorbilidad,
similares, o para la aplicación de los hallazgos ob- lo cual es un aspecto diferente de la definición de
tenidos en pacientes con características semejantes. las variables. Si bien, como ya se comentó en un
También hay que tener en cuenta que puede tener artículo previo de esta serie, esta parte pudiera estar
implicaciones sobre la validez del estudio, ya que la mencionada en los criterios de selección (particu-
manera que se eligió para medir la(s) variable(s) tal larmente en criterios de inclusión y exclusión) de
vez no sea la más aceptada en el mundo. la población a estudiar, es común observar que los
Por lo anterior, en todo proyecto de investiga- investigadores incluyan las definiciones de la enfer-
ción es requisito fundamental que se definan cada medad en el apartado de las variables.
una de las variables a estudiar y se tomen en cuenta Se debe tener en cuenta que las condiciones de
dos aspectos principales: la definición conceptual los pacientes al momento del ingreso a un estudio
y la definición operacional. La primera se refiere a corresponden a una “constante”, lo cual no parece
cómo se concibe dicha variable; con frecuencia esta congruente con el concepto de “variable” donde el
definición corresponde al significado más parecido común denominador será que tendrá más de una
a lo descrito en un diccionario o en un libro de tex- opción de respuesta. Esta situación no es un error, al
to. Por ejemplo, la definición de obesidad que uno contrario, le confiere mayor validez al protocolo de
puede encontrar es diversa: “adiposidad”, “exceso investigación. En cualquier investigación es necesa-
de grasa en el organismo”, “acumulación anormal o rio detallar —según corresponda— los aspectos clí-
excesiva de grasa que puede ser perjudicial para la nicos, de laboratorio o de exámenes histopatológicos
salud”, o simplemente “sobrepeso”. Ante esta varia- de cómo se llegó a la conclusión de que dicho pa-
ción, el investigador deberá seleccionar aquella más ciente o sujeto en estudio (porque puede ser alguien
cercana a lo que desea medir. “sano”) cumple objetivamente con los criterios de
En contraste, la definición operacional (tam- selección.
bién llamada operativa o de trabajo) delimita la Por lo anterior, cuando sea conveniente, se reco-
manera en que realmente será medida una variable mienda que al escribir el protocolo de investigación
determinada. Para lograrlo, el investigador debe se agregue un apartado de “definición de enferme-
dad” para ser más explícitos en los métodos a seguir, En los estudios de pronóstico, donde el objetivo
incluyendo definición conceptual y operacional. principal es establecer cómo será la evolución de un
grupo de pacientes en un tiempo determinado, la
Clasificación de las variables desde el variable dependiente corresponderá a la evolución,
punto de vista metodológico es decir, si los pacientes vivieron, murieron, hubo
De acuerdo con el diseño de investigación seleccio- curación, complicación, recaída, o bien, cómo fue
nado para comprobar las hipótesis planteadas, las su calidad de vida, entre otras.
variables a medir deberán clasificarse desde el punto
de vista metodológico. Para fines prácticos, en este Variable independiente
artículo mencionamos que, en términos generales, En los estudios de investigación, la(s) variable(s)
existen cuatro tipos de variables: dependiente, inde- independiente(s) se deben considerar cuando se
pendiente, de confusión y universal. Sin embargo, pretende determinar la relación entre al menos dos
conviene señalar que no todos los estudios o diseños variables: la independiente y la dependiente. Así,
de investigación contienen las cuatro. en general, tendrán que estar incluidas en estudios
comparativos o analíticos, ya que los investigadores
Variable dependiente desean observar el efecto (positivo o negativo) de la
En todos los estudios de investigación clínica existe variable independiente sobre la dependiente.
la variable dependiente. Esta tiene sinónimos como La variable independiente también tiene si-
principal, de interés, de desenlace, de resultado o nónimos, como variable predictora o “que el in-
predicha. De acuerdo con el tipo de diseño señala- vestigador manipula”. A continuación se señalan
mos que en los estudios descriptivos —donde solo ejemplos de acuerdo con los diseños de estudio:
se pretende señalar las características de la pobla- en el ensayo clínico descrito arriba, la intervención
ción: edad, sexo, condición socioeconómica, tipo (disminución de ingesta de sal) corresponde a la
de enfermedad, gravedad, etcétera— todas las va- variable independiente. De esta forma se formarán
riables a medir se pueden considerar dentro de esta dos grupos: al primero o grupo experimental se le
categoría. darán indicaciones para que disminuya la ingesta
Ahora bien, si el diseño corresponde con un en- de sal, mientras que al segundo o grupo control, no
sayo clínico donde se investiga si una intervención habrá restricción de sal. Si después del estudio se
(o maniobra experimental) tiene alguna utilidad, comprueba que hubo mejor control de las cifras de
entonces el efecto corresponderá a la variable de- tensión arterial en el grupo experimental, entonces
pendiente; por ejemplo, al tratar de determinar la se concluirá que la disminución de la ingesta de sal
influencia de la disminución en la ingesta de sodio es benéfica.
sobre las cifras de la tensión arterial, los cambios en Para el caso de los estudios de causalidad, el
la tensión arterial sistólica y diastólica corresponden o los factores de riesgo corresponderá(n) a la(s)
a la(s) variable(s) dependiente(s). variable(s) independientes. En el ejemplo, el taba-
Por otro lado, cuando nos enfrentamos a la bús- quismo y el ejercicio son los posibles factores de
queda de factores de riesgo, o de causas para que riesgo asociados con una crisis asmática. Por su
ocurra una enfermedad o una complicación, la varia- parte, en los estudios de pronóstico existen ciertas
ble dependiente se considera el resultado. Ejemplo: características en el momento del diagnóstico que
si se quiere identificar que el tabaquismo o el ejer- pueden modificar la evolución de los pacientes.
cicio son factores de riesgo para cuadros de crisis Por ejemplo, en pacientes con cáncer la probabi-
asmática, entonces los pacientes con (o sin) crisis lidad de mortalidad es mayor cuando tienen una
asmática corresponden a la variable dependiente. mayor gravedad o extensión de la enfermedad, es
mientras que las de intervalo y de razón en cuanti- fican en categorías. La característica esencial de las
tativas. variables nominales es que sus valores son similares
Los atributos que debe contener una escala de entre sí, dicho de otra manera, no siguen un orden, su
medición es que sea apropiada para el fenómeno magnitud es semejante y el listarlas de una forma u
en estudio y para la manera como está descrita en otra no modifica la relación entre ellas. Por ejemplo,
la definición operacional de la variable. También para el grupo sanguíneo, ninguno de los grupos (A,
debe ser suficientemente poderosa para responder B, O, o bien, Rh positivo o negativo) tiene mayor o
satisfactoriamente a los objetivos del estudio, es menor valor o peso.
decir, una variable es más sólida cuando su escala En las variables nominales también se pueden
es cuantitativa que cuando es cualitativa. Asimismo, distinguir dos grupos: las variables dicotómicas,
es preferible una variable ordinal a una nominal, o conocidas también como binarias, y las politómi-
bien, una de razón a una de intervalo; por supuesto, cas. Las variables dicotómicas tienen solo dos va-
todo depende de lo que se medirá. Por otro lado, las lores posibles o unidades: vivo/muerto, femenino/
categorías o unidades de medición deben ser mutua- masculino, enfermo/no enfermo. Mientras que las
mente excluyentes entre sí para que no se traslapen; variables nominales politómicas tienen tres o más
dichas categorías deben ser suficientes para el fenó- unidades: los nombres de las enfermedades, el lugar
meno a estudiar y claramente definidas. de residencia o el estado civil.
En general, siempre que sea posible, es más Las variables con escala de medición ordinal
conveniente la inclusión de variables cuantitativas, —a diferencia de las nominales— tienen unidades
debido no solamente a que los análisis estadísticos a o valores y siguen cierto orden, por ejemplo: deshi-
realizar serán más sólidos, sino que será posible ob- dratación leve, moderada y grave. Sin embargo, el
servar el fenómeno en estudio con mayor precisión orden solamente manifiesta que una es mayor que
o con diferentes perspectivas. Por ejemplo, cuando otra pero dicha cualidad no es tan precisa como para
se evalúa un tratamiento para la diabetes o un an- establecer con exactitud la diferencia entre una y
tihipertensivo, la disminución en los valores de la otra unidad, es decir, los intervalos entre ellas no son
hemoglobina glucosilada o en las cifras de la tensión equivalentes, pero su identificación como variable
arterial permitirá observar la magnitud del cambio ordinal indica dirección.
con el inicio del consumo del fármaco. Otros ejemplos en medicina son cuando se uti-
La variable continua contiene mayor informa- lizan cruces (+, ++, +++, ++++) para describir pro-
ción, y así será posible realizar un estudio con mayor teinuria en un examen de orina, o los estadios de las
poder y una muestra de menor tamaño, pero que ade- enfermedades (estadios I, II, III, IV). También son
más puede ser modificada a una escala “menor”, es considerados en este grupo el grado de escolaridad
decir, se puede convertir para disponer de otra manera y el nivel socioeconómico, o bien, es común utilizar
para analizar el estudio. De esta forma, las cifras de una escala como la de Likert, en la que existen varios
hemoglobina glucosilada o de tensión arterial pueden niveles de respuesta que pueden ir desde “totalmente
ser usadas para clasificar a los pacientes como con- en desacuerdo” a “totalmente de acuerdo”. Otros
trolados o no controlados. Así, se pasó de una escala ejemplos que vemos comúnmente son los cuestio-
cuantitativa a cualitativa, lo cual no es posible realizar narios estandarizados que se emplean para evaluar
de manera inversa (de una cualitativa a cuantitativa). la satisfacción o la calidad de vida.
Las variables con escala de medición nominal En el caso de las variables con escala de medición
(también conocidas como variables categóricas) son de intervalo son variables cuantitativas, que tienen
aquellos fenómenos que por su naturaleza no pueden características particulares. Estas tienen los siguien-
cuantificarse, o bien, que para su medición se clasi- tes sinónimos: discretas, discontinuas, intervalares o
finitas. En este grupo, los intervalos en las diferentes se puede considerar que no tienen límites, de ahí que
categorías o unidades son iguales entre sí, pero la mag- se conozcan como infinitas; y, para fines prácticos, se
nitud del atributo no tiene la misma dimensión, por puede considerar que solo corresponden a peso (kilos,
ejemplo, al comparar una temperatura de 10° con una gramos, miligramos), distancia (metros, centímetros),
de 20°, no se puede decir que es “la mitad o el doble de volumen (litros, mililitros) y tiempo (horas, días, me-
calor”; tienen un número limitado de unidades (de ahí ses, años).
el concepto de finito); el cero tiene un valor arbitrario;
y pueden tener valor positivos y negativos. Ejemplos Categorías o unidades de medición
de estas variables son la temperatura, el IMC, el coefi- Finalmente, un elemento que deberá ser incluido en
ciente intelectual, los niveles económicos con valores el apartado de variables del protocolo, para ayudar a
muy claramente establecidos, el número de hijos, de ser más precisos en la forma como se va a medir cada
embarazos o de semanas de gestación. variable es la descripción detallada de las unidades o
Las variables de razón también tienen sinóni- categorías que se registrarán en la hoja de recolección
mos: cuantitativas continuas o infinitas. Las caracte- de datos o en la base de datos. Lo anterior debe corres-
rísticas de estas variables son las siguientes: el cero ponder, en general, con la escala de medición de las va-
corresponde a la ausencia de lo que se mide; tanto los riables. Como se mencionó, cada una de las opciones
intervalos como la magnitud son iguales entre cada de la variable debe estar especificada, y todas deben
unidad y confieren la posibilidad de dividirlas, con- ser suficientes y exhaustivas para que puedan ser cla-
servándose siempre equidistantes los intervalos (ki- sificados todos los sujetos de estudio. En el Cuadro 1
lómetros, metros, centímetros, milímetros, etcétera); se dan ejemplos de acuerdo con la escala de medición.
Bibliografía recomendada
1. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical
measurement. Lancet. 1986;1:307-310.
2. Bland JM, Altman DG. Comparing methods of measurement: why plotting difference against standard method
is misleading. Lancet. 1995;346:1085-1087.
3. Bland JM, Altman DG. Measuring agreement in method comparison studies. Stat Methods Med Res. 1999;8:135-
60.
4. Gaspar A, Miranda G, López E, Rodríguez K, Segura N. Estimación de la tasa de filtración glomerular en
adultos con inmunodeficiencia común variable tratados con inmunoglobulina intravenosa. ¿Qué fórmula
utilizar? Rev Alerg Mex. 2014;61:45-51.
5. López-Pérez P, Miranda-Novales G, Segura-Méndez NH, Del Rivero-Hernández L, Cambray-Gutiérrez C,
Chávez-García A. Estudio de la calidad de vida en pacientes adultos con inmunodeficiencia común variable
usando el cuestionario SF-36. Rev Alerg Mex. 2014;61:52-58.
6. De Muth JE. Preparing for the first meeting with a statistician. Am J Health Syst Pharm. 2008;65:2358-66. doi:
10.2146/ajhp070007
7. Abramson JH. Survey methods in community medicine. An introduction to epidemiological and evaluative
studies. Tercera edición. UK: Churchill Livingston; 1984.
8. Marateb HR, Mansourian M, Adibi P, Farina D. Manipulating measurement scales in medical statistical analysis
and data mining: A review of methodologies. J Res Med Sci. 2014;19(1):47-56.
9. Arias-Gómez J, Villasís-Keever MÁ, Miranda-Novales MG. El protocolo de investigación III: la población de
estudio. Rev Alerg Mex. 2016; 63(2):201-206.
“Había una vez” Así empiezan los cuentos. Pero ésta es herramienta muy útil en el análisis estadístico de los datos,
una historia que se vivió a partir de mediados del siglo XX. pero que no piensa ni actúa por sí sola. La computadora
Durante muchos años, el ejercicio de la estadística incluyó sigue instrucciones en lenguaje binario, y las cumple a una
el trabajo penoso de tabular datos durante horas antes de velocidad que no deja de ser impresionante. Si se le alimenta
realizar la primera operación, lo cual, por lo general, se ha- correctamente y las instrucciones que se le dan son las ade-
cía con la ayuda de una calculadora (pero también con los cuadas, los resultados serán sorprendentes. Pero si esto se
dedos). Este trabajo era tardado, cansado y, en ocasiones, hace incorrectamente, los resultados también serán sorpren-
aburrido. Además, los errores frecuentes obligaban a repetir dentes por la magnitud de los errores. Vale la pena insistir:
los conteos, o ¡a redondear los datos! Las ecuaciones esta- la computadora es una herramienta y en ningún momento
dísticas se limitaban al cálculo de proporciones y promedios, sustituye la labor del investigador en el análisis estadístico.
y las regresiones no pasaban de dos variables. Los cálculos Con la ayuda de la computadora, se agiliza la tabulación y
de probabilidad (p) en que se basaban las inferencias se también las operaciones, pero es el investigador quien tiene
apoyaban en las tablas de los anexos al final del libro, y sólo que decidir qué análisis es el más adecuado para sus datos, y
algunos pocos matemáticos expertos se atrevían a realizar es él quien tiene que interpretar los resultados. Si lo anterior
pruebas más avanzadas. La entrega de resultados siempre ha quedado claro, entonces ya se puede continuar con el tema
se retrasaba y con frecuencia quedaba poco tiempo para su de los programas de cómputo que pueden ser de gran ayuda
discusión. Y así reinó el caos durante años, hasta que un día en el análisis estadístico.
llegaron las computadoras; al principio las cosas no fueron Durante el análisis estadístico, el investigador tiene que
más fáciles. Las primeras computadoras, que eran equipos
realizar varias tareas:
muy grandes y costosos, estaban al cuidado de un grupo
selecto de iniciados: los programadores. Los humildes mor-
• Presentación de la propuesta o proyecto
tales sólo las podían ver a través de los grandes cristales que
• Búsqueda y registro de datos
las protegían del polvo y del calor. Fue en esa época, cuando
las computadoras podían “equivocarse”, que aparecieron los • Captura y transformación de datos
primeros programas de cómputo especialmente diseñados • Revisión de la captura
para el análisis estadístico, pero ese recurso estaba dedicado • Tabulación de datos
a cumplir funciones administrativas y todavía se encontraba • Cálculo de estadísticos
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
15
16 Bioestadística
existentes, más bien se escribe sobre algunos que los autores menos versátil. Para capturar datos en una hoja de cálculo,
han tenido oportunidad de utilizar. se procede a identificar las columnas con las variables y los
renglones con los registros. En las celdas del primer renglón
se anotan los nombres de las variables y, a partir del segun-
do renglón, se capturan los datos que corresponden a cada
elemento del grupo. Por brevedad, en la captura suelen uti-
PROCESADORES DE TEXTO lizarse códigos y no etiquetas. Por ejemplo, en vez de escribir
“masculino” en la columna de sexo se puede anotar “1” y en
lugar de “femenino”, “2”. De esta manera se ahorra mucho
tiempo y se reduce el número de errores.
Estos programas son los más genéricos de todos los que
se utilizan. Básicamente sirven para escribir las propuestas
iniciales, reportes finales del trabajo y formas para captar
datos (cuestionarios, cédulas de captura). Algunos incluyen Ejemplo explicativo 4–1
utilerías capaces de elaborar cuadros y gráficos. Otros incluso Recuérdese el cuadro 1-1 en el que se presentaron los datos
permiten escribir fórmulas como las que se presentan en este de un grupo de trabajadores de un taller de automóviles. En
libro. Entre estos programas destaca Word para Windows. una hoja de cálculo, los mismos datos tendrían la presenta-
ción del cuadro 4-1, en el cual los renglones (identificados
con un número en la primera columna) y las columnas
(identificadas con letras mayúsculas en el primer renglón)
definen las referencias de cada celda. En el renglón 1 se
ADMINISTRADORES identifican las variables: “registro” en la columna “A”, “sexo”
DE BASES DE DATOS en la columna “B”, “edad” en la columna “C” y hemoglobina
con la etiqueta “Hb” en la columna “D”. Bajo la etiqueta
“registro” se anota el número i-ésimo que corresponde a
la captura, generalmente un número progresivo, en susti-
Cumplen una función muy importante durante el trabajo es- tución del nombre del sujeto o elemento del conjunto que
tadístico: ayudan a capturar datos en los archivos de cómputo se estudia. Bajo la etiqueta “sexo” el código “1” significa
en los que se almacenan. Además de generar la estructura de “varón”, mientras que el “2” se refiere a “mujer”. En las
la base y de permitir capturar los datos, estos programas tam- celdas debajo de “edad” y “Hb”, se anotan los valores que
bién permiten editar y transformar datos, así como generar corresponden a cada lectura.
nuevas variables y asignarles valores a partir de los existentes.
Pueden ayudar a generar pantallas de captura que faciliten el
trabajo de introducir datos, limitando así, el número de errores La verificación de datos puede realizarse de varias maneras.
que se pueden cometer. La verificación de la captura se puede En primer lugar, los datos en la pantalla se pueden comparar
realizar comparando los datos en pantalla con la forma en la con la forma en la cual se registraron los datos. Otro proce-
que se registraron. Si existe algún error, el programa permite dimiento más ventajoso por su facilidad es la utilización de
corregirlo. Si alguien cuenta con un poco de experiencia en filtros, a partir de los cuales se pueden ordenar los datos según
programación, también puede utilizar estos programas para diferentes criterios. Por ejemplo, si los datos del cuadro 4-1
tabular datos y realizar operaciones estadísticas, como el fueran muy extensos, entonces se podría pedir al programa
cálculo de proporciones, promedios y desviaciones estándar, que los ordenara según los valores anotados en la columna
o pruebas de chi-cuadrada y t de Student, por ejemplo. El del sexo. Si por algún motivo alguien hubiera anotado un tres
potencial de estos programas en el análisis estadístico es
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
en esa columna, se podría identificar al principio o al final de
enorme, pero la limitación más importante reside en que es ella después de ordenar los registros según un criterio ascen-
necesario conocer los programas con mucha profundidad y dente o descendente, respectivamente. Los filtros reconocen
saber programar. Entre los programas de esta categoría están todos los criterios o secuencias de datos capturados en cada
dBase, Fox y Access.
variable, lo cual permite identificar cualquier error de regis- moda, varianza, desviación estándar, coeficiente de corre-
tro, como el número tres capturado en la variable sexo del lación, intercepción y pendiente de la regresión lineal. Tam-
ejemplo anterior. Una tercera opción para verificar la captura bién pueden mostrar los valores de varias distribuciones de
incluye registrar dos veces los datos en la misma secuencia: probabilidad, como la normal, binomial, Poisson, t, F, 2, así
la primera en una hoja y la segunda en otra hoja del mismo como realizar las pruebas de chi-cuadrada, t de Student, F y
archivo. Para comparar las capturas, se utilizaría una tercera z. Varias funciones matemáticas y trigonométricas también
hoja que contraste las dos primeras y destaque las capturas están incluidas en las hojas de cálculo, y éstas son muy útiles
que no fueran iguales. cuando se desea redondear los resultados o transformar los
valores de las variables mediante logaritmos o antilogaritmos,
por ejemplo. Una función que puede ser de mucha utilidad
Ejemplo explicativo 4–2 está relacionada con la generación de números aleatorios.
Las hojas también pueden servir para simplificar el tra-
Supóngase que se han capturado los datos del ejemplo 4-1 bajo, de tal manera que, una vez que se ha introducido una
por duplicado, tal como se presentan en el cuadro 4–2. Si se fórmula, ya no sea necesario capturarla nuevamente, sólo
observa con detenimiento, se puede encontrar, en primer es necesario cambiar los valores que resulten de procesos
plano, la misma captura que en el cuadro 4–1. En segundo intermedios para actualizar el resultado, derivado de la fór-
plano, se aprecian los primeros dos renglones con los mis- mula, automáticamente.
mos datos excepto dos cambios: en las celdas B2 y C3 los
datos no son los mismos que en la primera hoja. En el tercer
plano, se muestra una hoja que identifica la diferencia de
valores y los señala con la palabra “ERROR”. Para que el Ejemplo explicativo 4–3
programa Excel muestre las diferencias de la captura en la Con frecuencia, el investigador tiene que hacer muchas
tercera hoja, se puede utilizar la función =SI() en cada una veces las mismas operaciones, pero con valores diferentes.
de las celdas de la tercera hoja (que es la que compara): en Por ejemplo, cuando se prepara un reporte final, podría
la celda A1 se escribe la fórmula =SI(Hoja1!A1<>Hoja2!A1 existir interés en presentar los resultados mediante dife-
;”ERROR”;” “), y luego se copia a todas las demás celdas rencias de proporciones con intervalos de confianza de
en la hoja de cálculo. Una vez que las capturas diferentes 95%. En la hoja de cálculo se pueden poner los valores y
han sido identificadas, se busca en las formas de captura las fórmulas necesarias una vez y, después, sólo modificar
cuál de las dos es la correcta para cambiarla en la hoja en los valores para que cambien los intervalos de confianza de
la cual se tiene el error. acuerdo con cada cuadro. En el cuadro 4–3 se representa
una hoja de cálculo mediante la cual es posible calcular los
intervalos de confianza. En las celdas de la columna B se
Las hojas de cálculo incluyen funciones que, a partir de un anotan las proporciones y el número de observaciones en
bloque de datos, permiten realizar varias operaciones, entre las muestras A y B, mientras que en la columna E se colocan
las que se encuentran los cálculos de la media, mediana, las ecuaciones para los resultados: la diferencia de propor-
ciones se obtendría mediante la fórmula (en Excel) =B1–B3
en la celda E1; el límite inferior del intervalo de confianza
se obtendría en la celda E3 mediante =E1–1.96*(B1*(1–B1)/
Cuadro 4-2. Representación de la captura de datos del B2+B3*(1–B3)/B4)^0,5; mientras que el límite superior se
cuadro 1-1, por duplicado, en hojas de cálculo tendría en la celda E4 con la fórmula =E1+1.96*(B1*(1–B1)/
A B C
B2+B3*(1–B3)/B4)^0,5. Estas fórmulas se presentan con
mayor detalle en el capítulo 16.
1 registro sexo edad
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
2 ERROR
3 ERROR
Una vez que se tiene la hoja con los valores y las ecuaciones
en posición (cuadro 4-3), para el resto de los cálculos sólo es
A B C D
1 registro sexo edad hg
2 1 2 45 12 Cuadro 4-3. Presentación de proporciones e intervalos de
3 2 2 26 13 confianza de 95%
A B C D E A B C D E
1 registro sexo edad hg 1 Proporción A 0.5 Pa - Pb 0.2
2 1 1 45 12 2 n de A 150 IC 95%
3 2 2 23 13 3 Proporción B 0.3 límite inferior 0.095
4 3 1 32 11 4 n de B 175 límite superior 0.305
5 4 1 18 15 5
6 5 1 21 14 6
18 Bioestadística
necesario cambiar los valores de B1, B2, B3 y B4 para obtener su lugar en la mayoría de los grupos de trabajo que laboran
las diferencias de proporciones y los intervalos de confianza en el campo de la salud, entre los que sin duda es uno de los
de 95% que correspondan a los datos. programas más populares. Varias de sus características han
Las hojas de cálculo también son de gran ayuda para reali- contribuido a brindarle ese lugar privilegiado, entre las que
zar los gráficos necesarios en el análisis estadístico. La facilidad destaca su facilidad de manejo; pero ninguna le ha dado tan-
con la cual se puede realizar un gráfico en estos programas to impulso como el hecho de que el programa se distribuye
permite ensayar con varias formas diferentes hasta que se libremente y sin costo a través de Internet desde el CDC de
encuentre la que mejor presenta los resultados. Atlanta (www.cdc.gov) y otros sitios de la red. Esta gran difu-
Además de todas las facilidades que brindan las hojas de sión ha facilitado la traducción del programa y sus manuales
cálculo, también se debe mencionar la gran capacidad que al español, entre otros idiomas. Epi Info se desarrolló para
tienen para importar y exportar archivos generados en otros ejecutarse en dos plataformas diferentes: MSDOS y Windows.
formatos, lo cual los hace muy útiles cuando se trabaja en Originalmente fueron escritas en inglés, pero existen opciones
varias plataformas de datos. en español. La versión para MSDOS, que se ejecutaba bastante
Parecería que un programa de hoja de cálculo cubriría bien en Windows XP o anteriores, es Epi Info 6 y aún se puede
todas las necesidades para el trabajo. Sin embargo, la hoja descargar en http://huespedes.cica.es/huespedes/epiinfo/. La
de cálculo también tiene algunas limitaciones inherentes a primera versión para Windows se conoció como Epi Info 2000
su estructura en forma de hoja: es muy difícil tabular datos y se ejecuta bastante bien en Windows XP o posteriores. La
cuando existe interés en más de dos variables, y esto limita versión más reciente del programa es Epi Info 7 que se ejecuta,
el uso de las hojas de cálculo sólo a la realización de análisis de preferencia, en Windows 7. Las tres versiones en inglés se
muy elementales. pueden descargar de http://www.cdc.gov/epiinfo/.
Epi Info 7. El programa corre en ambiente Windows, y
es una gran ventaja, porque se maneja de manera semejante
a otros programas de este ambiente gráfico; así, si ya se co-
noce uno, todos los demás resultan familiares y más fáciles
de aprender. De manera general, la interfaz del Menú nos
muestra las utilerías que ofrece el programa: crear formas de
PROGRAMAS PARA PRESENTACIONES captura (Create Forms), capturar datos (Enter Data), analizar
datos (Analyze Data) y crear mapas (Create Maps). A estas
mismas opciones se puede llegar a través de “Tools” en el
Estos programas ayudan a elaborar la presentación de los menú que se encuentra en el borde superior de la ventana. En
datos, principalmente mediante proyecciones o carteles. el mismo menú superior se encuentra “StatCalc”; esta opción
Para hacerlo, generalmente se le concede preferencia al uso incluye una serie de calculadoras epidemiológicas y el enlace
de gráficos o cuadros. Entre estos programas se encuentran a la página web de OpenEpi.com que se describe líneas abajo.
Power Point y Harvard Graphics. El análisis de datos (en Analyze Data) se puede realizar
tanto en archivos propios de Epi Info 7, como archivos con
formatos de Access, Excel, SQL y ASCII.
pueden llamarse para continuar la captura o iniciar el análisis. R Commander (“Rcmdr”) es un paquete que funciona
El programa también permite leer bases de datos generadas como un programa de análisis estadístico dentro del programa
por otros programas, como Excel o Fox, por ejemplo. R. La ventaja de trabajar con R Commander radica en que éste
aporta todas las ventajas de R (p. ej., gráficos) por medio de
una interfaz mucho más amigable para el usuario, basada en
menús y ventanas de selección bajo el perfil de Windows.
R En este libro, se guiará al lector a través de los pasos básicos
necesarios para el análisis y creación de los modelos lineales
El programa R es un ambiente de programación para realizar generalizados en R Commander (capítulo 27). Los autores
gráficos y cálculos estadísticos. Su gran ventaja es que es un recomiendan el uso de R Commander para quienes comienzan
programa de acceso abierto y gratuito en constante actuali- a estudiar e implementar este tipo de análisis estadístico con
zación, el cual puede descargarse y encontrar temas de ayuda sus datos; sin embargo, los modelos generalizados pueden
en http://www.r-project.org/index.html. Es un proyecto de crearse directamente en la consola de R sin requerir ningún
colaboración en el cual los colaboradores donan códigos de paquete adicional, tal como se mencionará en el capítulo 27.
acceso libre, actualizan el programa y sus paquetes, corrigen Es importante señalar que la aplicabilidad de R Commander
errores de programación y documentan las distintas funciones no se limita a los modelos generalizados. Los lectores pueden
de R. Entre la variedad de cálculos estadísticos que pueden iniciarse en el lenguaje de R utilizando dicho paquete como
realizarse en R, se encuentran los análisis estadísticos clásicos, otra herramienta estadística (p. ej., análisis de varianza, aná-
modelación lineal y no lineal, análisis de series de tiempo, aná- lisis de regresión) precisa, accesible y de bajo costo.
lisis de clasificación y estadística multivariada, por mencionar
algunos. Las personas que conocen el lenguaje de programa-
ción pueden generar sus propios códigos para realizar cálculos Ejemplo explicativo 4–4
específicos (p. ej., simulaciones Monte Carlo). Otra ventaja
es la calidad del diseño de gráficos para su publicación. En R Una vez descargado de la red e instalado el programa R,
pueden importarse bases de datos guardadas en formato de es necesario instalar el paquete R Commander. Por sim-
texto (*.txt) o formato CVS (*.csv) con columnas delimitadas plicidad, lo anterior lo haremos por medio del programa
por comas o tabulaciones; también es posible importar y RStudio siguiendo los siguientes pasos:
utilizar los archivos creados en Excel (*.xls). 1. Instalar el programa R (en su versión más reciente).
La gran desventaja de este programa radica en que la con- 2. Instalar el programa RStudio.
sola de R trabaja con un lenguaje de programación y no cuenta 3. Al abrir RStudio, éste solicitará que se seleccione el
con los menús de selección a los que estamos habituados los “CRAN mirror”, servidor a partir del cual se instalarán
usuarios de la plataforma de Windows; es necesario conocer los componentes necesarios para la sesión de trabajo.
su lenguaje, basado en códigos de programación específicos, Seleccionar el que corresponda al país en el que se en-
para poder comenzar a utilizar la consola blanca. Otro de los cuentre. Es probable que, la primera vez que se utilice,
inconvenientes es que los códigos son extremadamente sensi- el programa solicite instalar ciertos paquetes automá-
bles a los errores tipográficos, por lo que una simple coma (,) ticamente.
fuera de lugar interrumpe el proceso del análisis generando 4. Una vez abierta la consola, buscar en la ventana derecha
mensajes de error. la pestaña “Packages”, la cual contiene la lista de los
Actualmente existen programas gratuitos que funcionan paquetes que utiliza R (figura 4-1). Una vez abierta esa
como editores de código R y que trabajan bajo la plataforma ventana, buscar en la lista R Commander. Al palomear
de Windows. Estos programas facilitan la escritura de los la casilla “Rcmdr”, el programa comenzará a instalarlo
comandos en un documento llamado “script”, el cual puede automáticamente; esto ocurrirá solamente la primera
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
ser archivado como texto (*.txt) o código R (*.r) para un sub- vez que se utiliza el programa.
secuente uso y edición. Estos programas se vinculan con la 5. En las siguientes ocasiones en que se utilice RStudio, solo
consola de R, con lo cual al tiempo que se escribe el código será necesario seleccionar el paquete “Rcmdr” de la lista
se pueden enviar las instrucciones a R y observar los resul- de paquetes y el programa se encargará de cargarlo en
tados. Los autores de este libro recomiendan como editores la consola de R y abrirlo (figura 4-1).
de código los programas RStudio (http://www.rstudio.com/)
y Tinn-R (http://sourceforge.net/projects/tinn-r/), los cuales
tienen ventajas adicionales como la ventana para observar y
guardar los gráficos y las ventanas de fácil acceso a la insta-
lación de paquetes y a la búsqueda de temas de ayuda en R. OpenEpi
R Commander. La consola de R puede requerir paquetes
de comandos para realizar análisis específicos, los cuales de- OpenEpi es una página en la web que se puede consultar a
ben ser instalados en R antes de usarse. El paquete necesario través de un browser (en http://openepi.com/v37/Menu/
para realizar análisis estadísticos clásicos se instala automáti- OE_Menu.htm), pero que también se puede utilizar a nivel
camente al instalar el programa R (“stats”). El paquete ODBC local si previamente se descargó el programa en la computa-
Database Access (“RODBC”) debe ser instalado por el usuario dora. Está conformado por una serie de calculadoras epide-
si desea importar a R las bases de datos creadas en formato miológicas y con enlaces a muchas páginas especializadas en
Excel (*.xls). análisis estadístico y epidemiológico.
20 Bioestadística
Figura 4-1. Programa RStudio. A la izquierda se muestra la consola de R versión 2.14.0 (2011) y a la derecha, la ventana
“Packages” con la lista de los paquetes y la opción “Rcmdr” seleccionada.
REFERENCIAS
R Development Core Team R. (2013). A language and environment
for statistical computing. Viena, Austria: R Foundation for Sta-
tistical Computing. Recuperado de http://www.R-project.org/.
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
RESUMEN
Una investigación es científicamente válida al estar sustentada en información verificable,
que responda lo que se pretende demostrar con la hipótesis formulada. Para ello, es
imprescindible realizar un proceso de recolección de datos en forma planificada y teniendo
claros objetivos sobre el nivel y profundidad de la información a recolectar. Se presenta en
este artículo una serie de criterios a considerar para diseñar la herramienta de recolección
de información, así como los métodos de recolección para lograr en una investigación
resultados confiables.
DESCRIPTORES
Estadística. Fuentes de error. Métodos de recolección de datos. Fuentes de Información.
Encuestas. Preparación de una Encuesta. Diseño de un cuestionario.
ABSTRACT
Success of a research, from scientific method point of view, should be sustained on
verifiable information, looking for answers formulated by hypothesis. On dealing that, it’s
necessary to develop a programmed information collecting process with clear goals and
level and deep to be accounted for. In this article, it’s presented a series of criteria to be
present when collecting information and the way a survey instrument should be design to
obtain credible results in research processes.
KEYWORDS
Statistics. Sampling methods. Error sources on sampling. Sources of statistical information.
Surveying. Surveys design.
URL_03_BAS01.doc 1 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
FUENTES DE INFORMACION
Cada uno de los individuos de la población puede describirse según uno o varios
caracteres. Así, en el caso de los alumnos de un centro podríamos estudiar los caracteres:
sexo, edad, curso, asignaturas pendientes, media curso anterior, número de hermanos,
domicilio.
Los caracteres pueden ser numéricos en cuyo caso lo llamaremos variables (cuantitativas)
o no numéricos atributos (cualitativas)
Cada uno de los caracteres estudiados puede presentar dos o más modalidades. Las
modalidades son las diferentes situaciones posibles del carácter. Las modalidades de un
carácter deben ser al mismo tiempo incompatibles y exhaustivas. Es decir cada individuo de
la población puede adoptar una y sólo una modalidad del carácter.
Los caracteres más sencillos admiten dos modalidades (caracteres dicotómicos) por
ejemplo el sexo (Hombre, Mujer) una pieza satisface los requerimientos de calidad o no. El
número de modalidades de un carácter puede variar según la información que se quiera
recoger así por ejemplo el estado civil:
Hay algunos caracteres que por su naturaleza el número de modalidades es muy grande, por
ejemplo la profesión. Es difícil determinar el número de modalidades que tiene dicho
carácter, por lo que es conveniente agruparlas en sistemas de categorías, de forma que cada
profesión quede encuadrada de manera inequívoca en una y en una sola de las citadas
categorías. Así en España se dividen en cuatro categorías principales: a) Agricultura, b)
Construcción, c) Industria y d) Servicios. Estas categorías a su vez se subdividen en otras
subcategorías, de forma que cualquier profesión quede englobada dentro de una única
categoría y dentro de esta en una única subcategoría.
El Sistema de categorías debe ser exhaustivo y mutuamente excluyente, para evitar que un
individuo pueda pertenecer a más de una categoría.
URL_03_BAS01.doc 2 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Fuentes de Información: Son todos aquellos medios de los cuales procede la información,
que satisfacen las necesidades de conocimiento de una situación o problema presentado,
que posteriormente será utilizado para lograr los objetivos esperados. De acuerdo a su
origen se clasifican en:
Fuentes primarias.
Fuentes secundarias.
Las fuentes primarias son aquellas en las que los datos provienen directamente de la
población o muestra de la población, mientras que las fuentes secundarias son aquellas que
parten de datos pre-elaborados, como pueden ser datos obtenidos de anuarios estadísticos,
de Internet, de medios de comunicación.
Las Fuentes Primarias para su recopilación se obtienen por medio de una investigación
directa al objeto de estudio, a través de métodos establecidos. Para reunir datos primarios,
lo ideal es recurrir a un plan que exige tomar varias decisiones: los métodos e instrumentos
de investigación, el plan de muestreo, y las técnicas para establecer contacto con el
público.
Tabla No. 1. Planeación de la recolección de información primaria
ENFOQUES DE METODOS DE INSTRUMENTOS DE
PLAN DE MUESTREO
INVESTIGACION CONTACTO INVESTIGACION
Observación Correo Unidad de Muestreo Cuestionario
Encuesta Teléfono Tamaño de la Muestra Instrumentos Mecánicos
Experimento Personal Método de Muestreo Instrumentos
Las Fuentes Secundarias para ser utilizadas deben ser analizadas bajo 4 preguntas básicas
que son:
• ¿Es pertinente? cuando la información se adapta a los objetivos
• ¿Es obsoleta? cuando ha perdido actualidad
• ¿Es Fidedigna cuando la veracidad de la fuente de origen no es cuestionada
• y ¿Es digna de Confianza? si la información ha sido obtenida con la metodología
adecuada y honestidad necesaria, con objetividad, naturaleza continuada y exactitud
La fase de recopilación de datos se considera que es la etapa de más alto costo, tanto en
recursos humanos como materiales, así como también de tiempo. Es la más susceptible de
error.
URL_03_BAS01.doc 3 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
La encuesta la define el Profesor García Fernando como “una investigación realizada sobre
una muestra de sujetos representativa de un colectivo más amplio, utilizando
procedimientos estandarizados de interrogación con el fin de obtener mediciones
cuantitativas de una gran variedad de características objetivas y subjetivas de la población”.
Aplicar una encuesta a una muestra representativa de la población es con el ánimo de
obtener resultados que luego puedan ser trasladados al conjunto de la población.
Las encuestas surgen en Estados Unidos en las investigaciones de mercado y en los sondeos
de opinión ante las elecciones a la Casa Blanca. Hasta nuestros oídos llegan nombres como
Gallup o Crossley. En España es el CIS (Centro de Investigaciones Sociológicas)
dependiente de la Presidencia del Gobierno el organismo encargado de realizar dichos
sondeos de Opinión y todo tipo de investigaciones sociológicas.
Prácticamente todo fenómeno social puede ser estudiado a través de las encuestas. Cuatro
razones avalan esta afirmación:
1. Las encuestas son una de las escasas técnicas de que se dispone para el estudio de las
actitudes, valores, creencias y motivos. Hay estudios experimentales en que no se
conocen inicialmente las variables que intervienen y mediante la encuesta, bien por
cuestionarios o por entrevista hacen posible determinar las variables de estudio.
2. Las técnicas de encuesta se adaptan a todo tipo de información y a cualquier población.
3. Las encuestas permiten recuperar información sobre sucesos acontecidos a los
entrevistados.
4. Las encuestas permiten estandarizar los datos para un análisis posterior, obteniendo gran
cantidad de datos a un precio bajo y en un corto periodo de tiempo.
URL_03_BAS01.doc 4 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Las encuestas se pueden realizar sobre el total o una parte de la población. Exceptuando los
estudios que realiza el Instituto Nacional de Estadística INE en los Censos y que abarcan a
toda la población, diversos son los motivos que aconsejan tomar muestras.
Cuando la población es muy grande.
Por motivos económicos.
Por falta de personal adecuado.
Por motivo de calidad de los resultados.
Por mayor rapidez en recoger los datos y presentar los resultados.
Tipos de encuestas
URL_03_BAS01.doc 5 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Tabla No. 3. Ventajas y desventajas de los tres métodos de contacto más usuales
CORREO TELEFONO PERSONAL
Flexibilidad Pobre Bueno Excelente
Cantidad de Información que es posible reunir Bueno Regular Excelente
Control de los efectos del entrevistador Excelente Regular Pobre
Control de la muestra Regular Excelente Regular
Velocidad en la recolección de la información Pobre Excelente Bueno
Porcentaje de respuestas Pobre Bueno Bueno
Costo Bueno Regular Pobre
URL_03_BAS01.doc 6 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Tabla No. 4. Comparación entre distintas propiedades de las encuestas personal, telefónica y postal
PROPIEDADES PERSONAL TELEFÓNICA POSTAL
Libertad de expresión *** * -
Influencia entrevistador *** ** -
Complejidad *** ** *
Claridad * ** ***
Coste *** ** *
Tiempo *** ** *
Participación *** ** *
*** Muy elevado ** Elevado * Algo - Inexistente
El método experimental suministra los datos más convincentes si se aplican los controles
adecuados. En la medida en que el diseño y la ejecución del experimento excluyan otras
hipótesis que expliquen los mismos resultados, el gerente de investigación y el de
mercadotecnia estarán seguros de la veracidad de las conclusiones.
URL_03_BAS01.doc 7 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
objeto de estudio en todas las fases para poder obtener la información de acuerdo al
estímulo ocasionado.
DISEÑO DE UN CUESTIONARIO
Siendo el objetivo del diseño de una encuesta el minimizar los errores de no muestreo que
pueden ocurrir, en ese sentido, los cuestionarios deben reunir las siguientes características:
1. Operativos: Fáciles de manejar, utilizarse como instrumento de recolección de datos
previendo en su estructura la facilidad para el vaciado o salida de la información.
Fáciles de procesar y tabular.
URL_03_BAS01.doc 8 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
2. Fidedignos: Que sea confiable, que permita la recolección real de los objetivos y que
sean fáciles de ser depurados.
3. Válidos: Que sea conciso, claro, firme, consistente, que no se preste a ambigüedades.
Preguntas claras, breves, concretas y lógicas.
1. Dicotómicas: Es la más sencilla y se utiliza como filtro. Sólo admite como respuesta:
Si o No.
2. Selección Múltiple: Permite elegir varias respuestas dentro de una serie de respuestas.
3. Abiertas: Deja en libertad al entrevistado de responder lo que considere conveniente.
4. Cerradas: En este el entrevistado solo puede elegir una respuesta de una serie de
respuestas.
Cuestionario Piloto: Es aquel que una vez estructurado y redactado se somete a las
pruebas necesarias en trabajo de campo, o simulación del mismo, con el objeto principal de
determinar su validez como instrumento de medición y su grado de adecuación al medio
ambiente o universo investigado.
Una vez realizada la prueba se harán las correcciones o cambios necesarios de manera que
se convierta en el instrumento ideal para la recolección de datos.
CUESTIONARIO
INSTRUCCIONES: Marque con una equis en el recuadro su respuesta
seleccionada
Pregunta No. 1.
…Cuerpo de Preguntas
URL_03_BAS01.doc 10 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Reglas fundamentales:
1. Las preguntas han de ser pocas (no más de 30).
2. Las preguntas preferentemente cerradas y numéricas.
3. Redactar las preguntas con lenguaje sencillo.
4. Formular las preguntas de forma concreta y precisa.
5. Evitar usar palabras abstractas y ambiguas.
6. Preguntas cortas.
7. Las preguntas formularlas de manera neutral.
8. En las preguntas abiertas no dar ninguna opción alternativa.
9. No hacer preguntas que obliguen a hacer esfuerzos de memoria.
10. No hacer preguntas que obliguen a consultar archivos.
11. No hacer preguntas que obliguen a hacer cálculos numéricos complicados.
12. No hacer preguntas indiscretas.
13. Redactar las preguntas de forma personal y directa.
14. Redactar las preguntas para que se contesten de forma directa e inequívoca.
15. Que no levanten prejuicios en los encuestados.
16. Redactar las preguntas limitadas a una sola idea o referencia.
17. Evitar preguntas condicionantes con palabras que conlleven una carga emocional
grande.
18. Evitar estimular una respuesta condicionada. Es el caso se preguntas que presentan
varias respuestas alternativas y una de ellas va unida a un objetivo Tan altruista que
difícilmente puede uno negarse.
Como resumen podemos decir que en la preparación de un cuestionario hay que distinguir
entre la forma de preparar las preguntas y la forma de presentarlas.
URL_03_BAS01.doc 11 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Tipos de preguntas
Las preguntas se deben hacer de tal forma que las respuestas que se ofrezcan reúnan dos
condiciones imprescindibles, el de ser excluyentes y exhaustivas para que el encuestado no
pueda elegir dos respuestas de la misma pregunta y al mismo tiempo el encuestado tenga
todas las posibilidades de respuesta.
Cuando el entrevistado responde con sus propias palabras diremos que es abierta, y cuando
responde con palabras del encuestador será cerrada.
Distribución y recogida
Este proceso, como ya se citó anteriormente, se puede realizar de varias formas, sólo hay
que tener en cuenta que cuando se usa el correo, debemos facilitar franqueo y contar con
los tiempos de distribución. Por lo que daremos instrucciones sobre en que fecha deben
remitirlos.
LA ENTREVISTA
URL_03_BAS01.doc 13 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Como desventaja presenta el que resulta cara, pues hay que tener personal preparado y esto
resulta caro.
Preparación y ejecución:
La entrevista se realizará en un local que facilite el dialogo, alejado de fuentes de ruido, que
proporcione intimidad y asegure el anonimato de sus respuestas. El entrevistador ha de
mostrarse amable, educado y simpático explicar el motivo de la encuesta y destacar el
carácter confidencial y anónimo de la información. No dará impresión de interrogatorio, se
debe mantener el orden del cuestionario, no haciendo descansos entre las preguntas y
procurando que la entrevista se realice con rapidez. No debe contestar a preguntas que le
formule el encuestado sobre su opinión. Si se observa que el encuestado contesta mentiras
o bien tonterías, deberá hacerle ver que no está ahí para perder el tiempo, que es su trabajo
y si persiste lo mejor es dar por finalizada la entrevista.
Este tipo de trabajo es lo que se denomina “trabajo de campo” un investigador por si sólo
no puede llevar a cabo este trabajo, por lo que precisa de un equipo de entrevistadores que
deben poseer unas cualidades específicas:
Cualidades éticas: Que les impida rellenar ellos mismos los cuestionarios con
respuestas ficticias para acabar antes el trabajo. Al mismo tiempo que les impida
sugerir las respuestas a los indecisos para ganar tiempo. Además deberá tener
URL_03_BAS01.doc 14 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
paciencia cuando el entrevistado se explaye, saber aguantar con decoro los malos
modales de algún entrevistado o tener que volver repetidas veces a un mismo
domicilio. Debe ser pues una persona equilibrada.
Cualidades sociales: Debe ser una persona educada y correcta, no siendo extremado
en el vestir ni en su vocabulario, apartándose de las excentricidades de modo que no
desentone en ningún medio. Además no debe mostrar ningún asombro ante ninguna
respuesta que pueda dar el entrevistado.
Cualidades técnicas: En primer lugar conocer a fondo el método de la encuesta por
muestreo, para poder responder a las preguntas que la persona interrogada pueda
formularle. Conocer la técnica del interrogatorio, evitando la presencia de otras
personas, aclarando las preguntas que sean necesarias, saber descubrir las
contradicciones en que incurra el encuestado y por último debe conocer la materia
sobre la que versa la encuesta.
Codificación. Una vez cumplimentados los cuestionarios, viene la fase de recuento de las
respuestas. Cuando estas son numéricas no hay ninguna dificultad, pero cuando las
preguntas han tenido una contestación no numérica, es preciso traducir estas respuestas a
números. Esto se conoce con el nombre de codificación.
Por ejemplo:
Cuando las preguntas son abiertas el proceso que se sigue es anotar las respuestas dadas en
una serie de cuestionarios, analizar su contenido y anotar los términos o conceptos comunes
a varias respuestas. Cuando las respuestas se pueden incluir en los posibles grupos
establecidos, habremos conseguido cerrar las respuestas. Seguidamente se tabulará dicha
pregunta.
URL_03_BAS01.doc 15 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Figura No. 2. Ejemplo de cuestionario para que opiniones sobre las asignaturas de un curso
Buena
Regular
Mala
No existe
14. ¿Cuál es la mayor dificultad que encuentras para llevar a buen término el curso?
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
________
URL_03_BAS01.doc 16 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
3 Selección del Marco Muestral: Listar todas las unidades muestrales de la población
objetivo. El uso de marcos múltiples pueden hacer del muestreo más eficiente.
5 Elección del Método de Medición: usualmente alguno de: entrevistas personales o por
teléfono, cuestionarios enviados u observación directa.
8 Prueba Piloto: Con una pequeña muestra para probar los instrumentos de medición,
calificar a los entrevistadores y verificar el manejo de las operaciones de campo.
10 Organización del Manejo de Datos: debe incluir los pasos para el proceso de datos,
desde el momento en que se hace una medición en el campo hasta que el análisis final ha
sido completado. Incluir un esquema de control de calidad para verificar la correlación
entre los datos procesados y los datos recolectados en el campo.
11 Análisis de los Datos: Especificar detalladamente los pasos de análisis que deben
ejecutarse.
12 Elaboración de Conclusiones.
URL_03_BAS01.doc 17 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
URL_03_BAS01.doc 18 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
Ventajas Inconvenientes
► Elevado índice de respuestas. ► Es caro y lento.
► Facilidad de cooperación de las personas ► El entrevistador puede ejercer influencia y debe
entrevistadas debido a la presencia del estar entrenado a la vez que controlado.
entrevistador, a la vez que permite resolver ► Difícil acceso a ciertas poblaciones.
dudas.
► Permite evitar influencia de otras personas.
► Posibilita la realización de entrevistas largas.
► Pueden mostrarse materiales.
► Pueden obtenerse datos secundarios
(presencia, ambiente, etc.)
Ventajas Inconvenientes
► Económico con reservas ► Presenta problemas de muestreo pues excluye a
► Técnica muy rápida tanto contactando como las personas que no tienen teléfono
recogiendo la información ► Existe un nivel de no respuesta no asociado al
► Puede utilizarse como medio único, como muestreo por el hecho de marcar números
auxiliar o combinado con otras técnicas o telefónicos al azar. (desconfianza)
modalidades de encuesta ► No pueden exhibirse materiales
► Permite entrevistar a determinadas ► Brevedad de la entrevista
poblaciones (personas importantes, muy ► No es apropiado para tratar temas delicados ni
ocupadas, de zonas mal comunicadas, etc.) preguntas complejas
► Mejor inclinación a responder por teléfono ► No se evalúan datos secundarios (presencia,
► Se necesitan menos entrevistadores y la ambiente, etc.)
supervisión es adecuada
Ventajas Inconvenientes
► Económico ► Bajos índices de respuesta
► Se precisa escaso personal para realizar la ► Inconvenientes formales: pueden darse errores
encuesta por no comprender las preguntas; no se controla
► Accesibilidad el orden de las preguntas y el cuestionario ha de
► Flexibilidad de tiempo para el entrevistado ser corto
que ofrece mayor calidad a la información ► Impersonal
► Favorece el anonimato ► Pueden influir otras personas
► Poco útil para encuestas de respuesta inmediata
► Ciertos grupos quedan excluidos (analfabetos)
URL_03_BAS01.doc 19 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
CONCLUSIONES
La estadística provee las herramientas metodológicas para poder afirmar que los resultados
obtenidos en una investigación son válidos.
Es necesario conocer los tipos de fuente informática y las herramientas y recursos más
utilizados para recabar sistemáticamente los datos requeridos. Las opciones son varias y el
investigador deberá decidir entre las mismas a efecto de lograr los mejores resultados.
Los métodos de toma de muestras no podrán quedar fuera de la vista del investigador
experto o en sus inicios.
BIBLIOGRAFIA
URL_03_BAS01.doc 20 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03
URL_03_BAS01.doc 21 de 21
Diseño de la base de datos
¿Qué es una base de datos?
FIGURA 01
Parcelas Parte
El área en el contorno mayor es
la microcuenca, las partes en
que se divide la microcuenca
Alta (parte alta, parte media y parte
baja) están limitadas por las
Límite líneas horizontales. Las líneas
de las Parte delgadas dentro de los límites
Fincas Media de la microcuenca representan
el área de las fincas y las
figuras cuadradas dentro de
Parte dichas áreas, representan las
Baja parcelas.
17
La figura 1 nos ayuda a visualizar la lógica del muestreo y así diseñar la base de datos.
Notar que el diseño de muestreo sigue un orden jerárquico, dentro de las partes de
la microcuenca están las fincas, dentro de las fincas están las parcelas y dentro de las
parcelas se determinan las especies. La figura 2 ilustra el organigrama jerárquico de la
relación entre las variables.
Finca 1
Especie 1 Abundancia de la Especie 1
Parcela 1 Especie 2 Abundancia de la Especie 2
Parte Alta de la Microcuenca
Finca 2
Parcela 1
Parcela 2
Parcela 3
Finca 3
Parcela 1
Parcela 2
FIGURA 02
Parcela 3
18
La relación jerárquica representada en la figura 2, facilita la visualización de la relación
de las variables en una base de datos, de tal forma que si trasladamos los datos de la
figura 2 a una hoja de cálculo o base de datos con formato filas y columnas, la relación
se vería como se representa en el cuadro 3.
CUADRO 03
La relación jerárquica de las variables
19
Cuadro 4. Este cuadro representa al cuadro 3 con las columnas rellenas donde
corresponde cada variable categórica. Las columnas de las variables “Especie” y
“Abundancia” no se rellenaron porque estas solo se presentan para la parcela 1, con el
fin de ahorrar espacio en la tabla para una mejor visualización.
CUADRO 04
Parte de la microcuenca Finca Parcela Especie Abundancia
Alta Finca 1 Parcela 1 Especie 1 Abundancia sp 1
Alta Finca 1 Parcela 1 Especie 2 Abundancia sp 2
Alta Finca 1 Parcela 1 Especie 3 Abundancia sp 3
Alta Finca 1 Parcela 1 Especie 4 Abundancia sp 4
Alta Finca 1 Parcela 2
Alta Finca 1 Parcela 3
Alta Finca 2 Parcela 1
Alta Finca 2 Parcela 2
Alta Finca 2 Parcela 3
Alta Finca 3 Parcela 1
Alta Finca 3 Parcela 2
Alta Finca 3 Parcela 3
sp = abreviación de especie.
El cuadro 4 representa una base de datos no solamente diseñada, sino que parcialmente
estructurada. A continuación, y ligado con este tema, se explica sobre la estructura de
una base de datos.
Una base de datos de manera estándar está formada por campos y registros. Los
campos son las columnas de una hoja de datos y representa a las variables tanto
categóricas como numéricas. Por lo general se le asigna un nombre a cada columna
que represente el tipo de información desplegada en ella. Los registros son las filas
de una hoja de datos y representan la información que entra a la base de datos. Por
ejemplo, asumamos una base de datos sencilla, formada por 4 campos y 10 registros
(Figura 3). Notar cuáles son los campos (columnas) y cuáles son los registros (filas) en
la representación.
20
FIGURA 03
Columna 1 Columna 2 Columna 3 Columna 4
A B C D
Fila 1 1 LOCALIDAD PUNTO USO HR (%)
Fila 2 2 Santa Teresa Punto 1 Pasto 45.8
Fila 3 3 Santa Teresa Punto 2 Bosque 60.5
Fila 4 4 Santa Teresa Punto 3 Agroforestal 85.6
Fila 5 5 La Trinidad Punto 1 Granos Básicos 67.2
Fila 6 6 La Trinidad Punto 2 Bosque 85.3
Fila 7 7 La Trinidad Punto 3 Pasto 91.4
Fila 8 8 Diriamba Punto 1 Granos Básicos 56.1
Fila 9 9 Diriamba Punto 2 Agroforestal 76.9
Fila 10 10 Diriamba Punto 3 Café y Sombra 87.4
Figura 3. Ilustración de una base de datos estándar estilo campos (columnas) y registro
(filas).
Una celda es uno de los cuadros que contiene información y es independiente del
resto. Por ejemplo, si tratamos de localizar en qué celda se encuentra el dato “Punto 3”
de “La Trinidad”, habría que determinar la letra de la columna y el número de fila en que
se encuentra. En este caso particular, se encuentra en la columna B y fila 7, por lo que
esa celda se llama B7. Notar que se tienen cuatro variables o sea cuatro campos, de
estos, las primeras tres son variables categóricas y la última es una variable numérica
de tipo continuo.
21
Analicemos la figura 3 y observemos varias cosas:
1. Observar que ninguna celda está vacía, todas tienen contenido. En el caso de la
localidad por ejemplo, el nombre de cada localidad se repite en todos las celdas
donde el nombre es el mismo. El nombre de “Santa Teresa” está contenido en tres
celdas: A2, A3 y A4, es necesario escribir el nombre en las tres celdas y no dejar celdas
sin información. Ello incurriría en errores cuando se utilice la base de datos.
2. Los nombres se repiten con exactamente las mismas letras. Por ejemplo, si se escribe
“Santa Teresa”, “santa Teresa” y “santa teresa”, al usar los datos, llamar información,
hacer reportes etc. posiblemente el programa reconocerá a las tres “Santa Teresas”
como palabras diferentes y por consiguiente, localidades diferentes. Los nombres
deben repetirse estrictamente con las mismas letras. Otro ejemplo es el que sucede
con estudiantes que tienen nombre científicos en sus bases, es típico que un mismo
nombre científico sea escrito de forma diferente y al final cuando se hacen filtros o
gráficos dinámicos, aparece ese nombre como diferentes nombres científicos derivados
del mismo. Por ejemplo, el nombre científico del pochote es: Bombacopsis quinata,
pero si en la base se escribe como Bombacopsis Quinata, bombacopsis quinata,
Bombcopsisquinata, Bombacopsis_quinata, Ombacopsis quinata, etc. los programas
reconocerán cada nombre científico errado como un nombre científico diferente, sin
saber que realmente se trata del mismo. Esto traería engorrosos momentos en el
análisis de datos.
3. Notar de una forma detallada que una base de datos profesional no tiene encabezados
largos, coloridos, con diferente tamaño de letra, diferentes formatos, ni incluyen
figuras, oraciones, frases, ni nada parecido. Las bases de datos tienen una sola línea de
encabezados (uno por columna) en la “fila 1”. Los encabezados se tienen que presentar
en negritas para que el programa reconozca que son encabezados. Además, no se
usan frases ni nombres largos. Una o dos palabras es suficiente y si el nombre es muy
largo se utilizan codificaciones. Los encabezados representan directamente el nombre
de las variables, generalmente de una forma codificada. Por ejemplo, en el campo 4
de la figura 3, se encuentra la variable “Humedad Relativa en porcentaje”; sin embargo,
ese nombre es muy largo para ser usado como encabezado de esa columna, de tal
forma que se codificó a modo de abreviación y se nombró la columna como “HR (%)”
en lugar de su nombre extendido.
Hay que notar que el significado de los códigos y abreviaciones tienen que explicitarse
y presentarlos de forma clara al lector.En el caso de la figura 3, se presentó el nombre
de la variable codificada posterior a la figura (HR (%)=Humedad Relativa en porcentaje).
Estas tres observaciones son esenciales para estructurar cualquier base de datos, y
lo principal es que siguiendo estos consejos se logran elaborar bases de datos que
22
pueden ser compartibles a nivel nacional e internacional. Cualquier profesional que
trabaje con información biológica sabrá interpretar un diseño de muestreo, diseño de
experimento o tendrá una idea inmediata de lo que el estudiante de tesis quiere hacer,
solo con explorar la estructura de la base de datos.
¿Qué pasa con las variables categóricas incluyentes o excluyentes? (Ver explicación
en la página 15).
En una base de datos, las variables categóricas se establecen para cada registro en
dependencia de la presencia de categorías incluyentes o excluyentes. En la tabla 5 se
presentan dos variables, una incluyente llamada “Alimento” y otra excluyente llamada
“Veda”.
CUADRO 05
Especies Granívoro Nectarívoro Insectívoro Frugívoro Herbívoro Veda
Especie 1 1 1 1 1 Parcial
Especie 2 1 1 Indefinida
23
Diplomado en Salud Pública
2. Metodología en Salud Pública
0.1. Concepto
El método científico (del griego: -μετά = hacia, a lo largo- -οδός = camino-; y del
latín scientia = conocimiento; camino hacia el conocimiento) es un método de
investigación usado principalmente en la producción de conocimiento en las ciencias.
Para que haya ciencia debe haber dos componentes, “un conjunto de conocimientos”
y “un método apropiado para su estudio: la observación”, y la observación ha de ser
sistemática y controlada.
Es un método teórico.
Es sistemático: sentido de orden y disciplina que busca garantizar un nivel
aceptable de reproducibilidad y validez.
Es a la vez inductivo y deductivo.
Tiene una base empírica: emplea la observación directa para obtener los datos
objetivos necesarios que documentan el conocimiento obtenido.
Emplea el examen crítico: el científico somete sus resultados a la prueba
empírica se halla sujeto a revisión y los resultados no son nunca definitivos.
Es circular: interacción continua entre experiencia y teoría. La teoría alimenta
a la experiencia y ésta a la teoría y el objetivo es entrar en un proceso de
retroalimentación que permite la acumulación de conocimiento.
Busca controlar los factores que no están directamente relacionados con las
variables en cuestión pero que pueden influir sobre ella.
El método científico tiene una serie de etapas que han de seguirse, la designación de
las etapas varía según los autores, pero lo importante es transmitir el concepto de
que dicho método es un proceso sistemático de investigación que consta de
partes interdependientes.
Las etapas que integran el método científico son: 1) definición del problema, 2)
formulación de hipótesis (razonamiento deductivo), 3) recopilación y análisis de
datos, 4) confirmación o rechazo de hipótesis, 5) resultados, 6) conclusiones.
Descrito desde otro punto de vista, podemos decir que el método científico se inicia
con una fase de observación, donde el científico toma contacto con el fenómeno, se
sabe algo de él, pero lo induce a continuar buscando alguna respuesta sobre él.
Sigue una fase de planteamiento de la hipótesis que basada en el conocimiento
previo y en los datos que se recogerán, podría ser demostrada. Por último la fase
de comprobación, que depende de la generalidad y sistematicidad de la hipótesis.
RESUMEN
Capítulo
cualitativa
David Alan Neill; César Quezada Abad; Juana Arce Rodríguez
David Alan Neill: Licenciado en Ciencias, Biología, en The Evergreen State College. PhD, Biología
en Washington University. Docente, investigador y director del Departamento de Conservación
y Manejo de Vida Silvestre Flora-Fauna, Universidad Estatal Amazónica. Ha publicado artículos
en revistas indexadas, además de realizar investigaciones en botánica. davidneill53@gmail.com
César Quezada Abad: Ingeniero Acuicultor. Diplomado en Educación Superior. Máster en
Gerencia Empresarial. Doctor en Ciencias Administrativas. Docente de la Universidad Técnica
de Machala. Decano de la Facultad de Ciencias Agropecuarias. Rector de la Universidad Técnica
de Machala (2012-2017). Ha realizado publicaciones en libros y artículos en revistas indexadas.
cquezada@utmachala.edu.ec
Juana Juliana Arce Rodríguez: Licenciada en enfermería. Egresada de la maestría Seguridad
Industrial Salud Ocupacional y Relaciones Comunitarias. Docente en la Universidad Técnica de
Machala en la UACQS y en DNA. Miembro del Departamento de Seguridad en el Trabajo. Faci-
litadora de cursos en seguridad y atención a personas. Formadora de auxiliares de enfermería.
jarce@utmachala.edu.ec
Investigación cuantitativa y cualitativa 69
Investigación cuantitativa
El diseño de la investigación cuantitativa constituye el
método experimental común de la mayoría de las discipli-
nas científicas. El objetivo de una investigación cuantitativa
es adquirir conocimientos fundamentales y la elección del
modelo más adecuado que nos permita conocer la realidad
de una manera más imparcial, ya que se recogen y analizan
los datos a través de los conceptos y variables medibles.
La investigación cuantitativa es una forma estructurada de
recopilar y analizar datos obtenidos de distintas fuentes, lo
que implica el uso de herramientas informáticas, estadísti-
cas, y matemáticas para obtener resultados. Es concluyente
en su propósito ya que trata de cuantificar el problema y
entender qué tan generalizado está mediante la búsqueda
de resultados proyectables a una población mayor.
Todos los experimentos cuantitativos utilizan un formato
estándar, con algunas pequeñas diferencias inter-disciplina-
rias para generar una hipótesis que será probada o desmen-
tida. Esta hipótesis debe ser demostrable por medios mate-
máticos y estadísticos, constituyéndose en la base alrededor
de la cual se diseña todo el experimento.
En ocasiones, a estos experimentos se los denomina cien-
cia verdadera, ya que emplean medios matemáticos y esta-
dísticos tradicionales para medir los resultados de manera
concluyente.
Investigación experimental
Aquí el investigador tiene el control de la variable indepen-
diente o variable estímulo, la cual puede hacer variar en
la forma que sea más apropiada a sus objetivos. De igual
manera, puede controlar la conformación de los grupos que
necesita para su estudio.
Para Salkind (1999) es aquella en la que los participantes
se asignan a grupos con base a algún criterio determinado,
siendo este es el entorno ideal para establecer vinculacio-
Investigación cuantitativa y cualitativa 73
Investigaciones no experimentales
Las investigaciones no experimentales son aquellas en las
cuales el investigador no tiene el control sobre la variable
independiente, que es una de las características de las inves-
tigaciones experimentales y cuasi experimentales, como
tampoco conforma a los grupos del estudio. Behar (2008)
señala que en ellas el investigador observa los fenómenos tal
y como ocurren naturalmente, sin intervenir en su desarrollo.
En estas investigaciones, la variable independiente ya ha
ocurrido cuando el investigador hace el estudio.Por esta
característica, los estudios que se dan bajo estas circunstan-
cias son investigaciones ex post facto.
74 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez
Investigación cualitativa
Los estudios cualitativos constituyen un acercamiento meto-
dológico en la búsqueda del sentido de las acciones socia-
les, tomando en cuenta actitudes, aspectos culturales, per-
cepciones, relaciones y estimaciones.
Investigación cuantitativa y cualitativa 75
Estudios fenomenológicos
Consiste en el estudio de los fenómenos sociales tomando
en cuenta la perspectiva de los propios actores sociales; es
decir, proporciona significados a una experiencia vivida. Para
Katayama (2014), “busca describir y analizar los conceptos
tal y como estos surgen y se dan en los propios actores
sociales. Ello supone buscar qué hay detrás de la conducta
y el aislar estos conceptos y categorías para a partir de ellos
dar sentido al actuar del sujeto” (p. 33)”.
Aquí el investigador requiere entender cómo un grupo
social experimenta un fenómeno. Su propósito es compren-
der el significado que le atribuyen los sujetos a un deter-
minado evento. La fenomenología está orientada recabar
datos de las personas que han experimentado el evento o
fenómeno objeto de estudio. Se caracteriza por:
• Se preocupa de los aspectos relacionados con la expe-
riencia o conciencia.
• Se enfatiza por los significados individuales y subjetivos
de la experiencia.
• Sus acciones están relacionadas con la intuición, el aná-
lisis, la descripción, la observación, exploración de la con-
ciencia y la interpretación de significados.
Investigación cuantitativa y cualitativa 79
Etnografía
La investigación etnográfica busca describir e interpretar
a un grupo o sistema social, desde el ámbito de sus cos-
tumbres y cultura. De acuerdo a (Hernández, Fernández y
Baptista (2014) estos diseños “buscan describir, interpretar
y analizar ideas, creencias, significados, conocimientos y
prácticas presentes en tales sistemas. Incluso pueden ser
muy amplios y abarcar la historia, geografía y los subsiste-
mas socioeconómico, educativo, político y cultural” (p. 482).
Este tipo de investigación es utilizada en los estudios de
antropología. Tiene como objeto de estudio la descripción
detallada de situaciones y comportamientos observables
relativos a las experiencias culturales, construcción de valo-
res, actitudes, creencias y pensamientos de una población
específica. Los rasgos característicos de la investigación etno-
gráfica son:
• Su carácter holístico, ya que describe los fenómenos o
eventos de forma global en sus contextos naturales.
• Su condición naturalista, debido que se estudia a las per-
sonas en su entorno o hábitat natural.
• Se apoya de estrategias de tipo inductivo.
• Analiza los significados desde la perspectiva de los agen-
tes sociales.
• Tiene carácter reflexivo.
• El investigador etnógrafo evita realizar juicios de valor
sobre las observaciones realizadas.
Investigación Acción
Son aquellos estudios donde el investigador interviene o
participa junto al grupo social para contribuir a modificar la
80 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez
Estudio de caso
El estudio de caso es un proceso investigativo que examina
en detalle un sistema definido (caso particular) a lo largo
del tiempo, para comprender en profundidad una realidad
específica de la sociedad. De acuerdo a Simons (2011), “el
estudio de caso es un estudio de lo singular, lo particular, lo
exclusivo” (p. 19). Entre las características de esta metodolo-
gía de investigación cualitativa tenemos:
Investigación cuantitativa y cualitativa 81
La investigación narrativo-biográfica
La investigación biográfica-narrativa tiene por objetivo mos-
trar el testimonio subjetivo de persona de especial relevan-
cia, del cual se recaba hechos, opiniones, valoraciones y
experiencias sobre su propia existencia. De acuerdo a Boza,
Méndez, y Monescillo (2010), “la investigación biográfi-
ca-narrativa, ha permitido investigar, conocer e interpre-
tar el mundo subjetivo, pasa a comprender las acciones
humanas, las experiencias y subjetividades que las identifi-
can y definen” (p. 26).
Este tipo de investigación puede presentarse en forma de
biografías, autobiografías, historias de vida o reconstruccio-
nes biográficas. Se caracteriza por:
• Ser descripciones de acontecimientos y experiencias
relevantes sobre la vida de una persona, contadas con
las propias palabras del protagonista o de sujetos muy
cercanos a él.
• Las habilidades del investigador deben fundamentase
en: observar, escuchar, comparar y escribir.
• Predomina la técnica de la entrevista, pudiendo incluir
fuentes de información como correspondencia, diarios per-
sonales, fotografías, registro de audio y video, entre otros.
• El proceso de investigación biográfica - narrativa incluye
los siguientes elementos: un narrador, un intérprete o
investigador y los textos que recogen lo narrado.
82 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez
Análisis histórico
Implica una recogida sistemática y crítica de documentos
que describen sucesos pasados. Los historiadores describen
la trayectoria real de los fenómenos y acontecimientos ocu-
rridos en una etapa o períodos pasados.
Observación participante
La observación es una herramienta esencial en un proceso
investigativo con enfoque cualitativo. En esta observación,
se necesita una participación directa entre el observador y
el contexto en donde se desarrolla la investigación, a fin de
reflexionar cada suceso y comportamiento, por tanto, debe
mantenerse alerta para analizar y captar lo que ocurra en un
determinado momento (Gómez, 2012).
El investigador hace una inmersión en el contexto, se intro-
duce dentro del grupo de estudio y llega a formar parte de
él. Da descripciones de los acontecimientos, de las personas,
interacciones entre ellas. No se trata de observar por obser-
var; el objetivo es hacerlo para darle sentido a la información
que recopilamos al analizar comportamientos, actitudes y
acontecimientos.
Entrevista
Con esta técnica el investigador obtiene información sobre
el punto de vista y la experiencia de las personas o grupos.
Se define por lo general como un diálogo y puede ser de
diferentes clases: estructurada, semiestructurada, o incluso
informal.
Entrevista estructurada: se la realiza a partir de una guía
prediseñada que contiene las preguntas que serán plan-
teadas al entrevistado.
Investigación cuantitativa y cualitativa 83
Grupos focales
Se refiere a discusiones minuciosamente diseñadas para obte-
ner información sobre una situación en concreto. Su objetivo
es promover la participación de los integrantes del grupo.
Las personas que lo componen tienen aspectos comunes,
lo que permite que se hable espontáneamente para cono-
cer un abanico de opiniones. Según Del Cid, Méndez, & San-
doval (2011) es recomendable para una mayor profundidad
en las intervenciones de los participantes, que el grupo no
pase de seis personas.
Los grupos focales se pueden utilizar antes, durante y des-
pués de un proyecto de investigación para obtener la per-
cepción y creencias que el grupo tiene sobre una determi-
nada temática.
requieren una serie condicionantes de garantías éti- De esta forma, un estudio de tendencias de mor-
cas y autorización del comité de investigación, razo- talidad en un periodo determinado, hemos de consi-
nes por las que no serán objeto nuestro de estudio en derarlo como un estudio descriptivo, pues aunque
profundidad. describa el fenómeno y su evolución dentro de un
espacio temporal, el estudio se limita a la descrip-
ESTUDIOS OBSERVACIONALES ción del fenómeno dentro de unas coordenadas tem-
porales, pero sin establecer relación causal con
Dentro de los estudios observacionales, podría- ningún factor concomitante en el tiempo. En este
mos diferenciar dos tipos de estudios, según el obje- caso, el periodo de tiempo más o menos amplio en el
tivo que persigan, y por tanto, su diseño. Nos que se encuadre el estudio, se considera como si de
referimos a estudios Descriptivos y estudios Analíti- corte en el tiempo se tratase.
cos.
La característica principal que lo define como
1.- Estudios Descriptivos estudio observacional descriptivo y lo diferencia de
un estudio observacional analítico es que en este
En los estudios descriptivos, el investigador se último, su objetivo y su diseño se centran, como se
limita a medir la presencia, características o distri- ha mencionado, en buscar alguna relación causa-
bución de un fenómeno en una población en un efecto entre dos fenómenos que se relacionan a lo
momento de corte en el tiempo, tal sería el caso de largo del tiempo, como veremos después.
estudios que describen la presencia de un determina-
do factor ambiental, una determinada enfermedad, Algunos ejemplos que podemos citar de estudios
mortalidad en la población, etc., pero siempre referi- descriptivos, serían los estudios de incidencia, de
do a un momento concreto y sobre todo, limitándo- prevalencia, de evaluación de riesgos, de encuestas
se a describir uno o varios fenómenos sin intención poblacionales, por citar los más corrientes, y consti-
de establecer relaciones causales con otros factores. tuyen, en su mayor parte, el modelo de estudio más
Por tanto, la principal característica de los estudios frecuente con el que nos encontremos dentro de
descriptivos es que se limitan simplemente a “dibu- nuestro ámbito de actividad sanitaria, lo que no quita
jar” el fenómeno estudiado, sin pretender establecer que con relativa frecuencia podamos encontrarnos, o
ninguna relación causal en el tiempo con ningún otro nos interese diseñar algún otro tipo de estudios.
fenómeno, para lo que necesitaríamos recurrir a un
estudio analítico. En numerosas ocasiones, por ejemplo al realizar
una encuesta en la que se ha recogido gran cantidad
La primera finalidad de estos estudios, como de variables, el investigador, queda abrumado por el
bien indica su nombre, es describir la frecuencia y exceso de información. Así, en la fase de análisis a
las características más importantes de un problema veces olvida que se trata de un “dibujo” y comienza
de salud en una población. Su segunda función es a interpretar las asociaciones estadísticas entre una
proporcionar datos sobre los que basar hipótesis exposición o factor y un estado de salud, como si de
razonables. relaciones causa-efecto se tratase. En otras palabras,
una característica que define estos estudios es la
falta de secuencia temporal entre la medición de un
factor de riesgo y un hipotético efecto, por tanto, es
extremadamente complicado corroborar hipótesis
causales.
Para entender la falacia ecológica vamos a recu- relacionados individualmente y se corresponden con
rrir a un ejemplo. Imaginemos que queremos estu- la misma población, por lo que debemos recurrir a
diar los accidentes laborales ocurridos durante el los estudios analíticos.
último año en una determinada empresa. Para ello
llevamos a cabo un estudio de incidencia de acci- 2.- Estudios Analíticos
dentes, es decir, un estudio descriptivo de la pato-
logía durante el tiempo de estudio, un año. Los estudios Analíticos se caracterizan porque
Supongamos que el resultado de nuestro estudio es pretenden “descubrir” una hipotética relación entre
que encontramos una elevada tasa de incidencia de algún factor de riesgo y un determinado efecto, es
accidentes, y de pronto se nos ocurre que detrás de decir, pretenden establecer una relación causal entre
esta alta tasa de accidentes pudiera esconderse un dos fenómenos naturales.
elevado nivel de estrés en los trabajadores.
En este tipo de estudios, es esencial entender que
A partir de ese momento decidimos ampliar para que prevalezca su condición de estudio obser-
nuestro estudio y le incorporamos un análisis de la vacional, han de cumplir la premisa de que el inves-
proporción de trabajadores que sufren un elevado tigador no establece ningún tipo de intervención en
nivel de estrés, y curiosamente, nos encontramos los grupos de estudio, los cuales se someten a las
que el porcentaje de trabajadores de la empresa con leyes naturales de evolución desde que interviene la
nivel de estrés alto muestra también cifras elevadas. causa hasta que se produce el hipotético efecto resul-
tante.
Nuestra intención podría ser asociar los hallazgos
y establecer relación entre ellos, por el hecho de que Los estudios analíticos requieren un diseño espe-
se encuentran presentes en la misma población, cial y más cuidadoso que los estudios descriptivos,
determinando una relación causal entre el elevado sobre todo en lo que se refiere a los sistemas de con-
nivel de estrés de los trabajadores y la alta propor- trol de sesgos y de factores de confusión, que de no
ción de accidentes detectados en la empresa, pero si establecerse desde su diseño inicial de forma correc-
así lo hiciéramos, estaríamos cometiendo un grave ta podrían invalidar los resultados del estudio.
error metodológico.
Si bien decíamos que los estudios descriptivos
La falacia ecológica se produce desde el momen- nos muestran una fotografía estática de un fenóme-
to en que, aún realizándose el estudio de los acci- no concreto, bien sea el factor de riesgo, como por
dentes y del estrés en una misma población cerrada, ejemplo un estudio de evaluación de riesgos, o del
se trata de dos estudios observacionales diferentes, efecto, como pudiera ser un estudio de incidencia o
aunque se encuentren solapados. Si utilizamos dos prevalencia, los estudios analíticos nos dan una
estudios descriptivos para sacar conclusiones con- visión dinámica del proceso salud-enfermedad y las
juntas de los resultados de cada uno de ellos, nunca posibles relaciones causales definidas en el tiempo
podemos estar seguros de que el subconjunto de desde que se hace presente el agente causal hasta que
población que se encuentra afectada por un elevado aparece la enfermedad, por lo que los estudios Analí-
nivel de estrés, se corresponda exactamente o inclu- ticos nos vendrían a ofrecer una visión dinámica
so aproximadamente, con el subconjunto de pobla- similar a una película en la que podemos relacionar
ción en la que detectamos los accidentes de trabajo. el desenlace con diferentes escenas previas de la
misma.
A veces, las observaciones epidemiológicas des-
criptivas proporcionan el primer aviso de los, hasta
el momento, riesgos desconocidos. Pero sin duda la
mayor virtud de los estudios descriptivos reside en
su utilidad en la planificación y en su potencial como
generadores de hipótesis (que deberán ser corrobo-
radas con estudios más potentes).
Traducido al marco conceptual del tipo de estu- cada grupo para analizar conjuntamente los resulta-
dio de que se trata, los estudios analíticos contarían dos en busca de posibles diferencias.
con un diseño que nos permitirá hacer el seguimien-
to dentro de un proceso evolutivo natural, desde la Volviendo a nuestro ejemplo del estudio sobre
aparición de los hipotéticos factores causales hasta accidentes de trabajo en una empresa y su posible
que culmine con la aparición del supuesto efecto, lo relación con la carga de estrés en los trabajadores, ya
que implica asentar unos criterios básicos. hemos desestimado abordarlo mediante un solapa-
miento de estudios descriptivos, como hemos visto.
En primer lugar, debemos tener claro que desde Parece más lógico si tomásemos a la población que
que actúa un determinado factor causal hasta que se ha sufrido accidentes laborales, y estudiásemos en
produce el efecto, en su caso, la enfermedad, siem- ellos su relación con el nivel de estrés que presenta-
pre transcurre un tiempo (tiempo de latencia), que en ban inmediatamente antes de que se produjera el
unos casos puede ser corto y en otros más o menos mismo. De esta forma estamos seguros de que el
largo, pero ambos fenómenos se encuentran relacio- nivel de estrés y el accidente se encuentran medidos
nados en el tiempo definido entre la presencia o apa- en el mismo subgrupo de trabajadores de la empresa
rición de cada uno de ellos. y evitaríamos el riesgo de incurrir en una falacia
ecológica.
Este concepto, además centrar la relación causal
como un proceso dinámico dentro de un espacio y Pero si diseñamos nuestro estudio sobre lo que
tiempo definidos, nos permite determinar otra carac- ocurre exclusivamente en la población de trabajado-
terística tan obvia como importante, la causa ha de res que han sufrido algún tipo de accidente laboral
preceder siempre en el tiempo al efecto. durante el último año y pretendemos relacionar las
dos variables desde el punto de vista causal, tendría-
El segundo lugar, la mayoría de los fenómenos mos certeza que nos encontramos midiendo la rela-
naturales, y por tanto, entendiendo la enfermedad ción entre la carga de estrés dentro del la población
como uno de ellos, se producen como resultado de la de trabajadores accidentaos, pero desconoceríamos
confluencia de varios factores causales y difícilmen- que relación que pudiéramos encontrar entre la carga
te en circunstancias normales podremos achacar a un de estrés y la población no accidentada.
único fenómeno que pueda ser el causante en exclu-
siva de la aparición un efecto. Así, debemos enten- Si planteamos el estudio de esta forma, podría-
der la dinámica salud-enfermedad como una mos encontrarnos con unos resultados que apoyasen
relación causa-efecto de características multicausa- nuestra hipótesis, tras observar que los trabajadores
les, en las que las diferentes causas que intervienen, accidentados presentaban una elevada carga de
se comportan todas ellas como “causas componen- estrés laboral, previo al accidente, pero ¿podríamos
tes” dentro de una cadena. Algunas de estas causa concluir que la causa de que se produzcan acciden-
pueden manifestarse con mayor o menos fuerza tes laborales es el estrés?, ¿estaríamos en condicio-
etiológica que otras y por tanto, unas se comportan nes de mantener esta tesis si estudiado el grupo de
con un mayor peso “determinante” que otras, inclu- trabajadores no accidentado encontrásemos que el
so alguna (o varias de ellas), podríamos considerar- nivel de estrés durante el mismo periodo fuera simi-
la como “causa necesaria”, siendo siempre lar al encontrado entre los trabajadores accidenta-
obligatoria su presencia dentro de la cadena para dos?, incluso, ¿a que conclusión podríamos llegar si
que aparezca el efecto. el nivel de estrés de la población no accidentada
fuera superior a la de los trabajadores accidentados?,
El tercer concepto a tener en cuenta, es que siem- ¿no podríamos estar en este caso ante una situación
pre que nos planteemos el objetivo de establecer una en la que el estrés podría comportarse como un
relación causal entre un determinado factor como supuesto factor protector frente al riesgo de sufrir
hipotético causante de un efecto determinado, no algún accidente de trabajo?.
podremos limitarnos a estudiar únicamente un grupo
de población en el que supuestamente se encuentren Lo que nos está ocurriendo con este tipo de
presentes los dos fenómenos del estudio (causa y diseño es que, aún siendo correcto para controlar la
efecto), tendremos que diseñar un tipo de estudio falacia ecológica, le falta un grupo control que nos
que contemple la posibilidad de comparar los resul- permita saber que está ocurriendo en la otra pobla-
tados de este grupo con otro que a modo de control, ción, la no accidentada, de forma que no podemos
incluya individuos que pudieran no presentar rela- asegurar de forma consistente la relación causal, no
ción con alguno de los factores estudiados (causa o porque no exista, que podría existir en base a los
efecto), realizando un seguimiento individual de resultados, sino porque no tenemos información
suficiente para poder asegurar que realmente lo sea. La cohorte de los no expuestos, actuaría como
Hemos analizado lo que pasa en un sólo grupo de sistema control, de forma que de ser cierta la hipóte-
población, los trabajadores accidentados, pero des- sis, cabría esperar una baja tasa de afectados (o al
conocemos totalmente lo que ocurre en la población menos comparativamente inferior a la encontrada en
no accidentada en relación a la carga de estrés. En los expuestos).
definitiva, el simple hecho de no poder responder
estas preguntas con certeza nos sumerge en un mar En cierto modo, desde el momento en que esta-
de incertidumbres y nos impide alcanzar cualquier blecemos una cohorte control, nos encontraremos en
conclusión consistente. condiciones poder ofrecer unos resultados consisten-
tes con la hipótesis causal de trabajo. Esto es cierto,
Para solucionar este problema, deberíamos siempre que el diseño del estudio sea impecable, el
diseñar un estudio de forma que además de analizar grupo de expuestos y no expuestos no difieran en
la relación entre los trabajadores accidentados y su otras variables predictoras del desenlace y no haya-
exposición a el estrés previo, incluyamos el mismo mos introducido cualquier otra fuente de error en la
análisis un grupo que actúe como “control”, en este medición del efecto o en el seguimiento.
caso, compuesto por los trabajadores que no han
sufrido accidentes, y estudiemos en ellos también su 2.2.- Estudios de Casos y Controles
relación con nuestro hipotético agente causal, de
forma, que comparando posteriormente los resulta- En los estudios de casos y controles se elige un
dos en cada uno de los grupos (accidentados y no grupo de individuos que tienen una enfermedad
accidentados), tengamos información suficiente determinada (casos), y otro en el que está ausente.
como para comprobar, utilizando procedimientos Ambos grupos se comparan respecto a una exposi-
estadísticos adecuados, que la presencia del factor de ción que se sospecha que está relacionada con dicha
riesgo (estrés) se presenta de forma significativa- enfermedad. La función del grupo control es preci-
mente diferente entre los dos grupos de población samente estimar la proporción de exposición espera-
estudiados (accidentados y no accidentados). da en un grupo que no tiene la enfermedad.
Para ello podemos recurrir a dos modalidades de Lo estudios de Casos y Controles tiene en común
estudios analíticos: Estudios de Cohortes (habría que con los estudios de Cohortes que también se estable-
diferenciarlos de los estudios de corte, los cuales se cen dos poblaciones. La diferencia estriba en que, en
refieren en su mayor parte a estudios realizados en los estudios de Casos y Controles las poblaciones de
un determinado momento, o corte en el tiempo) y los estudio se establecen en función de la presencia o no
estudios de Casos y Controles. del efecto o enfermedad, es decir, el grupo de los
casos estaría compuesto por los individuos que pre-
2.1.- Estudios de Cohortes sentan la enfermedad o efecto estudio, y el grupo
Control por la población que no padece la enferme-
En este tipo de estudios se establecen dos cohor- dad.
tes, una se corresponde con la cohorte de estudio y
estará compuesta por la población expuesta al En este caso, el estudio no requiere de un segui-
hipotético factor de riesgo, y la otra, se comporta miento, sino que su enfoque es retrospectivo, “hacia
como cohorte control, compuesta por individuos que atrás”, para estudiar la relación, contacto o exposi-
no se encuentren expuestos al hipotético factor de ción previa de cada uno de los grupos (enfermos y
riesgo. Establecidas las cohortes, se realiza un segui- no enfermos) con uno o varios hipotéticos factores
miento en el tiempo de cada una de ellas (población de riesgo. Generalmente para la reconstrucción de la
expuesta y población no expuesta), estudiando el historia de exposición se recurre a encuestas, revi-
comportamiento de la cada una en cuanto a la apari- sión de historias clínicas, analíticas, exploraciones,
ción del efecto o enfermedad o desenlace (inciden- etc.
cia). También se les denomina prospectivos por que
van “hacia adelante” desde la exposición hasta un En definitiva, en un estudio de casos y controles
efecto. lo que se mide es si la frecuencia del factor de ries-
go entre nuestros casos enfermos es superior a la
De esta forma, de ser cierta nuestra hipótesis, observada en nuestros controles no enfermos.
cabría esperar en esta cohorte de expuestos una tasa
(incidencia) importante de afectados (o al menos Aunque el abordaje parece simple, se sorpren-
comparativamente superior a la encontrada en los no dería de las enormes dificultades asociadas a estos
expuestos). diseños. Así, a la hora de diseñar un estudio de casos
y controles, es muy recomendable ser especialmente 2.- Otras formas de clasificación de los estu-
cuidadoso para no incurrir en las numerosas fuentes dios
de error que amenazan la validez del estudio. Los
errores más frecuentes en estos estudios se cometen 2.1.- Estudios Longitudinales y Transversales
en el procedimiento de selección de los controles
(deben proceder de la misma población donde se han Además de la clasificación que hemos visto,
extraído los casos y ser lo más perecidos posible a existe también la posibilidad de clasificar los estu-
éstos, excepto en padecer o no la enfermedad) y dios desde el punto de vista de su dimensión espa-
durante la recogida de información para reconstruir cio-temporal. Así, los estudios Longitudinales se
la historia de exposición de ambos grupos. corresponderían con aquellos en los que se presenta
una temporalidad como base del mismo. Dentro de
En resumen, en los estudios de Cohortes se parte los estudios descriptivos, serían longitudinales los
desde la exposición al factor de riesgo para llegar a estudios de tendencias o aquellos que establecen un
la enfermedad y en los estudios de Casos y Contro- periodo de tiempo como base del estudio. Los estu-
les se parte de la enfermedad para intentar establecer dios transversales se corresponden con los estudios
una relación causal previa con el factor de riesgo. de corte en el tiempo.
Como es lógico, los estudios de Cohortes, al con- Los estudios analíticos se consideran longitudi-
tar con un diseño en el que, por lo general, se basa nales por definición, pues el criterio para que un
en el seguimiento de la evolución natural de la diná- estudio sea calificado como longitudinal, radica en
mica salud-enfermedad, suelen tratarse de estudios la base conceptual que subyace en el estudios, de
más fiables que los estudios de Casos y Controles, forma que en el caso de los estudios, tanto de Cohor-
pero a la vez suelen ser más costosos, no sólo por el tes como de Casos y Controles, la base del estudio se
tiempo necesario de dedicación al estudio durante el establece en el tiempo real o implícito establecido
seguimiento, sino también en lo que se refiere al entre el momento en que actúa un factor de riesgo o
resto de recursos. agente causal y el que se muestra patente el efecto o
enfermedad.
Por el contrario, los estudios de Casos y Contro-
les suelen ser más rápidos y económicos, aunque por 2.2.- Estudios Prospectivos y Retrospectivos
lo general, requieren especial cuidado en establecer
desde el diseño los mecanismos necesarios para el Este tipo de clasificación se establece en cuanto
control de sesgos y factores de confusión, que no es a la dimensión longitudinal de los estudios, por lo
objeto de este artículo. Por esta razón, se suelen que se pueden excluir directamente los estudios de
tomar dos tipos de medidas que ayudan a incremen- corte o transversales.
tar la fiabilidad de resultados, por una parte es habi-
tual establecer un sistema “apareado” de selección Los criterios de prospectivo o retrospectivo, se
de casos y controles. Esto supone seleccionar la refieren principalmente al planteamiento de la direc-
población de casos e ir estableciendo la población de ción en el tiempo del estudio, progresiva (hacia
controles lo más parecida a los casos excepto en la delante) o regresiva (hacia atrás) en el tiempo desde
condición que define al control, el “no padecer la el momento en que se inicia el estudio. En el caso de
enfermedad objeto de estudio”. los estudios descriptivos longitudinales, podemos
encontrar estudios prospectivos, cuando una vez
establecido el inicio del estudio se realiza un segui-
miento de la población en el tiempo, y lo conside-
raríamos retrospectivo (en la mayoría de los casos),
cuando analizamos una tendencia de cualquier fenó-
meno que haya acontecido en una población con
anterioridad al inicio del estudio.
BIBLIOGRAFÍA