Está en la página 1de 444

Formulario de Preguntas Evaluación Final

Bioestadística 1

Nombre: Instrucciones

• En primer lugar, rellene sus datos de identificación en el formulario de


preguntas en la plantilla de respuestas.
Nº cedula:
• El formulario de preguntas para la evaluación interciclo cuenta con
preguntas de opción múltiple, abiertas (de desarrollo), de unir con líneas y
de falso/verdadero.
Fecha: • Para las preguntas de opción múltiple, se debe responder una sola
respuesta.
• En las preguntas abiertas realice los cálculos y coloque las respuestas que
Firma: correspondan de manera clara y puntual.
• En las preguntas de correlacionar una según corresponda.
• En las preguntas de falso/verdadero coloque la respuesta correcta.
• Doble respuesta, uso de corrector o tachones anula la respuesta.

PREGUNTA 1. En un estudio en la variable número de pasos realizado en el día, los valores entre +- 2DS son 17000 y 11000, resuelva (2
PUNTOS):

A. El valor de la media es (0,5 punto) : 14000


B. La Desviación Estándar es (0,5 punto): 1500
C. Los Valores para el 68.2% con relación a la media son (1 punto): 12500 y 15500

PREGUNTA 2. Con relación a las siguientes variables calcule (3 PUNTOS):

A. El valor de Talla que deja por debajo el 30% y por encima el 70% de la media es: (1 punto): 152,26
B. Los valores para el IC del 80% de la variable HDL son (2 punto): 55. 46 y 30.53

PREGUNTA 3. Si tengo un universo desconocido de personas y deseo realizar una investigación para conocer la prevalencia de
Desnutrición Infantil ya que nunca se ha realizado un estudio previo en niños/as con un IC del 80% y un Error del 1% mi muestra debería ser
de (2 PUNTOS):

Respuesta: 4090

PREGUNTA 4. Correlacione los conceptos: Solo existe una opción correcta por tipo de estudio.( 3 PUNTOS)

1. Para una investigación acerca de la letalidad del cáncer de Muestreo por conveniencia
próstata el urólogo decide usar solo a los pacientes que
llegan a realizarse radioterapia. CONVENIENCIA Muestreo estratifica
2. Para un estudio acerca de la efectividad de las ondas de
choque en trauma de hombro el investigados obtiene el Muestreo sistemático
listado de todos los pacientes ingresados por la emergencia
por trauma de hombro y elige de muestra cada tercer Muestreo por azar simple
individuo del listado. SISTEMÁTICO
3. Para un estudio acerca de los efectos secundarios de la Muestreo por conglomerado
vacunación de la rubéola el investigador obtiene el listado de
los centros de vacunación y de estos escoge 15 centros al Procedimiento combinado
azar. CONGLOMERADOS
PREGUNTA 5. Una los siguientes gráficos (2 PUNTOS)

a) variable cuantitativa continua y cualitativa ordinal


b) variable dicotómica y variable continua
c) variable cuantitativa compuesta y variable cuantitativa continua
d) variables cualitativas y variable cuantitativa categorizada

Seleccione la respuesta correcta:

A. 1-a 2-b 3-c 4-d B. 1-a 2-c 3-b 4-d C. 1-a 2-c 3-d 4-b D. 1-c 2-a 3-d 4-b

PREGUNTA 6. Con respecto a la estadística y el método científico señale el concepto correcto: (1 PUNTO)

A. En el diseño de investigación los recursos económicos determinan el tamaño de la muestra.


B. La estadística es una ciencia que tiene como objetivo la recolección, agrupación, presentación, análisis de los datos.
C. Cuando se rechaza una hipótesis se da por inválido el estudio.
D. Todas son correctas

PREGUNTA 7. De la siguiente seria de datos calcular Q1, Q2 y Q3. Con los datos obtenidos dibujar un gráfico de cajas y bigotes. (2 PUNTOS)

Distribución por peso:

76 78 65 68 83 58 68 50 63 76

Q1: ______63_______ Gráfico de cajas y bigotes

Q2: 68

Q3: ________76______
PREGUNTA 8. Hablando de errores de la recolección de la información, señale lo correcto: (1 PUNTO)

A. El error del observador disminuye aumentando el tamaño de la muestra.


B. El exceso de trabajo puede aumentar el error del objeto observado
C. El error por variaciones intermétodos disminuye utilizando el método con mayor eficiencia.
D. Todas son correctas

PREGUNTA 9. Con respecto a los métodos de recolección de la información señale lo incorrecto: (1 PUNTO)

A. Dentro de las fuentes secundarias están las revistas, libros, artículos, etc.
B. Las fuentes primarias son la observación y el interrogatorio
C. Las entrevistas directas son respondidas directamente por el sujeto de estudio.
D. Las encuestas indirectas pueden realizarse a grupos mas amplios de sujetos de investigación

PREGUNTA 10. Respecto a la siguiente tabla: (2 PUNTOS)

Señale lo correcto respecto a la variable Edad

A. Se trató a la variable edad como cuantitativa continua.


B. Hay una razón de 2/3 entre las personas de 25-30 años y las de 30-45 años.
C. La proporción de personas de menor edad es más alta que la proporción de personas de más edad.
D. El porcentaje más alto corresponde al grupo entre 25 a 30 años.

Señale lo correcto respecto a la variable Profesión

A. En el grupo investigado la profesión más frecuente fue Enfermero(a).


B. Existe 2 enfermero(a) por cada 1 médico en la población
C. La razón entre médicos / enfermeros es de 2.
D. La proporción de auxiliares de enfermería es la más alta en la población estudiada.

PREGUNTA 11. En una zapatería se tiene una producción diaria de calzado, con una media de 2500 pares cada semana y una desviación estándar de
300 zapatos. Encuentre la probabilidad que el número de pares de zapatos producido por semana sea: (4 PUNTOS)

A. Menor de 2100 pares: 9,18%

B. Mayor de 3000 pares: 94,75%

C. Este entre 2000 y 3200 pares: 94,26%

D. Este entre 1800 y 3000 pares: 94,26%


PREGUNTA 12. .Seleccione con Falso y Verdadero (1 PUNTO):

A. El Percentil 50 es igual a Q2 y mediana V ( X ) F ( )


B. Las entrevistas directas son aquellas que se realizan por medios digitales y que son respondidas directamente por el sujeto de estudio V
( ) F(X )

PREGUNTA 13. Relacione las variables con su tipo: (2 PUNTOS)

a) Edad (medida en años) 1. Cuantitativa discreta


b) Peso (medido en Kg) 2. Cuantitativa continua
c) Sexo (hombre/mujer) 3. Cualitativa nominal
d) Instrucción (ninguna, primaria, secundaria, superior) 4. Cualitativa ordinal
e) Intensidad del dolor (medida del 1 al 10, sin decimales)
f) Diabetes (sí / no)
g) Nivel de dolor (nada, leve, moderado, severo)

Señale lo correcto

A. 1 a y e; 2 b; 3 c y f; 4 d y g
B. 1 a y b; 2 e; 3 c y g; 4 d y f
C. 1 b y e; 2 a; 3 c y f; 4 d y g
D. 1 a; 2 b y e; 3 d y g; 4 c y f

PREGUNTA 14. Respecto al siguiente gráfico e índices estadísticos, señale lo correcto: (2 PUNTOS)

Distribución por Peso (Kg)


Estadísticos Descriptivos de Peso (Kg)
1200

1000

800

600

400

200

0
40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 90-95 95-100

Media 67,56
Error típico 0,14
Mediana 67
Moda 60
Desviación estándar 10,58
Varianza de la muestra 111,89
Coeficiente de Curtosis -0,24
Coeficiente de Asimetría 0,28
Rango 59,7
Mínimo 40
Máximo 99,7
Suma 377924,55
Cuenta 5594
A. La media, mediana y moda coinciden, por ende, hay una distribución normal de los datos.
B. Hay una asimetría positiva de los datos (0,28), la cola larga está dispuesta al lado izquierdo.
C. El coeficiente de curtosis negativo (-0,24) indica una distribución platicúrtica de los datos.
D. Al presentar una distribución no normal la variable peso, el indicador estadístico más adecuado como medida tendencia central sería la
media.

PREGUNTA 15. Se diseña un estudio para evaluar la asociación entre el hábito de fumar y el desarrollo del cáncer de pulmón. No se aplicará ninguna
intervención por parte de la investigación y se medida las variables tal cual ocurren en la realidad. Se recogerá el dato del hábito de fumar en el presente
mes, se dará seguimiento por 20 años a los participantes y al final de ese periodo se evaluará el desarrollo de cáncer de pulmón. Con base a la información
brindada, determina el modelo de investigación a utilizar. (Existe varias respuestas) (2 PUNTOS)

A. Observacional
B. Experimental
C. Casos Controles
D. Cohortes
E. Longitudinal
F. Transversal
G. Retrospectivo
H. Prospectivo
UNIVERSIDAD DE CUENCA
FACULTAD - CIENCIAS MEDICAS
PRIMER CICLO – MEDICINA

CÁTEDRA : Bioestadística.

DOCENTE : Dr. Juan Chuchuca.

ESTUDIANTE: Adeliz León

PARALELO : Grupo 1

CICLO : Septiembre 2022 – Febrero 2023

CUENCA – ECUADOR
1. Si tenemos una media de 10 000 pasos en los estudiantes de primer año de medicina con una desviación
estándar de 1 500 pasos; Si tenemos un intervalo de confianza del 85%, ¿Cuál sería mi valor uno (X1) y
mi valor (X2)?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ 7,5%/100= 0,075
x̄= 10 000 X2= (1,435 * 1 500) +10 000 ; X1= (-1,435 * 1 500) +10 000 Z= ±1,435
DS= 1 500 X2= 2 152,5 + 10 000 X1= - 2 152,5 + 10 000
IC= 85% X2= 12 152,5 X1= 7 847,5
X1=?
X2=?
R= Con un intervalo de confianza del 85% los valores que representan en el intervalo son de 12 152,5 y 7 847,5.
2. Si tenemos una media de 10 000 pasos en los estudiantes de primer año de medicina con una desviación
estándar de 1 500 pasos; Si tenemos un intervalo de confianza del 99%, ¿Cuál sería mi valor uno (X1) y
mi valor (X2)?
𝑿−x̄
DATOS 𝒁= ; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ 0,5%/100= 0,005
𝑫𝑺
x̄= 10 000
DS= 1 500 X1= (-3,15 * 1 500) + 10 000 ; X2= (3,15 * 1 500) + 10 000 Z= ± 3,15
IC= 99% X1= -4 725 + 10 000 X2= 4 725 + 10 000
X1=? X1= 5 275 X2= 14 725
X2=?
R= Con un intervalo de confianza del 99% los valores que representan en el intervalo son de 5 275 y 14 725.
3. ¿Cuál es el valor que deja, 80% por debajo y el 20% por arriba?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
= 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ Z= -0,845 = 0,845
x̄= 10 000 X= (0,845 * 1 500) + 10 000
DS= 1 500 X= 11 267,5
X1= 80%= 0,80
X2= 20%= 0,20
R= El valor que va a dejar por arriba el 20% y el 80% por debajo es 11 267,5.
4. ¿Cuál es el valor que deja, 15% por debajo y el 85% por arriba?
𝑿−x̄
DATOS 𝒁= 𝑫𝑺
; 𝒙 = (𝒁 ∗ 𝑫𝑺) + x̄ Z= -1,35
x̄= 10 000 X= (-1,35 * 1 500) + 10 000
DS= 1 500 X= 7 975
X1= 15%= 0,15
X2= 85%= 0,85
R= El valor que va a dejar por arriba el 85% y el 15% por debajo es 7 975.
5. Si yo tengo 12 500 pasos, ¿Quiero saber cuántas personas quedan por debajo y cuantas personas
quedan por arriba?
𝑿−x̄ 𝟏𝟐 𝟓𝟎𝟎−𝟏𝟎 𝟎𝟎𝟎 𝟐 𝟓𝟎𝟎
DATOS 𝒁= 𝑫𝑺
= 𝟏 𝟓𝟎𝟎
= 𝟏 𝟓𝟎𝟎 = 1,6
x̄= 10 000
DS= 1 500 Z= 0,0548 - 0,0548 * 100% = 5,48%
IC= 85% - 100% - 5,48% = 94,52%
X= 12 500
R= Por encima de 12 500 pasos voy a tener 5,48% de personas y por debajo 94,52% de personas.
6. Si yo tengo 8 200 pasos, ¿Quiero saber, que porcentaje queda por debajo y que porcentaje queda por
arriba?
𝑿−x̄ 𝟖 𝟐𝟎𝟎−𝟏𝟎 𝟎𝟎𝟎 − 𝟏 𝟖𝟎𝟎
DATOS 𝒁= = = = -1,2
𝑫𝑺 𝟏 𝟓𝟎𝟎 𝟏 𝟓𝟎𝟎
x̄= 10 000
DS= 1 500 Z = 0,1151 - 0,1151 * 100% = 11,51%
IC= 85% - 100% - 11,51% = 88,49%
X= 8 200

R= Por encima de 12 500 pasos voy a tener 88,94% de personas y por debajo 11,51% de personas.

• Tabla utilizada
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

TAMAÑO DE UNA MUESTRA


PARA UNA INVESTIGACIÓN DE MERCADO
Por Inga. Mariela Torres, mariela_torresurl@yahoo.com.mx
Inga. Karim Paz, kspaz@url.edu.gt
Integración: Ing. Federico G. Salazar, correo@fsalazar.bizland.com

RESUMEN
En algunas ocasiones nos preguntamos ¿cómo podemos determinar el tamaño óptimo para
una investigación de mercado. ¿Será que basta con aplicar un cuestionario a 100 personas?
O, ¿realmente es necesario encuestar a 450 individuos? ¿Cómo influye la variabilidad de
las respuestas de cada encuestado? ¿Qué margen de error tendrán los resultados hallados en
la encuesta? Las respuestas a cada una de estas preguntas nos la da la Estadística. En este
documento se presenta una guía para poder determinar el tamaño de una muestra para
proporciones. Se presentan, además, los conceptos fundamentales de la Teoría de
muestreo.

DESCRIPTORES
Estadística. Tipos de muestreo. Muestreo probabilístico. Muestro no probabilístico.
Tamaño de muestra. Proporciones. Nivel de confianza. Fuentes de error en el muestreo.

ABSTRACT
In some occasions we ask ourselves: How can we obtain optimal sampling size in a
marketing survey? Is it enough to fulfil a questionnaire form in one hundred persons? Or, is
it really necessary to interview 450 subjects? How do the answers determine the variability
in each person interviewed? Which margin error will the results of the survey have?
Answers to each one of those questions are provided from Statistics. In this article a guide
is presented to determine sampling size to be used for proportions. Also included are
fundamental concepts of Sampling Theory.

KEYWORDS
Statistics. Sampling methods. Probabilistic sampling. Non probabilistic sampling. Sampling
size. Proportion. Confidence level. Error sources in sampling.

URL_02_BAS02.doc 1 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

EL MUESTREO

En un universo de trabajo en donde se desea aplicar un análisis estadístico, cuando el


muestreo cubre a todos los elementos de la población., se realiza un censo. En muchos de
los casos, la realización de un censo no es posible por ser muy costoso, muy extenso o que
la muestra se destruya como resultado del análisis. En tales oportunidades se debe practicar
un análisis muestral. La muestra es una parte seleccionada de la población que deberá ser
representativa, es decir, reflejar adecuadamente las características que deseamos analizar en
el conjunto en estudio.

Se pueden realizar diferentes tipos de muestreo, que quedan clasificados en dos grandes
grupos: probabilísticos y no probabilísticos. En el muestreo probabilístico, todos los
individuos o elementos de la población tienen la misma probabilidad de ser incluidos en la
muestra extraída, asegurándonos la representatividad de la misma. En el muestreo no
probabilístico, por su parte, los elementos de la muestra se seleccionan siguiendo criterios
determinados siempre procurando la representatividad de la muestra.

MUESTREO PROBABILISTICO

El muestreo probabilístico puede ser muestreo aleatorio simple, cuando todos los
elementos de la población tienen la misma probabilidad de ser seleccionados en la muestra
y esta probabilidad es conocida. Este tipo de muestreo es más recomendable, pero resulta
mucho más difícil de llevarse a cabo y, por lo tanto, es más costoso. Para seleccionar una
muestra de este tipo se requiere tener en forma de lista todos los elementos que integran la
población investigada y utilizar tablas de números aleatorios.

Ejemplo No. 1: A un grupo de 100 personas se les numera de uno a cien y se


depositan en una urna 100 bolitas a su vez numeradas de uno a cien. Para obtener una
muestra aleatoria simple de 20 elementos, tendríamos que sacar 20 bolitas numeradas
de la urna que nos seleccionarán en forma completamente al azar a los 20 elementos
escogidos para que opinen sobre un nuevo producto.

Otro tipo de muestreo probabilístico es el muestreo aleatorio sistemático, el cual es


susceptible de ser más preciso que el muestreo aleatorio simple. Se elige un primer
elemento del universo y luego se van escogiendo otros elementos igualmente espaciados a
partir del primero. Consiste en dividir la población en n estratos, compuestos por las
primeras K unidades, las segundas k unidades y así sucesivamente.

Ejemplo No. 2: a partir de una lista de 100 establecimientos de comestibles,


deseamos seleccionar una muestra probabilística de 20 tiendas. La forma de hacerlo
sería:
o dividir 100 entre 20 para obtener 5, que es un salto sistemático
o extraer un número al azar entre 1 y 5. Supóngase que es el número 2 el cual corresponde
al primer elemento seleccionado.
o Se incluyen en la muestra de establecimientos numerados: 2, 7, 12, 17, 22,…..,97.

URL_02_BAS02.doc 2 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Un tercer tipo de muestreo probabilístico es el Muestreo por zonas también llamado


muestreo polietápico o muestreo por áreas. Es ideal cuando se desea que las entrevistas se
apliquen en áreas representativas del fenómeno a estudiar, en un área determinada. Esta
zona puede ser una ciudad, un barrio o la zona sur de la ciudad. Se procede por etapas:
• Primera etapa: selección de manzanas en un mapa. Se necesita un plano de la ciudad
que se investigará.
• Segunda etapa: selección de hogares en esas manzanas. Posteriormente se deben
eliminar del plano las manzanas no destinadas a casa habitación: como parques,
iglesias, tiendas e industrias.
• Tercera etapa: selección de personas en el hogar. Se numera cada manzana de las que
restan en el plano con un criterio uniforme para no alterar la aleatoriedad. Al mismo
tiempo se determinar el número de manzanas que estarán en la muestra.
• Una vez realizados estos pasos se encuentra un número promedio de viviendas por
manzana
Total de familias promedio de familias
=
Total de manzanas por manzana

Ejemplo No. 3: Si en una ciudad existen cerca de 5,000 manzanas disponibles y


200,000 hogares, con un promedio de 40 hogares por manzana.

o Se fija un “salto” mínimo de hogares para hacer cada entrevista. Un salto es el


número de casas que se dejarán de visitar después de cada encuesta. A mayor
salto, mayor dispersión de la muestra, y mayor representatividad, pero mayor
costo. Se recomiendan saltos no menores de 4 ni mayores de 10 casas. Se
puede utilizar un salto promedio de 8.

o Se determina el tamaño de la muestra. Suponiendo que la muestra es de 800, se


tiene:
Total de entrevistas Número de
Número de entrevistas por = manzanas
manzana a sortear

800
= 160
5

o El número de manzanas que se deben dejar de visitar después de haber


encuestado una manzana, se obtiene de la siguiente forma: si se entrevistan 120
hogares,

Total de manzanas
= Salto Sistemático
Tamaño de la muestra

5,000
= 41.7 = 42
120

URL_02_BAS02.doc 3 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

o Se obtiene un número aleatorio entre 1 y 42 = 25


Primera manzana…………….25
Salto sistemático……………..42
Segunda manzana…………....67
Salto sistemático……………..42
Tercera manzana……………109
Etc.

o Se localizan las manzanas en el mapa y se anotan en una lista.

De este procedimiento se genera el concepto de afijación, definido como la distribución de


los diferentes estratos en la muestra. Puede haber afijación simple donde a cada estrato le
corresponde igual número de elementos. Por otra parte, la afijación proporcional es
cuando la integración de la muestra se hace en base al peso o tamaño de la población en
cada estrato. También se menciona la afijación óptima, de poca aplicación, cuando se
toma en cuenta la proporción de cada estrato y se conoce dispersión previsible de los
resultados a través de la desviación típica.
Un cuarto tipo de muestreo probabilístico es el muestreo aleatorio estratificado, que se
aplica cuando la población no es homogénea con relación a la característica que se desea
estudiar: clases sociales, regiones, sexo, grupos de edad. En este caso la población queda
dividida en estratos o grupos y el muestreo debe hacerse de tal forma que todos esos grupos
queden representados.

Para determinar el tamaño de la muestra en cada estrato, sobre todo si la estratificación es


por niveles de ingreso y por regiones, se puede utilizar dos métodos:

• Cálculo proporcional al tamaño del estrato


En este caso existe una relación proporcional entre el tamaño del estrato y el número de
elementos que aporta a la muestra. Cuanto mayor sea el estrato, mayor será el tamaño
de la muestra seleccionada.

• Cálculo desproporcional al tamaño del estrato


Este tipo de cálculo se utiliza para no tener muestras excesivamente grandes en los
estratos de mayor tamaño y muestras demasiado pequeñas que no permitan un análisis
mayor en los estratos de menor tamaño. Muchas veces, los productos a investigar
tienen su mayor demanda en los estratos más pequeños.

Ejemplo No. 4: es muy probable que la investigación acerca de las actitudes,


preferencias y hábitos de consumo de las madres de familia y los niños por un
nuevo tipo de galleta en el mercado deba enfocarse más hacia los niveles
socioeconómicos altos, ya que son quienes pueden hacer frente a un precio
Premium del 20%.

URL_02_BAS02.doc 4 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Suponga que se planea hacer un total de 500 encuestas en la ciudad donde usted
vive. Considerando los porcentajes de hogares en cada estrato socioeconómico en
un muestreo probabilístico con cálculo proporcional obtendríamos:

Nivel socioeco- % de Número de


nómico hogares entrevistas
A/B 8 40
C 36 180
D/E 56 280
Total 100 % 500

Sin embargo, este número de entrevistas por estrato no permitiría mayor análisis y
desvirtuaría los objetivos de la investigación en los estratos altos. Aquí se deberá
calcular el tamaño de cada muestra mediante el método desproporcional, utilizando
el siguiente procedimiento:

o Se numeran los hogares de la lista en forma independiente para cada estrato.


o Se determina la característica importante para cada estrato y se hace una
estimación de su distribución en la muestra total.

Columna 1 Columna 2 Columna 3 Columna 4 Columna 5 Columna 6 Columna 7

Nivel Número ¿Pagaría 20%


% de Columna 3 x Número final
socioeconó inicial de de % equivalente
hogares columna 4 de entrevistas
mico entrevistas sobreprecio?

A/B 8% 40 60% 24.00 108 21.6%


C 36% 180 25% 45.00 203 40.6%
D/E 56% 280 15% 42.00 189 37.8%
Total 100% 500 100% 111.00 500 100.0%

o Se aplica el método de muestreo por zonas, considerando los valores de 108, 203
y 189 como tamaños totales de muestras para cada zona.

Esto implica que si se hubiera aplicado el muestreo directamente proporcional al


tamaño del estrato, al intentar investigar la probabilidad de pago de un aprecio
Premium, la investigación se habría visto muy limitada, precisamente por el tamaño
del estrato. Al balancear el tamaño del mismo con la probabilidad de posesión del
producto, se podrá explorar mejor el fenómeno.

Otro muestreo probabilístico es el muestreo aleatorio por conglomerados en donde la


población está integrada en grupos específicos. El muestreo se hace seleccionando en forma
aleatoria algunos conglomerados dentro del conjunto total y procediendo a analizar a la
población a partir de aquellos elementos seleccionados.

URL_02_BAS02.doc 5 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Ejemplo No. 5: Las unidades hospitalarias, los departamentos académicos en una


universidad, una caja de determinado producto, etc., son conglomerados naturales.
También existen los conglomerados no naturales como, por ejemplo, las urnas
electorales. Cuando los conglomerados son áreas geográficas suele hablarse de
"muestreo por áreas".

También se conoce el muestreo probabilística llamado muestreo por rutas aleatorias, en


donde establecida el área de muestreo se asigna una ruta desde un punto de partida
determinado y los elementos de la muestra se van seleccionado a medida que se avanza en
el trabajo de campo, buscando asegurar una cobertura geográfica de la muestra.

Se incluye en el Cuadro No. 1 un análisis comparativo entre los distintos tipos de Muestro
Probabilístico, describiendo sus ventajas, características e inconvenientes al momento de
ser aplicados.

MUESTREO NO PROBABILÍSTICO

El segundo gran conjunto es el muestreo no probabilístico, donde se seleccionan los


elementos de la muestra de acuerdo a determinados criterios previamente establecidos. Este
tipo de muestreo se utiliza cuando el probabilístico resulta muy costoso, teniendo presente
que no sirve para hacer generalizaciones puesto que no existe certeza de que la muestra
extraída tenga representatividad, puesto que no todos los elementos de la población tiene la
misma probabilidad de ser seleccionados.

El primer tipo de muestreo no probabilísticos es el muestreo por cuotas que presupone un


buen conocimiento de los estratos de la población y se selecciona a los elementos o
individuos más representativos.

Ejemplo No. 6: Seleccionar 50 estudiantes de la carrera de ingeniería industrial,


que ya hayan cursado el cuarto ciclo de la carrera y que tengan promedio arriba del
75 por ciento. Se eligen a los primeros 50 que cumplan con estas condiciones. Este
tipo de muestreo se utiliza especialmente en las encuestas de opinión.

Otro muestreo no probabilístico es el muestreo de opinión o intencional en donde


deliberadamente se obtienen muestras de grupos focales.

Ejemplo No. 7: Realizar un sondeo pre-electoral en una región en donde


anteriormente la tendencia de voto ha estado orientada a un candidatos específico.

URL_02_BAS02.doc 6 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Cuadro No. 1. Comparación entre distintos Tipos de Muestreo Probabilístico


CARACTERÍSTICAS VENTAJAS INCONVENIENTES
Requiere que se posea
• Sencillo y de fácil
de antemano un
comprensión.
Se selecciona una muestra listado completo de
• Cálculo rápido de
de tamaño n de una toda la población.
medias y varianzas.
Aleatorio población de N unidades, Cuando se trabaja con
simple cada elemento tiene una • Se basa en la teoría muestras pequeñas es
probabilidad de inclusión estadística, y por tanto posible que no
igual y conocida de n/N. existen paquetes represente a la
informáticos para población
analizar los datos adecuadamente.
• Fácil de aplicar.
Conseguir un listado de los • No siempre es
Si la constante de
N elementos de la población necesario tener un
muestreo está
Determinar tamaño muestral listado de toda la
asociada con el
n. población.
fenómeno de interés,
Sistemático
Definir un intervalo k= N/n. • Cuando la población las estimaciones
Elegir un número aleatorio, está ordenada obtenidas a partir de la
r, entre 1 y k (r= arranque siguiendo una muestra pueden
aleatorio). tendencia conocida, contener sesgo de
Seleccionar los elementos de asegura una cobertura selección
la lista. de unidades de todos
los tipos.
• Tiende a asegurar que
En ciertas ocasiones la muestra represente
resultará conveniente adecuadamente a la
estratificar la muestra según población en función
ciertas variables de interés. de unas variables
Para ello debemos conocer seleccionadas.
Se ha de conocer la
la composición estratificada • Se obtienen
distribución en la
de la población objetivo a estimaciones más
población de las
Estratificado hacer un muestreo. Una vez precisa
variables utilizadas
calculado el tamaño • Su objetivo es para la
muestral apropiado, este se conseguir una muestra estratificación.
reparte de manera lo más semejante
proporcional entre los posible a la población
distintos estratos definidos en lo que a la o las
en la población usando una variables
simple regla de tres. estratificadotas se
refiere.
Se realizan varias fases de • Es muy eficiente
El error estándar es
muestreo sucesivas cuando la población es
mayor que en el
(polietápico) muy grande y dispersa.
muestreo aleatorio
Conglomerad La necesidad de listados de • No es preciso tener un
simple o
os las unidades de una etapa se listado de toda la estratificado.
limita a aquellas unidades de población, sólo de las El cálculo del error
muestreo seleccionadas en la unidades primarias de estándar es complejo.
etapa anterior. muestreo.
Referencia: Frugone , Joselin

URL_02_BAS02.doc 7 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

También es no probabilístico el muestreo casual o incidental cuando se selecciona directa


a intencionadamente a los elementos de la muestra.

Ejemplo No. 8: Un profesor universitario frecuentemente utilizará a sus estudiantes


para integrar muestras.

Así mismo, otro muestreo no probabilístico es el muestreo bola de nieve en donde algunos
elementos seleccionados de la muestra conducen a otros y estos a otros hasta conseguir una
muestra adecuada en tamaño.

Ejemplo No. 9: Realizar estudios con poblaciones marginales, con delincuentes,


tipos de enfermos para conocer el nivel de participación social.

Finalmente, otro tipo de muestreo no probabilístico es el muestreo discrecional en donde


los elementos de la muestra son seleccionados con el encuestador de acuerdo a criterios que
él considera de aporte para el estudio.

Ejemplo No. 10: Seleccionar a cajeros de un banco en un estudio sobre el


comportamiento del usuario ante el pago de impuestos.

IMPORTANCIA DEL MUESTREO EN LA INFERENCIA ESTADISTICA

El objetivo del muestreo es estimar parámetros de la población, tales como la media o el


total, con base en la información contenida en una muestra. Conocer la teoría de muestreo
hace que éste sea más eficiente. Permite desarrollar métodos de selección de muestras y de
estimación, que proporcionen, al menor costo posible, estimaciones con la suficiente
exactitud para los propósitos establecidos. Para ello se debe predecir la precisión y el costo
esperado.

Respecto a la precisión, no se puede predecir el grado de error de una estimación en una


situación específica, pues implicaría conocer el verdadero valor de la población, por ello lo
que se hace es examinar la distribución de frecuencia generada para las estimaciones y se
supone que la población tiene una distribución igual. A veces se hace la simplificación de
que las estimaciones muestrales tienen una distribución aproximadamente normal.

En resumen, con la Inferencia se puede disponer de más información, es confiable y


representativa de la muestra y también se puede reducir el grado de error. Además permite
considerar el efecto aleatorio.

Teorema Central del Límite: toda muestra al aumentar, tiende a la normalidad y es


susceptible de ser analizada bajo una distribución de probabilidad normal.

URL_02_BAS02.doc 8 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

CÁLCULO DEL TAMAÑO DE LA MUESTRA

Para determinar el tamaño de una muestra se deberán tomar en cuenta varios aspectos,
relacionados con el parámetro y estimador, el sesgo, el error muestral, el nivel de confianza
y la varianza poblacional.

El parámetro se refiere a la característica de la población que es objeto de estudio y el


estimador es la función de la muestra que se usa para medirlo.

Ejemplo No. 11: Para evaluar la calidad de un grupo de estudiantes (parámetro) se


mide a través de los promedios obtenidos (estimador).

El error muestral siempre se comete ya que existe una pérdida de la representatividad al


momento se escoger loe elementos de la muestra. Sin embarbo, la naturaleza de la
investigación nos indicará hasta que grado se puede aceptar.

El nivel de confianza, por su parte, es la probabilidad de que la estimación efectuada se


ajuste a la realidad; es decir, que caiga dentro de un intervalo determinado basado en el
estimador y que capte el valor verdadero del parámetro a medir.

Tamaño de Muestra para Proporciones


Cuando deseamos estimar una proporción, debemos conocer varios aspectos:

a) El nivel de confianza o seguridad (1 - α). El nivel de confianza prefijado da lugar a un


coeficiente (Zα).

Ejemplo No. 12: Para una seguridad del 95%, Zα = 1.96, para una seguridad del
99%, Zα = 2.58. (Estos valores provienen de las tablas de la distribución normal Z)

b) La precisión que deseamos para el estudio.

c) Una idea del valor aproximado del parámetro que queremos medir (en este caso una
proporción). Esta idea se puede obtener revisando la literatura, por estudio pilotos
previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%). El
problema que puede enfrentarse en un estudio de investigación es la cantidad de
información con la que se cuente; específicamente se pueden tener dos casos:
desconocer la población del fenómeno estudiado, o bien, conocerla.

Cálculo del Tamaño de la Muestra desconociendo el Tamaño de la Población.


La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la
población es la siguiente:
2
Za × p × q
n=
d2

URL_02_BAS02.doc 9 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

en donde,
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)

Ejemplo No. 13: ¿A cuántas familias tendríamos que estudiar para conocer la
preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se
desconoce la población total?

Seguridad = 95%;
Precisión = 3%;
Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos
ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que
maximiza el tamaño muestral.

Entonces:
• Zα2 = 1.962 (ya que la seguridad es del 95%)
• p = proporción esperada (en este caso 5% = 0.05)
• q = 1 – p (en este caso 1 – 0.05 = 0.95)
• d = precisión (en este caso deseamos un 3%)

1.96 2 × 0.05 × 0.95


n= = 203
0.03 2

Se requeriría encuestar a no menos de 203 familias para poder tener una seguridad
del 95%

Ejemplo No. 14: ¿Cómo hubiera cambiando el ejemplo anterior, si se desconoce la


proporción esperada?

Cunado se desconoce la proporción esperada, se tiene que utilizar el criterio


conservador (p = q = 0.5), lo cual maximiza el tamaño de muestra de la siguiente
manera:
• Z α2 = 1.962 (ya que la seguridad es del 95%)
• p = proporción esperada (en este caso 50% = 0.5)
• q = 1 – p (en este caso 1 – 0.5 = 0. 5)
• d = precisión (en este caso deseamos un 3%) quedando como resultado:

1.96 2 × 0.5 × 0.5


n= = 1068
0.03 2

Se requeriría encuestar a no menos de 1068 familias para poder tener una seguridad
del 95%

URL_02_BAS02.doc 10 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Cálculo del Tamaño de la Muestra conociendo el Tamaño de la Población.


La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la
población es la siguiente:
2
N × Za × p × q
n= 2
d × ( N − 1) + Z a × p × q
2

en donde,
N = tamaño de la población
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (Error máximo admisible en términos de proporción)

Ejemplo No. 15: ¿A cuántas familias tendríamos que estudiar para conocer la
preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se conoce
que el número de familias con bebés en el sector de interés es de 15,000?

Seguridad = 95%;
Precisión = 3%;
Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviese
ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que
maximiza el tamaño muestral.
15,000 × 1.96 2 × 0.05 × 0.95
n= = 200
0.03 2 × (15,000 − 1) + 1.96 2 × 0.05 × 0.95

Se requeriría encuestar a no menos de 200 familias para poder tener una seguridad
del 95%

Ejemplo No. 16: ¿Cómo hubiera cambiando el ejemplo anterior, si se desconoce la


proporción esperada?

Si se desconoce la proporción esperada, se tendría que utilizar el criterio


conservador (p = q = 0.5), lo cual maximiza el tamaño de muestra de la siguiente
manera:
• Zα2 = 1.962 (ya que la seguridad es del 95%)
• p = proporción esperada (en este caso 50% = 0.5)
• q = 1 – p (en este caso 1 – 0.5 = 0. 5)
• d = precisión (en este caso deseamos un 3%) quedando como resultado:

15,000 × 1.96 2 × 0.5 × 0.5


n= = 997
0.03 2 × (15,000 − 1) + 1.96 2 × 0.5 × 0.5

Se requeriría encuestar a no menos de 997 familias para poder tener una seguridad
del 95%

URL_02_BAS02.doc 11 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

Conclusiones sobre el nivel de seguridad en el muestreo

Según diferentes seguridades, el coeficiente de Zα varía así:


• Si la seguridad Zα fuese del 90% el coeficiente sería 1.645
• Si la seguridad Zα fuese del 95% el coeficiente sería 1.96
• Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
• Si la seguridad Zα fuese del 99% el coeficiente sería 2.576

Si los recursos del investigador son limitados, debe recordar que a medida que se
disminuya el nivel de seguridad, se permitirá un mayor error en el estudio de investigación,
lo cual a su vez permitirá al investigador trabajar con un número de muestra más reducido,
sacrificando la confiabilidad de los resultados.

CONCLUSIONES

Existen varios criterios estadísticos para poder


establecer el tamaño de una muestra. En principio
pueden ser criterios probabilísticos o no
probabilísticos de acuerdo al nivel de posibilidades
que cada uno de los elementos tiene, de participar en
la muestra, dentro de un universo de trabajo dado.

En un siguiente artículo comentaremos sobre las


técnicas de muestreo más empleadas.

BIBLIOGRAFÍA

• BENASSINI, MARCELA. Introducción a la


Investigación de Mercados, un enfoque para América
Latina. Primera edición. Editorial Prentice Hall. México.

• CEA D `ANCONA, Mª A (1998). Metodología


cuantitativa: Estrategias y Técnicas de Investigación
Social. Síntesis. Madrid

• Estadística. http://www.umce.cl/publicaciones

• Estadística para Administradores.


http://www.monografias.com

• FRUGONE, JOSELIN. Estadística. UNAM.


http://apuntes.rincondelvago.com/conceptos-y-

URL_02_BAS02.doc 12 de 13
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 02

muestreo.html

• MARBAN, VICENTE. Sociología Económica.


http://www2.uah.es/vicente_marban/ASIGNATURAS/SOCIOLOGIA%20ECONOMICA/TEMA%205/t
ema%205.pdf

• ORTEGA E (1997). La dirección de Marketing. ESIC. Madrid

• SPIEGEL, MURRAY (1988). Estadística. 2ª. Edición. Editorial McGraw Hill. Madrid.

URL_02_BAS02.doc 13 de 13
Probabilidad

Probabilidad

El valor de la tabla para z El valor de la tabla para z


es el área bajo la curva es el área bajo la curva
de la normal estándar z de la normal estándar z
a la izquierda de z a la izquierda de z

TABLA A: Probabilidades de la normal estándar TABLA A: Probabilidades de la normal estándar (cont. )


z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

⫺3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
⫺3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
⫺3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
⫺3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
⫺3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
⫺2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
⫺2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
⫺2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026 0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
⫺2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
⫺2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048 0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
⫺2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
⫺2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
⫺2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
⫺2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
⫺2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
⫺1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
⫺1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
⫺1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
⫺1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
⫺1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
⫺1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
⫺1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
⫺1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
⫺1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
⫺1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
⫺0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
⫺0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
⫺0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
⫺0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
⫺0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
⫺0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
⫺0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
⫺0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
⫺0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
⫺0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Probabilidad p
El valor de la tabla para p y C
es el valor crítico t* que deja
una probabilidad p a la derecha Probabilidad p
y una probabilidad C t*
entre -t* y t*
X2*
TABLA B Valores críticos de la distribución t de Student
Probabilidad de la cola p El valor de la tabla para p es el valor crítico X 2ⴱ que deja la probabilidad p a la derecha

gl .25 .20 .15 .10 .05 .025 .02 .01 .005 .0025 .001 .0005
1 1.000 1.376 1.963 3.078 6.314 12.71 15.89 31.82 63.66 127.3 318.3 636.6 TABLA C: Valores críticos de la distribución ␹ 2 de Pearson
2 0.816 1.061 1.386 1.886 2.920 4.303 4.849 6.965 9.925 14.09 22.33 31.60
3 0.765 0.978 1.250 1.638 2.353 3.182 3.482 4.541 5.841 7.453 10.21 12.92 Probabilidad de la cola p
4 0.741 0.941 1.190 1.533 2.132 2.776 2.999 3.747 4.604 5.598 7.173 8.610
gl .25 .20 .15 .10 .05 .025 .02 .01 .005 .0025 .001 .0005
5 0.727 0.920 1.156 1.476 2.015 2.571 2.757 3.365 4.032 4.773 5.893 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.208 5.959 1 1.32 1.64 2.07 2.71 3.84 5.02 5.41 6.63 7.88 9.14 10.83 12.12
7 0.711 0.896 1.119 1.415 1.895 2.365 2.517 2.998 3.499 4.029 4.785 5.408 2 2.77 3.22 3.79 4.61 5.99 7.38 7.82 9.21 10.60 11.98 13.82 15.20
8 0.706 0.889 1.108 1.397 1.860 2.306 2.449 2.896 3.355 3.833 4.501 5.041 3 4.11 4.64 5.32 6.25 7.81 9.35 9.84 11.34 12.84 14.32 16.27 17.73
9 0.703 0.883 1.100 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.297 4.781 4 5.39 5.99 6.74 7.78 9.49 11.14 11.67 13.28 14.86 16.42 18.47 20.00
10 0.700 0.879 1.093 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.144 4.587 5 6.63 7.29 8.12 9.24 11.07 12.83 13.39 15.09 16.75 18.39 20.51 22.11
11 0.697 0.876 1.088 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.025 4.437 6 7.84 8.56 9.45 10.64 12.59 14.45 15.03 16.81 18.55 20.25 22.46 24.10
12 0.695 0.873 1.083 1.356 1.782 2.179 2.303 2.681 3.055 3.428 3.930 4.318 7 9.04 9.80 10.75 12.02 14.07 16.01 16.62 18.48 20.28 22.04 24.32 26.02
8 10.22 11.03 12.03 13.36 15.51 17.53 18.17 20.09 21.95 23.77 26.12 27.87
13 0.694 0.870 1.079 1.350 1.771 2.160 2.282 2.650 3.012 3.372 3.852 4.221
9 11.39 12.24 13.29 14.68 16.92 19.02 19.68 21.67 23.59 25.46 27.88 29.67
14 0.692 0.868 1.076 1.345 1.761 2.145 2.264 2.624 2.977 3.326 3.787 4.140 10 12.55 13.44 14.53 15.99 18.31 20.48 21.16 23.21 25.19 27.11 29.59 31.42
15 0.691 0.866 1.074 1.341 1.753 2.131 2.249 2.602 2.947 3.286 3.733 4.073 11 13.70 14.63 15.77 17.28 19.68 21.92 22.62 24.72 26.76 28.73 31.26 33.14
16 0.690 0.865 1.071 1.337 1.746 2.120 2.235 2.583 2.921 3.252 3.686 4.015 12 14.85 15.81 16.99 18.55 21.03 23.34 24.05 26.22 28.30 30.32 32.91 34.82
17 0.689 0.863 1.069 1.333 1.740 2.110 2.224 2.567 2.898 3.222 3.646 3.965 13 15.98 16.98 18.20 19.81 22.36 24.74 25.47 27.69 29.82 31.88 34.53 36.48
18 0.688 0.862 1.067 1.330 1.734 2.101 2.214 2.552 2.878 3.197 3.611 3.922 14 17.12 18.15 19.41 21.06 23.68 26.12 26.87 29.14 31.32 33.43 36.12 38.11
19 0.688 0.861 1.066 1.328 1.729 2.093 2.205 2.539 2.861 3.174 3.579 3.883 15 18.25 19.31 20.60 22.31 25.00 27.49 28.26 30.58 32.80 34.95 37.70 39.72
20 0.687 0.860 1.064 1.325 1.725 2.086 2.197 2.528 2.845 3.153 3.552 3.850 16 19.37 20.47 21.79 23.54 26.30 28.85 29.63 32.00 34.27 36.46 39.25 41.31
21 0.686 0.859 1.063 1.323 1.721 2.080 2.189 2.518 2.831 3.135 3.527 3.819 17 20.49 21.61 22.98 24.77 27.59 30.19 31.00 33.41 35.72 37.95 40.79 42.88
22 0.686 0.858 1.061 1.321 1.717 2.074 2.183 2.508 2.819 3.119 3.505 3.792 18 21.60 22.76 24.16 25.99 28.87 31.53 32.35 34.81 37.16 39.42 42.31 44.43
19 22.72 23.90 25.33 27.20 30.14 32.85 33.69 36.19 38.58 40.88 43.82 45.97
23 0.685 0.858 1.060 1.319 1.714 2.069 2.177 2.500 2.807 3.104 3.485 3.768 20 23.83 25.04 26.50 28.41 31.41 34.17 35.02 37.57 40.00 42.34 45.31 47.50
24 0.685 0.857 1.059 1.318 1.711 2.064 2.172 2.492 2.797 3.091 3.467 3.745 21 24.93 26.17 27.66 29.62 32.67 35.48 36.34 38.93 41.40 43.78 46.80 49.01
25 0.684 0.856 1.058 1.316 1.708 2.060 2.167 2.485 2.787 3.078 3.450 3.725 22 26.04 27.30 28.82 30.81 33.92 36.78 37.66 40.29 42.80 45.20 48.27 50.51
26 0.684 0.856 1.058 1.315 1.706 2.056 2.162 2.479 2.779 3.067 3.435 3.707 23 27.14 28.43 29.98 32.01 35.17 38.08 38.97 41.64 44.18 46.62 49.73 52.00
27 0.684 0.855 1.057 1.314 1.703 2.052 2.158 2.473 2.771 3.057 3.421 3.690 24 28.24 29.55 31.13 33.20 36.42 39.36 40.27 42.98 45.56 48.03 51.18 53.48
28 0.683 0.855 1.056 1.313 1.701 2.048 2.154 2.467 2.763 3.047 3.408 3.674 25 29.34 30.68 32.28 34.38 37.65 40.65 41.57 44.31 46.93 49.44 52.62 54.95
29 0.683 0.854 1.055 1.311 1.699 2.045 2.150 2.462 2.756 3.038 3.396 3.659 26 30.43 31.79 33.43 35.56 38.89 41.92 42.86 45.64 48.29 50.83 54.05 56.41
30 0.683 0.854 1.055 1.310 1.697 2.042 2.147 2.457 2.750 3.030 3.385 3.646 27 31.53 32.91 34.57 36.74 40.11 43.19 44.14 46.96 49.64 52.22 55.48 57.86
40 0.681 0.851 1.050 1.303 1.684 2.021 2.123 2.423 2.704 2.971 3.307 3.551 28 32.62 34.03 35.71 37.92 41.34 44.46 45.42 48.28 50.99 53.59 56.89 59.30
50 0.679 0.849 1.047 1.299 1.676 2.009 2.109 2.403 2.678 2.937 3.261 3.496 29 33.71 35.14 36.85 39.09 42.56 45.72 46.69 49.59 52.34 54.97 58.30 60.73
30 34.80 36.25 37.99 40.26 43.77 46.98 47.96 50.89 53.67 56.33 59.70 62.16
60 0.679 0.848 1.045 1.296 1.671 2.000 2.099 2.390 2.660 2.915 3.232 3.460 40 45.62 47.27 49.24 51.81 55.76 59.34 60.44 63.69 66.77 69.70 73.40 76.09
80 0.678 0.846 1.043 1.292 1.664 1.990 2.088 2.374 2.639 2.887 3.195 3.416 50 56.33 58.16 60.35 63.17 67.50 71.42 72.61 76.15 79.49 82.66 86.66 89.56
100 0.677 0.845 1.042 1.290 1.660 1.984 2.081 2.364 2.626 2.871 3.174 3.390 60 66.98 68.97 71.34 74.40 79.08 83.30 84.58 88.38 91.95 95.34 99.61 102.7
1000 0.675 0.842 1.037 1.282 1.646 1.962 2.056 2.330 2.581 2.813 3.098 3.300 80 88.13 90.41 93.11 96.58 101.9 106.6 108.1 112.3 116.3 120.1 124.8 128.3
zⴱ 0.674 0.841 1.036 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.091 3.291 100 109.1 111.7 114.7 118.5 124.3 129.6 131.1 135.8 140.2 144.3 149.4 153.2
50% 60% 70% 80% 90% 95% 96% 98% 99% 99.5% 99.8% 99.9%

Nivel de confianza C
Probabilidad p Probabilidad p

F* F*

El valor de la tabla para p es el valor crítico F* que deja la probabilidad p a la derecha El valor de la tabla para p es el valor crítico F* que deja la probabilidad p a la derecha

TABLA D Valores críticos de la distribución F de Fisher TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad del numerador

p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.71 61.22 61.74 62.05 62.26 62.53 62.69 62.79 63.06 63.30
.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 243.91 245.95 248.01 249.26 250.10 251.14 251.77 252.20 253.25 254.19
1 .025 647.79 799.50 864.16 899.58 921.85 937.11 948.22 956.66 963.28 968.63 976.71 984.87 993.10 998.08 1001.4 1005.6 1008.1 1009.8 1014.0 1017.7
.010 4052.2 4999.5 5403.4 5624.6 5763.6 5859.0 5928.4 5981.1 6022.5 6055.8 6106.3 6157.3 6208.7 6239.8 6260.6 6286.8 6302.5 6313.0 6339.4 6362.7
.001 405284 500000 540379 562500 576405 585937 592873 598144 602284 605621 610668 615764 620908 624017 626099 628712 630285 631337 633972 636301
.100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.47 9.48 9.49
.050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.46 19.46 19.47 19.48 19.48 19.49 19.49
2 .025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.48 39.49 39.50
.010 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.48 99.49 99.50
.001 998.50 999.00 999.17 999.25 999.30 999.33 999.36 999.37 999.39 999.40 999.42 999.43 999.45 999.46 999.47 999.47 999.48 999.48 999.49 999.50
Grados de libertad en el denominador

.100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.17 5.17 5.16 5.15 5.15 5.14 5.13
.050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.63 8.62 8.59 8.58 8.57 8.55 8.53
3 .025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 14.01 13.99 13.95 13.91
.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.58 26.50 26.41 26.35 26.32 26.22 26.14
.001 167.03 148.50 141.11 137.10 134.58 132.85 131.58 130.62 129.86 129.25 128.32 127.37 126.42 125.84 125.45 124.96 124.66 124.47 123.97 123.53
.100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.80 3.79 3.78 3.76
.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.70 5.69 5.66 5.63
4 .025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.50 8.46 8.41 8.38 8.36 8.31 8.26
.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.91 13.84 13.75 13.69 13.65 13.56 13.47
.001 74.14 61.25 56.18 53.44 51.71 50.53 49.66 49.00 48.47 48.05 47.41 46.76 46.10 45.70 45.43 45.09 44.88 44.75 44.40 44.09
.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.15 3.14 3.12 3.11
.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.52 4.50 4.46 4.44 4.43 4.40 4.37
5 .025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.27 6.23 6.18 6.14 6.12 6.07 6.02
.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.45 9.38 9.29 9.24 9.20 9.11 9.03
.001 47.18 37.12 33.20 31.09 29.75 28.83 28.16 27.65 27.24 26.92 26.42 25.91 25.39 25.08 24.87 24.60 24.44 24.33 24.06 23.82
.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.81 2.80 2.78 2.77 2.76 2.74 2.72
.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.83 3.81 3.77 3.75 3.74 3.70 3.67
6 .025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.11 5.07 5.01 4.98 4.96 4.90 4.86
.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.30 7.23 7.14 7.09 7.06 6.97 6.89
.001 35.51 27.00 23.70 21.92 20.80 20.03 19.46 19.03 18.69 18.41 17.99 17.56 17.12 16.85 16.67 16.44 16.31 16.21 15.98 15.77
.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.57 2.56 2.54 2.52 2.51 2.49 2.47
.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.40 3.38 3.34 3.32 3.30 3.27 3.23
7 .025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.40 4.36 4.31 4.28 4.25 4.20 4.15
.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.06 5.99 5.91 5.86 5.82 5.74 5.66
.001 29.25 21.69 18.77 17.20 16.21 15.52 15.02 14.63 14.33 14.08 13.71 13.32 12.93 12.69 12.53 12.33 12.20 12.12 11.91 11.72
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador

p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.35 2.34 2.32 2.30
.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.11 3.08 3.04 3.02 3.01 2.97 2.93
8 .025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.94 3.89 3.84 3.81 3.78 3.73 3.68
.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.26 5.20 5.12 5.07 5.03 4.95 4.87
.001 25.41 18.49 15.83 14.39 13.48 12.86 12.40 12.05 11.77 11.54 11.19 10.84 10.48 10.26 10.11 9.92 9.80 9.73 9.53 9.36
.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.27 2.25 2.23 2.22 2.21 2.18 2.16
.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.89 2.86 2.83 2.80 2.79 2.75 2.71
9 .025 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.60 3.56 3.51 3.47 3.45 3.39 3.34
.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.71 4.65 4.57 4.52 4.48 4.40 4.32
.001 22.86 16.39 13.90 12.56 11.71 11.13 10.70 10.37 10.11 9.89 9.57 9.24 8.90 8.69 8.55 8.37 8.26 8.19 8.00 7.84
.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.17 2.16 2.13 2.12 2.11 2.08 2.06
.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.73 2.70 2.66 2.64 2.62 2.58 2.54
10 .025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.35 3.31 3.26 3.22 3.20 3.14 3.09
.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.31 4.25 4.17 4.12 4.08 4.00 3.92
.001 21.04 14.91 12.55 11.28 10.48 9.93 9.52 9.20 8.96 8.75 8.45 8.13 7.80 7.60 7.47 7.30 7.19 7.12 6.94 6.78
.100 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.04 2.03 2.00 1.98
.050 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.60 2.57 2.53 2.51 2.49 2.45 2.41
11 .025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.16 3.12 3.06 3.03 3.00 2.94 2.89
.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.01 3.94 3.86 3.81 3.78 3.69 3.61
Grados de libertad en el denominador

.001 19.69 13.81 11.56 10.35 9.58 9.05 8.66 8.35 8.12 7.92 7.63 7.32 7.01 6.81 6.68 6.52 6.42 6.35 6.18 6.02
.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.03 2.01 1.99 1.97 1.96 1.93 1.91
.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.50 2.47 2.43 2.40 2.38 2.34 2.30
12 .025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.01 2.96 2.91 2.87 2.85 2.79 2.73
.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.76 3.70 3.62 3.57 3.54 3.45 3.37
.001 18.64 12.97 10.80 9.63 8.89 8.38 8.00 7.71 7.48 7.29 7.00 6.71 6.40 6.22 6.09 5.93 5.83 5.76 5.59 5.44
.100 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.92 1.90 1.88 1.85
.050 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.41 2.38 2.34 2.31 2.30 2.25 2.21
13 .025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.88 2.84 2.78 2.74 2.72 2.66 2.60
.010 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.57 3.51 3.43 3.38 3.34 3.25 3.18
.001 17.82 12.31 10.21 9.07 8.35 7.86 7.49 7.21 6.98 6.80 6.52 6.23 5.93 5.75 5.63 5.47 5.37 5.30 5.14 4.99
.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.93 1.91 1.89 1.87 1.86 1.83 1.80
.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.34 2.31 2.27 2.24 2.22 2.18 2.14
14 .025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.78 2.73 2.67 2.64 2.61 2.55 2.50
.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.41 3.35 3.27 3.22 3.18 3.09 3.02
.001 17.14 11.78 9.73 8.62 7.92 7.44 7.08 6.80 6.58 6.40 6.13 5.85 5.56 5.38 5.25 5.10 5.00 4.94 4.77 4.62
.100 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.89 1.87 1.85 1.83 1.82 1.79 1.76
.050 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.28 2.25 2.20 2.18 2.16 2.11 2.07
15 .025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.69 2.64 2.59 2.55 2.52 2.46 2.40
.010 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.28 3.21 3.13 3.08 3.05 2.96 2.88
.001 16.59 11.34 9.34 8.25 7.57 7.09 6.74 6.47 6.26 6.08 5.81 5.54 5.25 5.07 4.95 4.80 4.70 4.64 4.47 4.33
.100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.86 1.84 1.81 1.79 1.78 1.75 1.72
.050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.23 2.19 2.15 2.12 2.11 2.06 2.02
16 .025 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.61 2.57 2.51 2.47 2.45 2.38 2.32
.010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.16 3.10 3.02 2.97 2.93 2.84 2.76
.001 16.12 10.97 9.01 7.94 7.27 6.80 6.46 6.19 5.98 5.81 5.55 5.27 4.99 4.82 4.70 4.54 4.45 4.39 4.23 4.08
.100 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.83 1.81 1.78 1.76 1.75 1.72 1.69
.050 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.18 2.15 2.10 2.08 2.06 2.01 1.97
17 .025 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.55 2.50 2.44 2.41 2.38 2.32 2.26
.010 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.07 3.00 2.92 2.87 2.83 2.75 2.66
.001 15.72 10.66 8.73 7.68 7.02 6.56 6.22 5.96 5.75 5.58 5.32 5.05 4.78 4.60 4.48 4.33 4.24 4.18 4.02 3.87
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador

p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.80 1.78 1.75 1.74 1.72 1.69 1.66
.050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.14 2.11 2.06 2.04 2.02 1.97 1.92
18 .025 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.49 2.44 2.38 2.35 2.32 2.26 2.20
.010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 2.98 2.92 2.84 2.78 2.75 2.66 2.58
.001 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 5.39 5.13 4.87 4.59 4.42 4.30 4.15 4.06 4.00 3.84 3.69
.100 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.78 1.76 1.73 1.71 1.70 1.67 1.64
.050 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 2.00 1.98 1.93 1.88
19 .025 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.44 2.39 2.33 2.30 2.27 2.20 2.14
.010 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.91 2.84 2.76 2.71 2.67 2.58 2.50
.001 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 5.22 4.97 4.70 4.43 4.26 4.14 3.99 3.90 3.84 3.68 3.53
.100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.76 1.74 1.71 1.69 1.68 1.64 1.61
.050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.07 2.04 1.99 1.97 1.95 1.90 1.85
20 .025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.40 2.35 2.29 2.25 2.22 2.16 2.09
.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.84 2.78 2.69 2.64 2.61 2.52 2.43
.001 14.82 9.95 8.10 7.10 6.46 6.02 5.69 5.44 5.24 5.08 4.82 4.56 4.29 4.12 4.00 3.86 3.77 3.70 3.54 3.40
.100 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.74 1.72 1.69 1.67 1.66 1.62 1.59
.050 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.94 1.92 1.87 1.82
21 .025 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.36 2.31 2.25 2.21 2.18 2.11 2.05
.010 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.79 2.72 2.64 2.58 2.55 2.46 2.37
Grados de libertad en el denominador

.001 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 4.95 4.70 4.44 4.17 4.00 3.88 3.74 3.64 3.58 3.42 3.28
.100 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.65 1.64 1.60 1.57
.050 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.02 1.98 1.94 1.91 1.89 1.84 1.79
22 .025 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.32 2.27 2.21 2.17 2.14 2.08 2.01
.010 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.73 2.67 2.58 2.53 2.50 2.40 2.32
.001 14.38 9.61 7.80 6.81 6.19 5.76 5.44 5.19 4.99 4.83 4.58 4.33 4.06 3.89 3.78 3.63 3.54 3.48 3.32 3.17
.100 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.71 1.69 1.66 1.64 1.62 1.59 1.55
.050 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.00 1.96 1.91 1.88 1.86 1.81 1.76
23 .025 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.29 2.24 2.18 2.14 2.11 2.04 1.98
.010 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.69 2.62 2.54 2.48 2.45 2.35 2.27
.001 14.20 9.47 7.67 6.70 6.08 5.65 5.33 5.09 4.89 4.73 4.48 4.23 3.96 3.79 3.68 3.53 3.44 3.38 3.22 3.08
.100 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.62 1.61 1.57 1.54
.050 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.97 1.94 1.89 1.86 1.84 1.79 1.74
24 .025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.26 2.21 2.15 2.11 2.08 2.01 1.94
.010 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.64 2.58 2.49 2.44 2.40 2.31 2.22
.001 14.03 9.34 7.55 6.59 5.98 5.55 5.23 4.99 4.80 4.64 4.39 4.14 3.87 3.71 3.59 3.45 3.36 3.29 3.14 2.99
.100 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.68 1.66 1.63 1.61 1.59 1.56 1.52
.050 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.84 1.82 1.77 1.72
25 .025 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.23 2.18 2.12 2.08 2.05 1.98 1.91
.010 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.60 2.54 2.45 2.40 2.36 2.27 2.18
.001 13.88 9.22 7.45 6.49 5.89 5.46 5.15 4.91 4.71 4.56 4.31 4.06 3.79 3.63 3.52 3.37 3.28 3.22 3.06 2.91
.100 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.67 1.65 1.61 1.59 1.58 1.54 1.51
.050 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.94 1.90 1.85 1.82 1.80 1.75 1.70
26 .025 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.21 2.16 2.09 2.05 2.03 1.95 1.89
.010 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.57 2.50 2.42 2.36 2.33 2.23 2.14
.001 13.74 9.12 7.36 6.41 5.80 5.38 5.07 4.83 4.64 4.48 4.24 3.99 3.72 3.56 3.44 3.30 3.21 3.15 2.99 2.84
.100 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.66 1.64 1.60 1.58 1.57 1.53 1.50
.050 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.92 1.88 1.84 1.81 1.79 1.73 1.68
27 .025 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.18 2.13 2.07 2.03 2.00 1.93 1.86
.010 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.54 2.47 2.38 2.33 2.29 2.20 2.11
.001 13.61 9.02 7.27 6.33 5.73 5.31 5.00 4.76 4.57 4.41 4.17 3.92 3.66 3.49 3.38 3.23 3.14 3.08 2.92 2.78
TABLA D Valores críticos de la distribución F de Fisher (cont.) TABLA D Valores críticos de la distribución F de Fisher (cont.)
Grados de libertad en el numerador Grados de libertad en el numerador

p 1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 40 50 60 120 1000
.100 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.65 1.63 1.59 1.57 1.56 1.52 1.48
.050 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.79 1.77 1.71 1.66
28 .025 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.16 2.11 2.05 2.01 1.98 1.91 1.84
.010 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.51 2.44 2.35 2.30 2.26 2.17 2.08
.001 13.50 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.50 4.35 4.11 3.86 3.60 3.43 3.32 3.18 3.09 3.02 2.86 2.72
.100 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.64 1.62 1.58 1.56 1.55 1.51 1.47
.050 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.89 1.85 1.81 1.77 1.75 1.70 1.65
29 .025 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.14 2.09 2.03 1.99 1.96 1.89 1.82
.010 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.48 2.41 2.33 2.27 2.23 2.14 2.05
.001 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 4.29 4.05 3.80 3.54 3.38 3.27 3.12 3.03 2.97 2.81 2.66
.100 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.63 1.61 1.57 1.55 1.54 1.50 1.46
.050 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.88 1.84 1.79 1.76 1.74 1.68 1.63
30 .025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.12 2.07 2.01 1.97 1.94 1.87 1.80
.010 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.45 2.39 2.30 2.25 2.21 2.11 2.02
.001 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4.39 4.24 4.00 3.75 3.49 3.33 3.22 3.07 2.98 2.92 2.76 2.61
.100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.48 1.47 1.42 1.38
Grados de libertad en el denominador

.050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.78 1.74 1.69 1.66 1.64 1.58 1.52
40 .025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 1.99 1.94 1.88 1.83 1.80 1.72 1.65
.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.27 2.20 2.11 2.06 2.02 1.92 1.82
.001 12.61 8.25 6.59 5.70 5.13 4.73 4.44 4.21 4.02 3.87 3.64 3.40 3.14 2.98 2.87 2.73 2.64 2.57 2.41 2.25
.100 2.81 2.41 2.20 2.06 1.97 1.90 1.84 1.80 1.76 1.73 1.68 1.63 1.57 1.53 1.50 1.46 1.44 1.42 1.38 1.33
.050 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.95 1.87 1.78 1.73 1.69 1.63 1.60 1.58 1.51 1.45
50 .025 5.34 3.97 3.39 3.05 2.83 2.67 2.55 2.46 2.38 2.32 2.22 2.11 1.99 1.92 1.87 1.80 1.75 1.72 1.64 1.56
.010 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70 2.56 2.42 2.27 2.17 2.10 2.01 1.95 1.91 1.80 1.70
.001 12.22 7.96 6.34 5.46 4.90 4.51 4.22 4.00 3.82 3.67 3.44 3.20 2.95 2.79 2.68 2.53 2.44 2.38 2.21 2.05
.100 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.50 1.48 1.44 1.41 1.40 1.35 1.30
.050 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.69 1.65 1.59 1.56 1.53 1.47 1.40
60 .025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.87 1.82 1.74 1.70 1.67 1.58 1.49
.010 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.10 2.03 1.94 1.88 1.84 1.73 1.62
.001 11.97 7.77 6.17 5.31 4.76 4.37 4.09 3.86 3.69 3.54 3.32 3.08 2.83 2.67 2.55 2.41 2.32 2.25 2.08 1.92
.100 2.76 2.36 2.14 2.00 1.91 1.83 1.78 1.73 1.69 1.66 1.61 1.56 1.49 1.45 1.42 1.38 1.35 1.34 1.28 1.22
.050 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.85 1.77 1.68 1.62 1.57 1.52 1.48 1.45 1.38 1.30
100 .025 5.18 3.83 3.25 2.92 2.70 2.54 2.42 2.32 2.24 2.18 2.08 1.97 1.85 1.77 1.71 1.64 1.59 1.56 1.46 1.36
.010 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.37 2.22 2.07 1.97 1.89 1.80 1.74 1.69 1.57 1.45
.001 11.50 7.41 5.86 5.02 4.48 4.11 3.83 3.61 3.44 3.30 3.07 2.84 2.59 2.43 2.32 2.17 2.08 2.01 1.83 1.64
.100 2.73 2.33 2.11 1.97 1.88 1.80 1.75 1.70 1.66 1.63 1.58 1.52 1.46 1.41 1.38 1.34 1.31 1.29 1.23 1.16
.050 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.80 1.72 1.62 1.56 1.52 1.46 1.41 1.39 1.30 1.21
200 .025 5.10 3.76 3.18 2.85 2.63 2.47 2.35 2.26 2.18 2.11 2.01 1.90 1.78 1.70 1.64 1.56 1.51 1.47 1.37 1.25
.010 6.76 4.71 3.88 3.41 3.11 2.89 2.73 2.60 2.50 2.41 2.27 2.13 1.97 1.87 1.79 1.69 1.63 1.58 1.45 1.30
.001 11.15 7.15 5.63 4.81 4.29 3.92 3.65 3.43 3.26 3.12 2.90 2.67 2.42 2.26 2.15 2.00 1.90 1.83 1.64 1.43
.100 2.71 2.31 2.09 1.95 1.85 1.78 1.72 1.68 1.64 1.61 1.55 1.49 1.43 1.38 1.35 1.30 1.27 1.25 1.18 1.08
.050 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.76 1.68 1.58 1.52 1.47 1.41 1.36 1.33 1.24 1.11
1000 .025 5.04 3.70 3.13 2.80 2.58 2.42 2.30 2.20 2.13 2.06 1.96 1.85 1.72 1.64 1.58 1.50 1.45 1.41 1.29 1.13
.010 6.66 4.63 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.20 2.06 1.90 1.79 1.72 1.61 1.54 1.50 1.35 1.16
.001 10.89 6.96 5.46 4.65 4.14 3.78 3.51 3.30 3.13 2.99 2.77 2.54 2.30 2.14 2.02 1.87 1.77 1.69 1.49 1.22
05-13 matr-18 12/4/03 12:25 Página 5

Formación continuada características tendrán «criterios de inclusión y


exclusión», a cuántos pacientes se estudiará «tamaño
de la muestra» y cómo se elegirán para que entren a
Cálculo del tamaño formar parte del estudio «técnica de muestreo».
Estudiar a toda la población, que sería la manera más

de la muestra exacta de conocer lo que se pretende estudiar, es casi


imposible en la práctica. Entre los motivos que lo impiden
se encuentran la falta de tiempo, la escasez de recursos
humanos y económicos, la dificultad para acceder a
C. Fuentelsaz Gallego todos los sujetos, etc., por lo que se estudia sólo a una
parte de ellos, para, posteriormente, generalizar o inferir
los resultados obtenidos a toda la población.
Enfermera de investigación. Hospital Universitario Por tanto, cuando se habla de sujetos de estudio, se ha
«Vall d’Hebron». Barcelona de diferenciar claramente entre población, muestra e
individuo.

RESUMEN Población
Es el conjunto de elementos o individuos que reúnen
En este artículo se comentan los criterios que deben las características que se pretenden estudiar. Cuando
tenerse en cuenta a la hora de seleccionar a los se conoce el número de individuos que la componen, se
individuos que entrarán a formar parte de un estudio de habla de «población finita» y, cuando no se conoce su
investigación: cómo se calcula el tamaño de la muestra número, de «población infinita».
necesario y cuáles son las técnicas de muestreo más Existen tres niveles de población, según su tamaño y
utilizadas para incluirlos en el estudio. Todo ello accesibilidad: la «población diana» es el conjunto de
dependerá de los objetivos, del diseño planteado elementos o individuos al cual se pretenden inferir
y del tipo de las variables que se recojan. los resultados obtenidos; generalmente, es muy
numerosa y no está al alcance de los investigadores.

§
Palabras clave: muestra, técnicas de muestreo, La «población accesible» es la que reúne las mismas
investigación características que la anterior, pero con menor número
de individuos, y por tanto susceptible de estudio; es la
que delimita el investigador con los criterios de inclusión
5
ABSTRACT y exclusión. La «población de estudio» es de la que
realmente se recogen los datos; suele ser la muestra de
The present article describes the criteria to be taken into estudio.
account in the selection of individuals to participate in a
research study. The bases for calculating the necessary Muestra
sample size and the most frequently utilized sampling Es el grupo de individuos que realmente se estudiarán,
techniques are also discussed. All these aspects depend es un subconjunto de la población. Para que se puedan
on the purpose of the study, its design and the type of generalizar a la población los resultados obtenidos en la
variables to be assessed. muestra, ésta ha de ser «representativa» de dicha
poslación. Para ello, se han de definir con claridad los
Keywords: sample size, sampling techniques,research study criterios de inclusión y exclusión y, sobre todo, se han de
utilizar las técnicas de muestreo apropiadas para
(Matronas Profesión 2004; vol. 5(18): 5-13) garantizar dicha representatividad.

Individuo
INTRODUCCIÓN Es cada uno de los integrantes de la población o
muestra en los que se estudiarán las características de
La preparación de un proyecto de investigación es una interés determinadas por los objetivos del estudio.
tarea compleja, ya que se han de tener en cuenta Normalmente, el número de individuos de la muestra se
multitud de aspectos para que el documento final representa con la letra «n» y el número de sujetos de la
contemple todos los apartados que cualquier estructura población por la «N».
estándar considera y para que todos los investigadores Tras la definición de las características de la población a
sepan con qué y cómo deben proceder en todas las través de los criterios de inclusión y exclusión, se ha de
etapas de ejecución del estudio planteado. decidir si se estudia a toda la población o –en caso de
Uno de los dilemas que se presenta cuando se inicia la que ésta sea demasiado grande– a un número de
elaboración del proyecto es decidir sobre los individuos sujetos representativo, que no han de ser ni pocos ni
o elementos que se incluirán en el estudio: qué demasiados, sino simplemente los necesarios.

Matronas Profesión 2004; vol. 5, n.º 18


05-13 matr-18 12/4/03 12:25 Página 6

Si se estudia a más sujetos de los que en realidad son El error sistemático o sesgo está relacionado con la
necesarios, se estarán derrochando recursos, tanto representatividad de la población; si la muestra
materiales como humanos, de los que, normalmente, estudiada reúne características diferentes a las que se
no se dispone en exceso. Si, por el contrario, se estudia producen en la población, aunque se aumente el tamaño
a pocos sujetos, no se tendrá la potencia o seguridad de la muestra, este error se mantiene y se obtendrán
suficiente sobre lo que se está haciendo, y puede valores diferentes en la muestra a los que realmente se
darse el caso de que no se encuentren diferencias dan en la población. Este error está relacionado con la
entre dos grupos, por ejemplo, cuando en realidad validez.
sí las hay.
El tamaño de la muestra necesario estará condicionado
por los objetivos del estudio, que determinarán el ESTIMACIÓN PUNTUAL Y ESTIMACIÓN
diseño, las variables que deben considerarse y todo el POR INTERVALOS
método planteado para dar respuesta a dichos objetivos.
Así, si el objetivo del estudio es conocer la prevalencia Estimar un parámetro es proponer un valor para el
de diabéticas en un grupo de mujeres embarazadas de mismo a partir de la muestra; un estimador del
un determinado centro de salud, lo que se desea porcentaje poblacional sería el porcentaje de diabéticas
conocer es una proporción y, en este caso, se habla de –al que se hacía mención anteriormente– de una
«estimación de parámetros». En Ciencias de la Salud, los muestra; a este tipo de estimación se le llama
estimadores de uso más frecuente son la proporción «estimación puntual». Es bastante probable que el valor
muestral (po) para estimar– la proporción en la población que se obtiene no sea realmente el valor del parámetro
(π) y la media muestral (X ) para estimar la media en la población.
poblacional (µ). Una alternativa mejor es la estimación por intervalos; se
Con dicha estimación, se pretende conocer la da con ella un rango de valores que contendrá el valor del
proporción poblacional, es decir, la proporción de parámetro con una cierta confianza o seguridad, que
diabéticas entre todas las embarazadas, a partir del habitualmente es del 95%. La afirmación hecha mediante
estudio de un solo grupo de ellas (una muestra). Los un «intervalo de confianza» (IC) es preferible a la hecha
datos que se obtienen de dicha muestra, llamados por estimación puntual, ya que permite cuantificar la

©
«estadísticos», sirven para conocer los datos de la magnitud del error asociado a la estimación.
población, llamados «parámetros»; por eso, se habla de Un concepto importante al realizar estimaciones es el
6 “conocer el tamaño de la muestra necesario, para la
estimación de parámetros con una determinada
«error estándar», que está relacionado con la calidad de
la estimación. Se ha estudiado una muestra de 100
precisión. Se pueden estimar diferentes parámetros, neonatos que tienen una media de peso de 3.200 g y
como una proporción, una media, un coeficiente... una desviación estándar (DE) de 80; si se estudia otra
Un caso diferente se produce cuando el objetivo del muestra de 100 se puede encontrar una media de
estudio planteado es, por ejemplo, conocer la efectividad 3.400 y una DE de 97; en otra muestra se pueden
de la ingesta de aceite de onagra sobre la incidencia de encontrar valores de 3.100 y 92, respectivamente, etc.,
mastalgia en relación con la ingesta de un placebo. y así se podrían estudiar muestras diferentes hallando
En este tipo de estudio, se planteará un diseño valores similares pero no iguales. El error estándar mide
experimental en el que interesa conocer si hay la variabilidad entre las diferentes medias de las
diferencias entre los dos grupos, el de mujeres que muestras; es decir, mide la dispersión imaginaria que
toman onagra y el de las que toman placebo; esta presentarían las distintas medias obtenidas en las
diferencia se ha de detectar con una determinada muestras estudiadas.
potencia, o lo que es lo mismo, se ha de poder Se utilizarán fórmulas diferentes según se pretenda
identificar esta diferencia si realmente existe. Por tanto, calcular el «error estándar de una media» (EEM) o el
aquí se plantea un «contraste de hipótesis». «error estándar de una proporción» (EEP).
En ambos casos, estimación de parámetros o contraste
de hipótesis, lo que se hace es una «inferencia», es
decir, trasladar los datos obtenidos en la muestra a la
población de la cual se ha extraído dicha muestra,
gracias a la parte de la estadística denominada
«inferencial». Es obvio que, al hacerlo, se pueden El tamaño de la muestra está
cometer errores, que básicamente pueden ser de dos condicionado por los objetivos
tipos: «error aleatorio» y «error sistemático o sesgo». del estudio, que determinarán
El error aleatorio es el derivado de trabajar con muestras su diseño, las variables a
y se puede cuantificar, está relacionado con la precisión.
A medida que se aumenta el tamaño de la muestra, este considerar y el método
error disminuye, hasta el punto de que si se estudia a planteado
toda la población el error aleatorio desaparece.
05-13 matr-18 12/4/03 12:25 Página 7

El EEM dependerá de la variabilidad de la propia


variable, reflejada en su desviación estándar, y del Tabla 1.
tamaño de la muestra estudiada. Cuanto mayor Valores de Z más utilizados, según el valor de a
sea la variabilidad de la variable (mayor DE), mayor
variabilidad tendrá la muestra (EEM más elevado). a 0,10 0,05 0,01 0,001
Cuanto mayor sea el número de individuos estudiados,
menor será el EEM. Za 1,645 1,960 2,576 3,291

DE
EEM = ——–
√n Si se sustituye el EEM por su valor, visto anteriormente:
Cuando la variable es cualitativa, no hay un valor medio DE
que se pueda cuantificar, por tanto, se trataría de IC al 95% = × ± Zα = ——–
√n
cuantificar la dispersión de los porcentajes obtenidos en
diferentes muestras. En la fórmula intervienen la
proporción de sujetos que presentan la característica CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA
(p0) y la proporción de los que no la presentan (1- p0), ESTIMAR UNA PROPORCIÓN
expresado en tanto por uno, además del tamaño de la
muestra estudiada (1- p0 se sustituye muchas veces por Como ya se ha visto, el intervalo de confianza para
q, ya que 1= p+q, por tanto, q= 1-p). estimar una proporción está determinado por la
estimación puntual (po) y por la amplitud o anchura de
po · (1–po) dicho intervalo, denominada «precisión» (d).
EEP = ——–––––
√ n po · qo
d = Zα —–—
√ n
La amplitud del IC está directamente relacionada con
ese error que, en el caso de una media o una Despejando n, se obtiene la fórmula para calcular el

§
proporción, por ejemplo, es la mitad de dicha amplitud. número de observaciones o individuos necesarios para
El error está determinado por el tamaño de la muestra, estimar una proporción:
por lo que el tamaño «muestral» mínimo estará en
función del error máximo que se considere admisible. Z2α · po · qo
7
n = —–––––—–
El error de la estimación ha de ser suficientemente d2
pequeño para considerar que la estimación es precisa,
lo que determina que el intervalo de confianza sea Por tanto, es evidente que las dos cosas más
suficientemente estrecho. importantes que determinan el intervalo de confianza
son las que se han de tener en cuenta para calcular el
Intervalo de confianza de una proporción tamaño de la muestra: la anchura del intervalo o
La fórmula para calcular el intervalo de confianza al precisión (d= 1/2 de la amplitud del IC) y la confianza o
95% de una proporción es: seguridad establecida (1-α). Ambas han de ser
determinadas a priori por el investigador, al igual que el
IC al 95%= po ± Za EEP valor de p que se pretende estimar, a partir de la
bibliografía o con los resultados de la prueba piloto.
Si se sustituye el EEP por su valor, visto anteriormente: Ejemplo: ¿Cuántas mujeres será necesario estudiar para
estimar la prevalencia de dolor lumbar en una población
po · qo) de embarazadas?
IC al 95% = po ± Zα = ——–– Con un nivel de confianza del 95% (α= 0,05; Zα= 1,96),
√ n un error máximo admitido del 8% (la amplitud del IC
será 16) y un valor de prevalencia conocido por la
po: es la prevalencia esperada del parámetro que se ha bibliografía del 20%, el tamaño de la muestra necesario
de estimar. será de 96 mujeres:
Zα: es el nivel de confianza elegido, determinado por el
valor de α. Para una confianza del 95% (α= 0,05), que es 1,962 · 0,20 · 0,80 0,614656
n = —–––––—–––––– = —–––––— = 96
la utilizada habitualmente, este valor es de 1,96; aunque se 0,08 2 0,0016
pueden usar otros valores, que se presentan en la tabla 1.
El tamaño de la muestra dependerá de los valores que
Intervalo de confianza de una media se introduzcan en la fórmula, de modo que, para
La fórmula para calcular el intervalo de confianza
– al 95% una mayor precisión (IC más estrecho), se necesitará un
de una media es la siguiente: IC al 95%= (X ) ± Zα EEM mayor tamaño de la muestra, al igual que si se desea

Matronas Profesión 2004; vol. 5, n.º 18


05-13 matr-18 12/4/03 12:25 Página 8

se obtiene la fórmula para calcular el tamaño de la


Tabla 2. muestra necesario para estimar una media:
Diferentes tamaños muestrales según valores de
nivel de confianza (a), prevalencia (p) y DE
precisión (d) IC al 95% = x ± Zα = ——
√n
a (Za) p d n DE
Donde la precisión es: d = Zα —––
0,05 (1,96) 0,20 0,08 97 √n
0,05 (1,96) 0,20 0,04 385
Por tanto, la fórmula resultante para el cálculo del
0,01 (2,576) 0,20 0,08 166 tamaño será:
0,01 (2,576) 0,20 0,04 664 Z2α · DE2
n = —–––––
0,05 (1,96) 0,40 0,08 145 d2
0,05 (1,96) 0,40 0,04 576 Ejemplo: ¿Cuántas mujeres será necesario estudiar para
estimar la media de glucemia de las embarazadas que
han acudido al servicio de paritorio de un determinado
trabajar con un nivel de confianza mayor. En la tabla 2 hospital?
se puede observar la variación del tamaño de la muestra Estableciendo un nivel de confianza del 95% y una
en función de los distintos valores establecidos (los precisión de 5 (la diferencia entre la media de glucemia
tamaños han sido calculados con el programa EpiInfo de la población y la de la muestra, será ≤ 5 mg); faltaría
6.04). por conocer la DE. Se supone que se ha obtenido a partir
Existen distintas fórmulas para calcular el tamaño de la de la prueba piloto y que es de 20. Por lo que el número
muestra, según la población sea finita o infinita, es decir, mínimo de mujeres que ha de estudiarse será de 62.
si conocemos el número de individuos que la componen

©
o si lo desconocemos. Algunos de los programas Z2α · DE2 1,962 · 202
utilizados para el cálculo incorporan una casilla para n = —––––– n = —––––––– = 62
d2 52
8 incluir el tamaño de la población, otros la calculan
basándose en poblaciones infinitas sin advertirlo, ya Además, cuando se pretenda determinar el tamaño que
que, en la práctica, esta diferenciación no es importante, debe tener una muestra, hay que tener en consideración
pues el número calculado con un método u otro no varía el tipo de muestreo. Casi todas las fórmulas que se
significativamente. utilizan asumen que el muestreo es aleatorio, es decir,
Si se calcula con el programa EpiInfo el tamaño de la que todos los sujetos tienen la misma probabilidad de
muestra para estimar una proporción con los valores entrar a formar parte del estudio. Si el muestreo no es
del ejemplo anterior: nivel de confianza del 95%, una aleatorio, se tiene en cuenta el llamado «efecto de
precisión del 8%, y un valor de prevalencia del 20%, diseño», por el que se ha de multiplicar el valor
con una cuyo tamaño de la población sea de 999.999 calculado. En el muestreo aleatorio este valor es 1.
(es el que el programa muestra por defecto), el tamaño Generalmente, este valor está entre 1,5 y 3. Así, un valor
de la muestra resultante es de 97 mujeres. Si el igual a 2, por ejemplo con un muestreo estratificado,
tamaño de la población fuese de 9.999, el tamaño significa que para obtener la misma precisión habrá que
sería de 96 mujeres, y con una población de 999, estudiar al doble de individuos que con muestreo
de 88. aleatorio. Si se necesitaban 200, se deberán estudiar
Cuando se desea calcular el tamaño de la muestra 400 (200 × 2).
necesario para estimar una proporción –en caso que Otro aspecto que debe tenerse en cuenta es el de las
p= 0,5 y si se redondea a 2 el valor de Z–, se puede pérdidas que se prevén, es decir, los sujetos de los
utilizar la siguiente fórmula resumida: cuales no se tendrá información. Para cuantificarlas se
usa la siguiente fórmula:
Z2α · p · q 2 · 0,5 · 0,5 1
n = —–––––—– = —–––––—– n = —– n
d2 d2 d2 nc = —––––
1 – pe
CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA nc= tamaño de la muestra, teniendo en cuenta las
ESTIMAR UNA MEDIA pérdidas;
n= tamaño de la muestra, sin tener en cuenta las
Siguiendo el mismo razonamiento que para la estimación pérdidas;
de proporciones, a partir de la fórmula del IC de la media pe= porcentaje esperado de pérdidas.
05-13 matr-18 12/4/03 12:25 Página 9

Si el tamaño de la muestra calculado es de 96 Para calcular el tamaño de la muestra en estos casos,


mujeres y se estiman unas pérdidas esperadas del hay que tener en cuenta los errores que se pueden
20%, el total de mujeres que deberá estudiarse será cometer, y que son de dos tipos: Error α o de tipo I
de 120. (rechazar la hipótesis nula cuando es cierta) y error β o
de tipo II (no rechazar la hipótesis nula cuando es falsa).
96 El primer caso se refiere a la seguridad del estudio, y, por
nc = —–––––– = 120
1 – 0,20 tanto, al riesgo de cometer un error α. En el segundo
caso, se habla de la potencia o poder estadístico (1-β),
Los programas informáticos, en general, tienen la opción que es el riesgo de cometer un error β. Los valores
de especificar estas pérdidas. utilizados habitualmente son α= 0,05 (nivel de
Estos cálculos no es necesario realizarlos a mano o con confianza del 95%) y β= 0,20 (potencia del 80%).
la ayuda de una calculadora; como ya se ha También es preciso establecer la magnitud de la
mencionado, existen programas gratuitos que calculan diferencia que se pretende encontrar entre los dos
el tamaño de la muestra necesario. Según el programa, grupos –es decir, la diferencia entre las dos
la presentación de los resultados y los valores que se proporciones o las dos medias–, así como una idea del
han de introducir pueden tener algunas diferencias. valor de los parámetros de la variable de estudio
Por tanto, es necesario conocer el funcionamiento de los (proporción o desviación estándar), que puede obtenerse
que se utilice con más frecuencia. de la bibliografía o a partir de la prueba piloto.
Por lo general, todos ellos son muy fáciles de usar. En Se debe indicar si los grupos son «independientes» o
las figuras 1 y 2 se presentan los resultados obtenidos «apareados», es decir, si son dos grupos diferentes o es
para el cálculo del tamaño de la muestra necesario para un mismo grupo al que se le han realizado dos
estimar una media. mediciones.
Por último, se ha de decidir si la hipótesis será
«unilateral» o «bilateral». En el primer caso, se
CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA supone que un parámetro será mayor en un grupo
CONTRASTE DE HIPÓTESIS que en el otro (o menor, dependiendo de si el efecto
de la intervención es reducir el valor de la variable).

§
Es el caso de los estudios con un diseño experimental, En el contraste bilateral, el parámetro puede ser
en los que se hace una intervención en dos grupos, la mayor o menor en cualquiera de los dos grupos de
habitual al «grupo control» y la que se pretende evaluar
al «grupo experimental». Lo que desea el investigador es
estudio. 9
conocer si hay diferencias entre los dos grupos, para lo Comparación de proporciones
que plantea un contraste de hipótesis, con la Para calcular el tamaño de la muestra necesario en
comparación de medias o proporciones, dependiendo cada grupo de estudio, los valores que se han conocer
del tipo de variables. Se plantean así dos tipos de son: riesgo α deseado (habitualmente 0,05), riesgo β
hipótesis: la nula y la alternativa. En la primera se (habitualmente 0,20), proporción en el grupo control y
establece que no hay diferencias entre los dos grupos proporción en el grupo experimental. Y decidir si el
para la variable de interés; en la segunda, sí se plantea contraste es bilateral o unilateral.
una diferencia, que es la que se pretende encontrar con
el estudio.

Figura 1. Pantalla de resultados del programa EPIDAT Figura 2. Pantalla de resultados del programa GRANMO

Matronas Profesión 2004; vol. 5, n.º 18


05-13 matr-18 12/4/03 12:25 Página 10

Figura 3. Pantalla del programa EpiCalc

La fórmula utilizada es:


Figura 4. Pantalla del programa GRANMO
[ Zα *√2p (1 – p) + Zβ *√p1 (1 – p1) + p2 (1 – p2)]2
n = —–––––—–––––––––––––––––––––––––––
(p1 – p2)2 programa GRANMO sí permite esta diferenciación
Donde: (figura 4). También permite indicar la razón entre grupos
Zα es el valor Z correspondiente al riesgo α fijado; (lo habitual es que sea 1:1; es el caso de un grupo
Zβ es el valor Z correspondiente al riesgo β fijado; control y uno experimental), así como el porcentaje de
p1 es el valor de la proporción en el grupo control; pérdidas previstas.
p2 es el valor de la proporción en el grupo experimental, Lo adecuado, en este caso, sería elegir contraste
y p es la media aritmética de las dos proporciones, p1 y unilateral, ya que la hipótesis del estudio afirmaría que
p2 (p1 + p2/2) el aceite de onagra disminuirá la incidencia de mastalgia

©
en el grupo que lo tome. El redactado del resultado
Ejemplo: se desea conocer el tamaño de la muestra obtenido mostrado sería:
10 necesario para un estudio cuyo objetivo es «conocer la
efectividad de la ingesta de aceite de onagra sobre
Aceptando un riesgo α= 0,05 y un riesgo β= 0,20
en un contraste unilateral, se precisan 18 sujetos
la incidencia de mastalgia en relación con la ingesta en el primer grupo y 18 en el segundo para
de placebo». En este caso, como ya se ha mencionado detectar una diferencia ≥0,40 entre ambos.
anteriormente, se planteará un diseño experimental en el Se asume una proporción del 0,40 en uno de los
que interesa conocer si existen diferencias en la grupos. Se ha estimado una tasa de pérdidas
incidencia de mastalgia entre los dos grupos: el de las de seguimiento del 0,0. Se ha utilizado la
mujeres que toman onagra y el de las que toman placebo. aproximación del ARCOSENO.
Se asume un riesgo α= 0,05, un riesgo β= 0,20; la 20/02/05 23:04:35 Dos proporciones independientes
proporción de mastalgia en el grupo control es del 80%, (Menú de Proporciones).
en el grupo experimental del 40%, para un contraste
unilateral. Según el programa con el que se calcule, los Comparación de medias
parámetros que se deberán introducir son diferentes. En este caso, los valores que se han conocer son: riesgo α
En la figura 3 se presenta la pantalla de introducción de deseado (habitualmente 0,05), riesgo β (de manera
datos del programa EpiCalc. habitual 0,20), variancia o DE de la variable y valor
Los resultados obtenidos serían: mínimo de la diferencia que se ha de detectar. Y decidir
Tamaño de la muestra - dos proporciones también si el contraste es bilateral o unilateral.
Proporción 1: 80,00%. La fórmula que se emplea para calcular el tamaño de la
Proporción 2: 40,00%. muestra en este caso es:
Significación: 0,05.
Poder: 80%. 2(Zα + Zβ)2 * S2
n = —–––––—–––
d2
Tamaño de la muestra: 22 (cada grupo).
Tamaño de la muestra: 44 (total). Donde:
Puede observarse que, en ambos programas, el resultado Zα es el valor Z correspondiente al riesgo α fijado;
indica que son necesarias 22 mujeres en cada grupo. Zβ es el valor Z correspondiente al riesgo β fijado;
Mientras que el programa EpiCalc no permite diferenciar S es la desviación estándar,
el tipo de contraste y por defecto asume que es bilateral y d es el valor mínimo de la diferencia que se desea
(ya que el tamaño de la muestra siempre es superior), el detectar.
05-13 matr-18 12/4/03 12:25 Página 11

Ejemplo: se desea conocer el tamaño de la muestra


necesario para un estudio cuyo objetivo es «conocer el
efecto de un programa informativo sobre ejercicio y
dieta, sobre los valores de glucemia de gestantes
diabéticas». Se planteará un diseño experimental con
dos grupos: a uno se le aplicará la intervención
(programa informativo) y al otro no. Interesará conocer si
existan diferencias en la media de glucemia entre
ambos grupos.
Se asume un riesgo α= 0,05, un riesgo β= 0,20, una
DE de la glucemia de 15, y la diferencia mínima de las
medias que se considera relevante entre los dos grupos,
que es de 9 mg/dL. El tipo de contraste planteado es
unilateral, y para datos independientes.

2(1,645 + 0,842)2 * 152 2.783,326


n = —–––––—––––––––––
2
= —–––––—–– = 34,36
9 81 Figura 5. Pantalla del programa GRANMO (medias independientes)

Serán necesarias 35 mujeres en cada grupo.


En la figura 5 se presenta la pantalla del programa
GRANMO. Muestreo aleatorio sistemático
Es similar al aleatorio simple: los sujetos han de estar
identificados, pero no es necesario disponer de un
TÉCNICAS DE MUESTREO listado. Éstos no se eligen a partir de un listado de
números aleatorios, sino que se hace sistemáticamente
Una vez que se han definido las características de los eligiendo a uno de cada cierto número de sujetos. Este

§
sujetos del estudio y se ha calculado el número número se denomina «fracción de muestreo» (k) y se
necesario, sólo queda determinar la manera en calcula dividiendo el total de la población por la muestra
que serán seleccionados de la población a la que
pertenecen. Se denomina muestreo al procedimiento
necesaria: 11
mediante el cual se obtiene una muestra de la N
k = ——
población. n
Existen dos tipos de muestreo: el «probabilístico» y el
«no probabilístico». Si se tiene una población de 8.000 individuos y el
Con el muestreo «probabilístico», todos los sujetos tamaño de la muestra necesario es de 400, se
tienen la misma probabilidad de entrar a formar parte seleccionará uno de cada 20, que será la fracción de
del estudio. La elección se hace al azar. El «no muestreo (8.000/400). Para decidir por cuál se ha de
probabilístico» es aquel en el que no todos los sujetos comenzar, se selecciona aleatoriamente, o por sorteo, un
tienen la misma probabilidad de formar parte de la número del 1 al 20, y a partir de dicho número se va
muestra de estudio. seleccionando a un sujeto de cada 20.
Los tipos de muestreo «probabilístico» más utilizados
son: aleatorio simple, aleatorio sistemático, aleatorio Muestreo aleatorio estratificado
estratificado y aleatorio por conglomerados. En este tipo de muestreo se divide a la población en
subgrupos o estratos que tienen alguna característica
Muestreo aleatorio simple común; e interesa mantener estos estratos en la
Para poder realizar este tipo de muestreo, todos los muestra, para que mantenga la misma composición que
individuos de la población deben estar numerados en un la población. La selección de sujetos dentro de cada
listado. Normalmente, se hace a partir de un listado de estrato se realizará aleatoriamente. La estratificación se
números aleatorios, disponible en casi todos los libros suele hacer en función de diferentes variables o
de estadística, con un programa estadístico, o con características de interés: género, edad, situación
alguno de los programas para calcular el tamaño de la laboral, etc.
muestra que tenga la opción de generar listados de Si se desea efectuar una estratificación por género y se
números aleatorios. sabe que en la población la distribución es del 55% de
Si no se dispone del listado de individuos, no se podrá mujeres y 45% de hombres, la muestra ha de mantener
utilizar esta técnica de muestreo, por lo que se debe esta misma proporción. Por tanto, si el tamaño de la
recurrir a otro tipo de muestreo que no precise tener a muestra es de 400, se elegirán aleatoriamente 220
los individuos identificados. mujeres y 180 hombres.

Matronas Profesión 2004; vol. 5, n.º 18


05-13 matr-18 12/4/03 12:25 Página 12

sobre la población, qué elementos entrarán a formar


parte de la muestra de estudio. En este muestreo
Se denomina muestreo al «no probabilístico» es muy importante definir con
procedimiento mediante el claridad los criterios de inclusión y exclusión,
y cumplirlos rigurosamente.
cual se obtiene una muestra
de la población Muestreo por cuotas
Consiste en seleccionar la muestra considerando una
serie de características específicas presentes en la
población, por lo que la muestra habrá de tenerlas en la
Muestreo por conglomerados misma proporción. Las cuotas se establecen a partir de
Este tipo de muestreo también se denomina en «etapas variables consideradas relevantes: grupos de edad,
múltiples o multietápico». Se emplea cuando se desea género, categoría laboral, etc.
estudiar una población grande y dispersa, y no se
dispone de ningún listado para poder aplicar las Muestreo por bola de nieve
técnicas anteriores. En lugar de seleccionar sujetos, se Se utiliza cuando la población es difícil de identificar o
empieza por seleccionar subgrupos o «conglomerados» cuando es complicado acceder a ella porque tiene
a los que se da el nombre de «unidades de primera ciertas características que no son muy aceptadas
etapa» o «unidades primarias». socialmente. Consiste en ir seleccionando los individuos
La diferencia con los estratos del tipo de muestreo a partir de un solo elemento o de un grupo reducido,
anterior es que los conglomerados ya están agrupados que va conduciendo a otros individuos que reúnen las
así de forma natural (hospitales, escuelas, etc.). características de estudio; éstos, a su vez, conducen a
En una segunda etapa, se seleccionan, de manera otros y así se va obteniendo el número de individuos
aleatoria, las «unidades de segunda etapa» o «unidades necesario.
secundarias», a partir de las unidades primarias. Así,
sucesivamente, se van eligiendo hasta llegar a las
unidades de análisis, que serán los individuos que CONCLUSIONES

©
compongan la muestra de estudio.
Si se pretende estudiar, por ejemplo, alguna En resumen, los aspectos más importantes que deben
12 característica de las mujeres embarazadas que acuden
para el parto a los hospitales públicos de todo el
ser considerados por parte del equipo investigador,
cuando se plantea qué sujetos se estudiaran, son:
Estado español, en una primera etapa se elegirían características de la población; criterios de inclusión y
aleatoriamente un número de provincias, después un criterios de exclusión. Una vez definidos, se ha de
número de hospitales de estas provincias, a continuación decidir si se estudia a toda la población o, si ésta es
un número de servicios de paritorio de estos hospitales, y demasiado grande, si se estudia una muestra. Es
finalmente se elegirían, también de manera aleatoria, el imprescindible, entonces, calcular el tamaño necesario
número de mujeres de cada uno de los servicios. de la muestra según: los objetivos del estudio, el diseño
Los tipos de muestreo «no probabilístico» más utilizados planteado y el tipo de variables; y decidir qué técnica de
son: accidental, de conveniencia, por cuotas y por bola muestreo se utilizará para seleccionar a los sujetos.
de nieve. Todo ello debe quedar reflejado con detalle en el
protocolo de investigación, en el que han de indicarse,
Muestreo accidental además, los valores que se han empleado para calcular
Este tipo de muestreo se denomina también el tamaño de la muestra.
«consecutivo», ya que la selección de los sujetos de
estudio se hace en función de su presencia o no en un
lugar y un momento determinados. Es el caso, por BIBLIOGRAFÍA
ejemplo, de la inclusión de las mujeres a medida que
van acudiendo al hospital, o el de un encuestador Ahnn S, Anderson S J. Sample size determination for comparing more
que, en la calle, entrevista a las personas que pasan en than two survival distributions. Stat Med. 1995; 14: 2.273-2.282.
ese momento por allí. Argimon JM, Jiménez J. Métodos de investigación: Aplicados a la
Aunque puede parecer similar al muestreo Atención Primaria de Salud. Madrid: Mosby / Doyma Libros; 1996.
«probabilístico», es evidente que no todas las personas Armitage P, Berry G. Estadística para la investigación biomédica.
tienen la misma probabilidad de estar en el momento y 1ª ed española. Barcelona: Doyma; 1992.
el lugar donde se selecciona a los sujetos. Canales FH, De Alvarado EL, Pineda EB. Metodología de la
investigación. Manual para el desarrollo de personal de salud. 7ª ed
Muestreo de conveniencia México: Limusa; 1994.
Los investigadores deciden, según sus criterios de Cantor AB. Sample size calculating for Cohen’s K. Psychol Methods.
interés y basándose en los conocimientos que tienen 1996; 1: 150-153.
05-13 matr-18 12/4/03 12:25 Página 13

Cohen J. Statistical Power Analysis for the Behavioural Sciences. 2nd Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Selection on
ed. New Jersey: Lawrence Earlbaum; 1988. controls in case-controls studies. III. Design Options. Am J Epidemiol.
Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. 1992; 135 (9): 1.042-1.049.
Preparar un proyecto de investigación. Barcelona: SG Editores; 1991. Wikipedia. La Enciclopedia libre. Tamaño de la muestra. [acceso 20
Dawson-Saunders B, Trapp R. Bioestadística médica. México: El feb 2005]. Disponible en: http://es.wikipedia.org/wiki/Tama%C3%
Manual moderno; 1993. B1o_de_la_muestra.
Fernández C. Cálculo de la muestra. ¿Cómo y por qué?
Gastroenterología y Hepatología Continuada. 2004; 3(3): 138-142. Programas gratuitos para el cálculo del tamaño
Fleiss J.L. Statistical methods for rates and proportions. Nueva York: de la muestra
John Wiley & Sons; 1981. EpiCalc: http://www.brixtonhealth.com/epicalc.html
García C, Almenara J. Determinación del tamaño de muestra en EPIDAT: http://dxsp.sergas.es/default.asp
variables cualitativas en las que se desconoce el valor del parámetro. EpiInfo: http://www.cica.es/epiinfo/
Med Clin (Barc). 1999; 112: 797-798. GRANMO: http://www.imim.es/
Hospital Ramón y Cajal. Material docente de la Unidad de PS (Power and Sample Size):
Bioestadística Clínica. [acceso 20 feb 2005]. Disponible en: http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/PowerSample
http://www.hrc.es/investigacion/bioest/M_docente.html. Size
Hulley SP, Cummings SR. Diseño de la Investigación Clínica. Un Muestra y otros cálculos estadísticos:
enfoque epidemiológico. Barcelona: Doyma; 1993. http://members.aol.com/johnp71/javastat.html#Power
Icart MT, Fuentelsaz C, Pulpón AM. Elaboración y presentación de un
proyecto de investigación y una tesina. Barcelona: Edicions de la
Universitat de Barcelona; 2000. Correspondencia
Jones SR, Carley S, Harrison M. An introduction to power and sample Carmen Fuentelsaz
size estimation. Emerg Med J [serie en internet]. 2004 [acceso 20 cfuentelsaz@vhebron.net
feb 2005] 20: 453-458. Disponible en:
http://emj.bmjjournals.com/cgi/content/full/20/5/453.
Lwanga SK, Lemeshow S. Determinación del tamaño de las
muestras en los estudios sanitarios: manual práctico. Ginebra:

§
Organización Mundial de la Salud; 1991.
Marrugat J, Vila J, Pavesi J, Sanz F. Estimación del tamaño de
muestra en la investigación clínica y epidemiológica. Med Clin (Barc).
1998; 111: 267-276.
13
Marrugat J, Vila J, Pavesi J. Supuesto de máxima indeterminación:
¿error absoluto o error relativo en el cálculo del tamaño de la
muestra? Gac Sanit. 1999; 13(6): 491-493.
Obuchowsky N. Sample size calculations in studies of test accuracy.
Stat Methods Med Res. 1998; 7: 371-392.
Pita S. Metodología de la investigación. Fisterra. [acceso 20 feb
2005]. Disponible en: http://www.fisterra.com/mbe/investiga/
index.asp.
Sala de lectura. Editorial Doyma. [acceso 20 feb 2005].
Disponible en: http://www.atheneum.doyma.es/socios/
sala_l/lect_bt.htm.
Saturno PJ. La distribución binomial y el muestreo
para la aceptación de lotes (LQAS) como métodos de
monitorización en servicios de salud. Rev Calidad Asistencial. 2000;
15: 99-107.
Silva LC. Cultura estadística e investigación científica en el campo de
la Salud. Una mirada Crítica. Madrid: Díaz de Santos; 1997.
Silva LC. Diseño razonado de muestras y captación de datos para la
investigación sanitaria. Madrid: Díaz de Santos; 2000.
Silva LC. Muestreo para la investigación en Ciencias de la Salud.
Madrid: Díaz de Santos; 1993.
Silva LC. Nueva visita al supuesto de máxima indeterminación y al
empleo de errores absolutos y relativos. Gac Sanit. 2000; 14(3):
254-257.
Suárez P, Alonso JC. Sobre el supuesto de máxima indeterminación,
el tamaño muestral y otras consideraciones sobre muestreo. Gac
Sanit. 1999; 13(3): 243-246.

Matronas Profesión 2004; vol. 5, n.º 18


Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

ANÁLISIS DESCRIPTIVO

http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

ÍNDICE
1.0. Conceptos generales...................................................................................................................... 3
1.1. Tablas de frecuencias .................................................................................................................... 6
1.2. Tablas de contingencia.................................................................................................................. 9
1.3. Estadísticos descriptivos............................................................................................................. 10
1.3.1. Medidas de tendencia central ............................................................................................ 11
1.3.2. Medidas de dispersión........................................................................................................ 14
1.3.3. Cuantiles .............................................................................................................................. 16
1.3.4. Medidas de forma ............................................................................................................... 16
1.4. Correlación ................................................................................................................................... 19
1.5. Gráficos ......................................................................................................................................... 22
1.5.1. Gráfico de barras ................................................................................................................. 24
1.5.2. Gráfico de sectores .............................................................................................................. 25
1.5.3. Gráfico de líneas .................................................................................................................. 26
1.5.4. Gráfico de dispersión .......................................................................................................... 27
1.5.5. Histograma .......................................................................................................................... 28
1.5.6. Diagrama de cajas ............................................................................................................... 30
1.5.7. Gráfico de intervalos de confianza .................................................................................... 32
Bibliografía .......................................................................................................................................... 34
Anexo 1: Fórmulas del módulo de análisis descriptivo ................................................................ 36

http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

1.0. Conceptos generales


La observación de la sociedad y la naturaleza, el intento de dar una explicación a los hechos
que en ellas se producen y, en consecuencia, la búsqueda de soluciones que den respuesta a
las necesidades existentes, es un elemento crucial en el camino para producir conocimiento, y
así progresar.
De forma que, cuando se intenta dar una explicación a un determinado fenómeno observado
en una población (o en una parte de ella), es necesario disponer de una herramienta rigurosa
que permita extraer conclusiones sobre dicha población y eliminar, en gran medida, la
posible subjetividad presente en el observador. Esta herramienta es la estadística.
La estadística es la rama de las matemáticas aplicadas que permite interpretar información
caracterizada por una condición esencial: la variabilidad de los datos. De este modo facilita el
estudio de una característica que puede expresarse numéricamente, bien porque es medible
por naturaleza, o porque de alguna manera puede ser formulada numéricamente. Dado que
la estadística se basa en la interpretación de la información, debe prestarse mucha atención
en garantizar la calidad de los datos recogidos, sea a través de esfuerzos puntuales o de
bases poblacionales, tales como, por ejemplo, los registros de mortalidad y de natalidad. Las
aportaciones de John Graunt (1620-1674) y Willian Petty (1623-1687) en esta materia, a
mediados del siglo XVII, fueron de gran relevancia, ya que establecieron las bases para los
sistemas de recolección y organización de la información que se utilizan en la actualidad [1].
Uno de los primeros estudios que empleó métodos estadísticos fue debido a Pierre Charles
Alexandre Louis (1787-1872), publicado en 1835. En este trabajo, Pierre Louis empleó lo que
él denominó La Méthode Numérique (el método numérico) para valorar la eficacia de la
sangría como tratamiento de la neumonía; para ello comparó la evolución de los pacientes
que habían sido sangrados en los primeros días de la enfermedad (de 1 a 4 días) con los que
habían recibido dicho tratamiento ya avanzada la enfermedad (de 5 a 9 días). Como
resultado de este estudio observó que la duración de la enfermedad se reducía una media de
tres días en el grupo de personas sangradas a principio de la enfermedad en comparación
con el otro grupo, pero en el primer grupo había un mayor porcentaje de defunciones con
respecto al que había sido sangrado a partir de los 5 días de enfermedad. Pierre Louis
concluyó que la sangría era inadecuada para el tratamiento de la neumonía y la
recomendaba en situaciones muy específicas [2][3].
Dentro de la estadística existen dos ramas bien diferenciadas: la estadística descriptiva y la
estadística inferencial. La estadística descriptiva es la parte de la disciplina que se encarga de
ordenar, resumir y analizar un conjunto de datos mediante una serie de técnicas y métodos,
donde los resultados proporcionados no pretenden ir más allá del propio conjunto de datos.
Se podría decir que es el recurso que nos permite conocer de manera descriptiva cómo es la
realidad bajo investigación y ha sido caracterizada como “el arte de perder información” [4],
debido a que una vez aplicada obtenemos básicamente medidas de resumen y a partir de
ellas no se podría recuperar la información original. En rigor, cabe subrayarlo, es frecuente
que sea exactamente eso lo que se desea: desembarazarnos de datos no esenciales, no
característicos, para quedarnos con pocos elementos que permitan hacer una caracterización
“a grandes rasgos” de los datos procesados. La estadística inferencial estudia las técnicas
mediante las cuales pueden extraerse conclusiones sobre una población a partir de los
resultados obtenidos en una muestra. Debe tenerse en cuenta que antes de realizar cualquier
estudio más o menos complejo es necesario describir los datos por medio de las técnicas
empleadas en el análisis descriptivo, lo que también permite detectar posibles errores, como
por ejemplo de grabación.

http://dxsp.sergas.es 3
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Un concepto importante en la estadística es el de variable aleatoria que, de manera informal,


puede definirse como cualquier característica que se pueda medir o clasificar (e.g. el peso de
un bebé al nacer, el número de trabajadores de una empresa o el estado civil de una
persona).
Según los valores que tomen las variables aleatorias se clasifican en cualitativas o
cuantitativas.
Las variables cualitativas, categóricas o atributos son aquellas que no se pueden asociar de
forma natural a un número, por lo que no es apropiado realizar operaciones algebraicas con
ellas. Sin embargo, no es infrecuente que se asignen códigos numéricos a los valores de una
variable cualitativa cuando se vuelcan en una base de datos, aunque la magnitud de tales
números no es relevante. Tal maniobra de codificación puede contribuir a minimizar los
errores de tecleo, facilitar el manejo de los datos y favorecer en general la manipulación de la
información. Las variables categóricas, a su vez, se dividen en nominales y ordinales en
función de la escala de medida. La escala nominal es aquella que permite distinguir
categorías, definiendo si una es igual o distinta de otra, pero sin establecer un orden entre
ellas; es el caso del grupo sanguíneo de una persona, la raza o su país de residencia. Una
variable nominal con sólo dos categorías se llama dicotómica, y concierne generalmente a la
presencia o no de una determinada característica (e.g., fuma-no fuma). La escala ordinal
permite, además de distinguir categorías, establecer un orden entre ellas, aunque sin
entrañar diferencias métricas entre las categorías. Ejemplos de este tipo son: la intensidad de
dolor (ausente, leve, moderado y fuerte) o los grados militares (soldado, sargento, teniente,
etc). Este último ejemplo permite ver con claridad un rasgo caracterizador de las variables
ordinales: si todos los sujetos pasaran a estar en la siguiente categoría contigua, las relaciones
de subordinación se mantendrían sin cambios.
Las variables cuantitativas o numéricas son aquellas que adoptan valores numéricos. Según los
valores que pueden tomar, se clasifican a su vez en discretas y continuas. Si un conjunto de
observaciones numéricas, cuando se dibujan en una escala numérica, pueden situarse sólo en
ciertos puntos aislados y no en los puntos intermedios, entonces se dice que es un conjunto
de datos discretos; estas variables suelen tomar valores enteros como consecuencia de la
acción de contar; un ejemplo es el número de cigarrillos fumados al día. Si un conjunto de
observaciones puede caer, teóricamente, en cualquier lugar de un intervalo de una escala
numérica, entonces se dice que es un conjunto de datos continuos, tal y como ocurre con la
estatura de una persona. Una manera de distinguir las variables continuas de las restantes
consiste en lo siguiente: si x1 y x2 son dos valores posibles para la variable, entonces cualquier
valor real intermedio que se ubique entre dichos valores, también es posible. Una persona
puede tener 4 hijos y otra puede tener 5; pero nadie puede tener 4,3 hijos por ejemplo (se
trata de una variable discreta).
Es posible transformar las variables cuantitativas en cualitativas mediante un proceso de
categorización; es decir, creando categorías a partir de los valores que toma la variable. Por
ejemplo, la edad de una persona en años se podría categorizar en los siguientes grupos de
edad: menores de 20 años, de 20 a 39, de 40 a 59 y 60 años o más; de esta forma, en este
ejemplo, se pasa de una variable cuantitativa discreta a una cualitativa ordinal.
Las variables medidas en un conjunto de individuos se pueden describir mediante tablas que
resumen sus valores, bien empleando técnicas gráficas, bien calculando medidas numéricas
de resumen.

http://dxsp.sergas.es 4
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Las opciones incluidas en Epidat 4 para realizar un análisis descriptivo de un conjunto de


datos son las siguientes:
- Tablas:
- Tablas de frecuencias
- Tablas de contingencia
- Medidas numéricas de resumen:
- Estadísticos descriptivos
- Coeficiente de correlación
- Gráficos:
- Gráfico de barras
- Gráfico de sectores
- Gráfico de líneas
- Gráfico de dispersión
- Histograma
- Diagrama de cajas
- Intervalos de confianza
Todas las opciones de este módulo, exceptuando el gráfico de líneas y el de intervalos de
confianza, comparten las siguientes características:
- La entrada de datos se realiza única y exclusivamente de forma automática, a través de
un asistente para la obtención de datos, que permite abrir un archivo e identificar las
variables necesarias para el análisis que se desee realizar.
- Es posible establecer filtros en los datos, definiendo condiciones lógicas a partir de las
variables del archivo, de modo que se puede circunscribir el examen a un subconjunto de
los datos.
- Los resultados se pueden segmentar en función de las categorías de una variable
cualitativa (vale decir, obtener indicadores descriptivos para cada una de las
subpoblaciones definidas por dichas categorías).
Hay dos opciones para las cuales el funcionamiento difiere del resto (gráfico de líneas y
gráfico de intervalos de confianza). En estos casos, Epidat 4 no opera con la información de
la base de datos para hacer el gráfico, sino que representa los valores introducidos por el
usuario, los cuales deben tener una estructura determinada, como se verá más adelante. Por
este motivo, también es posible cargar los datos de forma manual, además de importarlos a
partir de un archivo.

Ejemplo
En el año 2005 se implantó en Galicia un Sistema de Información sobre Conductas de Riesgo
(SICRI) que realiza encuestas telefónicas anuales en la población general adulta mediante un
sistema CATI (Computer Asisted Telephone Interview). La encuesta de 2010 estaba dirigida
a la población de 16 años y más residente en Galicia, e incluyó n=7.845 personas
seleccionadas por muestreo aleatorio estratificado a partir del registro poblacional de Tarxeta
Sanitaria. El cuestionario incluyó, además de preguntas sociodemográficas (sexo, edad,
estado civil, nivel de estudios, situación laboral), bloques sobre estado de salud, consumo de
tabaco y medidas antropométricas, entre otros. Para ilustrar los métodos incluidos en el
módulo de análisis descriptivo de Epidat 4 se utilizará una submuestra de 2.000 personas de
la encuesta SICRI-2010 y un subconjunto de variables. Los datos se encuentran en el archivo
SICRI-2010.xls, que contiene las siguientes variables:

http://dxsp.sergas.es 5
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

- ID: Nº de identificación.
- SEXO: 1-Hombre, 2-Mujer.
- EDAD: Edad en años en el momento de la encuesta.
- GEDAD: Grupo de edad: 1- 16 a 24, 2- 25 a 44, 3- 45 a 64, 4- 65 años y más.
- ESTUDIOS: Máximo nivel de estudios completados: 1-Sin estudios, 2-Nivel básico, 3-
Nivel medio, 4-Nivel superior.
- E_CIVIL: Estado civil: 1-Casado/vive en pareja, 2-Soltero, 3-Separado, 4-Viudo
- ESALUD: Estado de salud autopercibida: 1-Muy bueno, 2-Bueno, 3-Regular, 4-Malo,
5-Muy malo.
- TABACO: Relación con el tabaco: 1-Fumador, 2-Exfumador, 3-Nunca fumador.
- PESO: Peso en Kg.
- TALLA: Talla en cm.
- IMC: Índice de masa corporal en Kg./m2.
- IMC_CAT: Categorías de IMC: 1-Bajo peso (IMC<18,5), 2-Peso normal
(18,5IMC<25), 3-Sobrepeso (25IMC<30), 4-Obesidad (IMC30).

1.1. Tablas de frecuencias


Las tablas de frecuencias resumen los valores que toma una variable en forma de frecuencias,
porcentajes y porcentajes acumulados; estos últimos se calculan como la suma acumulada de
porcentajes y tienen sentido cuando los valores de la variable tienen una ordenación.
Epidat 4 da la posibilidad de incluir o excluir de la tabla los valores ausentes (“missing”) y
ordenar la tabla por frecuencias, de forma ascendente o descendente. El hecho de ordenar la
tabla puede suponer que, en aquellos casos donde tengan sentido los porcentajes
acumulados, la correcta interpretación de tales acumulados resulte imposible. Veámoslo con
un ejemplo:
En la encuesta SICRI-2010, destinada a conocer la prevalencia de diferentes factores de riesgo
relacionados con la salud, se preguntó a los encuestados por su peso y talla, para así calcular
el índice de masa corporal (IMC=peso/talla2, con la talla medida en metros). La tabla de
frecuencias correspondiente a esta variable, categorizada según los criterios de la Sociedad
Española para el Estudio de la Obesidad [5], fue:

Valor Frecuencia Porcentaje Porcentaje acumulado


Bajo peso (IMC<18,5) 20 1,13 1,13
Peso normal (18,5<=IMC<25) 810 45,61 46,73
Sobrepeso (25<=IMC<30) 692 38,96 85,70
Obesidad (IMC>=30) 254 14,30 100,00
Total 1.776 100,00

Con estos datos puede decirse que el 46,73% de los encuestados no tiene problemas de
exceso de peso. Cabe señalar que el número de observaciones de la tabla (1.776) es inferior al
número de registros del archivo utilizado para obtenerla (2000); la diferencia se debe a los
valores ausentes de la variable IMC.

http://dxsp.sergas.es 6
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

La tabla resultante de ordenar las frecuencias de forma ascendente es:

Valor Frecuencia Porcentaje Porcentaje acumulado


Bajo peso (IMC<18,5) 20 1,13 1,13
Obesidad (IMC>=30) 254 14,30 15,43
Sobrepeso (25<=IMC<30) 692 38,96 54,39
Peso normal (18,5<=IMC<25) 810 45,61 100,00
Total 1.776 100,00

Al ordenar la tabla, ya no se dispone del porcentaje de encuestados sin problemas de exceso


de peso, dado que la ordenación alteró el orden jerárquico en los valores de esta variable.
Las tablas de frecuencias permiten ver cómo se distribuyen los valores de una variable, y
también son útiles en un análisis exploratorio para detectar errores o para orientar al
investigador a la hora de definir puntos de corte que establezcan categorías.
Para realizar una tabla de frecuencias en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del
asistente de datos. Deben identificarse una o varias variables para resumir (categóricas o
numéricas) y, opcionalmente, una variable categórica para segmentar los resultados. Epidat 4
no presenta tablas con más de 200 filas.

Ejemplo
Para describir el perfil demográfico de los 2.000 encuestados en el SICRI-2010 hay que
conocer la distribución por sexo y grupos de edad. En Epidat 4 las dos tablas de frecuencias
se pueden hacer simultáneamente identificando SEXO y GEDAD como variables para
resumir.

http://dxsp.sergas.es 7
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Resultados con Epidat 4:

Los datos indican que en la muestra hay aproximadamente la misma proporción de mujeres
que de hombres, con una ligera diferencia a favor de las mujeres, y que casi la mitad de los
encuestados (47%) tienen menos de 45 años.
Si la variable SEXO se utiliza para segmentar los resultados se obtiene la distribución de la
muestra por grupos de edad separadamente para hombres y mujeres.

http://dxsp.sergas.es 8
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Resultados con Epidat 4:

A la vista de estas tablas puede decirse que la proporción de menores de 45 es mayor en


hombres (SEXO=1) que en mujeres (SEXO=2).

1.2. Tablas de contingencia


Mediante las tablas de contingencia se clasifica un conjunto de observaciones en función de
los valores de dos variables cualitativas que definen, respectivamente, las filas y columnas de
la tabla. Una tabla MN es la que tiene M filas y N columnas, y las celdas pueden representar
frecuencias, porcentajes de fila, porcentajes de columna o porcentajes del total de
observaciones.
La utilidad de este tipo de tablas es que permiten evaluar la relación entre dos variables y,
además, proporcionan la información necesaria para contrastar si hay asociación entre ambas
mediante la prueba ji-cuadrado de Pearson.
Para realizar una tabla de contingencia en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del
asistente de datos. Deben identificarse una variable para las filas y otra para las columnas,
ambas categóricas y, opcionalmente, otra variable categórica para segmentar los resultados.
Estas tablas en Epidat 4 están limitadas a 200 filas y 10 columnas.
Las tablas de contingencia que calcula Epidat 4 pueden incluir, simultáneamente, frecuencias
absolutas, porcentajes de fila, columna o total, según las opciones elegidas por el usuario.
Además, el programa da la posibilidad de mostrar o no los valores ausentes de las variables
como una fila o columna más de la tabla.

http://dxsp.sergas.es 9
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Ejemplo
La distribución de la muestra de 2.000 individuos de la encuesta SICRI-2010 por grupos de
edad para cada sexo puede obtenerse haciendo una tabla de contingencia, y se obtienen los
mismos resultados que en el ejemplo anterior.
Resultados con Epidat 4:

1.3. Estadísticos descriptivos


Para describir la distribución de valores de una variable cuantitativa se suele recurrir a
determinadas medidas numéricas de resumen que permitan resaltar las características más
destacables de dicha variable: el número de observaciones, medidas de tendencia central,
medidas de dispersión, percentiles y medidas de forma.
En este submódulo de Epidat 4, cuando la variable que se resume tiene valores ausentes, los
cálculos prescinden de ellas. Por eso, al resumir simultáneamente varias variables de una
misma base de datos, los resultados de cada una pueden basarse en un número diferente de
observaciones.
Para calcular estadísticos descriptivos en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del
asistente de datos. Debe identificarse al menos una variable cuantitativa para resumir y,
opcionalmente, una variable categórica para segmentar los resultados.

http://dxsp.sergas.es 10
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

1.3.1. Medidas de tendencia central


Las medidas de tendencia central indican en torno a qué valor parecen agruparse los datos.
Epidat 4 da la posibilidad de calcular la media, la mediana, la moda y la media geométrica
de un conjunto de observaciones.

Media
La media, también llamada media aritmética o promedio, es una de las medidas de
tendencia central más conocida y utilizada. Su cálculo se realiza sumando todas las
observaciones (x1, x2, …, xn) y dividiendo la suma entre el número total de sumandos (n), es
decir:
n

x  x 2  ...  x n
 xi
i 1
x 1 
n n

Por tanto, en este sencillo cálculo intervienen todas las observaciones y se obtiene un valor
único. Sin embargo, la media debe utilizarse con precaución cuando los datos siguen una
distribución muy asimétrica (con valores extremos, muy alejados de la media, colocados a un
lado de la distribución), ya que es muy sensible cuando la serie incluye tales valores. Estos
valores “tiran” de la media hacia ellos, por lo que su interpretación podría producir una falsa
ilusión de que la media refleja un valor “característico” o “típico” de la serie. . En estos casos
es recomendable utilizar la mediana como medida de tendencia central o, al menos,
presentar ambas medidas.
El siguiente ejemplo ilustra elocuentemente esta situación: en una muestra de 237 pacientes
ingresados con síndrome coronario agudo la estancia media en la unidad coronaria fue de
4,4 días. La tabla de frecuencias de la variable, obtenida con Epidat 4, es la siguiente:
Valor Frecuencia Porcentaje Porcentaje acumulado
0 2 0,84 0,84
1 23 9,70 10,55
2 68 28,69 39,24
3 53 22,36 61,60
4 37 15,61 77,22
5 19 8,02 85,23
6 11 4,64 89,87
7 10 4,22 94,09
8 7 2,95 97,05
10 1 0,42 97,47
11 1 0,42 97,89
12 1 0,42 98,31
13 1 0,42 98,73
15 1 0,42 99,16
35 1 0,42 99,58
185 1 0,42 100,00
Total 237 100,00

Puede observarse que para el 90% de los pacientes la duración de la estancia no superó una
semana, en tanto que la estancia de uno de ellos fue muy superior a la del resto (185 días). Si

http://dxsp.sergas.es 11
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

se recalcula la media eliminando este paciente, el resultado se reduce a 3,6 días, lo que
supone una diferencia considerable. El interés de calcular la media sin ese valor extremo
reside justamente en que 3,6 representa mejor que 4,4 al valor en torno al cual se ubican los
datos.
Una generalización de la media aritmética es la media ponderada, que se basa en la idea de que
las observaciones no tengan igual peso o importancia, y se calcula de la siguiente manera:
n

w x i i
x i 1
n

w
i 1
i

donde (w1, w2,…,wn) son los pesos correspondientes a las observaciones (x1, x2,…,xn).
Epidat 4 no contempla el cómputo de esta generalización; únicamente realiza el cálculo de la
media aritmética es decir, cuando todos los pesos de las observaciones toman el mismo
valor.

Mediana
La mediana es el valor de la variable que tiene la propiedad de dividir a la distribución en
dos partes iguales, de tal manera que deja por debajo al 50% de las observaciones y por
encima al otro 50%, una vez ordenados los datos en función de su magnitud.
A diferencia de lo que ocurre con la media, la mediana no es tan sensible a valores extremos,
ya que está basada en la posición que ocupan las observaciones y no en su magnitud. Si el
número de observaciones es impar, la mediana es el valor que ocupa la posición central, es
decir, el que está en el lugar (n+1)/2 de los datos ordenados de menor a mayor. Con un
número par de resultados, la mediana se calcula como la media aritmética de los dos valores
situados en el centro, que son los que ocupan las posiciones n/2 y (n/2)+1.
Siguiendo con el ejemplo de la estancia en la unidad coronaria, la duración mediana
calculada con los datos de los 237 pacientes es de 3 días, la misma que se obtiene si se elimina
el paciente que permaneció 185 días ingresado en esa unidad.

Moda
La moda es el valor que se presenta más frecuentemente en un conjunto de observaciones.
Este valor puede no ser único, de forma que cuando sólo existe una moda se dice que la
distribución de los datos es unimodal, cuando existen dos modas se dice que es bimodal, y
así sucesivamente. Esta característica le resta eficacia como medida de tendencia central por
lo que no resulta útil en la práctica.
Un ejemplo en el que no tendrían sentido la media ni la mediana y en el que sería adecuada
la moda es el siguiente: un profesor de estadística propone a sus 30 alumnos que resuelvan
un ejercicio consistente en calcular la varianza de un conjunto de datos, y anota en la pizarra
el resultado obtenido por cada uno de ellos. Muy probablemente, la moda de esos 30 valores
coincide con el resultado correcto del ejercicio.

Cuando los datos tienen una distribución aproximadamente simétrica y unimodal, es decir,
se distribuyen de forma similar a ambos lados de la media, entonces la media, la mediana y
la moda coinciden o tienen valores muy próximos. Cuando los datos no son simétricos,

http://dxsp.sergas.es 12
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

generalmente la mediana es la medida de tendencia central más adecuada para describirlos,


debido a la limitación que presenta la media de verse muy influida por valores extremos.

Media geométrica
La media geométrica es un tipo de media poco usual, pero más adecuada que la media
aritmética para describir crecimiento proporcional. Se define como la raíz n-ésima del
producto de n observaciones; es decir, es el valor que multiplicado por si mismo tantas veces
como datos haya, resulta igual al producto de todos ellos. Formalmente, la fórmula es:
n
xg  n
x
i 1
i

n
donde x
i 1
i representa el producto de todos los valores de la serie.

Es fácil comprobar que la media geométrica puede calcularse también como la exponencial
de la media aritmética del logaritmo neperiano de los valores de la variable:

 n 
  Ln x i  
x g  exp  i 1 
 n 
 

La media geométrica es menos sensible a valores atípicos que la media, puesto que la
transformación logarítmica “contrae” los datos; pero también resulta más difícil de
interpretar. Un ejemplo que puede ilustrar bien su uso es el siguiente: el número de casos de
cierta enfermedad en una población se ha reducido un 87% en los últimos años, pasando de
1.509 en el año 2000 a 203 en 2009. La siguiente tabla recoge los casos anuales y los
porcentajes de cada año con respecto al año previo:
% respecto al
Año Casos año previo
2000 1509 -
2001 1360 90,1
2002 1303 95,8
2003 1255 96,3
2004 1055 84,1
2005 985 93,4
2006 851 86,4
2007 736 86,5
2008 636 86,4
2009 203 31,4

La media geométrica de los nueve porcentajes es 80, y este valor caracteriza el descenso
anual del número de casos durante el período, pues calculando sucesivamente el 80%
empezando en los casos del año 2000 se obtiene finalmente el valor de 2009:

http://dxsp.sergas.es 13
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

1.509  0,8 = 1.207 (2001)


1.225  0,8 = 966 (2002)

253  0,8 = 203 (2009)
Por tanto, puede decirse que el porcentaje de descenso anual de casos en el período 2000-
2009 es del 20%. Sin embargo, la media aritmética de los porcentajes (83,4) no tiene esta
propiedad; si se aplica el 83,4% sucesivamente al número de casos desde el año 2000, se
obtiene un valor de 295 casos para el año 2009.
Para calcular la media geométrica es necesario que todos los valores sean mayores que cero,
ya que el logaritmo de cero o de un número negativo no existe. Epidat 4 no muestra
resultados cuando la variable toma algún valor negativo, pero sí cuando existe algún valor
cero y el resto son positivos; en este caso elimina los valores nulos y realiza el cálculo de la
media geométrica con el resto de observaciones.

1.3.2. Medidas de dispersión


Grupos diferentes de observaciones pueden tener la misma media, mediana o moda, incluso
tratándose de series muy diferentes en cuanto a la dispersión entre las observaciones
individuales que las componen; por lo tanto, son necesarias algunas medidas descriptivas de
esta variación, que complementen a las medidas de tendencia central. Estas medidas,
llamadas de dispersión, hacen referencia a cómo quedan agrupados los datos alrededor de una
medida de centralización. Epidat 4 da la posibilidad de calcular las siguientes: desviación
típica, varianza, coeficiente de variación, mínimo, máximo, recorrido y recorrido
intercuartílico.

Varianza
La varianza, denotada por s2, es una medida de dispersión que cuantifica el grado de
variabilidad de los datos en torno a la media. Se calcula como la media aritmética del
cuadrado de las distancias entre cada observación y la media de todas ellas y, por tanto, es
un valor positivo o nulo; este último caso se da cuando todas las observaciones son iguales
entre sí y, en consecuencia, no hay variabilidad. La razón de elevar al cuadrado las distancias
de cada observación a la media es convertirlas en positivas, ya que la media aritmética tiene
la propiedad de estar en el “medio” de los datos; es decir, unas distancias son positivas y
otras negativas, y la suma de todas ellas es igual a cero:
n

 x
i 1
i  x  0

La varianza permite hacerse una idea del grado de dispersión de una variable, de forma que
a mayor valor de la varianza, mayor dispersión de los datos. Sin embargo, más allá de esta
interpretación general, no es sencillo valorar el significado de su magnitud, ya que está
expresada en las unidades empleadas para las observaciones (que son las de la media, claro
está) pero al cuadrado. Si, por ejemplo, tuviéramos las estaturas medidas en metros para 100
sujetos, la media vendría dada también en metros, pero la varianza es una magnitud en
metros al cuadrado.
Si en la fórmula de la varianza se sustituye el número de observaciones n por n-1, se obtiene
la cuasivarianza. Esta medida tiene mejores propiedades que la varianza como estimador de

http://dxsp.sergas.es 14
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

la varianza poblacional; por esta razón su uso está muy extendido, sobre todo en el mundo
de la bioestadística, hasta el punto de que es habitual ver definida la varianza como la
cuasivarianza. Por este motivo, Epidat 4 calcula la varianza usando la fórmula de la
cuasivarianza y, en adelante, el término varianza siempre hará referencia a la cuasivarianza.

Desviación típica
La desviación típica o desviación estándar (s) se calcula como la raíz cuadrada positiva de la
varianza y, por tanto, está expresada en las mismas unidades que la media. Esta medida da
idea de la dispersión de los datos con respecto a su media aritmética; así, al comparar dos
grupos de datos, el grupo con menor variabilidad exhibe menor desviación estándar . Debe
tenerse en cuenta que la desviación estándar tiene unidades de medida, las mismas que la
media, por lo que carece de sentido comparar las desviaciones de dos variables que no estén
relacionadas o que estén expresadas en distintas unidades.
La pareja de valores conformada por la media y la desviación típica de un conjunto de datos,
permite en muchas ocasiones caracterizar su distribución de valores. Si la distribución es
aproximadamente simétrica y unimodal, puede decirse que aproximadamente el 95% de los
valores se encuentran en el intervalo x  2s  . Para otras situaciones, la desigualdad de
Chebychev [6] permite afirmar que para cualquier número k1, por lo menos el [1-(1/k)2] de
las observaciones están dentro de k desviaciones estándar de su media; por ejemplo, si k=2,
el intervalo x  2s  contiene al menos el 75% de los datos. Esta regla es menos específica
que la anterior, pero es independiente de la forma de los datos.

Coeficiente de variación
El coeficiente de variación (CV) es una medida de variabilidad relativa que relaciona la
desviación estándar de un conjunto de observaciones con su media, ya que, por ejemplo, una
desviación estándar de 10 cm no significa lo mismo en un conjunto de datos con media 10
que si la media es 1.000; en el primer caso, la variabilidad es el 100% de la media mientras
que en el segundo es solo el 1%. El CV se calcula como el cociente entre la desviación
estándar y la media, que están expresados en las mismas unidades, de modo que el resultado
es un coeficiente adimensional. En la práctica es habitual presentarlo multiplicado por 100,
aunque Epidat 4 no lo muestra de esa manera.
El CV es una herramienta útil para comparar la dispersión de variables que tienen distintos
valores medios, o que emplean distintas unidades, lo que impide una comparación directa
de sus desviaciones típicas ya que, normalmente, la variabilidad aumenta con la media. Por
ejemplo, el peso medio al nacer de los niños nacidos en Galicia durante el año 2005 fue de
3.219 gr., con una desviación estándar de 533 gr.; en una muestra de niños gallegos de 12
años seleccionados en 2005 para participar en un estudio de salud bucodental, el peso medio
fue de 47 Kg. con una desviación estándar de 10,1 Kg. Para comparar la variabilidad del peso
en las dos poblaciones es obvio que se podrían pasar todos los valores a las mismas
unidades, gr. o Kg., pero las medias son muy distintas, por lo que es más adecuado utilizar el
coeficiente de variación, que es del 17% en el caso de los recién nacidos y del 22% para los
niños de 12 años.
Para utilizar el CV, se recomienda que la variable tome solo valores positivos.

http://dxsp.sergas.es 15
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Recorrido
El recorrido (R) mide la amplitud de las observaciones y se calcula como la diferencia entre
los valores máximo y mínimo. El hecho de que este coeficiente utilice sólo dos valores de las
observaciones disponibles hace que sea una medida ineficiente, muy sensible a valores
extremos. Por este motivo, resulta más conveniente utilizar la varianza y la desviación típica
para medir la dispersión.

Recorrido intercuartílico
El recorrido intercuartílico (RI) se calcula como la diferencia entre el tercer y el primer cuartil
y se corresponde con el recorrido de los datos que ocupan el 50% central de las
observaciones.

1.3.3. Cuantiles
Los cuantiles son valores que dividen un conjunto de datos en grupos de igual tamaño. Para
obtener N grupos es necesario definir N-1 cuantiles, que reciben distintos nombres en
función del valor de N: percentiles (N=100), deciles (N=10), quintiles (N=5), cuartiles (N=4) o
mediana (N=2) [7].
Los percentiles son útiles en el análisis exploratorio de datos y en el análisis descriptivo
porque permiten valorar la dispersión, la simetría y la distribución de los datos, sobre todo
de forma visual mediante los diagramas de caja que se describirán más adelante. También
suelen utilizarse para categorizar variables continuas como, por ejemplo, el nivel de
colesterol, de forma que se clasifica a los individuos en grupos de igual tamaño. Esto facilita
la presentación de los datos en forma de tablas o gráficos, aunque supone una pérdida de
información, que será mayor cuanto más grandes sean los grupos.
Una aplicación muy extendida de los percentiles se realiza en pediatría, para valorar el
crecimiento de los niños. Las curvas de crecimiento desarrolladas a partir de estudios
longitudinales, como por ejemplo las de la Fundación Orbegozo [8], proporcionan una
estimación de los percentiles de peso y talla para cada edad y sexo, y esos valores se usan en
las revisiones infantiles como referencia de un adecuado crecimiento.

1.3.4. Medidas de forma


Las distribuciones pueden diferir entre ellas en términos de su valor central y en cómo se
agrupan los valores individuales alrededor de esa medida; pero también existen
distribuciones de frecuencias con la misma media y desviación típica que difieren en su
forma. Para caracterizar el perfil de una distribución de valores existen dos coeficientes,
llamados genéricamente medidas de forma, útiles para describir la forma de una distribución:
los coeficientes de asimetría y de curtosis, propuestos por Ronald Fisher [9].

Asimetría
El coeficiente de asimetría cuantifica en qué medida las observaciones de un conjunto de datos
se distribuyen simétricamente alrededor de la media. Su interpretación, que solo tiene
sentido cuando la distribución es unimodal, es la siguiente: si la variable es simétrica
entonces el coeficiente de asimetría toma el valor cero; cuando la distribución de valores
presenta una cola hacia la izquierda, el coeficiente toma un valor negativo (asimetría

http://dxsp.sergas.es 16
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

negativa) y si la cola es hacia la derecha el valor del coeficiente es positivo (asimetría


positiva).

Asimetría negativa Asimetría positiva

Curtosis
El coeficiente de curtosis (coeficiente de apuntamiento o exceso de curtosis) mide el grado de
apuntamiento de una distribución con respecto a la distribución normal con la misma media
y varianza. La interpretación de este coeficiente tiene sentido siempre que la distribución sea
unimodal y esencialmente simétrica, de forma que, si la distribución presenta el mismo perfil
que la normal con la misma media y varianza, entonces el coeficiente de curtosis toma el
valor cero (distribución mesocúrtica); cuando la distribución es más apuntada que la normal
correspondiente, el valor del coeficiente es positivo (distribución leptocúrtica) y, por último,
si la distribución es más “aplastada” se tiene un valor del coeficiente negativo (distribución
platicúrtica).

http://dxsp.sergas.es 17
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Ejemplo
Para caracterizar la distribución del índice de masa corporal en la muestra de adultos jóvenes
del SICRI-2010, se calculan estadísticos descriptivos de esta variable para hombres y mujeres
por separado en el grupo de 25 a 44 años. En Epidat, trabajando con el archivo SICRI-
2010.xls, hay que seleccionar la variable IMC para resumir, segmentar por SEXO y definir un
filtro con la condición GEDAD=2.
Resultados con Epidat 4:

http://dxsp.sergas.es 18
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Los resultados obtenidos indican que el promedio de IMC en los hombres de la muestra
supera ligeramente al punto de corte que indica sobrepeso (25 Kg./m2), mientras que en las
mujeres, la media está por debajo de dicho valor. En ambos casos, la media y la mediana
tienen valores próximos, lo que es indicativo de que la variable tiene una distribución
simétrica. En cuanto a la variabilidad, ocurre lo contrario que con la media, es mayor en las
mujeres, como indican los valores de varianza y desviación típica, así como el rango de
variación de la variable; el IMC máximo en esta muestra de mujeres es de 46,3, valor que está
en el rango de obesidad de tipo III (mórbida); en los hombres el máximo es próximo a 40, y
se clasifica como obesidad de tipo II [5]. Los cuartiles se pueden interpretar del modo
siguiente: el 50% de los hombres tienen un IMC igual o superior a 25,5, es decir, más de la
mitad tienen sobrepeso u obesidad (IMC  25 Kg./m2); en las mujeres, en cambio, el percentil
75 es 25,8, por lo que algo más de la cuarta parte tienen sobrepeso u obesidad. No se
calcularon la asimetría y la curtosis porque no son necesarios para este análisis.

1.4. Correlación
En términos generales, se dice que dos características o variables están correlacionadas si al
cambiar una de ellas tiende a cambiar la otra, en el mismo sentido o en sentido opuesto; por
ejemplo, en general el peso aumenta con la talla, por lo que hay una correlación positiva
entre estas dos variables. El concepto estadístico de correlación fue introducido en 1888 por
Sir Francis Galton y de sus trabajos, y las contribuciones de Edgeworth y Pearson, surgió el
llamado coeficiente de correlación de Pearson, que cuantifica el grado de relación lineal entre
dos variables cuantitativas así como la dirección, positiva o negativa, de dicha relación [10].
El coeficiente de correlación de Pearson es adimensional, es decir, no depende de las
unidades de medida de las variables, y toma valores entre -1 y 1, donde el signo indica el
sentido de la relación. Por otra parte, a medida que aumenta el valor absoluto del coeficiente
aumenta el grado de relación lineal entre las variables. Un valor de -1 o de 1 indica una
relación lineal perfecta entre las dos variables, en el primer caso negativa y en el segundo
positiva; de modo que al representar los datos en un diagrama de dispersión, se disponen
formando una línea recta decreciente o creciente, respectivamente. Si el coeficiente de
correlación fuera 0, entonces las variables no estarían relacionadas linealmente, aunque no se
puede descartar que exista otro tipo de relación entre ellas distinta de la lineal; sin embargo,
independencia implica incorrelación, es decir, cuando dos variables son independientes, el
coeficiente de correlación toma el valor cero.

Ejemplo
El índice de masa corporal es un indicador que se utiliza para caracterizar la obesidad, y que
se calcula como el cociente entre el peso (en Kg.) y la talla (en metros) al cuadrado. Los datos
de la encuesta SICRI-2010 indican que el IMC está muy correlacionado con el peso, pero no
con la talla. Para calcular estos coeficientes de correlación con Epidat 4 hay que seleccionar
las variables PESO, TALLA e IMC para resumir y, dado que la antropometría de hombres y
mujeres es diferente, podemos segmentar los resultados por SEXO.

http://dxsp.sergas.es 19
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Resultados con Epidat 4:

Los diagramas de dispersión entre PESO-IMC y TALLA-IMC en hombres son coherentes con
los coeficientes de correlación obtenidos:

A la hora de interpretar el coeficiente de correlación deben tenerse en cuenta las siguientes


recomendaciones:
- Correlación significa relación lineal [10]. Dos variables pueden estar fuertemente
relacionadas de forma no lineal y tener un coeficiente de correlación bajo. Por esta
razón, es recomendable representar gráficamente los datos mediante un diagrama de
dispersión antes de calcular el coeficiente de correlación. Por ejemplo, llamemos Z a
la variable peso estandarizada (se obtiene al restarle su media y dividir por su
desviación estándar) y Z2 a dicha variable al cuadrado. Con los datos del SICRI-2010

http://dxsp.sergas.es 20
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

se obtiene que la correlación entre Z y Z2 es baja (r=0,346) y, sin embargo, hay una
clara relación entre las dos variables, como se aprecia en el diagrama de dispersión:

- Correlación no implica causalidad [11][12]. Puede ocurrir que dos variables estén muy
correlacionadas (muchas veces debido a que las dos están causalmente relacionadas
con una tercera variable), pero que no haya relación causal entre ellas. También
puede darse la situación de que dos variables sin ninguna relación entre ellas, como
por ejemplo la tasa de mortalidad infantil y la prevalencia de caries en escolares,
calculadas para cada año de un determinado período, presenten una tendencia
decreciente durante ese lapso por lo que, probablemente, estarán positivamente
correlacionadas.

- El coeficiente de correlación depende del rango de variación de las variables


implicadas [10]. Por ejemplo, la edad y la estatura están muy correlacionadas en los
niños, y de forma positiva, mientras que en los adultos la correlación es baja y
negativa (-0,254 en mayores de 25 años, según los datos del SICRI-2010).

- El coeficiente de correlación se ve muy influido por la presencia de valores extremos


[12]. Por ejemplo, la correlación entre el peso y la talla en mujeres de 16 a 24 años del
SICRI-2010 vale 0,38. Si se eliminan los valores de peso superiores a 80 Kg., que para
este rango de edad pueden considerarse muy elevados (véase figura debajo), la
correlación aumenta a 0,59. Cuando ocurre una situación como ésta, puede ser
adecuado aplicar a las observaciones una transformación, como la logarítmica, que
cambie la escala y minimice el efecto de los valores atípicos.

http://dxsp.sergas.es 21
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

- El tamaño de la muestra debe tenerse en cuenta a la hora de interpretar el coeficiente


de correlación, que calculado con pocas observaciones está afectado por una elevada
variabilidad [10].
- El coeficiente de correlación no debe utilizarse para valorar el grado de acuerdo entre
dos mediciones realizadas de forma repetida a los mismos individuos. En ese caso, es
más adecuado el coeficiente de correlación intraclase [13] o el método gráfico de
Bland y Altman [14]), ambos incluidos en el módulo de Concordancia y consistencia
de Epidat 4, y que están descritos con detalle en la ayuda de dicho módulo.

En un contexto descriptivo, como el que nos ocupa en este módulo, el coeficiente de


correlación lineal de Pearson puede calcularse con cualquier par de variables. Sin embargo,
para hacer inferencia sobre este coeficiente, mediante un intervalo de confianza o una prueba
de significación, es necesario –al menos teóricamente- que los datos sigan una distribución
normal. Si los datos son ordinales o su distribución se aleja de la normal, se recomienda
utilizar el coeficiente de correlación de Spearman, que se obtiene aplicando la fórmula del
coeficiente de Pearson a los rangos de las observaciones [12], y que tiene la misma
interpretación que este último. Por tanto, el coeficiente de Spearman no tiene en cuenta el
valor de las observaciones, sino el orden que ocupan, lo que hace que también sea más
adecuado que el coeficiente de correlación de Pearson cuando las series contienen valores
extremos.
Por otra parte, puede ocurrir que dos variables tengan una correlación baja a pesar de estar
asociadas mediante una relación no lineal. Si la relación es monótona, entonces, los rangos de
las observaciones ordenadas pueden tener una relación lineal [10], en cuyo caso será más
adecuado calcular el coeficiente de correlación de Spearman.
Para calcular coeficientes de correlación, de Pearson o de Spearman, en Epidat 4 hay que
importar los datos individuales a partir de un archivo en formato de Excel (*.xls, *.xlsx) o de
OpenOffice (*.ods) por medio del asistente de datos. Deben identificarse al menos dos
variables cuantitativas para resumir y, opcionalmente, una variable categórica para
segmentar los resultados. El programa presenta los coeficientes calculados para cada par de
variables en forma de matriz con unos en la diagonal y, por ser una matriz simétrica, solo se
muestran los valores por debajo de la diagonal. Esta matriz se acompaña, de forma opcional,
de otra similar en la que se muestra el tamaño efectivo de muestra utilizado para calcular
cada coeficiente de correlación, pues las observaciones ausentes no se tienen en cuenta, y
pueden variar de unas variables a otras. El número de variables a resumir en este módulo de
Epidat 4 está limitado a 20.

1.5. Gráficos
Las representaciones gráficas proporcionan, respecto a las tablas, otra manera de describir un
conjunto de datos, de forma que, quizás de un simple vistazo es posible captar sus
características más destacables.
A la hora de elaborar un gráfico, el primer paso es decidir qué información desea
presentarse, y si el gráfico es la mejor herramienta para ello. Se recomienda utilizar gráficos
solo para mostrar información que no pueda ser resumida fácilmente de otro modo, ni con
texto ni mediante una tabla. A continuación, habrá que identificar las principales
características que condicionarán la construcción del gráfico (por ejemplo, el tipo de
variables: cualitativas o cuantitativas) y elegir el formato adecuado. El resultado debe ser un

http://dxsp.sergas.es 22
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

gráfico autoexplicativo, que contenga toda la información suficiente para poder interpretarlo
[15].

Tal como sugiere Molinero [16], un gráfico debe comunicar ideas complejas con precisión,
claridad y eficiencia, de tal manera que:
- Induzca a pensar en el contenido más que en la apariencia.
- No distorsione la información proporcionada por los datos.
- Favorezca la comparación entre grupos, si éste es su objetivo.

La calidad de un gráfico radica en su capacidad de presentar datos complejos con sencillez.


Sin embargo, la disponibilidad de herramientas informáticas para la elaboración de gráficos
favorece la proliferación de representaciones con sofisticados efectos (como los diseños
tridimensionales) que no solo no aportan valor al gráfico, sino que resultan confusos y a
menudo engañosos. Otras recomendaciones a la hora de elaborar un gráfico son: evitar la
duplicidad de información (por ejemplo, no presentar los mismos datos en tabla y en gráfico)
y que no haya discrepancias con el texto del trabajo. En el artículo de González-Alastrué [15]
se ilustran estas ideas con un detallado ejemplo.
Para profundizar más en el tema se recomienda el libro “The visual display of quantitative
information” publicado por primera vez en 1983 [17] y que tiene una segunda edición de
2009 [18].
Epidat 4 incluye, en su módulo de Análisis descriptivo, varias opciones para realizar
gráficos, que responden a las necesidades más frecuentes en el análisis exploratorio de datos:
1.5.1. Gráfico de barras
1.5.2. Gráfico de sectores
1.5.3. Gráfico de líneas
1.5.4. Gráfico de dispersión
1.5.5. Histograma
1.5.6. Diagrama de cajas
1.5.7. Gráfico de intervalos de confianza

Un elemento destacable de este submódulo de Epidat es el editor de gráficos, que permite


personalizar en gran medida los gráficos realizados con el programa, así como guardarlos
con formato imagen (*.jpg o *.png). El editor de gráficos tiene una serie de elementos
comunes a todos los gráficos de Epidat como son, por ejemplo, las opciones generales (título,
formato de texto, color, borde y tamaño). Además, hay otras opciones que permiten
modificar características de los ejes o de los elementos que se representan, y que dependen
del tipo de gráfico elegido. No se describirán con detalle las propiedades del editor, porque
su manejo es sencillo e intuitivo, y algunas se comentarán en cada gráfico particular. Sin
embargo, tres puntos merecen ser destacados:
- Cuando se realizan simultáneamente varios gráficos (por ejemplo, al segmentar por
una variable cualitativa), es posible modificar todos los gráficos a la vez activando la
opción “Aplicar a todos los gráficos” de la pestaña “Opciones generales”. Todos los
cambios que se realicen mientras esté marcada esta opción se aplicarán a todos los
gráficos.

http://dxsp.sergas.es 23
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

- Los gráficos generados pueden guardarse en formato imagen (*.jpg o *.png) desde el
propio editor.
- Una vez que el gráfico se presenta en la ventana de resultados, es posible volver a
abrirlo con el editor haciendo doble click en él o a través de la opción “Editar gráfico”
(botón derecho del ratón).

1.5.1. Gráfico de barras


El gráfico de barras, también llamado diagrama de barras, es la representación más habitual
para describir la distribución de frecuencias de una variable cualitativa. Este recurso
representa en el eje de abscisas (eje X) cada una de las categorías de la variable y en el eje de
ordenadas (eje Y) las frecuencias o porcentajes de cada categoría, en forma de rectángulos
con la misma base. También puede utilizarse para describir variables discretas que tomen
pocos valores como, por ejemplo, el número de hijos.
Para realizar un gráfico de barras en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del
asistente de datos. Debe identificarse al menos una variable cualitativa para resumir y,
opcionalmente, una variable categórica para segmentar los resultados y/o una variable
categórica para definir grupos en el gráfico. El programa da la posibilidad de elegir la
orientación de las barras (horizontal o vertical) y seleccionar el tipo de barras (simples o
acumuladas).
Ejemplo
Para representar cómo se distribuyen las categorías del IMC en la muestra del SICRI-2010
por grupos de edad, utilizando el archivo SICRI-2010.xls incluido en Epidat 4, se puede hacer
un gráfico de barras simples con las variables IMC_CAT para resumir y GEDAD para definir
grupos; otra posibilidad es hacer un gráfico de barras acumuladas con las mismas variables.
El resultado es el siguiente:

http://dxsp.sergas.es 24
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

A la vista de los resultados, podemos decir que el gráfico de barras acumuladas representa
mejor la distribución de la variable de interés en cada grupo de edad. Puede observarse, por
ejemplo, cómo disminuye claramente el porcentaje de sujetos con peso normal a medida que
aumenta la edad, así como que esta reducción ocurre a costa de un aumento en el sobrepeso
y la obesidad; este porcentaje (sobrepeso y obesidad conjuntamente) pasa del 20% en el
grupo más joven al 70% en los mayores de 65 años.
El gráfico de barras simples sería más claro si solo se comparasen dos grupos; por ejemplo, si
se hicieran los mismos gráficos sustituyendo el grupo de edad por el sexo.

1.5.2. Gráfico de sectores


El gráfico de sectores, también llamado diagrama de sectores, gráfico “de pastel”, o gráfico
circular, representa la frecuencia de cada una de las categorías de una variable cualitativa a
través de sectores de un círculo cuyas áreas son proporcionales a las frecuencias. También
puede utilizarse para describir variables discretas que tomen pocos valores como, por
ejemplo, el número de hijos.
Este gráfico se recomienda cuando el número de categorías de la variable es reducido (quizás
no más de 6), pues en caso contrario puede resultar muy difícil distinguir las secciones más
pequeñas.
Para realizar un gráfico de sectores en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del
asistente de datos. Debe identificarse una variable cualitativa, o discreta con pocos valores,
para resumir y, opcionalmente, una variable categórica para segmentar los resultados. El
programa da la posibilidad de mostrar en el gráfico las frecuencias o los porcentajes.

http://dxsp.sergas.es 25
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Ejemplo
Siguiendo con el ejemplo del diagrama de barras, se puede representar la distribución de las
categorías del índice de masa corporal mediante un gráfico de sectores. El resultado obtenido
con Epidat 4 es el siguiente:

Nótese que, ocasionalmente, la magnitud relativa de los sectores puede resultar difícil de
captar visualmente. En este caso, por ejemplo, resulta difícil (si no se repara en los
porcentajes) identificar cuál de las categorías entre peso normal y sobrepeso es más
frecuente; esto ocurre con cierta frecuencia con este tipo de gráfico, por lo que es
recomendable solicitar que figuren siempre los valores de las frecuencias o los porcentajes.
Una buena alternativa es utilizar el diagrama de barras, que no da lugar a equívocos.
Por otra parte, la comparación por grupos de edad solo podría hacerse con gráficos
separados, eligiendo la opción de segmentar por GEDAD; sin embargo, esta alternativa no
sería la más apropiada para ese propósito, pues supone comparar 4 gráficos distintos que, de
por sí, no son tan claros como el diagrama de barras.

1.5.3. Gráfico de líneas


El gráfico de líneas permite representar, mediante puntos unidos por un segmento, un
conjunto de valores (eje Y) para cada una de las categorías de una variable cualitativa (eje X),
generalmente períodos temporales con el objetivo de analizar tendencias (años, trimestres,
…). Los valores que se representan pueden ser observaciones de una variable (número de
defunciones diarias por gripe A) o estadísticos de resumen (prevalencia anual de fumadores
en un período, tasa de mortalidad infantil o incidencia de tumores).
Como ya se comentó en la introducción, los gráficos de líneas y de intervalos de confianza de
Epidat 4 no comparten el funcionamiento del resto de gráficos. Las diferencias se derivan de
que, bajo estas opciones, el programa no resume la información de la base de datos para
hacer el gráfico, sino que representa directamente los valores introducidos por el usuario.
Por este motivo, también es posible cargar los datos de forma manual, además de
importarlos a partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods)
mediante el asistente de datos. El hecho de que los datos de entrada estén ya resumidos hace
que no sea posible definir filtros ni segmentar los resultados.
Epidat 4 permite representar más de una línea en el mismo gráfico, siempre que todas estén
definidas en las mismas categorías. Un ejemplo podría ser la evolución anual de la

http://dxsp.sergas.es 26
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

prevalencia de obesidad en hombres y en mujeres; en el gráfico se representarían dos líneas,


una para cada sexo, y ambas series de prevalencias tendrían que estar definidas para los
mismos años (categorías).
Para introducir los datos manualmente, es necesario especificar el número de líneas que se
van a representar y el número de categorías del eje X, y completar la tabla resultante. El
número de líneas está limitado a 50 y el número máximo de categorías es 1.000.
Al optar por la entrada automática, se abre el asistente para la obtención de datos que
permite, a través del botón “examinar”, seleccionar el directorio y el archivo (OpenOffice o
Excel) que contiene la tabla de valores. Es necesario recordar que Epidat 4 requiere que las
tablas que han de importarse tengan una estructura fija. En este caso, la tabla debe contener
tantas filas como número de categorías y tantas variables como líneas a representar en el
gráfico.

Ejemplo
En Galicia, la esperanza de vida al nacer (EV) muestra una tendencia creciente en los últimos
años, al igual que ocurre en el conjunto de España. El archivo EV-GALICIA.xls, incluido en
Epidat 4, contiene la EV anual de Galicia en el período 1990-2007 para hombres y para
mujeres. Para representar estos datos en un gráfico de líneas utilizando Epidat 4 hay que
cargar los datos de forma automática utilizando el asistente, e identificar EV-HOMBRES y
EV-MUJERES como variables para las líneas y AÑO como categorías del eje X. En el gráfico
resultante no se visualizan las etiquetas correspondientes a los años, ya que el número de
valores a mostrar es grande (17) y no caben todos los textos. Para verlos correctamente hay
dos posibilidades: aumentar el tamaño del gráfico o indicar, en las opciones para el eje X, que
se muestren cada 2 etiquetas. El resultado es el siguiente:

1.5.4. Gráfico de dispersión


El gráfico o diagrama de dispersión se utiliza para describir visualmente la relación existente
entre dos variables cuantitativas, como primer paso aconsejable antes de realizar otros
análisis como calcular el coeficiente de correlación o ajustar un modelo de regresión lineal.
Cada punto del diagrama representa un par de valores conformado por una observación de
la primera variable (eje X) y una observación de la segunda (eje Y).
Para realizar un gráfico de dispersión en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del

http://dxsp.sergas.es 27
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

asistente de datos. Deben identificarse dos variables cuantitativas, una para el eje X y otra
para el eje Y y, opcionalmente, una variable categórica para segmentar los resultados.

Ejemplo
Para realizar el gráfico de dispersión mostrado en el apartado 1.4 (coeficiente de correlación)
que representa la relación entre el peso y la talla en mujeres de 16 a 24 años del SICRI-2010,
hay que cargar los datos de forma automática utilizando el asistente, e identificar la variable
PESO para el eje X y la variable TALLA para el eje Y; también hay que definir un filtro con la
condición “SEXO=1 y GEDAD=1”, y añadir una línea vertical correspondiente a un peso de
80 Kg. usando la opción disponible en la pestaña “Eje X” del editor de gráficos. Se reproduce
aquí el resultado:

1.5.5. Histograma
El histograma es uno de los gráficos más comunes para describir la distribución de
frecuencias de una variable cuantitativa. En el eje horizontal, el histograma representa los
intervalos en los que se dividen los valores de la variable; y en el eje vertical las frecuencias,
porcentajes o densidades de cada uno de los intervalos, en forma de rectángulos o barras
adyacentes [19].
La densidad de un rectángulo es el cociente entre la frecuencia relativa del intervalo
correspondiente y su amplitud; de este modo, el área del rectángulo (base=amplitud del
intervalo  altura=densidad) coincide con su frecuencia relativa, y el área total del
histograma es 100%.
A la hora de interpretar un histograma, Oliveras [20] recomienda identificar primero el
patrón general que lo caracteriza y, a continuación, las desviaciones que puede haber
respecto a ese patrón. Este autor ilustra con algunos ejemplos la interpretación de distintos
histogramas. A modo de resumen, pueden darse las siguientes situaciones:
- Presencia de datos anómalos: el histograma permite identificar fácilmente los valores
anormalmente altos o bajos en relación al resto de las observaciones.
- Simetría: la forma del histograma indica visualmente cómo se distribuyen los valores
de la variable a ambos lados de la media, de forma que permite identificar si la
distribución es más o menos simétrica o tiene cierto grado de asimetría a la derecha o
la izquierda.

http://dxsp.sergas.es 28
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

- Histograma con varios picos: cuando la distribución tiene más de una moda, el
histograma presenta varios picos. Normalmente esto se debe a la superposición de
varias poblaciones que tienen medias distintas y deberían analizarse por separado.
- Histograma dentado: está asociado normalmente al sistema de medición de datos,
por ejemplo, la tendencia al redondeo con datos autodeclarados.

Para realizar un histograma en Epidat 4 hay que importar los datos individuales a partir de
un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) por medio del asistente
de datos. Debe identificarse una variable cuantitativa y, opcionalmente, una variable
categórica para segmentar los resultados. Cuando las barras representan densidades, el
programa ofrece la posibilidad de mostrar la curva normal con la misma media y desviación
estándar de los datos. Además, el usuario puede personalizar los intervalos o dejar que el
programa los calcule de forma automática. Esta última opción es recomendable como un
primer paso cuando se desconoce cómo se distribuyen los datos y, posteriormente, pueden
modificarse los intervalos si es necesario.
Ejemplo
La distribución de la talla de los 2.000 encuestados en el SICRI-2010 (archivo SICRI-2010.xls)
se muestra en el siguiente histograma:

En la figura se aprecian dos picos, que corresponden a los intervalos 160-165 y 170-175, y que
están identificando los valores más frecuentes en mujeres y hombres, respectivamente. Si se
representa este histograma segmentando por SEXO se obtiene el siguiente resultado:

Ahora las dos distribuciones obtenidas son unimodales. Además, puede observarse también
una ligera asimetría hacia la derecha en la talla de los hombres, mientras que la talla de las
mujeres tiene una distribución más simétrica.

http://dxsp.sergas.es 29
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Por otra parte, estos histogramas están construidos con intervalos de amplitud 5 cm. Si se
repite con intervalos de amplitud 2 cm, el resultado en hombres, por ejemplo, es el siguiente:

Ahora se obtiene claramente lo que anteriormente se denominó un histograma dentado,


debido a la tendencia de los encuestados a declarar la talla en múltiplos de 5. En este caso, el
problema se soluciona al considerar intervalos de amplitud 5 cm, que darían lugar a un
histograma más adecuado.

1.5.6. Diagrama de cajas


El diagrama de cajas (en inglés, box-plot) es un gráfico útil para resumir y comparar grupos de
datos procedentes de una variable continua, o bien de una variable discreta con un amplio
recorrido de valores. Este gráfico utiliza la mediana, los cuartiles y los valores mínimo y
máximo para reflejar el nivel, la dispersión y la simetría de una distribución de valores;
también permite identificar valores atípicos [21][22].
Los extremos de las cajas son el primer y el tercer cuartil, de modo que la amplitud de una
caja es el recorrido intercuartílico, y dentro de ella se resalta el lugar que ocupa la mediana.
Por tanto, dentro de la caja se encuentran el 50% central de los datos, un 25% entre la
mediana y cada cuartil, lo que permite ver la forma en que se distribuyen las observaciones:
por ejemplo, si la mediana está en el centro de la caja, ello indica que la distribución es
simétrica.
Las líneas que se proyectan fuera de la caja (patillas) se extienden hasta los denominados
valores adyacentes, que son los valores mínimo y máximo de las observaciones una vez
eliminadas las observaciones atípicas. Se consideran valores atípicos aquellos que están a una
distancia de los extremos de la caja superior a 1,5 veces el recorrido intercuartílico, es decir,
los que caen fuera del intervalo (Q1-1,5RI, Q3+1,5RI), donde Q1 es el primer cuartil, Q3 es el
tercer cuartil y RI es el recorrido intercuartílico. La siguiente figura describe los distintos
elementos de una caja:

http://dxsp.sergas.es 30
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Valores atípicos

xmáx

Q3: Tercer cuartil (P75)

Mediana
RI=Q3-Q1
Recorrido
intercuartílico

Q1: Primer cuartil (P25)

xmín

Algunos paquetes estadísticos, como SPSS, distinguen dentro de los valores atípicos los
llamados atípicos extremos, como aquellos con un valor inferior a Q1-3R o superior a Q3+3R.
Sin embargo, Epidat no hace esta distinción. Lo que permite el programa es no mostrar en el
gráfico los valores atípicos.
Para realizar un diagrama de cajas en Epidat 4 hay que importar los datos individuales a
partir de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) mediante el
asistente de datos. Hay dos posibilidades para identificar las variables necesarias:
- Opción 1: una variable cuantitativa para resumir y una variable cualitativa para
definir las categorías del eje X; opcionalmente, se podrían identificar variables
cualitativas para definir grupos (es decir, series de cajas) y/o segmentar los
resultados. Esta opción se usaría, por ejemplo, para hacer un diagrama de cajas del
índice de masa corporal (Resumir) por grupos de edad (Categorías del eje X) en cada
sexo (Definir grupos). El resultado, con los datos del SICRI-2010, sería el siguiente:

http://dxsp.sergas.es 31
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

- Opción 2: dos o más variables cuantitativas para resumir y, opcionalmente, una


variable categórica para segmentar los resultados; las otras dos variables (Categorías
del eje X y Definir grupos) no se permiten. Esta opción es útil para comparar la
distribución de distintas variables medidas en los mismos individuos, por ejemplo, el
peso antes y después de una dieta, o los valores de presión arterial en distintos
momentos del día.

1.5.7. Gráfico de intervalos de confianza


El gráfico de intervalos de confianza permite representar un conjunto de estimaciones puntuales
de una medida de resumen (medias, tasas de incidencia, riesgos relativos, prevalencias, etc),
junto con sus intervalos de confianza.
Un caso particular de este gráfico es el conocido como forest plot [23], que se utiliza en meta-
análisis para representar las medidas de efecto de los estudios individuales, junto con su
intervalo de confianza. En este gráfico, los nombres de los estudios se representan en el eje
vertical y los intervalos en el eje horizontal, y se incluye también el resultado del meta-
análisis. Además, se destaca la línea correspondiente a un efecto nulo (por ejemplo, 1 para
odds ratios o riesgos relativos, 0 para diferencia de riesgos o medias).
Como ya se comentó, los gráficos de líneas y de intervalos de confianza de Epidat 4 no
comparten el funcionamiento del resto de gráficos. Las diferencias se derivan de que, en
estas opciones, el programa no resume la información de la base de datos para hacer el
gráfico, sino que representa directamente los valores introducidos por el usuario. Por este
motivo, también es posible cargar los datos de forma manual, además de importarlos a partir
de un archivo en formato de Excel (*.xls, *.xlsx) o de OpenOffice (*.ods) mediante el asistente
de datos. El hecho de que los datos de entrada estén ya resumidos imposibilita tanto definir
filtros como segmentar los resultados.
Epidat 4 permite representar más de una serie de intervalos en el mismo gráfico, siempre que
todas estén definidas en las mismas categorías. Un ejemplo podrían ser las prevalencias de
obesidad por Comunidad Autónoma, con sus respectivos intervalos de confianza, para
hombres y para mujeres. El programa también permite elegir la orientación de los intervalos:
horizontales o verticales.
Para introducir los datos manualmente, es necesario especificar el número de variables que
se van a representar y el número de categorías del eje X, y completar la tabla resultante. El
número de variables está limitado a 100 y el número máximo de categorías es 30.
Al optar por la entrada automática se abre el asistente para la obtención de datos que
permite, a través del botón “examinar”, seleccionar el directorio y el archivo (OpenOffice o
Excel) que contiene la tabla de valores. Es necesario recordar que Epidat 4 requiere que las
tablas que han de importarse tengan una estructura fija. En este caso, la tabla debe contener
tantas filas como número de categorías y tres variables (estimación puntual, límite inferior y
límite superior) para cada serie de intervalos a representar en el gráfico.

Ejemplo
La prevalencia de obesidad en la población gallega de 16 años y más (fuente: SICRI-2010)
aumenta con la edad, y es mayor en hombres que en mujeres. Las estimaciones de las
prevalencias por grupos de edad y sexo, junto a los intervalos de confianza del 95%, se
presentan en la siguiente tabla:

http://dxsp.sergas.es 32
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Hombres Mujeres
P(%) IC(95%) P(%) IC(95%)
16-24 años 4,0 2,7 5,3 3,2 2,1 4,4
25-44 años 13,4 11,3 15,6 8,1 6,4 9,9
45-64 años 19,9 17,4 22,3 18,0 15,5 20,6
65 y más 23,6 20,7 26,4 20,3 16,9 23,7

Para representar gráficamente estos datos, en Epidat 4 hay que hacer un gráfico de intervalos
de confianza. Los datos pueden introducirse manualmente en una tabla con 2 variables y 4
categorías; la estimación 1 corresponde a los datos de los hombres y la estimación 2 a los de
las mujeres. El gráfico resultante, que se muestra a continuación, muestra claramente la
tendencia creciente de la prevalencia de obesidad con la edad, tanto en hombres como en
mujeres.

http://dxsp.sergas.es 33
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

Bibliografía
1 López-Moreno S, Garrido-Latorre F, Hernández-Ávila M. Desarrollo histórico de la
epidemiología: su formación como disciplina científica. Salud Pública Méx. 2000;42(2):133-43.

2 Freedman D. From association to causation: some remarks on the history of statistics.


Statistical Science. 1999;14(3):243-58.

3 Morabia A. Pierre-Charles-Alexandre Louis and the evaluation of bloodletting. J R Soc


Med. 2006;99:158-60.

4 Silva LC. Cultura estadística e investigación científica en el campo de la salud: una


mirada crítica. Madrid: Díaz de Santos; 1997.

5 Salas-Salvadó J, Rubio MA, Barbany M, Moreno B, Aranceta J, Bellido D et al. Consenso


SEEDO 2007 para la evaluación del sobrepeso y la obesidad y el establecimiento de criterios
de intervención terapéutica. Med Clin (Barc). 2007;128(5):184-96.

6 Pagano M, Gauvreau K. Fundamentos de bioestadística. 2ª ed. México: Thomson


Learning; 2001.

7 Altman DG, Bland JM. Statistics notes: quartiles, quintiles, centiles, and other quantiles.
BMJ. 1994;309:996.

8 Sobradillo B, Aguirre A, Aresti U, Bilbao A, Fernández-Ramos C, Lizárraga A et al.


Curvas y tablas de crecimiento (estudios longitudinal y transversal). Instituto de
Investigación sobre Crecimiento y Desarrollo. Bilbao: Fundación Faustino Orbegozo
Eizaguirre; 2004.

9 Fernández-Abascal H, Guijarro MM, Rojo JL, Sanz JA. Cálculo de probabilidades y


estadística. Barcelona: Editorial Ariel; 1994.

10 Armitage P. Correlation. En: Armitage P, Colton T, editores. Encyclopedia of


Biostatistics Vol. 1. Chichester: John Wiley & Sons; 1998. pp. 971-6.

11 Benach J. Notas de metodología y estadística: las manos y la escritura (correlación no


equivale a causa). JANO. 1996;L(1163):1306.

12 Pita-Fernández S. Notas de metodología y estadística: correlación frente a causalidad.


JANO. 1996;LI(1174):243-4.

13 Rosner B. Fundamentals of biostatistics. 5ª ed. Belmont, CA: Duxbury Press; 2000.

14 Bland JM, Altman DG. Statistical methods for assessing agreement between two
methods of clinical measurement. Lancet. 1986;i:307-10.

15 González-Alastrué JA, Jover L. Los gráficos en la comunicación y el razonamiento


científicos: ¿instrumento u ornamento?. Med Clin (Barc). 2004;122(Supl 1):3-10.

16 Molinero LM [página en Internet]. Gráficos de datos estadísticos en medicina.


Disponible en: www.seh-lelha-org/stat1.htm

http://dxsp.sergas.es 34
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014.

17 Tufte ER. The visual display of quantitative information. Cheshire: Graphics Press;
1983.

18 Tufte ER. The visual display of quantitative information. 2ª ed. Connecticut: Graphics
Press; 2009.

19 Oliveras KG. El histograma (I). Qué es y para qué sirve. JANO. 1997;LII(1204):1070.

20 Oliveras KG. El histograma (II). Objetivo: entender los datos. JANO.


1997;LII(1205):1171-2.

21 Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for
biomedical publications. Am Heart J. 1988;116 (6 Part 1):1663-5.

22 Williamson DF, Parker RA, Kendrich JS. The box plot: a simple visual method to
interpret data. Ann Intern Med. 1 Jun 1989;110(11):916-21.

23 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ.
2001;322:1479-80.

http://dxsp.sergas.es 35
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas

Anexo 1: Fórmulas del módulo de análisis descriptivo

Esquema del módulo

1. Tablas de frecuencias
2. Tablas de contingencia
3. Estadísticos descriptivos
4. Correlación
5. Gráficos
5.1. Barras
5.2. Sectores
5.3. Líneas
5.4. Dispersión
5.5. Histograma
5.6. Diagrama de cajas
5.7. Intervalos de confianza

http://dxsp.sergas.es 36
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas

3.- ESTADÍSTICOS DESCRIPTIVOS


Se tienen n observaciones x1, x2, …, xn de una variable numérica X.

Medidas de tendencia central [Rosner (2000, p. 9-16)]:

Suma:
n
S   xi
i 1

Media:
1 n
x  xi
n i 1

Mediana: es el percentil 50 (ver percentiles).

Moda: es la observación u observaciones más frecuentes.

Media geométrica:

1 n 
xg  Exp   ln x i 
 n i 1 

Medidas de dispersión [Rosner (2000, p. 18-24)]:

Desviación típica:

1 n
s  xi  x 2
n  1 i 1

Varianza:

1 n
s2   xi  x 2
n  1 i 1

Coeficiente de variación:

s
CV 
x

Recorrido:

R  Máxxi  Mínxi 

http://dxsp.sergas.es 37
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas

Recorrido intercuartílico:

RI  Q 3  Q1 , donde Q1 y Q3 son el primer y el tercer cuartil, respectivamente

Percentiles [Altman & Bland (1994), Mood & Graybill (1963, p. 408)]:

Percentil de orden k:

Pk  1  f xr  fx r  1

Cuartiles:

Q1=P25, Q2=P50, Q3=P75

Deciles:

Dk=Pk, con k=10, 20, 30, 40, 50, 60, 70, 80, 90

Donde:
 x1, x2, …, xn es la muestra ordenada de valores,
n  1k
 R ,
100
 r  R  es la parte entera de R, 0 r n,
 f  R  r es la parte fraccionaria de R,
 x0=x1 y xn+1=xn,
 n es el número de observaciones,
 k es el orden del percentil.

Medidas de forma de la distribución [Fernández-Abascal (1994, p. 273-274)]:

Asimetría:

m3
A 3
m2 2

Curtosis:

m4
K 3
m 22

http://dxsp.sergas.es 38
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas

Donde:
1 n
 mk   xi  x k es el momento central de orden k, k=2, 3, 4.
n i 1

4.- CORRELACIÓN
Coeficiente de correlación de Pearson [Rosner (2000, p. 451-55)]:
n
 x i  x y i  y 
i 1
r
n n
 x i  x 2  y i  y 2
i 1 i 1

Coeficiente de correlación de Spearman [Rosner (2000, p. 497)]:

 rx , i  rx ry , i  ry 
n

i 1
r
 rx , i  rx 2  ry , i  ry 2
n n

i 1 i 1

Donde:
 x1, x2, …xn son las n observaciones de la variable X,
 y1, y2, …yn son las n observaciones de la variable Y,
 rx,i es el rango de la observación xi, es decir, es la posición que ocupa xi en la
muestra ordenada. En caso de empate, a los valores iguales se les asigna la media
de sus rangos.

http://dxsp.sergas.es 39
soporte.epidat@sergas.es
Epidat 4: Ayuda de Análisis descriptivo. Octubre 2014. Anexo 1: fórmulas

Bibliografía

- Altman DG, Bland JM. Statistics notes: quartiles, quintiles, centiles, and other quantiles.
BMJ. 1994;309:996.

- Fernández-Abascal H, Guijarro MM, Rojo JL, Sanz JA. Cálculo de probabilidades y


estadística. Barcelona: Editorial Ariel; 1994.

- Mood AM, Graybill FA. Introduction to the theory of statistics. New York: McGraw-Hill;
1963.

- Rosner B. Fundamentals of biostatistics. 5ª ed. Belmont, CA: Duxbury Press; 2000.

http://dxsp.sergas.es 40
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

AJUSTE DE TASAS

http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

ÍNDICE
8.0. Conceptos generales...................................................................................................................... 3
8.1. Ajuste por el método directo ....................................................................................................... 3
8.2. Ajuste por el método indirecto .................................................................................................... 5
8.3. Algunas limitaciones del ajuste de tasas .................................................................................... 5
8.4. Recomendaciones .......................................................................................................................... 6
8.5. Manejo del módulo de ajuste de tasas y solución del ejemplo ............................................... 7
Bibliografía .......................................................................................................................................... 12
Anexo 1: Novedades del módulo de ajuste de tasas ..................................................................... 13
Anexo 2: Fórmulas del módulo de ajuste de tasas......................................................................... 14

http://dxsp.sergas.es
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

8.0. Conceptos generales


Una de las actividades que más frecuentemente se plantea a los profesionales de salud
pública es la comparación de tasas de algún evento o característica (por ejemplo: mortalidad,
morbilidad, curación, etc.) entre dos o más poblaciones o en la misma población entre dos o
más períodos. Si las poblaciones se distribuyeran de manera parecida respecto a otros
factores —tales como edad, sexo, raza, etnia, clase social, etc.— que sabemos o suponemos
están relacionados con el evento estudiado, no habría problema en comparar las tasas crudas
o brutas.
Sin embargo, si dichas distribuciones no son similares, la comparación directa de las tasas
brutas puede resultar engañosa [1]. Así, al comparar las tasas de mortalidad entre dos países
se presenta la circunstancia de que las citadas tasas estarán influenciadas por la proporción
de sujetos en cada grupo de edad de cada población. Por tanto, el hecho de que uno de los
países presente una tasa de mortalidad superior a la del otro no quiere decir que tenga
necesariamente un problema de salud mayor, ya que la diferencia observada entre las tasas
podría ser efecto de diferencias en las estructuras de edad poblacionales; esto es, la edad
podría estar causando un efecto de confusión.
Para tratar de resolver este problema, ya en el siglo XIX se desarrollaron los métodos de
estandarización o ajuste de tasas. La tasa ajustada es una medida de resumen de las tasas
específicas en los diferentes estratos de la variable de confusión (por ejemplo la edad). Se
construye como una media ponderada de estas tasas específicas donde los pesos o
ponderaciones proceden de una serie de referencia llamada estándar, el propósito de la cual
es homogeneizar los distintos grupos que se comparan [2]. Las tasas ajustadas, no importa el
método, no tienen valor intrínseco, carecen de sentido por sí mismas: sólo sirven para
compararlas con otras obtenidas bajo las mismas condiciones.
Algunas de las razones para ajustar [1]:
1. Un único índice resumen para una población es más fácilmente comparable con otros
índices resumen que listas de tasas específicas de diferentes poblaciones.
2. Si algunos estratos se componen de un pequeño número de individuos, las tasas
específicas correspondientes pueden ser demasiado imprecisas y no fiables para
utilizarlas en comparaciones detalladas.
3. Para poblaciones pequeñas o para algunos grupos de especial interés, puede no
disponerse de tasas específicas. Esto puede ocurrir en el caso de grupos laborales
seleccionados y para poblaciones de áreas geográficas demarcadas para un estudio en
particular. En estos casos, sólo el número total de eventos (por ejemplo: defunciones)
puede estar disponible y no su distribución según estratos.
Se dispone de dos métodos básicos de ajuste, el directo y el indirecto y, aunque este último es
en realidad una aproximación al ajuste directo, tiene suficiente valor intrínseco como para
analizarlo por separado.

8.1. Ajuste por el método directo


Consiste en aplicar las tasas específicas por cada estrato de la variable de confusión (edad,
clase social, etc.) de las poblaciones cuyas tasas se quieren comparar, a una población
estándar dividida en los mismos estratos o categorías. Por tanto, los elementos necesarios
para realizar un ajuste de tasas por el método directo son:

http://dxsp.sergas.es 3
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

- La relación de tasas específicas de las poblaciones de estudio (las que se quiere


comparar).
- La distribución a través de los mismos estratos de una población estándar
seleccionada.
La gran ventaja del método de ajuste directo es que permite construir tasas ajustadas
comparables gracias al empleo de una misma población estándar; esta aseveración, como se
verá más adelante, exige alguna matización.
Para comparar dos o más tasas ajustadas existen varios indicadores. Los más utilizados son:
la diferencia, la razón y el porcentaje de variación entre tasas ajustadas. Si la medida de
comparación es la diferencia de tasas ajustadas entre dos puntos en el tiempo, las tasas
específicas han de mantener una diferencia constante a lo largo del tiempo para que la
comparación sea válida. Si la medida elegida es la razón o el porcentaje de cambio de las
tasas entre dos puntos en el tiempo, entonces las tasas específicas necesitan mantener una
razón de tasas constante a lo largo del tiempo para que la comparación sea válida [3].
Selección de la población estándar. Se pueden clasificar las poblaciones estándar en dos tipos
[4]: internas y externas. Las primeras se obtienen de los propios datos que se van a utilizar en
el análisis, por ejemplo la suma o la media de todas las poblaciones cuyas tasas brutas se van
a ajustar. No exento de ventajas –la población estándar resultante no sería radicalmente
diferente a las poblaciones de estudio- presenta un importante inconveniente: las tasas
ajustadas que se obtendrán no se podrían comparar con tasas ajustadas usando otras
poblaciones estándar. Las poblaciones estándar externas son aquellas obtenidas de fuentes
ajenas a los datos de análisis, por ejemplo, las propuestas por la Organización Mundial de la
Salud (OMS), la Agencia Internacional de Investigación del Cáncer (IARC) [5] o el Centro
Latinoamericano de Demografía [6], por citar algunos ejemplos. Su gran atractivo radica en
que facilita la comparación internacional de tasas y a lo largo del tiempo.

La selección de poblaciones estándar diferentes conduce necesariamente a resultados


diferentes, incluso opuestos o aparentemente contradictorios. Puede ocurrir que con una
determinada población estándar se obtenga una tasa ajustada mayor en "A" que en "B" y que
con otra se invierta el resultado, por tanto se debe considerar una serie de factores a la hora
de seleccionar la población estándar [7]:
- Seleccionar una población relacionada con los datos. Si, por ejemplo, el objetivo fuese
comparar tasas de países europeos sería recomendable utilizar la población estándar
europea u otra similar.
- La población seleccionada como estándar normalmente no debe presentar grandes
diferencias entre los estratos.
- Comprender perfectamente lo que se está haciendo al calcular tasas ajustadas. Si las
tasas específicas para "A" son mayores que para "B" en los jóvenes y pasa lo contrario
en los ancianos, con una población estándar con más jóvenes que ancianos se podrá
obtener una tasa ajustada mayor en "A" que en "B". Puede ocurrir todo lo contrario si
se utiliza una población estándar con más ancianos que jóvenes. Por tanto, no se debe
olvidar que las tasas específicas son los "hechos" y que su combinación en una media
ponderada, aunque a menudo útil, es simplemente un intento de resumir estos
hechos en un índice.
Szklo M y Nieto J apuntan otras posibles opciones para seleccionar la población estándar [8],
por ejemplo:

http://dxsp.sergas.es 4
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

a) Una población enteramente artificial (por ejemplo, 1.000 sujetos en cada estrato).
b) Uno de los grupos de estudio, simplificando los cálculos, ya que las tasas observadas
en el grupo elegido serán las de la población estándar (por definición estandarizada).
Cuando uno de los grupos de estudio es particularmente pequeño debe usarse como
el estándar, de tal manera que minimice la variabilidad aleatoria.
c) La llamada población estándar de varianza mínima.1

8.2. Ajuste por el método indirecto


Cuando no se dispone de las tasas específicas por grupos de la variable por la que se quiere
ajustar o cuando ocurra que en algunos grupos el número de casos sea muy pequeño, se
puede ajustar por el llamado método indirecto. Con este método se obtiene el llamado índice
de mortalidad estándar (IME) o razón de mortalidad estandarizada (RME o SMR en inglés).
Para ello se necesita [7]:
- Distribución de los sujetos por los grupos de la variable por la que se quiere ajustar
para cada población a comparar.
- Eventos totales en cada población a comparar.
- Tasas específicas de una población estándar para cada uno de los grupos de la
variable por la que se quiere ajustar.
El método indirecto utiliza los tamaños de los grupos de la variable por la que se quiere
ajustar y las tasas específicas de la población estándar para calcular cuántos eventos se
podrían esperar en las poblaciones si tuviesen las tasas específicas de la población estándar.
Los eventos esperados se combinan con los observados (O/E) mediante el IME
(habitualmente se multiplica por 100).
Este método de ajuste sirve para comparar la tasa en una población con la tasa estándar, pero
cuando haya más poblaciones cuyas tasas se quieren comparar, necesariamente cada una ha
de referirse a la tasa estándar y en tal caso no pueden compararse diversos IME entre sí [2].

8.3. Algunas limitaciones del ajuste de tasas2


Como se indicara en la introducción, los métodos de ajuste de tasas están ampliamente
extendidos entre los profesionales de salud pública y en las publicaciones científicas. No
obstante esta popularidad –y fundamentalmente debido a ella– es necesario hacer una serie
de advertencias prácticas.

1
Para ver el modo de calcular la población estándar de mínima varianza por estrato ver: Szklo M, Nieto J.
Epidemiology, Beyond the Basics. Maryland: An Aspen Publication; 2000. p. 269-270.

2
Para profundizar en el tema de usos y limitaciones del ajuste de tasas por edad pueden consultarse las
siguientes publicaciones:
Feinleib M, Zarate AO. Editores. Reconsidering age adjustment procedures: Workshop proceedings. National
Center for Health Statistics. Vital Health Stat 4(29); 1992.
Anderson RN, Rosenberg HM. Report of the second workshop on age adjustment. National Center for Health
Statistics. Vital Health Stat 4(30); 1998.

http://dxsp.sergas.es 5
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

- El ajuste no es apropiado cuando las tasas específicas en las poblaciones que se estén
comparando no tengan una relación consistente [1]. Por ejemplo, puede ser
incorrecto evaluar tendencias a lo largo del tiempo de tasas de mortalidad por cáncer
ajustadas por edad, porque las tasas específicas en los jóvenes tienden a descender
mientras en los grupos de edad superiores aumentan. Si se utiliza una población
estándar relativamente joven, la tendencia de las tasas ajustadas puede mostrar un
ligero incremento o incluso una reducción de la mortalidad; si la población estándar
elegida es relativamente vieja la tendencia de la mortalidad por cáncer mostrará un
fuerte incremento [4].
- Una tasa ajustada es una medida resumen cuya magnitud no tiene ningún valor
intrínseco, es una tasa artificial y sólo debe usarse con el objetivo de comparar [4].
- La magnitud de las tasas ajustadas varía en función de la población estándar que se
utilice [3][4].
- El hecho de que la tasa ajustada sea una medida resumen en principio facilita su
manejo, pero también enmascara la información que aportan las tasas específicas.

8.4. Recomendaciones
Antes de ajustar se deben estudiar las tasas específicas. De esta forma se podrá evitar que la
elección, necesariamente arbitraria, de la población estándar convierta en arbitrarios los
resultados [9].
- En caso de que se decida hacer un ajuste debe referenciarse la población estándar
utilizada [4] para facilitar la interpretación de los resultados y la comparación con
otros estudios.
- Siempre que sea factible presentar, además de las tasas ajustadas, las tasas crudas y
específicas.

Ejemplo
(Adaptado de: Londoño JL. Metodología de la investigación epidemiológica. Ed. Universidad
de Antioquia. 1995. p.114)[10].
Un investigador estudia factores de riesgo para el cáncer de cuello uterino; desea valorar su
conjetura de que la mortalidad es mayor en Cali que en São Paulo. Para ello debe comparar las
tasas de incidencia entre las mujeres de Cali (Colombia) y São Paulo (Brasil). Cuenta con la
siguiente información:

http://dxsp.sergas.es 6
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

Tabla 1. Población, número de casos y tasas anuales de incidencia de cáncer de cuello uterino
en Cali, Colombia 1977-1981 y São Paulo, Brasil 1978.
Cali São Paulo
Edad Población Casos Tasa x 105 Población Casos Tasa x 105
0-14 217.645 0 0,0 992.534 0 0,0
15-24 145.409 2 1,4 746.750 14 1,9
25-34 86.644 16 18,5 639.214 76 11,9
35-44 63.454 34 53,6 423.847 195 46,0
45-54 41.180 44 106,8 328.074 266 81,1
55-64 24.551 36 146,6 208.108 228 109,6
65 y más 19.042 37 194,3 173.968 186 106,9
Total 597.925 169 3.512.495 965

Tabla 2. Población estándar: Celade. América Latina, proyecciones de población años


calendarios 1950-2000. Boletín Demográfico 1991; 48: 31.
Edad Población
0-14 estándar
77.500
15-24 43.291
25-34 34.589
35-44 24.275
45-54 16.355
55-64 11.693
65 y más 11.220
1. Calcular las tasas ajustadas por edad con sus intervalos de confianza, por el método
directo, utilizando como población estándar la propuesta por el Celade (Tabla 2).
2. Calcular las tasas ajustadas por edad con sus intervalos de confianza, por el método
indirecto, utilizando como tasa estándar la de São Paulo.
3. Enjuiciar los resultados.

8.5. Manejo del módulo de ajuste de tasas y solución del ejemplo


Este módulo permite ajustar tasas por una variable utilizando tanto el método directo como
el indirecto. Los datos pueden introducirse desde el teclado o importarse en formato
OpenOffice (*.ods) o Excel (*.xls, *.xlsx); es posible ajustar simultáneamente hasta 750 tasas y
la variable de ajuste puede tener hasta 50 intervalos o categorías. Es preciso observar que
cuando se ajustan tasas, por cualquiera de los dos métodos, es necesario que los intervalos de
las tasas y poblaciones coincidan. Por ejemplo, si se ajustan tasas por edad es preciso que los
grupos de edad (intervalos) sean idénticos para todas las tasas y poblaciones.
Para realizar los cálculos a partir de datos procedentes de archivos importados, Epidat 4
necesita que éstos tengan una estructura determinada, con nombres de variables que
identifiquen cada una de las que sean necesarias para el ajuste por el método elegido (como

http://dxsp.sergas.es 7
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

ejemplo, véanse Tablas 3 y 4). Como novedad de la versión 4, es posible utilizar una o más
variables para identificar las poblaciones en las que se ajustan tasas, por ejemplo, unidad
geográfica y año o sexo.
En el ejemplo, los datos se encuentran en el archivo CALI-SAO PAULO.XLS; la hoja Cali-Sao
Paulo contiene los datos de estas ciudades, y Celade contiene las poblaciones estándar de la
Tabla 2.

Tabla 3. Formato de tabla preparada para importar datos desde Epidat 4 para el ajuste por el
método directo.
Identificadores Intervalos de Población por
de población edad intervalos Casos
CIUDAD EDAD POBLAC CASOS
Cali <15 217.645 0
Cali 15-24 145.409 2
Cali 25-34 86.644 16
Cali 35-44 63.454 34
Cali 45-54 41.180 44
Cali 55-64 24.551 36
Cali 65 y + 19.042 37
São Paulo <15 992.534 0
São Paulo 15-24 746.750 14
São Paulo 25-34 639.214 76
São Paulo 35-44 423.847 195
São Paulo 45-54 328.074 266
São Paulo 55-64 208.108 228
São Paulo 65 y + 173.968 186
Nota: Los textos que definen la unidad geográfica tienen que ser
idénticos en toda la tabla a importar. Por ejemplo, Epidat no
reconocerá como la misma unidad geográfica "São Paulo" y "Sao
Paulo".

Ajuste de tasas por el método directo. Para ajustar tasas por este método son necesarios, por
cada categoría de la variable que se desee ajustar (por ejemplo: edad) los datos siguientes:
- Las tasas específicas o bien el número de casos.
- Los tamaños de las poblaciones en estudio.
- La población estándar.

Si se precisa calcular los intervalos de confianza (método gamma [11] por defecto, o
aproximación de Byar [12] si el primero no se puede aplicar) deberá marcarse la casilla
correspondiente. Es importante tener en cuenta con qué multiplicador están expresadas las
tasas específicas y seleccionar el que corresponda en la variable "tasas por".

http://dxsp.sergas.es 8
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

Resultados con Epidat 4:

Ajuste de tasas por el método indirecto. Para ajustar tasas por este método se necesitan, por
cada categoría de la variable que se desee ajustar (por ejemplo: edad), los datos siguientes:
- Las poblaciones específicas.
- El número de casos observados en cada población que se quiere ajustar.
- Las tasas estándar.

Se pueden calcular RME para varias causas al mismo tiempo, utilizando unas tasas estándar
para cada causa.
En la base de datos los casos pueden estar desagregados por categoría de comparación (por
ejemplo: edad) o totalizados en una cualquiera de las categorías (véase Tabla 4). Epidat 4
totaliza los casos para cada valor de la variable o variables seleccionadas en "identificadores
de población" (ver la nota de la Tabla 4), ya que para el ajuste por el método indirecto se
precisa el total de casos observados. En el archivo que contiene los datos del ejemplo, las
tasas de São Paulo, que sirven como estándar, se encuentran en la hoja Sao Paulo y están
multiplicadas por 100.000, lo cual se debe indicar al programa en el campo "Tasas por". Si se
precisa calcular los intervalos de confianza (método de Byar [12]) deberá marcarse la casilla
correspondiente. En la tabla de resultados se muestran los casos observados y los esperados
de cada población.

http://dxsp.sergas.es 9
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

Tabla 4. Formato de tabla preparada para importar datos desde Epidat 4 para el ajuste por el
método indirecto.
Identificadores Intervalos de Población por
de población edad intervalos Casos
CIUDAD EDAD POBLAC CASOS CASOS
Cali <15 217.645 0
Cali 15-24 145.409 2
Cali 25-34 86.644 16
Cali 35-44 63.454 34
Cali 45-54 41.180 44 169
Cali 55-64 24.551 36
Cali 65 y + 19.042 37
São Paulo <15 992.534 0
São Paulo 15-24 746.750 14
São Paulo 25-34 639.214 76
São Paulo 35-44 423.847 195
São Paulo 45-54 328.074 266
São Paulo 55-64 208.108 228
São Paulo 65 y + 173.968 186 965
Nota: Los casos pueden figurar divididos por cada categoría de la variable de
ajuste, como en la columna de fondo blanco, o sumados en una categoría
cualquiera de la variable que identifica poblaciones, en este caso unidad
geográfica, como en la columna sombreada (ver nota de la Tabla 3):
(0+2+16+34+44+36+37=169 y 0+14+76+195+266+228+186= 965).

http://dxsp.sergas.es 10
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

Resultados con Epidat 4:

Los resultados indican con nitidez que la conjetura del investigador era correcta. Si bien las
tasas sin ajustar eran virtualmente iguales, una vez estandarizadas, la de Cali es claramente
mayor que la de São Paulo.

http://dxsp.sergas.es 11
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014.

Bibliografía

1 Fleiss JL. Statistical methods for rates and proportions. New York: John Wiley & Sons;
1981.

2 Rué M, Borrell C. Los métodos de estandarización de tasas. Revisiones en Salud


Pública. 1993;3:263-95.

3 Choi BCK, de Guía NA, Walsh P. Look before you leap: stratify before you standardize.
Am J Epidemiol. 1999;149:1087-96.

4 Curtin LR, Klein RJ. Direct standardization (age-adjusted death rates). Healthy People
2000 Statistical Notes No. 6 (revisado); 1995.

5 Waterhouse J, Muir CS, Correa P ,Powell J, editores. Cancer incidence in five


continents. Vol. 3 (anexo III). Lyon: IARC Scientific Publications; 1976. p. 456.

6 Celade. América Latina, proyecciones de población años calendarios 1950-2000. Boletín


Demográfico. 1991;48:31.

7 Kahn HA, Sempos CT. Statistical methods in epidemiology. New York: Oxford
University Press; 1989.

8 Szklo M, Nieto J. Epidemiology, beyond the basics. Maryland: An Aspen Publication;


2000.

9 Llorca Díaz J, Prieto Salceda D, Dierssen Sotos T, Delgado-Rodríguez M. Comparación


entre varias poblaciones estándar para el ajuste por edades. Rev Esp Salud Pública.
2000;74(4):341-50.

10 Londoño JL. Metodología de la investigación epidemiológica. Ed. Universidad de


Antioquia; 1995.

11 Fay MP, Feuer EJ. Confidence intervals for directly standardized rates: a method based
on the gamma distribution. Stat Med. 1997 Apr 15;16(7):791-801.

12 Breslow NE, Day NE. Statistical methods in cancer research. Vol II, The design and
analysis of cohort studies. Lyon: IARC; 1987.

http://dxsp.sergas.es 12
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 1: novedades

Anexo 1: Novedades del módulo de ajuste de tasas

Novedades de la versión 4.0 con respecto a la versión 3.1:

- El número de tasas que se pueden ajustar simultáneamente aumentó de 500 a 750 en esta
versión.

- Se utiliza el método gamma para calcular el intervalo de confianza de la tasa ajustada


por el método directo.

- Se utiliza la aproximación de Byar para calcular el intervalo de confianza de la tasa


ajustada por el método indirecto.

- El cálculo de intervalos de confianza para las tasas es opcional, ya no se presentan por


defecto en los resultados.

- En ambos métodos se tiene la posibilidad de identificar más de una variable para definir
poblaciones.

- En el método indirecto se da la posibilidad de ajustar tasas para varias causas al mismo


tiempo, utilizando unas tasas estándar diferentes para cada causa.

- En los resultados del método indirecto se muestran los casos observados y los casos
esperados.

Novedades de la versión 4.0.1 con respecto a la versión 4.0:

- Se corrige el siguiente error en el método directo: los intervalos de confianza de las tasas
ajustadas se calculan utilizando un método que se basa en la distribución gamma. Para
determinados valores de los parámetros no es posible calcular la inversa de la función de
distribución, lo que implica que no se pueden obtener los límites del intervalo de
confianza. Para solucionar el problema se incorpora un nuevo método de estimación del
intervalo de confianza, basado en la aproximación de Byar, que se utiliza solo en el caso
de que falle la aproximación gamma. Cuando esto sucede, se indica en los resultados.
Además, se incluye en el anexo de fórmulas de la ayuda del módulo la descripción del
método basado en la aproximación de Byar.

Novedades de la versión 4.1 con respecto a la versión 4.0.1:

- Se corrigen los siguientes errores:


- No se permitía que la suma de casos de una población fuese cero, ni en el método
directo ni en el indirecto.
- Método directo: con algunos datos se obtenían tasas ajustadas negativas.

http://dxsp.sergas.es 13
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas

Anexo 2: Fórmulas del módulo de ajuste de tasas

Esquema del módulo

1. Método directo
2. Método indirecto

http://dxsp.sergas.es 14
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas

1.- MÉTODO DIRECTO

Tasa bruta:
m
 cj
j1 c
t m

p
 pj
j1

Tasa estandarizada [Breslow & Day (1987, p. 52-54)]:


m p ej
t est   pe t j
j 1

Donde:
 m es el número de intervalos de la variable por la que se ajusta,
 cj es el número de casos en el j-ésimo intervalo, j=1,...,m,
m
 c   c j es el número total de casos,
j1

 pj es la población del j-ésimo intervalo, j=1,...,m,


m
 p   p j es la población total,
j1

 pej es la población estándar del j-ésimo intervalo, j=1,...,m,


m
 p e   p ej es la población estándar total,
j1

cj
 tj  es la tasa específica del j-ésimo intervalo, j=1,...,m,
pj

Intervalo de confianza (método gamma) de nivel (1-)% [Fay & Feuer (1997)]:

    
IC   G1 1   , G2 1  1   
 2  2 

Intervalo de confianza (aproximación de Byar) de nivel (1-)% [Breslow & Day (1987, p. 69)]:

 c c c c 
IC   t est  I S , t est  S S
 c c 

http://dxsp.sergas.es 15
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas

Donde:
 1- es el nivel de confianza,
 G1 es la función de distribución gamma con parámetros a1 y b1:
2
t est S2
 a1  y b1 
S2 t est
2
 p ej  t j
m
 S  Var t est    
2

j  1 p e  p j

 G2 es la función de distribución gamma con parámetros a2 y b2:

 a2 
test  wM 2 y b2 
S 2  wM 2

S 2  wM
2
t est  wM
 wM  maxw1 ,..., wm 

pej 1
 wj  , j=1, …, m
pe p j
m
 c   c j es el número total de casos,
j1

3 3
 1 z 1 2   1 z 1 
 cI  c 1   y c S  c  1 1   2 
,

 9 c 3 c 


 9  c  1  3 c  1 

 z1  es el percentil de la distribución normal estándar, N(0,1), que deja a la
2

izquierda una cola de probabilidad 1-/2.

Nota: Epidat 4 calcula por defecto el intervalo de confianza basado en la distribución


gamma; cuando este método no se puede aplicar, entonces utiliza la aproximación de Byar.

2.- MÉTODO INDIRECTO [Breslow & Day (1987, p. 65-71)]


Casos esperados:
m
CE   t ej p j
j1

Razón de mortalidad estandarizada:


CO
RME   100
CE

http://dxsp.sergas.es 16
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas

Intervalo de confianza (aproximación de Byar) con nivel de confianza (1-)%:


3
CO  1 z1 
2 
Límite inferior: RMEI  1   100
CE  9CO 3 CO 
 
3
CO  1  1 z1  
Límite superior: RME S  1  2   100
CE  9CO  1 3 CO  1 
 
Donde:
 m es el número de intervalos,
 CO es el número de casos observados,
 CE es el número de casos esperados,
 tej es la tasa estándar específica del j-ésimo intervalo, j=1,...,m,
 pj es la población del j-ésimo intervalo, j=1,...,m,
 z1  es el percentil de la distribución normal estándar, N(0,1), que deja a la
2

izquierda una cola de probabilidad 1-/2,


 1- es el nivel de confianza.

http://dxsp.sergas.es 17
soporte.epidat@sergas.es
Epidat 4: Ayuda de Ajuste de tasas. Octubre 2014. Anexo 2: fórmulas

Bibliografía

- Breslow NE, Day NE. Statistical methods in cancer research. Vol II. The design and analysis
of cohort studies. Lyon: IARC; 1987.

- Fay MP, Feuer EJ. Confidence intervals for directly standardized rates: a method based on
the gamma distribution. Stat Med.1997 Apr 15;16(7):791-801.

http://dxsp.sergas.es 18
soporte.epidat@sergas.es
CAPITULO XV

DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUALITATIVA

Razones, proporciones, porcentajes y tasas


15.1. Presentación tabular.

Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la
primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el
número de individuos observados. Generalmente el cuadro se acompaña de una primera columna,
en la cual se ponen los porcentajes respectivos.
(Ver cuadro 84)

15.2. Presentación gráfica

Pueden utilizarse el diagnóstico de barras o de sectores, pero la escala tiene muchas


subdivisiones, siempre debe preferirse el número. En ellos pueden respetarse los números
absolutos o los porcentajes respectivos. El grafico quedará igual en ambos casos, cuando
solamente la numeración de la escala utilizada. (Ver gráfico 101 y 105)

15.3. Análisis: frecuencias relativas.

El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general
de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices,
porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo.
Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia
que comprender su utilización y aplicaciones.

La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más
fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comprobación de diversos resultados.

El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor
para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada
localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben
proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario
relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio
en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella
deben haber más o menos 5 veces más defunciones.

15.3.1. Razones y Proporciones.

Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:

Hombres 297
Mujeres 99
Total 396

Aunque es evidente el predominio de los hombres, la intensidad de esa relación se apreciará


mejor, al dividir el número de hombres por el de mujeres, con lo cual podemos decir, que hay 3
hombres por cada mujer en dicho grupo (297/99=3).
Puede también dividirse el número de hombres por la totalidad de personas en el grupo (297/396 =
¾ = 75%), con lo cual se evidencia fácilmente, que cada 4 estudiantes, tres son de sexo
masculino, es decir, que hay 3 hombres por cada mujer en dicho grupo de estudiantes.

En el primer caso se ha relacionado el número de individuos en la categoría con el número de


individuos la otra. En el segundo caso se ha relacionado el número de observaciones de una
categoría, con el total general del grupo. La primera de tales frecuencias se denomina una “razón”;
la segunda se llama una “proporción” cuando la serie que se estudia consta solamente de dos
categorías hombres y mujeres o enfermos y sanos - puede usarse según las referencias una razón
o una proporción -. Si la serie consta de tres o más categorías, no hay una manera única de
calcular una razón en tales casos es preferible utilizar las proporciones.

15.3.2. Porcentajes.

Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes,
basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el
resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 =
75%) y el 25% mujeres: (99/396) x 100 = 25%.

El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente
2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a
100.

Note que si se tienen los 2 siguiente grupos de personas:

Hombres 297 Hombres 255


Mujeres 99 Mujeres 85

Total 396 Total 340

El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los
dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de
su cálculo.

En segundo lugar, a través de los porcentajes se puede resumir la probabilidad de la ocurrencia de


un hecho. En la ilustración anterior por ejemplo, hay un 75% de probabilidad de que una persona
sea de sexo masculino (297/396) y un 25% de que sea de sexo femenino (99/396)

15.3.3. Tasas

En toda la población es importante conocer su composición y los cambios que acontecen en ella.
Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten
analizar completamente la información disponible. Supóngase que en la población de San Pedro
los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:

Cuadro 133
Accidentes automovilísticos según sexo de los conductores.
San Pedro, 1961

Sexo de los conductores Frecuencia Porcentajes


Hombres 400 80%
Mujeres 100 20%
Total 500 100%
La información anterior es desde luego útil. Los porcentajes calculados señalan, entre otras cosa,
que al ocurrir un accidente hay un 80% de probabilidad que sea un hombre quien conduce, lo cual
facilitará ciertas decisiones administrativas. Así por ejemplo, si se está planeando construir un
hospital para atender conductores heridos o una cárcel para detenerlos, los porcentajes nos
indican que aproximadamente un 80% de las camas hospitalarias o de las celdas carcelarias
deben ser para hombres.

Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres
tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean
más cuidadosas al manejar.

Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de
que acontezca determinado fenómeno debe relacionarse con la población en la cual puede
acontecer. Tales relaciones reciben el nombre general de tasas.

Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió
determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente
dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el
fenómeno descrito en el numerador:

Número de veces que ocurrió determinado fenómeno


n
x 10
Población en la cual ocurrió el fenómeno

Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será
menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000,
10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en
1960 fue de 9 por 1000 que recordar que es 0.009.

Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera.
Entre ellas, tienen importancia en Medicina:

1. Las tasas de mortalidad: las cuales expresan el riesgo de morir.


2. Las tasas de morbilidad: que expresan el riesgo de adquirir determinadas enfermedades.
3. Las tasas de natalidad: que miden el crecimiento de las poblaciones.
4. Las tasas de letalidad: que indican cuan graves son las enfermedades.

Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de
sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas
veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas
en particular.

Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas
crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se
denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas
por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica
como se quiera, desde que se disponga de los datos básicos necesarios.

Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo,
para que el denominador sea correcto.

Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y
de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de
habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población
especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues
se considera, que dicha población es intermedia entre la de principios y final de año.
15.3.3.1. Principales Tasas.

Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el
cálculo de las más comúnmente empleadas:

Defunciones por todas las causas


y en todas las edades ocurridas
en determinada región durante
determinado año.
Tasa Cruda de Mortalidad: x 1000
Población de la mencionada región
para el 1° de Julio del año
que se estudia

Ejemplo: La población de Venezuela para el 1-7-64 se estimó en 7.600.000 habitantes y


en dicho año ocurrieron en el país un total de 55.466 defunciones. La tasa cruda de mortalidad fue
por lo tanto:

55.466 x 1.000
= 7.3 por 1.000 habitantes
7.600.000

Total de nacimientos vivos habidos


en determinada región
durante determinado año
Tasa Cruda de Natalidad = x 1.000
Población de la mencionada región
para el 1° de Julio del año
que se estudia

En 1961 se registraron en Venezuela 340.433 nacimientos vivos, y la población se estimó en


7.600.000 habitantes. Su tasa cruda de natalidad fue por consiguiente:

340.433 x 1.000
= 44,7 por 1.000 habitantes
7.600.000

Tasa Cruda de Morbilidad: Habitualmente no se calcula, ya que salvo el caso de


encuestas especiales, es imposible conocer la morbilidad total de una
región.

Defunciones por determinada causa habidas en


determinada región durante el año en estudio
Tasa de Mortalidad x 100.000
Específica por causa:
Población de la mencionada región para el 1°
de Julio del año respectivo

Ejemplo: Durante 1961 ocurrieron en Venezuela 1.312 defunciones por Tuberculosis.


Como la población del país dicho año se estimó en 7.600.000 habitantes, la tasa de mortalidad
específica por Tuberculosis fue:
1.312 x 100.000
= 17,3 por 100.000 habitantes
7.600.000

Defunciones por todas las causas en


determinado grupo de edad
Tasas de Mortalidad x 1.000
específica por edades: Población del correspondiente grupo de
edad para el 1° de Julio del año estudiado

3.400.000
Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en
habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas
menores de 15 años. La tasa de mortalidad en menores de 15 años fue:

26.303 x 1.000
= 7,7 por 1.000
3.400.000

Defunciones habidas por determinada causa


en determinado grupo de edad
Tasa de Mortalidad x 100.000
Específica por causa
y por edades: Población del correspondiente grupo de edad
para el 1° de Julio del año de estudio.

Ejemplo: En 1961 ocurrieron en Venezuela 140 defunciones por Tuberculosis en el grupo de


menores de 15 años. Como la población estimada para esas edades, fue de 3.400.000 habitantes,
la tasa de mortalidad específica por Tuberculosis para menores de 15 años fue:

140 x 100.000
= 4,1 por 100.000
3.400.000

Número de enfermos por determinada causa


conocidos en determinada región durante el año
Tasa de Morbilidad x 100.000
Específica por causa: Población de la región para el 1° de Julio del
año en estudio

Ejemplo: En 1961 se conocieron en Venezuela 8.242 casos de Tuberculosis Pulmonar. Como la


población del país era de 7.600.000 la tasa de morbilidad por Tuberculosis fue:

8.242 x 100.000
= 108,4 por 100.000
7.600.000

Defunciones por determinada causa


Tasa de Letalidad: x 100
Casos conocidos de la enfermedad en
el mismo año y en la misma región
Ejemplo: En 1961 se conocieron en el país 861 casos de Fiebre Tifoidea, de los cuales fallecieron
26. La tasa de letalidad para la Fiebre Tifoidea fue por lo tanto:

26 100 = 3.0%
861

Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no
puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos
se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna.

La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han
cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de
niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos
censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos
ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad
infantil se calcula mediante la fórmula siguiente:

Tasa de Mortalidad Infantil = Defunciones de niños menores de un año x 1.000


Nacimientos vivos

Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de
1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de
mortalidad infantil fue:

18.137 x 1.000 = 53.2 por 1.000 nacimientos vivos


340.433

Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año.

b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable
directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas
parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos,
quedando la tasa:

Tasa Mortalidad Materna: Defunciones Maternas 1.000


Nacimientos Vivos

Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo,
parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad
materna fue:

378 x 1.000 = 1.1 por 1.000 nacimientos vivos.


340.433
TEMAS DE ACTUALIDAD

2
1
Juan O. Talavera, Investigación clínica IV.
Rodolfo Rivas-Ruiz
Pertinencia de la
prueba estadística
1Centro de Adiestramiento en Investigación Clínica,
Coordinación de Investigación en Salud,
2 Servicio de Escolares y Adolescentes, Hospital de Pediatría

Comunicación con: Juan O. Talavera


Autores 1 y 2, Centro Médico Nacional Siglo XXI, Correo electrónico: jotalaverap@uaemex.mx
Instituto Mexicano del Seguro Social, Distrito Federal, México

Resumen Summary
Cuando observamos la diferencia entre dos terapias o la aso- When we look at the difference between two therapies or the as-
ciación de un factor de riesgo o indicador pronóstico con su sociation of a risk factor or prognostic indicator with its outcome,
desenlace, tenemos que evaluar la certeza del resultado. Esta we need to evaluate the accuracy of the result. This assessment
evaluación se basa en un juicio que utiliza información relacio- is based on a judgment that uses information about the study
nada con el diseño del estudio y el manejo estadístico de la in- design and statistical management of the information. This
formación. En este artículo se menciona específicamente la paper specifically mentions the relevance of the statistical test
pertinencia de la prueba estadística seleccionada. Las pruebas selected. Statistical tests are chosen mainly from two characte-
estadísticas se eligen a partir de dos características: el objetivo ristics: the objective of the study and type of variables. The ob-
del estudio y el tipo de variables. El objetivo se puede dividir en jective can be divided into three test groups: a) those in which you
tres grupos de pruebas: a) en las que se desea mostrar diferen- want to show differences between groups or inside a group be-
cias entre grupos, o de un mismo grupo antes y después de una fore and after a maneuver, b) those that seek to show the rela-
maniobra; b) en las que se busca mostrar la relación entre las tionship (correlation) between variables, and c) those that aim to
variables; c) en las que se pretende predecir un desenlace. En predict an outcome. The types of variables are divided in two:
cuanto a los tipos de variables tenemos dos: las cuantitativas quantitative (continuous and discontinuous) and qualitative (ordi-
(continuas y discontinuas) y las cualitativas (ordinales y dico- nal and dichotomous). For example, if we seek to demonstra-
tómicas). Por ejemplo, si se busca demostrar diferencias en te differences in age (quantitative variable) among patients with
edad (variable cuantitativa), entre pacientes con lupus eritema- systemic lupus erythematosus (SLE) with and without neurological
toso sistémico, con y sin afección neurológica (dos grupos), la disease (two groups), the appropriate test is the “Student t test
prueba apropiada es la t de Student para muestras indepen- for independent samples”. But if the comparison is about the
dientes; pero si lo que se compara entre esos mismos grupos frequency of females (binomial variable), then the appropriate
es la frecuencia de mujeres (variable binomial), entonces la prue- statistical test is the χ2.
ba estadística pertinente es la χ2.

Palabras clave Key words


investigación biomédica biomedical research
proyectos de investigación research design
estadística y datos numéricos statistics and numerical data

Introducción 1. La planeación y el desarrollo del proceso que docu-


mentan dicha diferencia o asociación están libres de erro-
Cuando observamos la diferencia entre dos terapias o la asocia- res, o cuando menos éstos son de una magnitud menor
ción de un factor de riesgo o indicador pronóstico con su desen- que no modifican la orientación de la diferencia o de la
lace, surge un cuestionamiento: ¿el resultado es real? Decidir si asociación (es decir, diseño apropiado y ejecución ade-
es real requiere dos juicios que se complementan: cuada).

Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 401
Talavera JO et al. Pertinencia de la prueba estadística seleccionada

2. El tamaño de la muestra es suficiente para mantener la Cuadro I Peso de sujetos en estudio bajo dos esquemas
estabilidad de los datos y la prueba estadística es apro- terapéuticos
piada al objetivo.
Grupo A Grupo B
La planeación y el desarrollo del proceso se han mencio- 77 65
nado en los tres capítulos previos de esta serie. Por otra parte, 78 69
la estabilidad de los datos será discutida a detalle en un artícu- 80 77
82 78
lo posterior al hablar de tamaño de muestra y valor de p. 85 83.5 Promedio 85 83.5 Promedio
En este artículo discutiremos la pertinencia de la prueba es- 85 85.0 Mediana 85 85.0 Mediana
tadística seleccionada. Sin duda, este conocimiento nos permiti- 85 85.0 Moda 89 85.0 Moda
rá comprender con mayor precisión los resultados obtenidos en 86 93
estudios de investigación clínica y, por supuesto, incrementará 88 96
89 98
nuestra capacidad para hacer un uso adecuado de los mismos.
Las medidas de tendencia central son iguales, pero la dispersión de los
datos es distinta
Objetivo del estudio y tipo de variable
2. Mostrar relación (correlación) entre variables (por ejem-
Las pruebas estadísticas se eligen a partir de dos característi- plo, la creatinina sérica se eleva conforme disminuye la
cas: el objetivo del estudio y el tipo de variables. Dentro de función renal).
los objetivos del estudio podemos identificar tres: 3. Predecir un desenlace (por ejemplo, la probabilidad de
que el sujeto con vida sedentaria y sobrepeso desarrolle
1. Demostrar diferencias entre grupos o diferencias en un diabetes mellitus tipo 2).
mismo grupo antes y después de una maniobra (por ejem-
plo, el tratamiento con el fármaco A reduce en mayor pro- Frecuentemente se superponen los modelos, y es así que
porción la presión sanguínea que el tratamiento con el en ocasiones para demostrar diferencias entre dos grupos se
fármaco B). hace uso de modelos inicialmente identificados para prede-

30

25

20
Número

15

10

0
20 40 60 80 100

Edad
Media 59.79
Desviación estándar de 13.882. Dos desviaciones estándar a cada lado de la media reflejan 95 % de la población
Promedio de 59.79, con IC 95 % = 32.03-87.55

Figura 1 Histograma

402 Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405
Talavera JO et al. Pertinencia de la prueba estadística seleccionada

cir un desenlace; esto ocurre sobre todo cuando se requiere 1. Cuantitativas continuas y discontinuas o discretas: las pri-
ajustar la maniobra principal (fármaco A versus fármaco B) meras se caracterizan porque pueden tomar cualquier va-
por múltiples factores (edad, sexo, índice de masa corporal, lor a lo largo de un continuo (por ejemplo, talla 1.75 m).
etcétera). Pero también acontece el fenómeno opuesto, cuan- Por su lado, las discontinuas o discretas utilizan solo nú-
do se busca predecir un suceso que ocurrirá a futuro pero meros enteros (número de partos, 1, 2, 3…). En ambas, la
solo se cuenta con una o dos variables predictivas, en este distancia entre una unidad y otra a través de toda su esca-
caso se utiliza una prueba para demostrar diferencias. la es equidistante.
Es importante aclarar que la correlación básicamente sir- 2. Cualitativas: dentro de éstas se encuentran la ordinal y la
ve para ver la magnitud de la asociación entre variables, aun- dicotómica. La ordinal permite dar un orden a la caracte-
que debe quedar claro que no determina causalidad, de hecho rística en estudio, y a diferencia de las cuantitativas la
ninguna prueba estadística puede hacerlo, para ello se re- distancia entre dos categorías no es equidistante (por ejem-
quiere cubrir una serie de principios descritos por sir Austin plo, falla cardiaca grados I a IV). Las dicotómicas, como
Bradford Hill. su nombre lo dice, son en las que solo hay dos categorías,
Definir el tipo de variable resulta relevante debido a que que pueden ser binomiales (es una opción u otra, por ejem-
es el eje para seleccionar la prueba apropiada dependiendo plo, hombre o mujer) o nominales (se refiere a la presen-
del objetivo buscado. Dentro del tipo de variable existen dos cia o no de la característica, por ejemplo, vivo a seis meses,
grupos: sí o no).

34.13 %

13.59 %

2.14 %

0.13 %

Desviación estándar –3 –2 –1 0 +1 +2 +3

0.3413 0.3413
0.6826

0.4772 0.4772
Porcentajes
0.9554

0.4987 0.4987
0.9974

Figura 2 Curva de distribución normal

Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 403
Talavera JO et al. Pertinencia de la prueba estadística seleccionada

Cuadro II Selección de la prueba estadística conforme el objetivo y el tipo de variable

Demostrar diferencia Mostrar relación& Predecir 1 variable‡


Tipo variable Tipo muestra Dos grupos Tres grupos Dos variables Variable desenlace

Cuantitativa NR t Student* Anova 1 factor Pearson Regresión lineal


(distribución normal) R t Student** Anova 1 factor

NR U Mann-Whitney Kruskal-Wallis Spearman


Cualitativa ordinal
R Wilcoxon Friedman

NR χ2 (Fisher) χ2 Coeficiente phi Regresión logística/


Cualitativa dicotómica
R McNemar Curvas de supervivencia

NR = no relacionada, R = relacionada, R = medición de la variable en el mismo sujeto en dos tiempos distintos


* t de Student para muestras independientes
** t de Student para muestras relacionadas
&
Para la correlación entre 2 variables se utiliza la prueba de aquella en la escala inferior (en realidad ninguna escala es inferior, sin embargo, se han
ordenado de las cuantitativas continuas a las dicotómicas, pasando por las cuantitativas discontinuas y las ordinales).
‡ La variable predictiva puede ser cuantitativa, dicotómica u ordinal (estas últimas transformadas a variables tipo dummy)

Es importante mencionar el manejo que sufrirá el tipo de tipo de medida de resumen más utilizado para las varia-
variable durante el proceso de análisis, empezando por la re- bles cuantitativas que no siguen una distribución normal
colección de datos en forma “cruda”, lo que significa que y para variables ordinales.
solo se trata de una compilación de información de un grupo c) Moda: se refiere al valor que más se repite en una distribución.
de sujetos. Para que estos datos tengan un significado de uti-
lidad se necesita organizarlos y resumirlos. La forma más sim- 2. Medidas de dispersión más comunes.
ple de organización son las tablas de distribución de frecuencia,
sin embargo, en ocasiones es más fácil entender su represen- a) Desviación estándar: refleja la variación entre todo el con-
tación gráfica a través de un histograma o polígono de fre- junto de datos y se utiliza cuando éstos siguen una distri-
cuencias. No obstante la utilidad de esta información, se bución normal.
necesita información cuantitativa de los datos recolectados, b) Percentil: describe la posición de un valor de la distribu-
es decir, se requieren índices numéricos que reflejen las dis- ción. Se utiliza para variables cuantitativas que no siguen
tintas distribuciones de probabilidad, cuya función primor- una distribución normal y para variables de tipo ordinal.
dial es modelar el comportamiento de una gran variedad de c) Rango: diferencia entre el valor más alto y el valor más
fenómenos biológicos. Dentro de estos índices numéricos en- bajo de la distribución.
contramos las medidas de tendencia central y las medidas de
dispersión. En investigación clínica, como en muchos otros fenóme-
nos de la vida real, los datos más frecuentemente analizados
1. Medidas de tendencia central (cuadro I y figura 1). son los cuantitativos, que en el más de los casos muestran
una distribución gaussiana, también conocida como distribu-
a) Media: es la suma de un conjunto de datos divididos por el ción normal, que se caracteriza por tener forma acampanada,
número total de ellos. El símbolo para representar la media ser simétrica respecto a su media, tener valores de frecuencia
de una población es la letra griega mu (μ), y la media de decrecientes conforme se alejan de la media y que nunca lle-
una muestra está representada por ,. Es la medida de resu- gan a cero (asintótica), la moda y la mediana son iguales a la
men más utilizada para variables cuantitativas. media, aproximadamente 68 % de los datos se encuentran en
b) Mediana: es el valor que se encuentra exactamente a la ± 1 desviación estándar respecto a su media y 95 % en ± 2
mitad del total de los datos. La mediana divide una distri- desviaciones estándar (figura 2). Es así que si la agrupación
bución de datos ordenados en exactamente dos partes igua- de datos son de tipo cuantitativo con distribución normal, su
les. La ventaja de la mediana como medida de tendencia medida de resumen será la media y su medida de dispersión,
central es que ésta no se ve afectada por el valor de datos la desviación estándar. Sin embargo, si su distribución no es
extremos, fenómeno que sí ocurre con la media. Es el gaussiana, al igual que para una variable de tipo ordinal, su

404 Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405
Talavera JO et al. Pertinencia de la prueba estadística seleccionada

medida de resumen será la mediana y su medida de disper- prueba apropiada es la t de Student para muestras indepen-
sión, el percentil o rango. Finalmente, habrá que mencionar dientes. Pero si lo que se compara entre esos mismos es la
que para las variables dicotómicas su medida de resumen es frecuencia de mujeres (variable binomial), entonces la prue-
la frecuencia y su medida de dispersión la desviación están- ba estadística pertinente es la χ2. Si lo que se compara entre
dar (su distribución se acerca a la normal). los dos grupos es su grado de actividad lúpica (escala ordinal),
la prueba estadística pertinente es la U de Mann-Whitney.
Por otro lado, si lo que nos muestran es la magnitud de la
Pertinencia de la prueba estadística asociación (relación) entre edad (variable cuantitativa con
distribución normal) y el grado de actividad lúpica (variable
Una vez que conocemos nuestro objetivo y las características de ordinal), la prueba pertinente es la r de Spearman. Finalmen-
nuestros datos (tipo de variable) podemos considerar la pertinen- te, si lo que se busca es predecir el peso de un niño (variable
cia de la prueba estadística (cuadro II). Sin embargo, existen dos cuantitativa) a partir de la edad (variable cuantitativa), tipo
consideraciones más cuando el objetivo sea demostrar diferencia: de alimentación (variable ordinal: buena, regular o mala) y el
sexo (dicotómica), la prueba pertinente es la regresión lineal.
1. Si se trata de un estudio donde se compara el valor de un Pero si lo que se quiere es predecir la probabilidad de infarto
dato antes y después de una maniobra ya sea observacional (dicotómica nominal) en los siguientes 10 años a partir de la
o experimental, se le conoce como de muestras relaciona- edad (cuantitativa), el riesgo aterogénico (ordinal, bajo, me-
das, pero si se trata de la comparación de datos entre dis- dio y alto) y el sexo (dicotómica binomial), la prueba perti-
tintos grupos se le denomina de muestras no relacionadas. nente es la regresión logística múltiple.
2. Si se trata de comparación entre distintos grupos es nece-
sario determinar si será entre dos o más grupos. Por último, esperamos que el presente artículo permita
entender la razón de la selección de las pruebas estadísticas
Ya con la información completa, con el cuadro II pode- más empleadas en la investigación en salud y que, de igual
mos verificar si la selección de la prueba estadística fue la manera, sirva de guía a quienes se inician en la estadística.
adecuado conforme la variable y el objetivo. Por ejemplo, si No es suficiente para definir si los resultados obtenidos son
se compara la edad (variable cuantitativa con distribución reales, será necesario tener en consideración el diseño y eje-
normal en este caso), entre pacientes con lupus eritematoso cución del estudio y la estabilidad de los datos, pero este úl-
sistémico, con y sin afección neurológica (dos grupos), la timo aspecto merece ser analizado en otro apartado.

Bibliografía 5. Feinstein AR. Principles of medical statistics. New York,


NY: Chapman and Hall/CRC; 2002.
1. Armitage P, Berry G, Matthews JNS. Statistical methods 6. Le Chap T. Introductory biostatistics. Hoboken, NJ: New
in medical research. 4th ed. Massachusetts, MA: Jersey: John Wiley and Sons; 2003.
Blackwell Publishing; 2002. 7. Peat J, Barton B. Medical statistics. A guide to data analy-
2. Bland M. Introduction to medical statistics. 3rd ed. Oxford: sis and critical appraisal. Malden, MA: Blackwell Publis-
Oxford University Press; 2003. hing; 2005.
3. Feinstein AR. Clinical epidemiology. The architecture of 8. Portney LG, Watkins MP. Foundations of clinical research:
clinical research. Philadelphia, PA: W.B. Saunders; 1985. applications to practice. 3rd ed. Saddle River, NJ:
4. Feinstein AR. Multivariable analysis: an introduction. New Pearson/Prentice Hall; 2009.
Haven, CT: Yale University Press; 1996.

Rev Med Inst Mex Seguro Soc 2011; 49 (4): 401-405 405
Rev Chil Anest 2014; 43: 116-121

LA DISTRIBUCIÓN NORMAL

Jorge Dagnino S.1

tabla, gráfica o expresión matemática que indique


• Una gran cantidad de fenómenos o variables los valores que puede tomar una variable aleato-
biológicas, psicológicas o sociales, tienen una ria se le conoce como la distribución de probabi-
distribución Normal. lidad de esa variable, si la variable es discreta, o
• La distribución normal es simétrica, la media, de una densidad de probabilidades si es continua.
moda y mediana coinciden, y es descrita com- Estas distribuciones, a pesar de ser teóricas, tienen
pletamente por sus dos parámetros mu (µ) y gran importancia práctica. Matemáticamente los
sigma (σ). conceptos de distribución de probabilidades y de
• La distibución normal estándar es aquella que variable aleatoria están íntimamente interrelacio-
tiene una media de 0 y una desviación están- nados: una variable aleatoria tiene una distribución
dar de 1. El área bajo la curva puede ser cal- de probabilidades y viceversa.
culada por la distancia desde la media; media Afortunadamente, y probablemente por razones
± 1,96 DS encierran entre sí el 95% y dejan no fortuitas, la mayoría de los fenómenos naturales
fuera el 5%, 2,5% a cada lado de la curva. -biológicos, psicológicos o sociales- se ciñen exac-
• El teorema del límite central permite el cálcu- ta o aproximadamente a unas pocas leyes o distri-
lo del error estándar de la media y el de inter- buciones de probabilidad teóricas siendo cada una
valos de confianza. de ellas, en realidad, una familia de leyes. Las tres
más importantes son las distribuciones: normal, bi-
nomial y de Poisson. La primera es de cantidades
continuas, las otras dos de discretas. En la prepa-
Raramente se puede estudiar todo el universo ración de este artículo se incluyeron algunas fór-
para realizar estudios experimentales u observacio- mulas, pensando que ayudan en la explicación, es-
nales, por razones prácticas o económicas, por lo perando que la aparición de integrales y potencias,
que es necesario obtener los datos de una muestra muchas “pies y mues”, no predispongan al lector
de individuos pertenecientes a esa población. Esa contra el texto. Para disminuir su posible impacto
información se usa luego para hacer inferencias negativo, vale la pena destacar que no es necesaria
sobre esa población, que es lo que generalmente su memorización y tampoco usarlas en esta era ci-
interesa. Sin embargo, la relación entre la muestra bernética.
y la población es incierta y es necesario estimar
esa incertidumbre. Para ello es indispensable tener
una idea de las distribuciones de probabilidades PROBLEMAS DE NOMBRES Y LETRAS
teóricas; los modelos de distribución que puede
seguir la variable aleatoria de interés. Por variable La distribución normal es la más importante por
aleatoria se entiende toda función cuyos valores su simplicidad, porque aparece frecuentemente en
numéricos se producen al azar, tomando valores la realidad y por una propiedad especial llamada
variables que tienen diversas probabilidades de Teorema del Límite Central. La comprensión de su
ocurrir en una población. Por ejemplo, la estatura naturaleza y su papel en la inferencia estadística es
de una población es una variable aleatoria, siendo esencial. Es una pena la denominación de normal
variable (las estaturas son variables y numéricas) pues no es más “normal” que las otras y ello cau-
y aleatoria pues no se puede predecir cuánto va a sa frecuentes confusiones, sobre todo en medicina,
medir un individuo que tomemos al azar. A toda donde normal, es más bien lo que no es patológico.

1
Profesor Titular, División de Anestesiología, Pontificia Universidad Católica de Chile.

116
LA DISTRIBUCIÓN NORMAL

Para evitar la confusión muchos usan Normal con Las fórmulas para el cálculo de los parámetros
mayúsculas y aquí haremos lo mismo; otros hablan poblacionales de la distribución Normal son senci-
de distribución gaussiana o de campana de Gauss llas:
a pesar que fue Abraham de Moivre el primero en
describirla y Gauss solo la popularizó. Mediana:
La distribución Normal:
1) Tiene forma de campana.
2) Es simétrica.
3) Alcanza su máximo en µ (la media). Donde la letra griega Σ, sigma mayúscula, in-
4) La media es también la moda y la mediana. dica la sumatoria de los valores individuales de X,
5) Es asintótica al eje de las abscisas y, como no lo cifra que es dividida por el número de mediciones.
toca nunca, cualquier valor de X entre -infinito La variabilidad de los valores se calcula como
y +infinito es teóricamente posible. un promedio de las desviaciones con respecto a la
6) La posición relativa en el eje de las abscisas lo media. Como ya vimos, ya que la mitad de los va-
determina µ (más a la derecha mientras mayor lores son mayores que la media y la otra mitad son
sea) y su mayor o menor aplastamiento o ancho menores, el resultado final sería 0. Para eliminar el
lo determina σ (la desviación estándar), siendo signo negativo de la mitad menor, se eleva al cua-
más aplanada mientras mayor sea su magnitud drado cada desviación. Este promedio de desvia-
(Figura 1). Esta característica se denomina cur- ciones elevadas al cuadrado desde la media es la
tosis (del griego, curvado): angosta o leptocúrti- varianza.
ca (literalmente, curva angosta), media o meso-
cúrtica y ensanchada o platicúrtica (literalmen- Varianza:
te, curva ancha) (Figura 2). La altura de la curva
carece de importancia o uso en la práctica.

Figura 1. Curvas de distribuciones


Normales con igual media y distinta
varianza (las dos de la izquierda) y
de otras dos con distinta media (µ1 y
µ2) e igual varianza (s2) (la izquierda
comparada con la derecha). La media
µ divide a la distribución en dos mita-
des y la distancia entre ésta y el punto
de inflexión, donde la curva cambia de
convexa a cóncava, es el índice de la
dispersión de los valores en torno a la
media.

Figura 2. Características de curvas Normales: curtosis.

Rev Chil Anest 2014; 43: 116-121 117


J. Dagnino S.

La varianza se expresa con el cuadrado de las calcular separadamente para cada valor. Sin embar-
unidades de la medición (cm2, kg2, mmHg2) y, ade- go, pueden ser puestas en una escala comparable
más, es más difícil de visualizar e interpretar por el usando equivalentes estandarizados. Como se vio,
hecho de ser un cuadrado. Por ello es más común cualquier posición en el eje horizontal puede ser
que se use la desviación estándar: la raíz cuadrada descrita como una distancia expresada en desvia-
de la varianza. ciones estándar desde la media con valor negativo
o positivo. Esta unidad se conoce como desviación
Desviación estándar: Normal estándar o puntaje z. Es equivalente a una
distribución Normal con una media de 0 y una des-
viación estándar de 1, una distribución Normal es-
pecial conocida como Normal estándar o Normal
típica.
La transformación requerida es:

Cada valor en el eje de las ordenadas en rela-


ción con cada valor en el eje de las abscisas puede
ser calculado con esta ecuación que describe la cur-
va Normal completa:
donde Xi es un número observado de una variable
Curva Normal: distribuida Normalmente con una media µ y una
desviación estándar σ.
La ecuación de la curva Normal adquiere una
forma más simple al usar z en vez de X:

Área bajo la curva Normal estándar:


Esta fórmula indica que solo se necesita cono-
cer los valores de µ y σ, o bien buenas estimaciones
de ellos como veremos luego, para calcular el valor
de Y ante cualquier valor de X.

En las tablas de z, se pueden leer las propor-


DISTRibuciÓn normal estÁndar o ciones en que esa área total es dividida en dos por
tÍpica un valor de z. Con ellas podemos calcular la pro-
porción de personas o de valores que esperamos
Si pensamos que la distribución Normal es una tengan cifras por sobre o por debajo de un valor
distribución de probabilidades o, más propiamen- determinado. Por ejemplo, valores de presión arte-
te, una densidad de probabilidades, el área bajo la rial media, variable que se distribuye normalmente
curva es igual a uno y como es una distribución si- en una población, para la cual estimamos valores
métrica, la mitad del área está a la izquierda de la de µ y σ de 100 y de 15, y queremos saber qué pro-
media y la otra mitad a la derecha. Para calcular las porción de la población esperamos tengan valores
probabilidades en relación a cualquier valor de X ≤ 120. Usando la fórmula anterior:
basta con calcular el área:

Área bajo la curva normal:

Este valor de z corresponde a una proporción de


0,9082 (Figura 3): estimamos que el 90,82 % de la
población tiene una PAM ≤ 120.
Hay tablas, que aparecen en el apéndice de to-
dos los libros de estadística, en las cuales se ha he-
cho esta integración. Como cada variable observa- ESTIMACIONES DE µ y σ
da tiene valores individuales de X, probablemente
todos diferentes y expresados en unidades de medi- Hemos dicho que buena parte de la estructura
ción distintas, sería necesario disponer de tablas o teórica de la bioestadística y sus cálculos matemáti-

118 Rev Chil Anest 2014; 43: 116-121


LA DISTRIBUCIÓN NORMAL

cos se basa en la existencia de poblaciones con una Desviación estándar de la muestra:


distribución teórica conocida y que para cualquier
variable existen valores que se denominan paráme-
tros. Estos raramente se conocen en su real dimen-
sión por lo que nos conformamos con estimaciones
de ellos a través de los cálculos hechos con los va-
lores obtenidos en una muestra. Los primeros, los
parámetros de una población, son denominados con Vale la pena notar algunos cambios además de
letras griegas; los segundos, parámetros calculados los señalados. En vez de N, el tamaño de la po-
en la muestra, con letras romanas. Así es una esti- blación, se escribe n para referirse al tamaño de la
mación de µ y s una estimación de σ. Mientras más muestra. Además, en las fórmulas de variabilidad,
grande es la muestra por la cual se calcularon estas varianza y desviación estándar, la media de la po-
estimaciones, más cercanas serán a los verdaderos blación ha sido substituida por su estimación en la
parámetros. muestra y el promedio se calcula dividiendo por
Las fórmulas para calcular y s son ligeramente n-1 en vez de simplemente por n. Esto, que puede
distintas: causar confusión, no es otra cosa que la compen-
sación por el hecho que la estimación de la varia-
Media de la muestra: bilidad siempre tiende a subestimar aquella de la
población.

ERROR ESTÁNDAR Y TEOREMA


DEL LÍMITE CENTRAL
Varianza de la muestra:
La media de una muestra aleatoria es improba-
ble que sea idéntica a la media de la población. Si
bien es la mejor estimación que tenemos, y la única,
es indispensable tener una manera de evaluar cuan

Figura 3. Curva Normal estándar o típica. Se señalan las proporciones del área bajo la curva por sobre o debajo de
distintos valores de z. Como el área bajo la curva es igual a uno, las proporciones indican también probabilidad. Nótese
que para valores negativos de z sólo es necesario contar el límite hacia la izquierda de la media (D y E que corresponden
al valor negativo de z en B y C). También se puede observar en F que valores de z de + 1,96 o de -1,96 separan áreas
del 2,5% del total. Este detalle tiene especial importancia a la hora de discutir la inferencia estadística, los valores de p
y la significación estadística.

Rev Chil Anest 2014; 43: 116-121 119


J. Dagnino S.

buena es esa estimación. Una aproximación es su- estará dentro de 1,96 errores estándar por sobre o
poner que podríamos obtener una serie grande de debajo de la media de nuestra muestra. Es evidente
muestras aleatorias de un determinado tamaño de que mientras mayor sea el tamaño de la muestra,
esa población. Matemáticamente se conoce como más pequeño es el error estándar y menor el rango
el teorema del límite central, y se puede demos- entre los límites de confianza.
trar que la distribución de las medias de esas mues- Se debe recalcar que el error estándar no es una
tras tienen las siguientes características: medida de la variabilidad de la muestra y no debe ser
usado con ese fin. Este es uno de los errores más fre-
1) La distribución de todas las medias de las mu- cuentemente detectados en la literatura médica, ya sea
chas muestras tomadas es Normal si la distri- por ignorancia o premeditadamente para dar la impre-
bución de los valores en la población es Nor- sión de una menor imprecisión de las estimaciones.
mal. Además, la distribución de las medias de
las muestras será aproximadamente Normal, no
importando cual sea la distribución de la varia- TRANSFORMACIONES HACIA UNA
ble en la población, siempre que las muestras DISTRIBUCIÓN NORMAL
sean suficientemente grandes.
2) El promedio de las medias de todas las muestras El coeficiente de sesgo o bies es una medida
posibles es igual a la media de la población. de la simetría. Una distribución simétrica tiene un
3) La desviación estándar de las medias de las coeficiente igual a cero. Una distribución sesgada
muestras, que se conoce como el error estándar hacia la izquierda, lo más frecuente, tiene un co-
de la media, depende de la variabilidad de la eficiente positivo y una desviada hacia la derecha
población y del tamaño de las muestras. tiene un coeficiente negativo. Para valores que no
pueden ser negativos, se puede inferir que una dis-
tribución es sesgada cuando la desviación estándar
Error estándar: es mayor que la mitad de la media. Lo contrario no
es necesariamente así, pero un histograma revelará
rápidamente cuándo una distribución es sesgada.
Una posibilidad de describir una población sesgada
es usar parámetros distintos que los de una distri-
Como no conocemos σ, usamos la desviación
bución Normal simétrica, generalmente la mediana
estándar de la muestra para una estimación del
y percentiles y para la inferencia se usarán pruebas
error estándar:
no paramétricas. Otra alternativa es usar una trans-
formación de los datos de manera que tengan una
Estimación del error estándar:
distribución más simétrica. La transformación más
frecuente es la de obtener logaritmos de los datos. El
antilogaritmo de la media aritmética de los valores
transformados es la media geométrica. Si la trans-
formación fue exitosa en eliminar el sesgo, la media
Se puede también calcular los límites de con-
geométrica será similar a la mediana y algo menor
fianza de la estimación de la media:
que la media aritmética de los datos originales. No
tiene sentido obtener el antilogaritmo de la desvia-
Límites de confianza:
ción estándar de los valores transformados. No se
debe asumir que una distribución sesgada puede ha-
cerse más simétrica con una transformación como la
mencionada por lo que debe comprobarse el efecto
Esto es, esperamos, con un 95% de confianza mirando un histograma de los datos transformados
de estar en lo cierto, que la media de la población o bien con pruebas como la W de Shapiro-Wilk.

120 Rev Chil Anest 2014; 43: 116-121


LA DISTRIBUCIÓN NORMAL

REFERENCIAS Pocock SJ. Statistical guidelines for 1996; 312: 770.


contributors to medical journals. Br 9. Bland M. An Introduction to Medi-
1. Altman DG, Bland JM. Statistics Med J 1983; 286: 1489-1493. cal Statistics. 3rd Ed: Oxford: OUP,
notes: Detecting skewness from 5. Altman DG. Practical Statistics 2006.
summary information. BMJ 1996; for Medical Research. London: 10. Feinstein AR. On central tendency
313: 1200. Chapman&Hall,1991. and the meaning of mean of pH
2. Altman DG, Bland JM. Statistics 6. Bland JM, Altman DG. Standard values. Anesth Analg 1979; 58: 1-3.
notes: Quartiles, quintiles, centiles, deviations and standard errors. 11. Glantz SA. Primer of Biostatistics.
and other quantities. BMJ 1994; BMJ 2005; 331: 903. 3a edición, New York: McGraw-
309: 996. 7. Bland JM, Altman DG. Statistics Hill, 1992.
3. Altman DG, Bland JM. Statistics notes: Logarithms. BMJ 1996; 312: 12. Portney LG, Watkins MP. Founda-
notes: The normal distribution. 700. tions of Clinical Research. Appli-
BMJ 1995; 310: 298. 8. Bland JM, Altman DG. Statistics cations to practice. 2nd ed., Upper
4. Altman DG, Gore SM, Gardner MJ, notes: Transforming data. BMJ Saddle River: Prentice-Hall, 2000.

Correspondencia a:
Dr. Jorge Dagnino S.
jdagnino@med.puc.cl

Rev Chil Anest 2014; 43: 116-121 121


La curva normal
Vicente Manzano Arrondo – 2012-2014

La respuesta está en la historia


Abraham De Moivre nació en Francia en 1667, el mismo año en que su compatriota
Jean-Baptiste Denys realizó la primera transfusión de sangre a un humano y otro Jean-
Baptiste, esta vez de apellido Poquelin, pero conocido como Moliére, escribiera sus
últimas obras, ya enfermo.
De Moivre se formó con varios maestros, con los que mostró un excelente intelecto
para las matemáticas. Pero aproximadamente con 20 años tuvo que huir de Francia por
ser calvinista. Se refugió en Inglaterra. Aterrizó en terreno inglés más o menos cuando
Isaac Newton andaba publicando su famoso libro Principia Matemática (que, realmente se
llamaba Philosophiae Naturalis Principia Mathematica). De Moivre conoció a este famoso
inglés, pasado a la posteridad para muchos como la persona más inteligente de la
historia. Curiosa sentencia dedicada a quien fuera un puritano escrupuloso y un misógino
confeso que expiró orgullosamente virgen tras forzar comisiones para quitarse enemigos
de encima y hacer la vida imposible a mucha gente. Por su parte, De Moivre murió en el
exilio, tras décadas en el límite continuo de la pobreza, aunque reconocido como un genio
matemático por algunos de sus contemporáneos. Tenía nada menos que 87 años. Era
1754, el mismo año en que nació quien sería Luis XVI, el rey guillotinado en la revolución
francesa.
Como muchas personas con un intelecto muy desarrollado y algo de tiempo para
jugar con él (vivió pobre, pero no nació pobre), De Moivre se dedicó a cosas inútiles sin
cuyo desarrollo el conocimiento científico no habría llegado hasta donde hoy se encuentra
(esté donde esté ese sitio). Otros franceses aún más famosos que él, como Pascal o
Fermat (que murieron ambos cinco años antes de nacer De Moivre), desarrollaban la
teoría de las probabilidades con tareas tan serias como el juego de los dados o las
partidas de cartas. De Moivre seguía intrigado por estas cuestiones, además de por otras
muchas, observando un efecto gráfico curioso. Vamos a reproducirlo, más o menos.
Al lanzar una moneda al aire, hay la misma probabilidad de que aparezca cara que
cruz. Hablamos de una probabilidad de 1/2 (un medio o 0,5). Si se lanza una moneda una
vez, el gráfico de probabilidades para los posibles resultados muestra dos barras con la
misma altura: 0,5 para el resultado 1 cara (o 0 cruces), y 0,5 para el resultado 0 caras (es
decir, 1 cruz). Si lanzamos la moneda mil veces, cabría esperar una altura de 500
resultados para la cara y otra barra con igualmente 500 resultados para la cruz. Dado que
la probabilidad es muy suya, tal vez no sea 500 sino 498, por ejemplo; pero no nos
pondremos muy exigentes con ello.
Si se lanza la moneda dos veces, los resultados posibles son: 0, 1 y 2 para el
número de caras. Las barras ya no muestran la misma altura. Es natural: lo más probable
es que de dos lanzamientos salga una cara y una cruz (probabilidad de 0,5), antes que
dos caras (probabilidad de 0,25) o dos cruces (probabilidad de 0,25). Al lanzar la moneda
tres veces, los resultados posibles aumentan (0, 1, 2 o 3 caras). Las siguientes
representaciones gráficas (agrupadas como figura 1) muestran esa evolución. Al sumar la
altura de todas las barras, el resultado ha de ser siempre el mismo: 1, pues representa la
totalidad expresada como proporción. Si la expresáramos como porcentaje, el total sería
100%.
La forma que iba tomando la distribución ante los ojos y deducciones del
matemático era atractiva (ya ves, la gente se entretiene con cualquier cosa). De Moivre
observó que conforme aumenta el número de lanzamientos de monedas y hay más
resultados posibles para el número de caras (o de cruces, qué más da), la forma de la

1
representación gráfica se parecía cada vez más a una campana. Lo de menos era la
forma final, lo interesante era la percepción de que se aproximaba a algo. Eso es un
aliciente irresistible para un matemático. Y no se resistió.

0,5 0,5 0,4

0,4 0,4
0,3
0,3 0,3

0,2
→ 0,2
→ 0,2 →
0,1
0,1 0,1

0 0 0
0 1 0 1 2 0 1 2 3 4

→ → →

0 1 2 3 4 5 6 7 8

Figura 1. Evolución hacia la normal del lanzamiento de una moneda.

De Moivre se planteó identificar la función matemática a la que se aproxima la


distribución de probabilidades de n lanzamientos de una moneda. Y la encontró. Imagina
la de días que se llevó el hombre en esta tarea, en una época sin ordenadores ni
calculadoras de bolsillo, donde la gente escribía mojando una pluma de ave en un frasco
de cristal con tinta de calamar. El resultado es, para muchas personas, una función
matemática de extremada belleza. Para otras, tiene la misma hermosura que un caracol
comiendo perejil. Sea como fuere, esta curva inició con De Moivre una historia que llega
hasta ti. La función que encontró el calvinista exiliado suministra la altura de la curva para
cada valor del eje horizontal, que es:
1

1 1
= (e 2 π)
Z 2i 2
f (x) = =
√e

2
( X i − X̄ )
2
Zi
2

S
S e 2π

Para quien no maneje con soltura las expresiones matemáticas, la fórmula anterior
puede generarle cierto estupor. Observa, no obstante, que todos sus elementos deben
resultarte familiares. S es la desviación tipo de la variable X, de la que puedes ver también
la representación del valor concreto (Xi) y la media aritmética ( X̄ ). e es el llamado
número natural, cuyo valor tiene una cantidad infinita de dígitos decimales
(2,71828182845904...). Y π es el número pi, cuyo valor, también provisto de infinitos
dígitos decimales, viene a ser 3,14159265358979... A la derecha observas la misma
función, pero expresada para puntuaciones tipo en lugar de puntuaciones originales. En
ese caso, sabes que S=1 (por lo que desaparece) y el exponente de e se simplifica
mucho.

2
Al representar gráficamente la función que encontró De Moivre, se obtiene lo que
puedes observar en la figura 2.
Casi un siglo después, a inicios del XIX, un ya famoso matemático y físico, Gauss,
lanzó al estrellato la curva normal. Este genio del siglo utilizó la curva casi hasta en la
sopa, especialmente para estudiar los errores de medición en astronomía, un asunto que
había cautivado a Galileo, quien por cierto casi desarrolla la curva normal un siglo antes
que De Moivre. Tal fue el papel de Gauss en la fama y utilización de esta función, que es
normal referirse a ella como campana de Gauss. Antes que este alemán de lujo, otro
francés, temido por los estudiantes de probabilidad desde hace tres siglos, Laplace,
formalizó varios desarrollos a partir de la curva normal, por lo que también se la conoce
como curva de Laplace-Gauss. En fin, para todos los gustos.

Figura 2. Curva normal.

Por qué nos ha dado por la normal

Eso, poco más o menos, es lo que les escuchaba a los vecinos cuando yo era
pequeño. Ella le gritaba “¿Tú cuándo vas a ser normal?”. Él le respondía “¡Y dale con lo
normal!”.
La curva normal aparece con frecuencia y es difícil de ver, depende del contexto.
Existen muchas características que parecen comportarse según una ley normal, es decir,
cuya representación gráfica se asemeja a la curva del señor De Moivre. Un ejemplo
clásico es la altura. Si medimos la altura de una población numerosa, encontraremos que
existe una gran aglomeración en torno a una altura media o característica. Conforme nos
alejamos de ella, la frecuencia disminuye rápidamente, hasta que esa disminución
desacelera, es decir, sigue disminuyendo pero con más suavidad, perdiéndose en los
extremos. Otras muchas características no siguen muy bien una función normal, pero se
aproximan en el sentido de que muestran cierta simetría y agolpamiento central con
dispersión en los extremos.
No obstante, en sentido estricto, hay pocas variables que sigan realmente una ley
normal. Lo que sí ocurre más o menos según De Moivre - Laplace - Gauss es que
muchas distribuciones indirectas son normales. Ocurre con las distribuciones muestrales,
lo que comprobaremos en el monográfico siguiente sobre la estimación estadística.
Recuerda que una distribución muestral es un conjunto de datos donde cada uno de ellos
proviene de medir un mismo estadístico pero en muestras diferentes. Por ejemplo, la

3
distribución muestral de medias es el resultado de calcular la media aritmética en una
infinidad de muestras (imagina, por ejemplo, un millón de muestras, de cada una de las
cuales se ha calculado la media aritmética obteniendo un millón de resultados). Pues
bien, la forma con que se distribuyen esas medias es habitualmente normal. Lo mismo
ocurre con la distribución muestral de proporciones, etc. La facilidad con que los
estadísticos se distribuyen según una ley normal es una circunstancia que ha desarrollado
la estadística muchísimo. Y lo veremos en otra unidad, si es que quieres que nos
encontremos en ella. El modo en que De Moivre llegó a formalizar la curva normal es un
buen ejemplo de lo que estamos hablando: una distribución originalmente binomial (tipo
éxito/fracaso o cara/cruz) se aproxima a la normal conforme aumenta n, es decir, el
número de veces que se lanza la moneda al aire y se cuenta si ha salido cara o cruz.
Podemos pensar que la curva normal se llama así porque es así, es decir, normal,
habitual o frecuente. También nos vale pensar en que el nombre indica que la curva sirve
para normalizar o estandarizar determinados procedimientos en estadística. Y también es
cierto. Pero lo que va a ser normal es que vamos a hartarnos de utilizarla. Así que vete
acostumbrando.

Cosas tan curiosas como importantes

La curva normal tiene algunas características importantes. Veamos algunas de


ellas.
1. La curva puede variar de posición a lo largo del eje horizontal, es decir, puede estar
más hacia la izquierda o más hacia la derecha. Esa posición se representa bien por
la media aritmética. Esto le pasa a todos los conjuntos de datos. Lo peculiar de la
curva normal es que la media aritmética es una de las dos únicas características
que definen la función.
2. Manteniendo la misma escala, la curva puede ser más ancha o más estrecha,
según la desviación tipo de la variable que sigue ese comportamiento normal. En
esto tampoco hay nada de particular. Lo relevante es que se trata de la segunda
característica de la curva.

Ya no tiene más; es decir, conociendo la media y la desviación tipo, podemos


representarla sin necesidad de más información.
Las características 1 y 2 permiten concluir que si sabemos que un conjunto de
datos se distribuye según una ley normal y conocemos su media aritmética y su
desviación tipo, entonces conocemos todos los datos. Por ejemplo, si la variable X se
distribuye según una ley normal (o “es normal” o “sigue una distribución normal”) y tiene el
valor 90 como media aritmética y 20 de desviación tipo, entonces sabemos que un 15%
de la población tiene puntuaciones comprendidas entre X i = 70 y Xi = 80, que en términos
estandarizados se expresarían respectivamente como Z i = -1 y Zi = -0,5.

3. La curva es simétrica. En otras palabras: según un eje de simetría vertical, una de


las dos mitades es un reflejo exacto de la otra. Como es simétrica, la media y la
mediana coinciden (a ambos lados se encuentra el mismo número de datos y el
mismo peso). Como solo tiene una moda, le pasa como a todas las distribuciones
simétricas unimodales: la moda se encuentra necesariamente en el centro, por lo
que también coincide con la mediana y con la media.
4. Muestra agolpamiento en el centro y dispersión hacia los extremos.
5. El modo en que se dispersa desde el centro es acelerada, es decir, disminuye con
rapidez, hasta que llega a un punto de inflexión en que se desacelera. Ese punto

4
es el valor que se encuentra a 1 desviación tipo a ambos lados de la media.
(obviamente, es a ambos lados puesto que la curva es simétrica).
6. Aproximadamente el 95% de los datos (la gran mayoría) se encuentra, como
mucho, a 2 desviaciones tipo de la media. El 99% (la inmensa mayoría) llega a
poco más de 2,5 desviaciones tipo de distancia.

Lo habitual es que la curva normal se utilice estandarizada, es decir, que las


puntuaciones originales se traduzcan a puntuaciones tipo. Es lo que he hecho en el punto
6 del esquema: que algo esté a 2 desviaciones tipo de la media es que muestra una
puntuación tipo de valor 2 (si está por encima de la media) o de valor -2 (si está por
debajo).
Recordemos que las puntuaciones tipo tienen de media 0 y desviación tipo 1. Esto
simplifica bastante la fórmula de De Moivre, tal y como hemos visto más arriba. Como
resulta que una curva normal está caracterizada por su media y su desviación tipo y en la
estandarizada estos valores son siempre los mismos y de cuantías interesantes, entonces
cualquier conjunto de datos que sea normal puede ser representado por la curva
estandarizada, sin necesidad de manejar infinitas curvas, una para cada una de las
infinitas combinaciones posibles de valores para la media y la desviación tipo.
Para muchos menesteres se utilizan tablas de la curva normal estandarizada, que
asocian puntuaciones tipo con probabilidades. Por ello, estas tablas permiten traducir de
puntuaciones tipo a probabilidades o de probabilidades a puntuaciones tipo. Por ejemplo,
utilizando una tabla podemos saber que el 95% de los datos en una curva normal se
encuentran alejados de la media en no más de 1,96 desviaciones tipo. En otras palabras,
en una curva normal, el 95% central de los datos se encuentra entre las puntuaciones
estandarizadas de Z = -1,96 y Z = 1,96. Dicho también de otro modo: la probabilidad de
encontrar en una curva normal datos que se alejen de la media en no más de 1,96
desviaciones tipo es del 95% o de 0,95.
Para afianzar estas ideas, veamos algunas áreas bajo la curva normal, asociadas a
valores concretos de puntuaciones tipo. Para entender bien los gráficos, recordemos que
las probabilidades se miden como proporciones o tantos por uno, es decir, como
porciones de la unidad. Así, por ejemplo:
1. Algo imposible de que ocurra tiene la probabilidad 0.
2. Algo que ocurre seguro tiene la probabilidad 1.
3. Algo que ocurre la mitad de las veces, tiene de probabilidad 0,5.
4. Algo que ocurre un 75% de las ocasiones, tiene una probabilidad de valor 0,75.

En las siguientes representaciones gráficas de áreas bajo la curva normal, se


muestra el eje horizontal en escala de puntuaciones típicas. Cada una de las áreas
coloreadas representa una probabilidad, una proporción o una porción de área que se
expresa en el recuadro de su mismo color.

5
Recursos y tablas

No solo para afianzar estos conocimientos teóricos sino también porque


necesitaremos calcular probabilidades (o frecuencias o áreas) a partir de puntuaciones
directas o típicas de una curva normal, o hacer el camino inverso... conviene ponerse
manos a la obra y realizar algunos de esos cálculos. Inicialmente, este cometido exige
calcular áreas bajo la curva normal aplicando integrales definidas a la fórmula de De
Moivre. No te preocupes. Aunque hay personas que disfrutan con ello, supongo que no es
tu caso. Lo habitual es acudir a tablas impresas y, cada vez con mayor frecuencia, a
programas de ordenador. Para ejemplificar ambos procedimientos, vamos a acudir a una
tabla que verás al final de este documento y a la hoja informatizada de cálculo de Libre
Office Calc (de libre distribución, muy similar al software propietario de Microsoft Excel).
Empecemos por este último recurso. Si no vas a utilizarlo, puedes saltar el apartado.

Pasar de puntuaciones a proporciones con Calc

La función gauss(X) devuelve el área bajo la curva normal que se encuentra entre
la media aritmética (centro de la distribución) y X desviaciones tipo hacia uno de los dos
lados. Da igual cuál, ya que recuerda que estamos ante una curva simétrica. Por ejemplo:
gauss(1,96) = 0,475. En las tres figuras siguientes, observamos cuatro tipos de
áreas diferentes calculadas a partir de la misma función gauss(X).

6
La siguiente tabla muestra un conjunto de datos (Xi) que provienen de una
distribución normal de media 50 y desviación tipo 10. Por ejemplo, X i = 52 se encuentra a
2 unidades por encima de la media. Como S = 10, esas dos unidades se estandarizan
como Zi = 0,2 (Zi = [52-50]/10). El objetivo de la tabla es calcular la probabilidad de
encontrar datos en esa distribución que se alejan de la media tanto o menos que cada
valor Xi. Por eso, el resultado se denomina % centrado, como podría llamarse área
centrada, entre otras posibilidades. Esa columna se expresa en porcentajes. Para utilizar
la función de cálculo, hay que introducir como argumento distancias estandarizadas, no
valores o puntuaciones directas. Por eso he creado la columna Zi. Lo que hace es traducir
el valor Xi a una distancia estandarizada, siguiendo la expresión que ya conocemos:

̄
Xi − X X − 50
Zi = = i
S 10

Otro ejemplo: un 66% de los datos de ese conjunto que sigue una ley normal se
alejan de la media (50) en no más de 9 unidades (pues 59-50=9). Para eso, imagina que
el valor 59 se encuentra en la celda A5, entonces primero se aplica la fórmula
=(A5-50)/10 para obtener Zi (por ejemplo, en la casilla B5). Acto seguido calculamos
=gauss(B5)*200 (es decir, *2*100 para que no solo se muestre el área centrada que se
corresponde con el doble de gauss() sino también para que se exprese en tantos por
ciento en lugar de tantos por uno o proporción).

Características
Media= 50
Desv. tipo= 10

Xi Zi % centrado
52 0,24 19
57 0,65 48
59 0,95 66
50 0,03 03
48 -0,20 16
62 1,23 78
61 1,06 71
43 -0,70 52
54 0,40 31
52 0,24 19
56 0,65 48
46 -0,40 31
66 1,63 90
53 0,32 25
55 0,45 35

7
Pasar de puntuaciones a proporciones con la tabla

Hay muchas posibilidades para construir una tabla de la curva normal tipificada. Y
hay muchas situaciones en las que podemos necesitarla. En los intervalos de confianza
(lo veremos en otra unidad), se manejan áreas centradas. En las pruebas de significación
de la hipótesis nula (otra unidad más), se utilizan áreas extremas que utilizan la misma
proporción en ambos extremos (prueba de dos colas) o solo en un extremo (pruebas de
una cola). Y en diversas situaciones hace falta otro tipo de áreas, como las que se inician
en el extremo izquierdo y superan la media (probabilidad acumulada).
Teniendo en cuenta todas las situaciones posibles, lo más usual es utilizar una
tabla que parta de áreas definidas entre la media aritmética y un valor de Z especificado.
A partir de esa tabla, con determinados cálculos, se llega a responder a todas las
necesidades. La lógica es exactamente la misma que has visto en el subapartado anterior,
que recurre a la función gauss(Z) de Calc:

1. La tabla suministra el área (A) que se encuentra entre la media y el valor de Z que
se introduce o se utiliza como referente.
2. Si interesa un área diferente, habrá que hacer operaciones:
a) Área centrada, es decir, entre -Z y +Z: 2A.
b) Área extrema, es decir, inferior a -Z y superior a +Z: 1-2A.
c) Área acumulada, es decir, desde -∞ hasta Z:
• Si Z>0, entonces el área es 0,5+A.
• Si Z<0, entonces el área es 0,5-A.

Veamos un ejemplo para cada caso, acudiendo a la tabla de áreas respecto a la


media que tienes en el Anexo. Observa que el contenido de cada casilla o celda es la
probabilidad de encontrar valores en la curva normal estandarizada que se encuentren
entre 0 y el valor de Z compuesto entre la cabecera de la fila (hasta las décimas) y la
cabecera de la columna (centésimas). Por ejemplo, una Z=1,35 se encuentra en la fila
1,30 y la columna 0,05 señalando la celda con valor 0,411. En otras palabras, la
probabilidad de encontrar una distancia estandarizada de valor comprendido entre 0 y
1,35 en una distribución normal es del 41,1%.

1. ¿Cuál es el porcentaje de datos en una curva normal que superan a la media en no


más de 1,37 desviaciones tipo? Puntuaciones tipo implicadas: 0 ≤ Z ≤ 1,37 (fila
1,30 y columna 0,07). Es precisamente lo que genera la tabla. Luego, el área es
A=0,415. Respuesta: 41,5%.
2. ¿Qué porcentaje de datos se aleja de la media en no más de 1,96 desviaciones
tipo? Puntuaciones tipo implicadas: -1,96 ≤ Z ≤ 1,96. La tabla solo suministra una
mitad (desde 0 hasta 1,96). Luego, el área es 2A=2·0,475=0,95. Respuesta: 95%.
3. ¿Qué porcentaje de datos se aleja de la media en, por lo menos, 1,5 desviaciones
tipo? Puntuaciones tipo implicadas: 1,5 ≤ |Z| (es decir, el valor absoluto de la
distancia estandarizada supera a 1,5). El área es 1-2A=1-2·0,433=0,134. O bien,
2(0,5-A)=2(0,5-0,433)=0,134. La respuesta es 13,4%.
4. Para áreas acumuladas, dos opciones:
a) ¿Cuántos datos, en una curva normal, tienen una puntuación tipo igual o inferior
a 1,28? -∞ ≤ Z. Área implicada: 0,5+0,4=0,9. Respuesta: 90%.
b) ¿Cuántos datos, en una curva normal, tienen una puntuación tipo igual o inferior
a -0,80? -∞ ≤ Z. Área implicada: 0,5-0,288=0,212. Respuesta: 21,2%.

8
Pasar de proporciones a puntuaciones con Calc

La función es de nombre algo enrevesado, pero claro: =distr.norm.estand.inv(p).


Devuelve la puntuación tipificada que se corresponde con el valor de probabilidad
acumulada p. Por ejemplo, la probabilidad acumulada 0,5 se corresponde con la
puntuación tipo Z=0. Según lo que se desee calcular, lo que hay que hacer es:
Se quiere calcular la Z que se corresponde con Lo que hay que hacer es:
el área acumulada p =distr.norm.estand.inv(p)

el área centrada p =distr.norm.estand.inv(p/2+0,5)

el área de p/2 a cada extremo =distr.norm.estand.inv(1-p/2)

el área p del extremo inferior =distr.norm.estand.inv(p)

el área p del extremo superior =distr.norm.estand.inv(1-p)

Para comprender el contenido de la tabla anterior hay que pensar en términos


gráficos, manteniendo en mente la imagen de la curva normal. Pensemos, por ejemplo, en
cómo encontrar el argumento p de la expresión =distr.norm.estand.inv(p), cuando lo
que queremos calcular es el valor de Z que acota un área centrada y no un área
acumulada. Hay varios razonamientos que llevan al mismo punto. Así, si p es un área
centrada que tiene como límite superior a +Z, entonces esa +Z es la misma que:
– Deja por debajo de sí a p más el extremo inferior. Lo que p deja sin tocar es 1-p,
repartido por igual en ambos extremos. Luego, el inferior vale (1-p)/2. Al sumarlo a
p, entonces: p+(1-p)/2 = p/2+0,5.
– Deja por debajo de sí a toda la curva menos el extremo superior. Como ese
extremo vale (1-p)/2, entonces el área acumulada es 1-(1-p)/2=p/2+0,5.
– Deja por debajo de sí a la mitad del área centrada más toda la mitad de la curva, es
decir, a p/2+0,5.

Pasar de proporciones a puntuaciones con la tabla

La primera tabla del anexo traduce directamente de puntuaciones tipo a


probabilidades o áreas hasta la media. La segunda tabla lleva de áreas acumuladas a
puntuaciones tipo. La tercera, de áreas centradas a puntuaciones tipo. Así que tenemos
cubiertas muchas situaciones. Realmente bastaría con cualquiera de las tres tablas,
siendo la primera la que suministra información más precisa (llega a tres dígitos decimales
para las áreas o probabilidades) y llega a ser la más habitual. Utilizando esta tabla,
necesitaremos realizar varias operaciones según sea la situación que haya que resolver.
Precisamente para abreviar por el camino y afrontar situaciones muy habituales, cuentas
con las otras dos tablas, menos extendidas pero muy útiles.
Veamos un ejemplo.

Las puntuaciones de un test de memoria se distribuyen según una ley normal de


media 100 y desviación tipo 20. Queremos saber qué puntuaciones obtiene el 90% de la
población.
Para responder, suponemos que nos referimos al 90% central, es decir, qué
puntuaciones en memoria tiene el 90% menos alejado de la media o, en otros términos,

9
más representativo (el 10% restante aglutina los valores de memoria más raros, sean por
exceso o por defecto).
Para resolverlo, lo más fácil es acudir a la tercera tabla, que ya maneja áreas
centradas. El 90% se corresponde con la fila 0,90 y la columna ,00. El valor de la casilla
es Z=1,645. Luego, el 90% de la población suministra valores de memoria comprendidos
entre -1,645 y +1,645 en número de desviaciones tipo que se alejan de la media. Hay que
traducirlo a puntuaciones directas para terminar convenientemente la tarea:

̄
Xi − X
Zi = ̄ ± Z i S = 100 ± 1,645 ·20 = 100 ± 32,9 = {67,1 ; 132,9}
⇒X i = X
S

Luego, el 90% de la población cuenta con puntuaciones en memoria comprendidas


entre 67,1 y 132,9.

Si se consulta la segunda tabla, que suministra áreas acumuladas, hay que


considerar que un 90% central está acotado por la misma Z que acota el 95% acumulado
(el 90% central más el 5% inferior). Piensa que el 90% central deja un 10% en los
extremos, que se reparten equitativamente en un 5% inferior y un 5% superior. El 95%
acumulado se corresponde con la fila 0,90 y la columna ,05, cuya celda apuntada es
Z=1,645. El resto del proceso es idéntico al anterior hasta llegar a 67,1 y 132,9.

También podemos partir de la primera tabla. En esta, las puntuaciones tipo no se


encuentran en las celdas sino en las cabeceras de filas y columnas. Las celdas de esta
tabla, como hemos visto, expresan áreas desde la media hasta Z. Pues bien, un área
centrada de valor 90% es lo mismo que dos áreas del 45% hasta la media. Luego, hay
que buscar la celda que muestre el valor 0,450. No existe, pero sí vemos dos celdas
contiguas con valores 0,449 y 0,451, que se corresponden respectivamente con las
respectivas Z de valores 1,64 y 1,65, así que podemos tomar el valor intermedio: Z=1,645.
El resto del proceso hasta llegar 67,1 y 132,9 es idéntico a los dos procedimientos
previos.

10
Anexos: tabla de la distribución normal estandarizada

Tabla de la distribución normal estandarizada respecto a la media

– Cabecera de filas: unidades y décimas de la puntuación tipo (Z = u,dc)


– Cabecera de columnas: centésimas de la puntuación tipo ( Z = u,dc)
– Celdas: proporción de área bajo la curva normal que se encuentra entre la media
y la puntuación tipo señalada por la fila y la columna.
– Ejemplo: la proporción entre la media y Z=1,53 es la que se encuentra en la
celda de la fila 1,50 y la columna ,03 (1,50+,03=1,53), es decir 0,437 (un
43,7% del área)

,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,00 ,000 ,004 ,008 ,012 ,016 ,020 ,024 ,028 ,032 ,036
0,10 ,040 ,044 ,048 ,052 ,056 ,060 ,064 ,067 ,071 ,075
0,20 ,079 ,083 ,087 ,091 ,095 ,099 ,103 ,106 ,110 ,114
0,30 ,118 ,122 ,126 ,129 ,133 ,137 ,141 ,144 ,148 ,152
0,40 ,155 ,159 ,163 ,166 ,170 ,174 ,177 ,181 ,184 ,188
0,50 ,191 ,195 ,198 ,202 ,205 ,209 ,212 ,216 ,219 ,222
0,60 ,226 ,229 ,232 ,236 ,239 ,242 ,245 ,249 ,252 ,255
0,70 ,258 ,261 ,264 ,267 ,270 ,273 ,276 ,279 ,282 ,285
0,80 ,288 ,291 ,294 ,297 ,300 ,302 ,305 ,308 ,311 ,313
0,90 ,316 ,319 ,321 ,324 ,326 ,329 ,331 ,334 ,336 ,339
1,00 ,341 ,344 ,346 ,348 ,351 ,353 ,355 ,358 ,360 ,362
1,10 ,364 ,367 ,369 ,371 ,373 ,375 ,377 ,379 ,381 ,383
1,20 ,385 ,387 ,389 ,391 ,393 ,394 ,396 ,398 ,400 ,401
1,30 ,403 ,405 ,407 ,408 ,410 ,411 ,413 ,415 ,416 ,418
1,40 ,419 ,421 ,422 ,424 ,425 ,426 ,428 ,429 ,431 ,432
1,50 ,433 ,434 ,436 ,437 ,438 ,439 ,441 ,442 ,443 ,444
1,60 ,445 ,446 ,447 ,448 ,449 ,451 ,452 ,453 ,454 ,454
1,70 ,455 ,456 ,457 ,458 ,459 ,460 ,461 ,462 ,462 ,463
1,80 ,464 ,465 ,466 ,466 ,467 ,468 ,469 ,469 ,470 ,471
1,90 ,471 ,472 ,473 ,473 ,474 ,474 ,475 ,476 ,476 ,477
2,00 ,477 ,478 ,478 ,479 ,479 ,480 ,480 ,481 ,481 ,482
2,10 ,482 ,483 ,483 ,483 ,484 ,484 ,485 ,485 ,485 ,486
2,20 ,486 ,486 ,487 ,487 ,487 ,488 ,488 ,488 ,489 ,489
2,30 ,489 ,490 ,490 ,490 ,490 ,491 ,491 ,491 ,491 ,492
2,40 ,492 ,492 ,492 ,492 ,493 ,493 ,493 ,493 ,493 ,494
2,50 ,494 ,494 ,494 ,494 ,494 ,495 ,495 ,495 ,495 ,495
2,60 ,495 ,495 ,496 ,496 ,496 ,496 ,496 ,496 ,496 ,496
2,70 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497 ,497
2,80 ,497 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,498
2,90 ,498 ,498 ,498 ,498 ,498 ,498 ,498 ,499 ,499 ,499
3,00 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,10 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,20 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499 ,499
3,30 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500 ,500

11
Tablas de puntuaciones tipo correspondientes a una curva normal

La suma de las cabeceras de filas y columnas se corresponde con el área,


proporción o probabilidad.

Puntuaciones estandarizadas para probabilidades acumuladas


,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,00 -2,326 -2,054 -1,881 -1,751 -1,645 -1,555 -1,476 -1,405 -1,341
0,10 -1,282 -1,227 -1,175 -1,126 -1,080 -1,036 -,994 -,954 -,915 -,878
0,20 -,842 -,806 -,772 -,739 -,706 -,674 -,643 -,613 -,583 -,553
0,30 -,524 -,496 -,468 -,440 -,412 -,385 -,358 -,332 -,305 -,279
0,40 -,253 -,228 -,202 -,176 -,151 -,126 -,100 -,075 -,050 -,025
0,50 ,000 ,025 ,050 ,075 ,100 ,126 ,151 ,176 ,202 ,228
0,60 ,253 ,279 ,305 ,332 ,358 ,385 ,412 ,440 ,468 ,496
0,70 ,524 ,553 ,583 ,613 ,643 ,674 ,706 ,739 ,772 ,806
0,80 ,842 ,878 ,915 ,954 ,994 1,036 1,080 1,126 1,175 1,227
0,90 1,282 1,341 1,405 1,476 1,555 1,645 1,751 1,881 2,054 2,326

Puntuaciones estandarizadas para probabilidades centradas (int. de confianza)


,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,00 ,013 ,025 ,038 ,050 ,063 ,075 ,088 ,100 ,113
0,10 ,126 ,138 ,151 ,164 ,176 ,189 ,202 ,215 ,228 ,240
0,20 ,253 ,266 ,279 ,292 ,305 ,319 ,332 ,345 ,358 ,372
0,30 ,385 ,399 ,412 ,426 ,440 ,454 ,468 ,482 ,496 ,510
0,40 ,524 ,539 ,553 ,568 ,583 ,598 ,613 ,628 ,643 ,659
0,50 ,674 ,690 ,706 ,722 ,739 ,755 ,772 ,789 ,806 ,824
0,60 ,842 ,860 ,878 ,896 ,915 ,935 ,954 ,974 ,994 1,015
0,70 1,036 1,058 1,080 1,103 1,126 1,150 1,175 1,200 1,227 1,254
0,80 1,282 1,311 1,341 1,372 1,405 1,440 1,476 1,514 1,555 1,598
0,90 1,645 1,695 1,751 1,812 1,881 1,960 2,054 2,170 2,326 2,576

12
08
2021

Apropiación social del conocimiento


Generación de contenidos impresos
N.° 8, septiembre de 2021
doi: https://doi.org/10.16925/gcgp.32

GRÁFICOS
ESTADÍSTICOS:
GUÍA PRÁCTICA
PARA ESTADÍSTICA
DESCRIPTIVA
Jorge Alejandro Obando-Bastidas
Universidad Cooperativa de Colombia
Sede Villavicencio

María Teresa Castellanos Sánchez


Universidad de los Llanos
Acerca de los autores
Jorge Alejandro Obando-Bastidas, doctor en Docencia e
Investigación, profesor tiempo completo de Contaduría
Pública, Universidad Cooperativa de Colombia, sede Vi-
llavicencio.
Correo electrónico: jorge.obandob@campusucc.edu.co
Cvlac:https://scienti.minciencias.gov.co/cvlac/visualiza-
dor/generarCurriculoCv.do?cod_rh=0001281569
Gruplac: https://scienti.minciencias.gov.co/gruplac/jsp/
visualiza/visualizagr.jsp?nro=00000000009298
orcid: https://orcid.org/0000-0002-4283-2871
Google Scholar: https://scholar.google.es/cita-
tions?hl=es&user=WHrpjDwAAAAJ

María Teresa Castellanos Sánchez, doctora en Educa-


tion Mathematica, profesora titular de Licenciatura en
matemáticas, Universidad de los Llanos.
Correo electrónico: mcastellanos@unillanos.edu.co
Cvlac:http://scienti.colciencias.gov.co:8081/cvlac/visua-
lizador/generarCurriculoCv.do?cod_rh=0000609455
Gruplac: https://scienti.minciencias.gov.co/gruplac/jsp/
visualiza/visualizagr.jsp?nro=00000000007746
orcid: https://orcid.org/0000-0001-7850-3183
Google Scholar: https://scholar.google.es/citations?u-
ser=yn9pkUYAAAAJ&hl=es&oi=ao

Cómo citar este documento


Obando Bastidas, J. A. y Castellanos Sánchez, M. T. (2021).
Gráficos estadísticos: guía práctica para estadística descripti-
va (Generación de contenidos impresos N° 08). Ediciones
Universidad Cooperativa de Colombia. doi: https://doi.
org/10.16925/gcgp.32

NOTA LEGAL
El presente documento de trabajo ha sido incluido dentro de nuestro repositorio institucional como Apropiación social de conocimiento por solicitud del autor,
con fines informativos, educativos o académicos. Asimismo, los argumentos, datos y análisis incluidos en el texto son responsabilidad absoluta del autor y no
representan la opinión del Fondo Editorial o de la Universidad.

DISCLAIMER
This coursework paper has been uploaded to our institutional repository as Social Appropriation of Knowledge due to the request of the author. This document
should be used for informational, educational or academic purposes only. Arguments, data and analysis included in this document represent authors’ opinion
not the Press or the University.

Este documento puede ser consultado, descargado o reproducido desde nuestro repositorio institucional (http://repository.
ucc.edu.co/handle/20.500.12494/7369) para uso de sus contenidos, bajo la licencia de Creative Commons Reconocimien-
to-NoComercial-SinObraDerivada 4.0 Internacional. http://creativecommons.org/licenses/by-nc-nd/4.0/
TABLA DE CONTENIDO

Resumen 7

Introducción 8

Propósito 8

Unidad de competencias 8

Elemento de competencia del saber 8

Marcos teóricos 8

Campo de acción 9

División 9

Población 9

Muestra 10

Variables 10

Variables enteras o discretas 10

Variables reales o continuas 10

Variables cualitativas 10

Clasificación de las variables según su naturaleza 10

Tablas de frecuencia 11

Gráficos estadísticos 12

Gráficos para datos categóricos 12

Gráfico de barras 13

Gráfico de sectores 13

Gráfico de arañas 15

Gráfico de anillos o sectores 15

Gráficos para datos numéricos enteros 15


Diagrama de barras para variables numéricas enteras 17

Gráfico de diagramas integrales 18

Tabla de frecuencias para datos continuos a través de intervalos 19

Ejemplo de aplicación 19

Gráficos para datos continuos organizados en intervalos de clase 20

Histograma 21

Diagrama de Tortas 21

Ojivas 22

Polígonos de frecuencia 23

Otras graficas 23

Boxplot 23

Diagrama de Pareto 25

Ejercicios de aplicación 27

Referentes 32
ÍNDICE DE TABLAS Y FIGURAS

Tabla 1. Clasificación y tipos de variables 11

Tabla 2. Estructura de una tabla de frecuencias 12

Tabla 3. Tabla de frecuencias para la variable motivos de visita


al departamento del Meta 13

Tabla 4. Tabla de frecuencias del número de fallecidos por la


covid-19 en Colombia discriminado por estratos sociales 17

Tabla 5. Edades de cien personas que se recuperan de la covid-19 20

Tabla 6. Tabla de frecuencias de personas con la covid-19 que se


recuperan en el hospital 20

Tabla 7. Tabla de frecuencias de personas con la covid-19 que se


recuperan en el hospital 21

Tabla 8. Tabla de Pareto de personas con la covid-19 que se


recuperan en el hospital 25

Figura 1. Asesinatos de líderes sociales (2016-2019). 9

Figura 2. Gráfico de barras para la variable motivos para visitar


los Llanos orientales (1) 14

Figura 3. Gráfico de barras para la variable motivos para visitar


los Llanos orientales (2) 14

Figura 4. Gráfico de torta para la variable motivos para visitar


los Llanos orientales 15

Figura 5. Gráfico de araña o radar para la variable motivos para


visitar los Llanos orientales 16

Figura 6. Gráfico anillos para la variable motivos para visitar los


Llanos orientales 16

Figura 7. Porcentaje de muertes por la covid-19 en Colombia por


estratos sociales 17
Figura 8. Número de muertes por covid-19 en Colombia por
estratos sociales 18

Figura 9. Diagrama integral para el número de muertes


por covid-19 18

Figura 10. Histograma de personas con la covid-19 que se han


hospitalizado. 21

Figura 11. Diagrama de tortas de personas con la covid-19 que


se han hospitalizado 22

Figura 12. Ojiva de personas con covid-19 que se han


hospitalizado 22

Figura 13. Polígono de frecuencias de personas con covid-19


que se han hospitalizado 23

Figura 14. Boxplot por género de personas con la covid-19 que


se han hospitalizado 24

Figura 15. Pirámide poblacional por género de personas con la


covid-19 en Colombia 25

Figura 16. Diagrama de Pareto de personas con la covid-19 que


se recuperan en el hospital 26

Figura 17. Radiografía de la deforestación en el Amazonas


brasileño (junio del 2019). 29

Figura 18. Emisiones gei de Colombia en el 2012 30


08 GRÁFICOS ESTADÍSTICOS:
GUÍA PRÁCTICA PARA
ESTADÍSTICA DESCRIPTIVA
Jorge Alejandro Obando-Bastidas
María Teresa Castellanos Sánchez

Resumen
Los gráficos estadísticos son objetos de la estadís-
tica con los que se pretende establecer un grado
de comunicación, breve, sencillo y didáctico. El
propósito general que motiva el desarrollo de este
documento es la apropiación de las características
de los gráficos construidos en las tablas de frecuen-
cias y en los datos no agrupados que provienen de
bases de datos reales. La importancia de adquirir
la habilidad de diseñar un gráfico radica principal-
mente en la necesidad de comunicar datos de una
manera visual, de manera que sea comprendido
ampliamente por muchos grupos. Generalmente,
los gráficos están en todos los medios de comu-
nicación visuales y transmiten la realidad de los
acontecimientos; el presente documento contiene,
desde la definición de variables hasta la construc-
ción de gráficos, estableciendo diferencias entre las
variables de tipo numérico y las variables de tipo
categórico. Los gráficos que aquí se muestran par-
ten de la construcción de una tabla de frecuencias
y son datos agrupados; sin embargo, gráficos como
los Boxplot, no necesitan agrupación de los datos,
puesto que, por su característica, estos gráficos sa-
len de las bases de datos y proponen una informa-
ción más precisa, ya que provienen de la fuente tal
y como se conciben. Finalmente, en el trabajo se
proponen algunos ejercicios de bases de datos rea-
les y como propósito de evaluación se entrega un
cuestionario de diez preguntas, diseñado con base
en los lineamientos y los requerimientos de la ta-
xonomía solo.
Palabras clave: datos agrupados, datos no agrupados,
frecuencias, variables categóricas, variables numéricas.
8 · Generación de contenidos impresos

INTRODUCCIÓN Unidad de competencias


Los gráficos estadísticos se visualizan en dife- Construir información para que apoye la toma
rentes contextos, por ejemplo, en periódicos, de decisiones en el entorno organizacional me-
revistas, libros, textos, entre otros. Su presen- diante organización, sistematización y lectura
cia masiva en todos los espacios y el poder de de datos.
comunicación de ellos proponen un grado de
importancia. Teniendo en cuenta la presen-
cia de los gráficos estadísticos en las estructu- Elemento de competencia
ras curriculares, esta guía se diseña teniendo del saber
en cuenta dos circunstancias: por un lado, se
Clasificar las herramientas estadísticas para la
busca que los estudiantes que cursan progra-
sistematización de la información.
mas relacionados con las Ciencias Económi-
cas, Administrativas y Contables desarrollen
competencias en la lectura de gráficos y, por
ende, alcanzar una mejor comprensión de este
Marcos teóricos
tipo de representación de los datos estadísti- La abundancia de datos y fuentes de informa-
cos; por otro lado, se pretende que esta guía se ción en la era de internet y de las redes sociales
convierta en un material de apoyo para aque- genera complejidad en los procesos de comuni-
llos estudiantes que ingresan a la universidad cación, lo cual también genera dificultad para
con escasa formación en estadística y que, por aquellas personas y entidades que toman de-
lo tanto, requieren un proceso de fortaleci- cisiones a partir de ellos. Desde esta posición,
miento que estructure en ellos el aprendiza- Ross (2018) propone que la estadística es un
je inicial de esta ciencia. El desarrollo de esta arte que propicia el aprendizaje usando datos
guía parte de una definición de estadística, su como insumo de la información, ya que ayuda
campo de acción, el reconocimiento de con- en su descripción, organización y análisis, lo
ceptos relacionados, con la muestra, pobla- que lleva a tomar conclusiones y decisiones.
ción, tipo de variables, construcción de tablas
Por otro lado, la estadística no solo evidencia
de frecuencia y sus respectivos gráficos. Se
un proceso para organizar los datos y tomar
hace una distinción entre gráficos para datos
decisiones a partir de ellos, también permite
discretos y datos continuos, además en la guía
evidenciar la realidad, contemplar el contex-
se analizan otro tipo de gráficos como el del
to a partir de una problemática real y una po-
Boxplot, las pirámides poblaciones, la impor-
sición visual (Castellanos y Obando, 2013). Por
tancia de la regla de Pareto. Todos los ejercicios
ejemplo, en forma gráfica, la figura 1 informa
relacionados con la presente guía se desarro-
sobre el fenómeno social de los asesinatos de
llarán completamente en Excel.
líderes en Colombia, cruda realidad que se
puede abordar en el estudio de la estadística.
Con el análisis de la realidad se trata de fo-
Propósito mentar el razonamiento estadístico, más que
Establecer diferencias entre los diferentes el aprendizaje rutinario y descontextualiza-
tipos de gráficos construidos a partir de tablas do de conceptos y propiedades, puesto que la
de frecuencias en datos agrupados y desde la tecnología, hoy en día, permite aplicar la es-
propuesta de los datos dispuestos en bases de tadística con gran facilidad, por consiguiente,
datos reales, como los bases del coronavirus cobran mayor importancia las actividades in-
y las bases de datos de las pruebas saber en terpretativas que el cálculo rutinario (Batane-
Colombia. ro y Díaz, 2011).
Gráficos estadísticos: guía práctica para estadística descriptiva· 9

120
105
100

80 69 68
60

40 32

20 5 10

0
1ero de ene - 2016
6 de ago - 2016

7 de ago - 2016
9 de jul - 2017

10 de jul - 2017
6 de ago - 2017

7 de ago - 2017
9 de jul - 2018

10 de jul - 2018
6 de ago - 2018

7 de ago - 2018
9 de jul - 2019
FIGURA 1. Asesinatos de líderes sociales (2016-2019). Tomado de la Consejería Presidencial de los Derechos Humanos (2019).

Campo de acción • Estadística descriptiva: se encarga de la


recolección, la clasificación y la descrip-
La aplicación de la estadística en la dirección ción de datos muéstrales o poblacionales,
de procesos enfatiza la toma de decisiones. La para su interpretación y análisis.
necesidad de resolver problemas pone de ma-
nifiesto la aplicabilidad de la estadística. La • Estadística inferencial: desarrolla modelos
aplicabilidad se extiende a todo el universo teóricos que se ajusten a una determinada
social, biológico, físico, ingeniería, educacional, realidad con cierto grado de confianza.
médico, de negocios y leyes, en fin, a casi todas
las fases de la vida.
Población
El campo de la estadística es una disciplina Se define como un conjunto de individuos o de
dirigida a lograr un mejor entendimiento del objetos que poseen una o varias característi-
mundo que nos rodea, con el objetivo final que cas comunes. El total de las unidades posibles
todos tengamos una vida más completa y con de observar hace referencia también a una de-
un mayor entendimiento de esta. No hay parte finición de población. La población no hace re-
de nuestro ambiente que no sea una fuente de ferencia únicamente a los seres vivos; una po-
datos (nosotros mismos, otros individuos, la blación puede estar constituida por los peces
familia, sociedades, culturas, ciudades, países, de un estanque, por animales de una determi-
planetas, escuelas, colegios religiones, etcéte- nada raza.
ra), en pocas palabras cada aspecto de nuestra
existencia, incluso el comportamiento de la
covid-19 en Colombia y en el mundo. Poblaciones finitas
En este tipo de población, el número de uni-
dades observables es contable, es decir, un
División número conocido de elementos del conjunto
La estadística se divide en dos grandes ramas llamado población. De la misma manera, se
de estudio: considera finita a una población, si se conoce
10 · Generación de contenidos impresos

la fuente de donde provienen los datos. Por ejemplo, tamaño, edad, precios, rendimiento
ejemplo, la población de estudiantes de una académico o indicadores económicos.
universidad es finita, ya que se sabe que en los
programas existe una base de datos en los que
están inscritos todos los estudiantes de dicha VARIABLES ENTERAS O DISCRETAS
universidad. En este conjunto de variables, los valores que
se representan se visualizan como número
entero. Por ejemplo, número de estudiantes
Poblaciones infinitas en la universidad, número de personas diarios
que se contagian con el virus sars-CoV-2.
En este tipo de población, el conteo de uni-
dades observables se hace un poco difícil. El
término de infinito en estadística no se ajusta
VARIABLES REALES O CONTINUAS
a una definición semántica, puede hacer rela-
ción a un grupo de objetos, personas, cosas, en Es aquella que teóricamente puede tomar
las que se desconoce la fuente de donde pro- cualquier valor dentro de un intervalo de
vienen. Ejemplo: como el número de vendedo- valores, ella se mide uniformemente. Dentro
res informales, que dado la crisis de la pande- de la escala de los conjuntos numéricos, re-
mia de covid-19, se ha incrementado en todas presentan a los números reales. Por ejemplo,
las ciudades de Colombia y estos no se regis- estatura de los estudiantes de una universi-
tran en una base de datos, se puede considerar dad, salarios devengados por los docentes de
una población infinita. un núcleo educativo, temperaturas a ciertas
horas del día, edad de una persona.

Muestra
VARIABLES CUALITATIVAS
Se define como la mejor representación de la
población. La muestra es un subconjunto de Representan características propias de las
la población a la cual se le efectúa la medi- cualidades de los objetos que conforman la
ción con el fin de estudiar las propiedades del muestra o la población. Por ejemplo, sexo,
conjunto del cual es obtenida. El tamaño de la origen o color de piel.
muestra, la disponibilidad de recursos, la ho-
Las variables cualitativas se dejan expresar en
mogeneidad de los elementos y de los datos
niveles de categoría. Por ejemplo, sexo: mascu-
que la conforman le da la importancia su-
lino o femenino; origen: colombiano, venezola-
ficiente al uso adecuado de la muestra; un
no o panameño; color de piel: blanco, negro o
buen conocimiento de la población permite
amarillo.
encontrar una buena muestra representativa.
Existen muestras tomadas al azar y sin seguir
ningún modelo de muestreo que llevan a con- CLASIFICACIÓN DE LAS VARIABLES SEGÚN
clusiones inadecuadas y, por lo tanto, a tomar SU NATURALEZA
decisiones que no corresponden a la solución
Las variables sean enteras o continuas por su
de un problema planteado dentro de conjunto.
naturaleza se las puede clasificar como cate-
góricas y numéricas; a la vez, esta clasificación
responde a ciertos criterios de diferenciación.
Variables
Es el conjunto de características de las entida- Variables categóricas: establecen categorías
des que se interesan en una investigación; por de los datos. Producen muchas informaciones.
Gráficos estadísticos: guía práctica para estadística descriptiva· 11

Por ejemplo: las categorías de bajos, medios, de las de intervalo y tienen un origen. Por
altos superiores es una escala categórica de ejemplo, el peso de una persona.
estudiantes evaluados en una universidad.
En la tabla 1 se resume la clasificación de estas
Nominal: no establecen ningún orden. Corres- variables.
ponde a variables categóricas; por ejemplo,
estado civil, soltero, casado, viudo, unión libre.
Tablas de frecuencia
Ordinales: indican un orden. Por ejemplo, Muchas veces se presenta una muestra con
grado académico (primaria, bachillerato, uni- muchos datos, por lo que se hace necesario
versidad, especialización y maestría). organizarlos en una tabla de frecuencias o en
una distribución de frecuencias. Este tipo de
Variables numéricas: a diferencia de las an- tabla está formada por las distintas catego-
teriores, producen más información y mejores rías (valores o intervalos) del carácter X y por
procedimientos estadísticos. A toda variable las frecuencias absolutas, relativas, absolutas
numérica se la puede categorizar, pero pierde acumuladas y relativas acumuladas.
información y detalles de esta. Por ejemplo, las
edades, siendo numérica producen informa- A manera de definición, se puede decir que
ción relacionada con medias, medianas, modas, una tabla de frecuencias es un método para
entre otras. Se pueden categorizar como: niños, presentar la información en forma resumida,
jóvenes, adultos y tercera edad; en estas cate- muestra los datos tal como aparecen en la dis-
gorías ya no se puede obtener la información tribución, organizados en diferentes formas de
conteo de los elementos de una variable, a lo
que se obtuvo en el caso numérico.
que se denomina “frecuencia”. A continuación,
Para tal efecto, las variables pueden ser: se muestran los tipos de frecuencias que se
presentan para organizar los datos.
Intervalo: se pueden asociar en intervalos
de clase y corresponden a variables de tipo
continuo. Preservan de las variables ordina-
Frecuencias absolutas (f)
les el orden y se acomodan las distancias. Por Se llama frecuencia absoluta (f) de la variable o
ejemplo, salarios, edades, notas estudiantiles. categoría al número de datos que se presen-
tan en el conteo directo de los datos que se
Razón: son variables que conservan más infor- repiten en una distribución. La suma de todas
mación y detalles de las demás variables. Con- las frecuencias absolutas es el tamaño de la
servan el orden de las ordinales, la distancia muestra, como se aprecia en la ecuación 1.

TABLA 1
Clasificación y tipos de variables

Tipo de variable Se dividen en Pueden ser Ejemplos


Intervalos Temperatura
Continuas
Numéricas Razón Salarios, notas obtenidas en un curso, estatura de una persona
Enteras Número de estudiantes en un salón, números de personas recuperadas de la covid-19.
Nominales Género, estado civil de una persona.
Categóricas
Ordinales Grados militares, formación académica.

Nota. Elaboración propia.


12 · Generación de contenidos impresos

∑ fi = n Finalmente, una tabla de frecuencias propone


f = f1 + f2 + f3 + ... + fn = n (1) una estructura determinada, la cual se muestra
en la tabla 2.
En la ecuación 1, n es el tamaño de la muestra.

TABLA 2
Frecuencia absoluta relativa (h) Estructura de una tabla de frecuencias

Se llama frecuencia relativa de la variable X al Variable f h F H


cociente entre la frecuencia absoluta de cada
X1 f1 h1 F1 H1
dato y el total de elementos que conforman la
X2 f2 h2 F2 H2
muestra, como se aprecia en la ecuación 2.
X3 f3 h3 F3 H3
f
hi = (2) . . . . .
n
. . . . .
La suma de todas las frecuencias relativas re-
presenta al 100 % de la población y equivale a Xn fn hn n 1
1 (uno), como se aprecia en la ecuación 3. Total n 1
n


f1 f2 f3 fn hi Nota. Elaboración propia.
n
+ n
+ n
+ ... + n
= n
= 100%
i=1
(3) Gráficos estadísticos
Los gráficos estadísticos son recursos visuales
que permiten comunicar la información, se
Frecuencias acumuladas (F) constituye en un instrumento estadístico para
Esta frecuencia se obtiene de la acumula- analizar los datos en forma eficiente y desde
ción sucesiva de las frecuencias absolutas. El diferentes niveles de lectura (Castellanos y
último dato acumulado es el tamaño de la Obando, 2013). Existen gráficos para los datos
muestra, como se aprecia en la ecuación 4. numéricos y para los datos categóricos.
n

F1 = f1 + f2 + f3 +
i=1
... . fn =
∑ fi
Gráficos para datos
(4) categóricos
De acuerdo con el tipo de frecuencias, se pueden
Frecuencias relativas encontrar gráficos, tipo barra, torta, arañas,
barras acumuladas, pictogramas, anillos, entre
acumuladas (H)
otros. A continuación, se propone una situa-
Estas se obtienen de la acumulación sucesi- ción problemas y se construye en Excel la tabla
va de las frecuencias relativas. El último dato de frecuencias con sus respectivos gráficos. Por
acumulado es el 100 % de la muestra, como se ejemplo, en un estudio realizado en el Meta y
aprecia en la ecuación 5.
que está relacionado con el turismo, una de las
n
preguntas de la encuesta aplicada tenía el si-
H =
F1
n
F2 F3
+ n + n + ... + n =
fn

i=1
Fi
n ∑
= 100% guiente contenido: ¿cuál es el principal motivo
por el que usted visita al departamento del
(5) Meta? Señale solo una opción:
Gráficos estadísticos: guía práctica para estadística descriptiva· 13

1. Paisaje. TABLA 3
Tabla de frecuencias para la variable motivos de visita al
2. Gastronomía.
departamento del Meta
3. Diversión. Motivos f h F H

4. Calor humano. Paisaje 15 0,15 15 0,15


Gastronomía 15 0,15 30 0,3
5. Clima. Diversión 25 0,25 55 0,55
Calor Humano 19 0,19 74 0,74
6. Descanso.
Clima 14 0,14 88 0,88
Descanso 12 0,12 100 1
Se realizó la pregunta a 100 turistas y se obtu-
Total 100 1
vieron los siguientes resultados:

Nota. Elaboración propia, haciendo uso del Excel.


1 4 4 2 5 3 3

2 4 5 1 6 2 3
Gráfico de barras
2 6 1 1 6 3 4
Es una figura que permite representar los
2 6 2 1 6 3 2 elementos de la variable de estudio con los
3 6 2 1 3 4 1 valores obtenidos en la frecuencia absoluta o
también se pueden representar los valores de
3 6 2 1 3 6 2 la frecuencia relativa. En el ordenado siempre
3 6 3 4 3 6 3 estarán los elementos que constituyen la va-
riable y en el eje de las abscisas el valor de las
5 3 3 4 5 6 3
frecuencias. La figura 2 se elaboró en Excel.
5 3 3 4 5 5 3
Obsérvese que, en la figura 2, se describen ex-
5 3 4 4 5 5 6 clusivamente los valores de la frecuencia ab-
1 3 4 4 4 4 soluta; cada barra evidencia el valor de la fre-
cuencia absoluta, propuesto en la tabla 3.
1 3 1 4 4 4
En Excel se pueden generar diferentes formas
1 2 1 5 4 3
para representar esta información; en la figura
1 2 1 5 3 2 3, se observa la misma gráfica, con la informa-
ción sobre las barras y con una tabla de deno-
4 2 5 5 3 2
minación de las unidades de variables. Queda
a gusto del diseñador la forma como represen-
Siguiendo un proceso de organización en
ta la información.
columna de los datos y en orden ascendente,
Excel es una de las mejores herramientas para
construir una tabla de frecuencias, ya que fa-
cilita su conteo y su proceso de construcción,
Gráfico de sectores
puesto que el uso de las fórmulas creadas en Denominado también “tartas” (pie), consiste
este permite con rapidez replicarla en otras en un círculo dividido en tantas partes o por-
celdas y obtener los demás resultados de una ciones como valores de frecuencia relativa
manera rápida y sencilla. La tabla de frecuen- existan, a cada valor de frecuencias relativa le
cias construida a partir de los datos anteriores corresponde en forma proporcional un arco de
se puede observar en la tabla 3. círculo (figura 4).
14 · Generación de contenidos impresos

24
22
20
18
16
14
12
10
8
6
4
2
0
Paisaje Gastronomía Diversión Calor Clima Descanso
Humano

Figura 2. Gráfico de barras para la variable motivos para visitar los Llanos orientales (1). Elaboración propia
haciendo uso de Excel como herramienta.

25

19

15 15
14
12

Paisaje Gastronomía Diversión Calor Clima Descanso


Humano

Figura 3. Gráfico de barras para la variable motivos para visitar los Llanos orientales (2). Elaboración
propia haciendo uso de Excel como herramienta.
Gráficos estadísticos: guía práctica para estadística descriptiva· 15

Descanso Paisaje
12% 15%
Clima
14% Gastronomía
15%

Calor Humano
19% Diversión
25%

Figura 4. Gráfico de torta para la variable motivos para visitar los Llanos orientales. Elaboración propia
haciendo uso de Excel como herramienta.

La lectura de estos gráficos es directa, se lo hace constituyen los anillos o los sectores. Son pe-
teniendo en cuenta el valor del porcentaje pro- queños sectores en forma de un aro o anillo,
puesto en cada unidad de variable. Por ejemplo, divido en forma proporcional de acuerdo con el
el 25 % de los turistas visitan el Meta, porque valor de dicha frecuencia (figura 6).
aquí encuentran diversión. Una interpretación
más general estará amarrada al objetivo de la Los diagramas para las frecuencias absolutas
investigación que generó la pregunta. acumuladas, denominados “diagramas integra-
les”, no tienen sentido en el contexto de las va-
riables categóricas, se observarán en el contexto
Gráfico de arañas de las variables numéricas, enteras y continuas.

Una gráfica de radar, también conocida como


un “diagrama de araña”, es una herramienta Gráficos para datos
muy útil para mostrar visualmente los valores numéricos enteros
de una frecuencia relativa o absoluta. Su
Algunos de los gráficos para datos enteros son
nombre se hereda porque propone la visuali- los mismos que para los datos categóricos, sin
zación en la forma de una tela de araña. Pro- embargo, en los datos numéricos enteros ya
porciona la misma información de un diagra- se pueden realizar gráficos para las frecuen-
ma de barras o de una torta (ver figura 5). cias acumuladas. Para revisar el tipo de gráfi-
cos, se propone una situación real que ocurre
El gráfico de la figura 5 puede ser una exce-
en Colombia en el margen de la aparición de
lente alternativa para representar la informa-
la pandemia de covid-19. Se propone entonces
ción de los datos propuestos en las frecuencias
la siguiente situación: en marzo del 2020, se
relativas, brinda la misma información, pero
registraron los primeros casos del virus, hasta
desde otra visualización.
el 3 de enero del 2021. El total de decesos por
covid-19 era de 51 397. El Departamento Ad-
ministrativo Nacional de Estadística (dane),
Gráfico de anillos o sectores con respecto al número de muertos por la
Otra de las formas de representar las fre- covid-19, emitió la siguiente información que
cuencias relativas en variables categorías lo se resume en la figura 7.
16 · Generación de contenidos impresos

Paisaje

15%

Descanso Gastronomía
15%
12%

14%
Clima Diversión
25%

19%
Calor Humano

Figura 5. Gráfico de araña o radar para la variable motivos para visitar los Llanos orientales. Elabora-
ción propia haciendo uso de Excel como herramienta.

Descanso Paisaje
12%
15%

Clima
14%
Gastronomía
15%

Calor Humano
19%
Diversión
25%

Figura 6. Gráfico anillos para la variable motivos para visitar los Llanos orientales. Elaboración
propia haciendo uso de Excel como herramienta.
Gráficos estadísticos: guía práctica para estadística descriptiva· 17

Estrato 5: 1,5%
Estrato 4: 4,6% Estrato 6: 0,80%

Estrato 3: 24% Estrato 1: 32,9%

Estrato 2: 36,7%

Figura 7. Porcentaje de muertes por la covid-19 en Colombia por estratos sociales. Tomada de dane
(16 de octubre de 2020).

La triste realidad reflejada en la figura 7 (que por covid-19 en Colombia por estratos socia-
corresponde a una torta con frecuencias rela- les. Por ejemplo, en el estrato 1, a la fecha en
tivas) evidencia que la mayoría de las muertes las que se tomaron los datos de las bases de
en Colombia son de personas que carecen de datos del ministerio de salud pública de Co-
recursos económicos. Corresponde aquí rea- lombia, se observaban 16 910 personas en el
lizar otro tipo de gráficos que permitan evi- estrato 1. La figura 8 permite comparar resul-
denciar la información desde otro punto de tados; se observa, por ejemplo, que en los es-
vista. Para ello, lo recomendable es reconstruir tratos 1, 2, y 3 es donde más se han presenta-
la tabla de frecuencias y proceder a la cons- do casos de mortalidad por la covid-19. Estos
trucción de otras representaciones; de esta gráficos sencillos son ligeros de interpretación,
manera, se presenta la tabla 4, correspondien- son muy utilizados, ya que proponen la infor-
te a la tabla de frecuencias para la variable mación de manera directa.
que relaciona el número de personas falleci-
das en Colombia y discriminadas por estrato
TABLA 4
social (ver tabla 4).
Tabla de frecuencias del número de fallecidos por la COVID-19
en Colombia discriminado por estratos sociales

Diagrama de barras para Estratos f h F H


Estrato 1 16 910 32,9 % 16 910 32,9 %
variables numéricas enteras
Estrato 2 18 863 36,7 % 35 773 69,6 %
Un gráfico de barras o gráfico de columnas es Estrato 3 12 078 24 % 47 851 93,1 %
una forma de representar gráficamente un Estrato 4 2364 4,6 % 50 215 97,7 %
conjunto de datos o valores mediante barras
Estrato 5 771 1,5 % 50 986 99,2 %
rectangulares de longitud proporcional a los
Estrato 6 411 0,80 % 51 397 100,0 %
valores representados; los valores represen-
Total 51 397 100,0 %
tados pueden ser frecuencias relativas o fre-
cuencia absolutas. Su lectura es directa. En la Nota. Información suministrada por el dane (16 de octubre
figura 8, se evidencia el número de fallecidos de 2020).
18 · Generación de contenidos impresos

18863
16910 Estrato 1
Estrato 2
Estrato 3
12078 Estrato 4
Estrato 5
Estrato 6

2364
771 411

Figura 8. Número de muertes por covid-19 en Colombia por estratos sociales. Tomado de dane (16 de octubre
de 2020).

Gráfico de diagramas Las frecuencias acumuladas indican el número


de muertes que se suman por estratos, por
integrales ejemplo, la lectura de estas figuras propone
Se realizan con las frecuencias acumuladas y que el número de muertes acumulado hasta
solo para variables numéricas, ya sean de tipo el estrato 3 que es de 47 851. En el proceso de
entero o de tipo continuo. Siguiendo el ejemplo registros de casos de contagio en Colombia, es
anterior en la figura 9, se representa el diagra- este tipo de gráficos los que expresan la canti-
ma integral para muertes por la covid-19 en dad de contagios que se registran en un periodo
Colombia determinado por estratos sociales. determinado.

50986 51397
50215
47851

35773

16910

Estrato 1 Estrato 2 Estrato 3 Estrato 4 Estrato 5 Estrato 6

Figura 9. Diagrama integral para el número de muertes por covid-19. Tomado de dane (16 de octubre de
2020).
Gráficos estadísticos: guía práctica para estadística descriptiva· 19

Tabla de frecuencias para tener a C constante a lo largo de toda la distri-


bución de frecuencias, se calcula mediante la
datos continuos a través de fórmula.
intervalos
Para determinar las frecuencias en datos con- Rango
C = (10)
tinuos, se deben seguir los siguientes pasos m
que involucran cálculos matemáticos y la uti-
lización de algunas fórmulas de aproximación, Si esta división es exacta, se procede, con la
como la del rango, número de intervalos me- construcción de los intervalos y la tabla de
diante la fórmula de Sturges y la amplitud de frecuencias, en caso contrario se rediseña un
intervalo. nuevo rango; para ello, es necesario examinar
si el producto de C*m excede al rango original
Rango y en cuánto excede. Esta diferencia propone la
construcción del nuevo rango. El procedimiento
Es el dato calculado mediante la diferen-
es el siguiente y se muestra en la ecuación 11.
cia entre el dato máximo y mínimo, como se
muestra en la ecuación 6.
1. Si RNuevo = C*m > Rango

R = Xmax – Xmin (6)


2. Se realiza la diferencia D = RNuevo – Rango

Número de intervalos 3. Ahora se construyen los límites del nuevo


Representado por la letra m y se define me- rango
diante la fórmula denominada formula de
Sturges, como se muestra en la ecuación 7. Xmin = Min – 1/D

m = 1 + 3,3*log(n) (7) Xmax = Max + 1/D (11)

Donde n es el tamaño de la muestra. El número


de intervalos no puede ser inferior a 5 ni supe- Intervalos aparentemente
rior a 16, como se muestra en la ecuación 8.
nominales
5 ≤ m ≤ 16 (8)
Son los intervalos utilizados en la clase que
utilizamos, tal como resulta en el cálculo de
Algunos, sin embargo, utilizan la ecuación 9.
la amplitud C.
√n
m = (9)

La aproximación de m se puede hacer por


Ejemplo de aplicación
defecto o por exceso.
En el informe diario de contagios por covid-
19 en Colombia, se registran a los pacientes
Amplitud del intervalo que se recuperan en casa, en el hospital, en
La amplitud del intervalo determina la distan- la uci o que fallecieron. A continuación, se
cia que existe entre un dato y otro, se simboli- propone la tabla 5 la cual contiene los datos
za por C; depende del criterio establecido para con las edades de cien personas que se recu-
presentar la información, puede variar la am- peran de la enfermedad en los diferentes hos-
plitud en cada intervalo, pero se recomienda pitales de Colombia.
20 · Generación de contenidos impresos

TABLA 5 D = 70 – 68 = 2; esta diferencia propone la exis-


Edades de cien personas que se recuperan de la COVID-19 tencia de un nuevo rango que tendrá como
límites (ver ecuación 15).
80 27 29 74 80 65 37 42 66 60
54 45 75 58 85 90 60 68 86 49 Mínimo = Min – 1 = 24 – 1 = 23
79 59 57 79 68 79 41 26 42 75 R- Nuevo Máximo = Max + 1 = 92 + 1 = 93
77 60 56 82 57 72 80 51 29 72
60 90 51 80 38 34 67 76 62 58
87 55 37 62 76 46 54 31 28 63 (15)
32 80 58 85 57 92 32 31 44 61
El valor de la unidad que se ha restado al
27 77 65 60 48 46 44 35 75 55 mínimo y sumado en el máximo está determi-
79 67 55 49 77 34 71 24 68 59 nado por la diferencia de 2, el cual se reparte
38 64 28 29 78 49 56 58 74 69 en forma equitativa sobre estos valores ex-
tremos. Estos resultados indican que el nuevo
Nota. Elaboración propia. rango empieza en 23 y termina en 93. De esta
manera, se construirá la tabla de frecuencias
Se pide construir una tabla de frecuencia para
con 7 intervalos, una longitud de 10 inicia en 23
estos datos, organizando intervalos. Para ello,
y termina en 93 años. La tabla 6 de frecuencia,
el procedimiento es el siguiente:
realizada en Excel, tiene el siguiente aspecto.

1. Se calcula el rango, como se muestra en la


ecuación 12. TABLA 6

Rango = Xmax – Xmin = 92 – 24 = 68 (12) Tabla de frecuencias de personas con la covid-19 que se
recuperan en el hospital
El rango indica que una persona de 92 años es
Edades f h F H
la de mayor edad que se encuentra hospita-
23-33 13 13 % 13 13 %
lizada y que la persona de menor edad en el
33-43 10 10 % 23 23 %
hospital tiene 24 años.
43-53 11 11 % 34 34 %
2. Número de intervalos (ver ecuación 13) 53-63 25 25 % 59 59 %
63-73 13 13 % 72 72 %
m = 1 + 3,3 * log(100) = 7,6 (13) 73-83 21 21 % 93 93 %
83-93 7 7% 100 100 %
Aquí, se pueden escoger 7 intervalos que co-
100 1
rresponde a un redondeo por defecto o 8,
si el redondeo es por exceso. Sin ajustarse a
Nota. Datos tomados del Ministerio de Salud de Colombia (2020).
ninguna regla se escogerá el redondeo por
defecto, entonces se tienen 7 intervalos.

3. Longitud del intervalo (ver ecuación 14)


Gráficos para datos continuos
R 68
organizados en intervalos de
C =
m
=
7
= 9,71 ≈ 10 (14) clase
En este caso, la aproximación se recomienda por La tabla 7 corresponde a los cien pacientes con
exceso, por ejemplo, se la puede aproximar a 10. la covid-19 que se recuperan en algún hospi-
tal de Colombia. A esta tabla se le ha agrega-
El producto C*m = 10 * 7 = 70 excede al Rango = 68 do una nueva columna que corresponde a la
Gráficos estadísticos: guía práctica para estadística descriptiva· 21

marca de clase de los intervalos. El concep- Histograma


to de marca de clase corresponde a la ubica-
ción del centro de cada uno de los intervalos El histograma es una figura propia de las va-
de clase. riables continuas, cuya tabla se ha organizado
en intervalos de clase. Sobre el eje horizontal
se observan los intervalos de clase y sobre el
TABLA 7 eje vertical el valor de las frecuencias absolu-
Tabla de frecuencias de personas con la COVID-19 que se tas (figura 10).
recuperan en el hospital
La lectura sobre el histograma es directa, cada
Edades f h F H Xi caja representa el valor absoluto de las fre-
23-33 13 13 % 13 13 % 28 cuencias, por ejemplo, para este caso 13 per-
33-43 10 10 % 23 23 % 38 sonas entre 23 y 33 años, se encuentran re-
43-53 11 11 % 34 34 % 48 cuperándose de la covid-19 en el hospital. El
53-63 25 25 % 59 59 % 58
histograma es exclusivo de los datos numéri-
cos continuos.
63-73 13 13 % 72 72 % 68
73-83 21 21 % 93 93 % 78
83-93 7 7% 100 100 % 88
Diagrama de tortas
100 1
El diagrama de tortas es una de las gráficas
que se usa para representar las frecuencias re-
Nota. Datos tomados del Ministerio de Salud de Colombia (2020).
lativas, es común a todo tipo de variables, ya
Teniendo en cuenta la información registrada sean numéricas o categóricas. Al igual que en
en la tabla 7, se construyen los siguientes tipos los datos enteros o categóricos, expresan el
de graficas: histogramas, tortas, ojivas, y polí- valor de la frecuencia relativa para cada uno
gonos de frecuencias. de los elementos de la variable de estudio, en

25

21

13 13
11
10

23___33 33___43 43___53 53___63 63___73 73___83 83___93

Figura 10. Histograma de personas con la covid-19 que se han hospitalizado. Datos tomados del Ministerio
de Salud de Colombia (2020).
22 · Generación de contenidos impresos

este caso representa las categorías o los inter- absolutas como acumuladas. Para este gráfico,
valos de clase, formadas con la variable edad, en el eje horizontal, se ubican los intervalos de
de las personas que se han hospitalizado a clase; en el eje vertical, se leen las frecuencias
causa del contagio por covid-19 en Colombia absolutas acumuladas (figura 12).
(ver figura 11).
Como el salto de intervalo implica continuidad
en sus valores, su lectura se hace con base en
el valor acumulado de la frecuencia tomando
Ojivas
como final el extremo superior del interva-
Las ojivas son gráficos exclusivos de los datos lo. Por ejemplo, existen 34 personas con la
numéricos continuos que permiten visualizar covid19 que están recuperándose en el hospi-
el valor de las frecuencias acumuladas tanto tal por debajo de los 53 años.

83 ___ 93 23 ___ 33
7% 13%
73 ___ 83 33 ___ 43
21% 10%

43 ___ 53
11%
63 ___ 73
13%
53 ___ 63
25%

Figura 11. Diagrama de tortas de personas con la covid-19 que se han hospitalizado. Datos
tomados del Ministerio de Salud de Colombia (2020).

100

93

72

59

34

23

13

23___33 33___43 43___53 53___63 63___73 73___83 83___93

Figura 12. Ojiva de personas con covid-19 que se han hospitalizado. Datos tomados del Ministerio de
Salud de Colombia (2020).
Gráficos estadísticos: guía práctica para estadística descriptiva· 23

Polígonos de frecuencia ellos podemos nombrar a los boxplot, las pirá-


mides poblacionales, los diagramas de Pareto y
El polígono de frecuencia es el gráfico estadísti- otros que no se abordarán en este documento.
co creado partir de un histograma de frecuen-
cia y las marcas de clase. Estos histogramas
emplean columnas verticales para reflejar fre- BOXPLOT
cuencias: el polígono de frecuencia es realiza- Para Walker et al. (2018), el diagrama de caja
do uniendo los puntos que reflejan las marcas es una herramienta eficaz de visualización de
de clase del intervalo y la frecuencia absoluta datos y útil en diversas aplicaciones y disci-
(ver figura 13). plinas. Aunque existen métodos gráficos más
sofisticados, el diagrama de caja sigue siendo
Visualmente, este gráfico identifica los puntos relevante debido a su simplicidad, interpreta-
más altos y bajos de la distribución. Por ejemplo, bilidad y utilidad, incluso en la era del big data.
en la figura 13, se puede evidenciar que las per- Los boxplot se constituyen en gráficos para
sonas entre 53 y 63 años representan el mayor datos numéricos, generalmente, si agrupan
número de hospitalizados por la covid-19. Asi- tablas de frecuencias.
mismo, se puede determinar cómo el número
Uno de los aspectos importantes que es posible
de personas que tienen edades ente 83 y 93 es
visualizar en los boxplots son los datos atípicos
el grupo más pequeño en condiciones de hos-
(puntos outlaiers), los cuales suponen una es-
pitalización.
pecial atención en el análisis de datos, ya que
suponen limitaciones inherentes al tratar con
datos de distribuciones sesgadas. Por ejemplo,
Otras gráficas en la figura 14, para el grupo de mujeres existen
Existen otro tipo de gráficas que tienen que ver cuatro puntos outlaiers, que llaman la atención
con los datos categóricos o con datos numéri- ya que corresponden a edades de niños que se
cos y que proponen mucha información, entre encuentran hospitalizados por la covid-19

25

21

13 13

11
10

23___33 33___43 43___53 53___63 63___73 73___83 83___93

Figura 13. Polígono de frecuencias de personas con la covid-19 que se han hospitalizado. Datos tomados del
Ministerio de Salud de Colombia (2020).
24 · Generación de contenidos impresos

101

81

Mujeres
61 Hombres

41

21

1
Figura 14. Boxplot por género de personas con la covid-19 que se han hospitalizado. Datos
tomados del Ministerio de Salud de Colombia (2020).

Otros de los aspectos que permite visualizar PIRÁMIDES POBLACIONALES


los boxplots es la comparación de grupos; por
Las pirámides poblacionales han venido siendo
ejemplo, en la figura 14 se observa cómo están
usadas para representar la distribución de la
los grupos por género de aquellas personas
población en diferentes eventos. En tiempos
que se han contagiado por la covid-19 y que
de la covid-19 se han vuelto muy comunes y
se encuentran hospitalizados. Por la construc-
han sido usadas para representar y comparar
ción de las cajas, el grupo de hombres es más el número de contagios por sexo y por grupos
grande que el de mujeres; asimismo, se ob- etarios. Pacheco y Rosselli (2018) proponen el
servan que en el grupo de hombres existe un uso de estas figuras para hacer proyecciones
nutrido grupo de personas jóvenes que están demográficas, por ejemplo, la transición de-
en situación de hospitalización. Todas estas mográfica, y comparar la composición de la
observaciones y otras son posibles a la luz de población en una región determinada.
la construcción de estas figuras.
La figura 15 se refiere a la pirámide población
Finalmente, estos gráficos permiten obser- por grupo etario y género de los contagios por
var el valor de las medidas de tendencia la covid-19 en Colombia. Lo que propone la pi-
central, de posición, de dispersión e, incluso, rámide es una comparación de la forma como
es posible analizar la asimetría y la normali- se contagian hombres y mujeres; en la mayoría
dad de los datos, asimismo, observar, valores de los intervalos de clase etaria, el problema
mínimos máximos, rangos, entre otros. Todos del contagio es similar, en otros se observa un
estos elementos de información que propo- aumento ligero en los hombres, en síntesis,
nen los boxplots suponen importancia esta- permite observar el equilibrio o desequilibrio
dística para el análisis de datos números o de que existe en la población femenina y masculi-
pequeños grupos. na que se ha contagiado con la covid-19.
Gráficos estadísticos: guía práctica para estadística descriptiva· 25

> 90 6546 7049

80 __ 89 32713 30379

70 __ 79 69566 64592
Hombres
60 __ 69 134421 124829
Mujeres
50 __ 59 211638 196535

40 __ 49 249174 231393

30 __ 39 341887 317490

20 __ 29 322530 299514

10 __ 19 103220 95355

0 __ 9 49408 45882

400000 300000 200000 100000 0 100000 200000 300000 400000

Figura 15. Pirámide poblacional por género de personas con la COVID-19 en Colombia. Adaptado del Boletín
Epidemiológico COVID-19, por la Subred Integrada de Servicios de Salud. (2020).

Si da clic en el enlace, puede encontrar un TABLA 8


video titulado “Pirámide poblacional en Excel Tabla de Pareto de personas con la COVID-19 que se recuperan
| Tips y trucos en Excel”, que le servirá de guía en el hospital
para la construcción de una pirámide pobla-
Edades f h F H
cional en Excel.
53-63 25 25 % 59 25 %

73-83 21 21 % 93 46 %
DIAGRAMA DE PARETO 23-33 13 13 % 13 59 %
Un diagrama de Pareto es una técnica gráfica 63-73 13 13 % 72 72 %
simple para ordenar elementos, desde el más 43-53 11 11 % 34 83 %
frecuente hasta el menos frecuente (en forma
33-43 10 10 % 23 93 %
descendente), basándose en el principio de
83-93 7 7% 100 100 %
Pareto. En el caso que aquí se expone (ver
tabla 8), se trata de observar el grupo etario 100 1
de mayores casos de contagio por edades, a los
Nota. Datos tomados del Ministerio de Salud de Colombia.
que se los puede dividir en dos grupos: críti-
cos y poco críticos. La proporción de los grupos En la tabla 7, se han preparado los datos para
críticos para Pareto resulta ser de aproxima- la realización de la gráfica de Pareto. Los inter-
damente un 20 % para los “pocos críticos” de valos están dispuestos de acuerdo con el orden
un 80 %. Este 20 % serán los grupos etarios res- descendente de las frecuencias absolutas. La
ponsables de la mayor parte del efecto que preparación de los datos supone la división de
se produce en casos de hospitalización por la los grupos determinados en grupos críticos y
covid-19 en Colombia. poco críticos, lo cual se observa en la figura 16.
26 · Generación de contenidos impresos

Para obtener la figura 16, los datos tienen que lleguen al hospital producto del contagio por
estar ordenados de mayor a menor. Las causas la covid-19.
en el eje x, sobre el eje y izquierdo, se dispo-
Una lectura de la figura nos propone que el
nen los valores de la frecuencia absoluta acu-
72 % está generado por cuatro causas princi-
mulada; sobre el lado derecho, se observan los
pales, determinados por los grupos etarios de
valores de la frecuencia relativa acumulada.
53-63; 73-83; 23-83; 63-73. Una recomendación
a la luz de estos resultados propondría hacer
De acuerdo con lo dispuesto por Pareto, el 80 %
una revisión sobre estos grupos etarios, ya que
de las consecuencias es producto del 20 % de
aquí se concentra la mayoría de las personas
las causas. El grafico identifica el 80 %; como
con la covid-19 en el hospital.
este valor se observa sobre las frecuencias
acumuladas, para el caso que se observa el Si da clic en el siguiente enlace, podrá encontrar
valor cercano corresponde al 72 %, en el cual un video titulado “¿Cómo hacer un diagrama
se concentrará el esfuerzo de grupo etario de Pareto en Excel 2016?”, que le servirá de guía
por disminuir el número de personas que para la construcción de los diagramas de Pareto.

100 100% 100%


Personas con COVID-19 que se recuperan en el hospital

90 93% 90%

80 83% 80%

70 72% 70%

Porcentaje Acumulado
60 60%
59%
50 50%
46%
40 40%

30 30%
25%
20 20%
25 21
10 10%
13 13 11 10 7
0 0%
53 __63 73 __83 23 __33 63 __73 43 __53 33 __43 83 __93

Rango de edades de personas con COVID-19 que se recuperan en el hospital

Figura 16. Diagrama de Pareto de personas con la covid-19 que se recuperan en el hospital. Datos tomados
del Ministerio de Salud de Colombia.
Gráficos estadísticos: guía práctica para estadística descriptiva· 27

EJERCICIOS DE APLICACIÓN Aquí:

1. Primaria
Ejercicio n.° 1
2. Secundaria
En una encuesta aplicada a microempresarios
de la ciudad de Villavicencio se desea indagar 3. Técnica
sobre su formación. Se realizó la encuesta con
4. Universidad
150 microempresarios. Los resultados fueron
los siguientes: 5. Posgrado

4 3 2 4 4 Elabore para datos categóricos, la tabla de fre-


2 2 4 2 4 cuencias y los respectivos gráficos, acordes
4 4 3 2 4 con este tipo de variables. Haga uso de Excel
3 2 4 3 4 para la construcción de las tablas y de sus res-

2 3 4 4 4
pectivos gráficos.

2 1 3 3 3
2 4 2 3 4
Ejercicio n.° 2
3 4 3 4 4
Cuestionario, por niveles taxonómicos de solo,
2 4 4 4 4
con lectura de gráficos estadísticos.
4 3 3 3 4
3 3 3 4 4 Con el propósito de fortalecer la lectura y la
4 4 2 3 3 comprensión de los gráficos estadísticos se
hace uso de la taxonomía solo en sus cuatro
4 3 3 3 4
niveles. Con respecto a esta taxonomía Biggs
3 5 4 4 4
y Collis (1982) observaron que, “en la progre-
4 2 3 4 4
sión desde la incompetencia hasta la maes-
4 3 3 3 3 tría, los estudiantes muestran una secuencia
2 2 3 4 4 consistente, o ciclo de aprendizaje, que es ge-
4 3 4 2 4 neralizable a una gran variedad de tareas y
1 3 3 4 3 en particular a las tareas escolares”. Esta se-
4 5 4 3 4 cuencia se refiere a un progreso jerárquico en
la complejidad estructural de sus respuestas,
4 4 4 4 3
cualquiera que sea el modo de funcionar o
4 3 3 4 4
modo de representación, en el que se exprese
4 3 3 3 4
el aprendizaje. Lo anterior supone que el
4 4 4 2 3 proceso de indagar partirá de posiciones sen-
4 5 2 4 4 cillas para llegar a propuestas complejas en
3 4 3 4 4 las que se evidencia el grado de aprendizaje
4 3 2 3 2 en los estudiantes (Biggs y Collis, 1991). En las
4 4 2 4 4 siguientes preguntas.

4 4 4 4 2
Según la figura 1 que muestra los asesinatos
4 3 4 3 3 ocurridos a líderes sociales, responda:
28 · Generación de contenidos impresos

1. Entre el 7 de agosto del 2016 y el 9 de julio desconfianza de pueblo en torno al se-


del 2017 ocurrieron: guimiento y la aplicación de la justicia.

A. 69 asesinatos. C. La excesiva manifestaciòn de asesina-


tos ocurridos a lo largo de un año (2017
B. 80 asesinatos.
y 2018) implica que hubo un mayor de-
C. 105 asesinatos. sarrollo de estrategias en contra la de-
lincuencia, lo que provoca disminución
D. 10 asesinatos. de los casos refejados en año siguiente
(2018-2019).
2. Fueron asesinados 105 lideres sociales entre
D. El registro y analisis de asesinatos en un
A. El de 10 de julio del 2017 y el 6 de agosto
periodo de un año y el aumento de los pro-
del 2017.
blemas de la delincuencia dilatan la apli-
B. El 7 de agosto del 2017 y el 9 de julio del cación de estrategias para su prevención.
2018.
De acuerdo con la información evidenciada en
C. El 10 de julio del 2018 y el 6 de agosto del la figura 17, responda las siguientes preguntas:
2018.
De acuerdo con la gráfica del comparativo del
D. El 1 de agosto del 2016 y el 9 de julio del
mes de junio, responda:
2019.
5. La deforestación por km2 para el 2017 es
3. El mayor aumento de asesinatos es
A. 600.
A. 37 correspondiente a la diferencia de ase-
sinatos ocurridos entre el 7 de agosto del B. 1000.
2016 y el 9 de julio del 2018.
C. 200.
B. 1 representa el aumento de asesinatos
entre el 7 de agosto del 2016 y el 9 de julio D. 6000.
del 2019.
6. Para el 2016 y 2019 la deforestación por
C. 5 son los asesinatos ocurridos entre el 10 km2 está entre
de julio del 2018 y el 6 de agosto del 2018.
A. 200 y 400.
D. 100 corresponde a los asesinatos entre el 6
de agosto del 2017 al 9 de agosto del 2018. B. 200 y 1000.

4. Según los asesinatos ocurridos a líderes so- C. 800 y 1000.


ciales ocurridos entre enero del 2016 y julio
del 2019 se infiere que: D. 400 y 600.

A. La disminución de los asesinatos durante 7. Al analizar la deforestación comparati-


julio y agosto del 2017 obedece al aumento va por años de agosto a junio por km2 se
de los casos ocurridos en el año imediata- puede afirmar que
mente anterior.
A. Durante el gobierno de Bolsonaro hubo
B. El aumento de asesinatos ocurridos entre más de 3000 km2 reportados en defores-
agosto del 2017 y julio del 2018 provocan tación y degradación.
Gráficos estadísticos: guía práctica para estadística descriptiva· 29

B. Para el 2019 la deforestación disminuyó lo que sugiere una falta de compromi-


notablemente. so del Gobierno actual por controlar las
causas de este.
C. Para el 2019 se presentó la cifra más alta
en deforestación y degradación.
C. La deforestación para el 2018 representa
D. Año tras años la cifra de deforestación la más baja deforestación lo cual implica
y degradación disminuye gradualmente. que hubo un mayor control en las políti-
cas de reserva ambiental.
8. La deforestación y la degradación de la
amazonia brasilera determina: D. Los altibajos en deforestación por kiló-
A. Una alta deforestación en los años 2016 metro cuadrado en comparación con
y 2019 producto de la falta de compro- junio, en el cual el 2016 y 2019 ocupan el
miso del Gobierno con el medio ambien- primer lugar y el 2017 y 2018 el segundo
te, falta de control de los incendios arti- con más bajos índices de deforestación.
ficiales y la consistente demanda de las
En el 2012, las emisiones totales de Colom-
empresas productoras de madera.
bia ascienden a 178 000 Gg CO², la distribución
B. Un decrecimiento mínimo en la defores- sectorial de emisiones de Gases Efecto de In-
tación para el 2019 con respecto al 2016 vernadero se representa en la figura 18.

Deforestación Deforestación y degradación


920,21 km2 2.072 km2
Top 3 por estados Top 3 por estados
Pará 446,56 Mato grosso 1.025,58
Amazonas 193,28 Pará 577,25
Mato grosso 153,55 Amazonas 228,44
REPUNTA LA DEFORESTACIÓN
Comparativo por años
Comparativo mes de junio (agosto a junio. Km2)
Gobierno
Bolsonaro
3.000 km2
km2
4.638,7 4.574,9
1.000 4.181,5 3.975,5

800

600

400

200

0
2016 2017 2018 2019 2016 2017 2018 2019

Figura 17. Radiografía de la deforestación en el Amazonas brasileño (junio del 2019). Tomado de Pasquali (2020), a partir
de efe, cifras de deter e inpe y adaptación infográfica etc.
30 · Generación de contenidos impresos

Residuos

8%
Energía

43% 44%

Agricultura,
silvicultura y otros
usos de la tierra
(AFOLU) 5%
Procesos industriales
y usos de productos

Figura 18. Emisiones GEI de Colombia en el 2012. Tomado de Inventario Nacional de Gases de Efecto Invernadero (2012).

Teniendo en cuenta la información dada en la C. i y iv solamente.


figura 18, ¿cuál de las siguientes afirmaciones
son verdaderas? D. y iii solamente.

A. El sector que genera mayor contamina-


10. Sabiendo que la producción total de emisión
ción es el sector energético.
de gei en Colombia ascienden a 178 000 Gg
B. El sector agricultura, silvicultura y otros CO², cuantos miles de Gg CO² debe dismi-
usos de la tierra (afolu) generan más del nuir el sector agricultura, silvicultura y
50 % de las emisiones de gei del país. otros usos de la tierra (afolu) para que su
porcentaje descienda a un 40 %:
C. Los sectores energía y procesos indus-
triales y uso de productos generan más
del 50 % de las emisiones de gei del país. A. 14 000,24 Gg CO²

9. Los sectores energía y residuos generan más B. 71 000,2 Gg CO²


del 50 % de las emisiones de gei del país:
C. 76 000,54 Gg CO²
A. solamente.
B. solamente. D. 5000,34 mil Gg CO²
Gráficos estadísticos: guía práctica para estadística descriptiva· 31

Ejercicio n.° 3

C-Ciudadanas
Matemáticas

C-Naturales
Intervalos

L-Critica
A continuación, se proponen algunos datos
obtenidos en las pruebas saber-2019.
L-Critica Matemáticas C-Naturales C-Ciudadanas 26-34,5
47 48 37 30
60 65 54 59 34,5-43

66 57 41 74 43-51,5
62 54 61 73
51,5-60
63 57 55 57
49 29 41 41 60-68,5
76 70 70 68 68,5-77
57 65 63 66
Total
62 62 66 39
68 66 63 77
42 40 28 39
38 31 41 26 Ejercicio n.° 4
64 56 59 60
Para los datos no organizados de la prueba
52 66 54 52
saber, construya los Boxplot y establezca com-
54 49 40 33
paraciones entre las asignaturas que se pre-
52 55 61 50
sentan en la tabla.
63 68 54 69
48 54 58 50
52 55 49 32
61 38 44 45 Ejercicio n.° 5
55 64 57 57 Para los valores obtenidos en las asignaturas
57 51 45 38 de L-Critica y Matemáticas, elabore una pirá-
58 57 49 42 mide de resultados y establezca algunas com-
34 39 38 28 paraciones.
48 71 61 55
75 73 59 75
53 56 54 55
Ejercicio n.° 6
53 48 43 46
40 43 39 39 Al parecer, los resultados de la prueba de
69 57 63 61 lectura crítica están relacionados con la canti-
49 55 31 31 dad de libros leídos por un estudiante. A partir
59 51 51 45 de los datos obtenidos en la siguiente tabla,
65 64 54 62 dibuje un diagrama de Pareto. Concluya con
55 55 50 45 respecto a las variables de lectura.
56 51 49 51
Variables de lectura Intervalos Promedios
Para los datos propuestos, obtenga el valor
No leen 0 50
de las frecuencias absolutas, relativas y acu-
muladas, propuestas desde la siguiente tabla. Leen poco 0-10 51
Elabore histogramas para matemáticas y Lectura mediana 11-25 56
L-Crítica, Ojivas para C-naturales y diagramas
Bastante lectura 26-100 56,2
circulares para C-ciudadanas. Realice lecturas
Mucha lectura >10 58
para algunas graficas.
32 · Generación de contenidos impresos

REFERENCIAS
Batanero, C. y Díaz, C. (2011). Estadística con proyectos. Universidad de Granada.

Castellanos. M. T. y Obando J. (2013). Análisis y sistemas de datos poderoso escenario de aprendizaje cultural.
Revista Científica, 2(54), 504-508.

Contreras, A., Cárdenas, C., González, J., Toloza, S., Zambrano, L. y Pulido-Rojan, A. (2019). Herramientas estadísti-
cas para la mejora del control de inventarios: un caso de estudio. Investigación y Desarrollo en tic, 10(1), 13-24.

Consejería Presidencial de los Derechos Humanos. (2019). Informe sobre el balance de las acciones y estrategias ade-
lantadas en el marco de la protección de los líderes, lideresas sociales y defensores de derechos humanos. Consejería
Presidencial de los Derechos Humanos. http://www.derechoshumanos.gov.co/Prensa/2019/Documents/
INFORME%20LDDH%20ACTUALIZADO%2017%20DE%20JULIO_V2.pdf

Departamento Administrativo Nacional de Estadística. (dane). (2020). Boletín técnico. Estadísticas vitales – eevv.
Defunciones por covid-19. 2 de marzo al 4 de octubre de 2020pr. dane. https://www.dane.gov.co/files/investiga-
ciones/poblacion/defunciones-covid19/boletin-defunciones-covid-2020-02mar-04oct.pdf

Ingeniería Industrial Easy. (2017, 11 de marzo). Cómo hacer un diagrama de Pareto en Excel 2016. [Video de You-
Tube]. https://bit.ly/38TKbou

Instituto Nacional de Salud. (ins). (2020). covid-19 en Colombia. Instituto Nacional de Salud. https://www.ins.
gov.co/Noticias/Paginas/coronavirus-casos.aspx

Inventario Nacional de Gases de Efecto Invernadero. (gei). (2012). Tercera Comunicación Nacional de Cambio Cli-
mático. Programa de las Naciones Unidas para el Desarrollo (pnud). http://documentacion.ideam.gov.co/
openbiblio/bvirtual/023421/cartilla_INGEI.pdf

Microsoft Excel a Todo Nivel. (2016, 1 de agosto). Pirámide poblacional en Excel | Tips y trucos en Excel. [Video de
YouTube]. https://bit.ly/3nf0Nzh

Pasquali, M. (2020). La deforestación en la Amazonia brasileña alcanza su nivel más alto en una década. Sta-
tista. https://es.statista.com/grafico/16328/deforestacion-estimada-en-la-amazonia-brasilena/

Polanía, M. J., Pacheco, B. y Rosselli, D. (2018). El uso de pirámides poblacionales como representación gráfica
del sistema de salud colombiano. Archivos de Medicina (Manizales), 18(1), 127-133.

Ross, S. M. (2018). Introducción a la estadística. Reverté.

Subred Integrada de Servicios de Salud. (2020, 26 de agosto). Boletín Epidemiológico covid-19. Datos Abiertos Bogo-
tá. https://datosabiertos.bogota.gov.co/dataset/9de30caa-a772-4fc9-9d8c-6baf0cd5078f/resource/cdecb5cf-
6f63-46b1-bc4a-70d95b6394b4/download/boletin-epidemiologico.pdf

Walker, M. L., Dovoedo, Y. H., Chakraborti, S. y Hilton, C. W. (2018). Un diagrama de caja mejorado para datos
univariados. The American Statistician, 72(4), 348-353.
FAYAD CAMEL V.
Profesor de Bioestadística – Escuela de Salud Pública – Universidad Central de Venezuela

ESTADÍSTICAS MÉDICAS
Y DE
SALUD PÚBLICA

IMPRESO EN LA UNIDAD ANDRES “VOISIN”


IMPRENTA DE LA UNIVERSIDAD
LA HABANA – CUBA
1968
CONTENIDO
CAPITULO PAGINA
PARTE I: METODOLOGÍA ESTADÍSTICA
I LA ESTADÍSTICA Y SUS RELACIONES CON EL
METODO CIENTÍFICO Y CON LA MEDICINA

1.1 CONCEPTO
1.2 EL METODO CIENTÍFICO
1.3 LA ESTADÍSTICA Y EL METODO CIENTÍFICO
1.4 LA ESTADÍSTICA Y LA MEDICINA
1.4.1.Usos en medicina individual
1.4.2.Usos en medicina colectiva

II LAS ETAPAS DEL METODO ESTADÍSTICO

LA ETAPA DE PLANIFICACIÓN

PLANIFICACIÓN DE LAS INVESTIGACIONES


MEDICAS

III 3.1.GENERALIDADES
3.2.PASOS DE LA PLANIFICACIÓN
3.3.PRIMER PASO: PLANTEAMIENTO DEL
PROBLEMA
3.3.1.Naturaleza e importancia del problema
estudiado
3.3.2.Determinación de objetivos
3.4.SEGUNDO PASO: BÚSQUEDA Y EVALUACIÓN
DE
LA INFORMACIÓN EXISTENTE
3.4.1.Evaluación de trabajos individuales
3.4.2.Evaluación global del material estudiado
3.5.TERCER PASO: FORMULACION DE
HIPÓTESIS
3.6.CUARTO PASO: VERIFICACIÓN DE LA
HIPÓTESIS
3.6.1.Diseño de la investigación
3.6.2.Ejecución de la investigación
3.7.QUINTO PASO: CONCLUSIONES Y
RECOMENDACIONES

LA ETAPA DE RECOLECCION DE LA
INFORMACIÓN

IV PASOS EN LA RECOLECCION DE LA
INFORMACIÓN

V LOS ERRORES EN LAS OBSERVACIONES

5.1.GENERALIDADES
5.2.ERRORES DEPENDIENTES DEL
OBSERVADOR
5.3.ERRORES DEPENDIENTES DEL METODO DE
OBSERVACIÓN
5.4.ERRORES DEPENDIENTES DE LOS
INDIVIDUOS
OBSERVADOS
5.5.RELACION ENTRE LAS DIVERSAS FUENTES
DE
ERROR
5.6.CONTROL DE ERRORES EN LAS
VI METODOS DE RECOLECCION DE LA
INFORMACIÓN

6.1.GENERALIDADES
6.1.1.Fuentes primarias de recolección
6.1.2.Fuentes secundarias de recolección
6.2.LA OBSERVACION
6.3.EL INTERROGATORIO
6.4.PRINCIPALES METODOS DE RECOLECCION
6.4.1.Encuestas y experimentos
6.4.2.Censo de población
6.4.3.Sistemas de registro

VII LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR

7.1.GENERALIDADES
7.2.UNIVERSOS Y MUESTRAS
7.3.VENTAJAS DEL EMPLEO DE MUESTRAS
7.4.DESVENTAJAS DEL EMPLEO DE MUESTRAS
7.5.CONDICIONES DE UNA BUENA MUESTRA
7.5.1.Cantidad de individuos en la muestra
7.5.2.Calidad de la muestra
7.5.3.Muestras representativas y muestras
seleccionadas
7.6.CLASES DE MUESTRAS
7.6.1.Muestras de conveniencia
7.6.2.Muestras probabilísticas
7.7.DEMOSTRACION PRACTICA
7.8.ELECCIÓN ENTRE MUESTRAS
PROBABILÍSTICAS Y
DE CONVENIENCIA
7.9.METODOS PARA LA OBTENCION DE UNA
MUESTRA PROBABILÍSTICA
7.10.DIFERENTES TIPOS DE MUESTRAS
PROBABILÍSTICAS
7.10.1.Muestras por azar simple
7.10.2.Muestras sistemáticas
7.10.3.Muestras estratificadas
7.10.4.Muestras de conglomerados
7.10.5.Muestras por procedimientos combinados
7.11.ANALISIS DE LOS RESULTADOS DE LAS
MUESTRAS
7.11.1.Valores del universo
7.11.2.Precisión de los resultados de la muestra

VIII DISEÑO DE LOS FORMULARIOS

8.1.GENERALIDADES
8.2.ELABORACION DE LOS FORMULARIOS

LA ETAPA DE ELABORACIÓN DE LA
INFORMACION

IX PASOS EN LA ELABORACION DE LA
INFORMACION

X REVISIÓN Y CORRECCION DE LA INFORMACION


RECOGIDA

XI CLASIFICACION Y COMPUTACION DE LOS


DATOS
25.5.INTERPRETACIÓN DE CHI
CUADRADO
25.6.PROBABILIDADES DADAS POR
EL CHI
CUADRADO
25.7.RELACIONES ENTTRE EL CHI
XXVI CUADRADO Y LA
CURVA NORMAL

COMPARACIONES ENRE LOS


PROMEDIOS ENTRE TRES O MAS
MUESTRAS INDEPENDIENTES

XXVII 26.1.INTRODUCCIÓN
26.2.PRUEBA DE KRUSHKAL-WALLIS
26.2.1.Calculo e interpretación

COMPARACIÓN ENTRE DOS


MUESTRAS NO INDEPENDIENTES

27.1.GENERALIDADES
27.2.COMPARACIÓN DE LOS
PROMEDIOS DE DOS
MUESTRAS NO
INDEPENDIENTES
27.2.1.Prueba de significación
incorrecta
27.2.2. Prueba de significación
correcta
27.3. COMPARACIÓN ENTRE LOS
PORCENTALES DE
XXVIII DOS MUESTRAS NO
INDEPENDIENTES
27.3.1. Comparación incorrecta
27.3.2.Comparación correcta
27.3.3.Prueba de Mc Nemar

AJUSTE DE TASAS
Introducción

La principal dificultad que se encuentra en la enseñanza de la Estadística a los estudiantes y


profesionales de la Medicina, es quizás, la resistencia mental que ellos oponen a una disciplina,
cuyo estudio considera que requiere profundos conocimientos matemáticos.

Este libro, el cual es simplemente un resumen de mis lecturas y de los conocimientos adquiridos
bajo la dirección de los profesores Dr. Shelly Hernández, John W. Ferlig y Leslic Kish, presenta la
Estadística desprovista de toda complicación matemática y el lector constatará, que un buen
conocimiento de las 4 operaciones elementales de la Aritmética, es absolutamente suficiente para
llegar a dominar las técnicas estadísticas de utilización más corriente por los médicos y
profesionales afines.

Con tal finalidad, se ha presentado de todo detalle técnico innecesario, procurando dar énfasis a la
Estadística como un método de raciocinio, pues se ha considerado, que es mucho más provechoso
conocer las posibilidades y limitaciones de una técnica, aún cuando no se tenga ninguna destreza
en su manejo, que dominar los más intricados secretos de su cálculo, cuando no se posee una
visión acertada de su aplicación.

El libro cubre el programa de Estadística seguido en el curso de Médicos Sanitaristas de la


Escuela de Salud Pública de la Universidad Central. Su primera parte, la Metodología Estadística,
constituye el material básico para los cursos de estudiante de Medicina y de Médicos Clínicos,
aunque, como es obvio, algunos aspectos se estiman con más detalles en unos cursos que en
otros.

Con propósitos prácticos, siempre teniendo en mente la comodidad del estudiante, tres detalles ya
utilizados en otros textos, se adoptaron en este libro:

a. La numeración de los cuadros y gráficos corresponde a la página en la cual se encuentran, con


lo cual el estudiante podrá localizarlos más fácilmente, cada vez que se hace referencia a ellos.
b. Con el fin de facilitar la verificación de los cálculos aritméticos – lo cual se considera
imprescindible en el aprendizaje de las técnicas expuestas-, la mayoría de los ejemplos son
teóricos, pero el lector observará que ellos corresponden siempre, a problemas reales del
campo de la medicina.
c. Un asterisco (*) delante de un capítulo, de una sección o de un párrafo cualquiera, indica que
se trata de material que ofrece cierta dificultad, lo cual amerita un estudio mucho más
cuidadosa.

Al terminan quiero agradecer al personal docente de la Escuela de Salud Pública y muy


particularmente a los doctores A. Llopis y P. Urdancia, sus valiosos consejos en la redacción de
algunos de los capítulos de este libro; a mis secretarios, los señores Iris de Piña e Irradia de López
y la señorita de Vannes Khan, su interés en mecanografiar este material y al señor Claricio
Cárdenas, su excelente labor en la ejecución del material gráfico incluido.

Especialmente grato me resulta finalmente, expresar mis agradecimientos a las autoridades


universitarios de la Universidad de Los Andes, sin cuya buena voluntad no hubiera sido posibles la
edición de este libro.

Caracas, noviembre de 1964.


PARTE I

METODOLOGÍA ESTADÍSTICA
CAPITULO I

LA ESTADÍSTICA Y SUS RELACIONES CON EL MÉTODO CIENTÍFICO Y CON


LA MEDICINA

1.1 Concepto.

La estadística deriva su nombre del hecho de haber sido aplicada primeramente a la recolección
de datos que permitieran la administración de los estados, pues con unos propósitos militares o
impositivos –lo cual constituía la primera preocupación administrativa de los antiguos imperios-, los
gobernantes necesitaban conocer cierta información referente al número y riquezas de sus
súbditos.

La palabra Estadística tiene hoy en día 2 significados diferentes. El término estadísticas, en plural
es sinónimo de datos numéricos mientras que la estadística, en singular, es el método utilizado en
el manejo de los datos anteriores, es decir el método de recolectar, elaborar, analizar e interpretar
datos numéricos.

A pesar de su concisión ésta definición nos permite entrever los vastos campos de acción de la
Estadística, pudiéndose decir que no hay prácticamente rama del saber humano en donde no
tenga utilización. Lo anterior no quiere decir que ella constituya el único mecanismo a través del
cual se puedan obtenerse nuevos conocimientos, o que el solo hecho de manejar una gran
cantidad de material numérico constituya un trabajo científico. La estadística, al menos la
Estadística práctica que será la única parte estudiada en este curso, más que una ciencia es
simplemente un método que enseña procedimientos lógicos de observación y análisis, necesarios
de tener en cuenta para aprovechar al máximo las experiencias de otras ciencias. En tal sentido
es un auxiliar irremplazable del método científico.

1.2. El Método Científico.

Tan variables como los motivos que dan origen a determinada investigación, son los
procedimientos que conducen a su realización. No hay en realidad reglas fijas que indiquen al
científico cual debe ser el punto de partida de su investigación o que limiten la escogencia de los
procedimientos que debe utilizar, pues en cualquier caso ellos varían de acuerdo a sus intereses e
inquietudes, a su preparación previa y a los recursos y presupuesto con que cuenta.

Bajo estas condiciones no puede hablarse del método científico como un camino único que
conduce al descubrimiento de la verdad y mucho menos como un esquema rígido e inmodificable
fuera del cual la investigación pierde su carácter científico. No obstante, es evidente que en las
ciencias médicas al igual que en los otros ramos de las ciencias naturales, los hechos surgen y
deben ser comprobados a través de la observación objetiva de los diferentes fenómenos.

Sin embargo la observación aislada de determinado fenómeno sería estéril si no pudiera resumirse
en una ley científica capaz de explicar racionalmente lo observado y a partir de la cual puedan
hacerse generalizaciones valederas. Antes de Fleming, numerosos bacteriólogos habían visto la
destrucción de sus cultivos en el laboratorio sin que tal observación fuera de ningún beneficio, pues
no se indagaron las causas que podrían explicarla con el fin de extraer nuevos conocimientos y
nuevas enseñanzas. Esa misma observación metodológicamente, analizada, condujo al científico
inglés al descubrimiento de la Penicilina.

De acuerdo a Bertrand Russel (31), las etapas del método científico pueden resumirse en los
siguientes tres pasos:

1. Exacta observación del fenómeno que se estudia.


2. Formulación de una hipótesis, mediante la cual pueden explicarse los hechos observados.
3. Verificación de la hipótesis mediante nuevas observaciones.

En la investigación real los pasos anteriores están tan íntimamente relacionados, que es imposible
pretender que todos los investigadores sigan siempre el anterior esquema de la misma secuencia
señalada. Se comprende por ejemplo que la formulación de una hipótesis previa es generalmente
necesaria para saber cuáles hechos se deben observar, y a su vez, la formulación racional de tales
hipótesis, requieren habitualmente ciertos conocimientos sobre el problema que se estudia. No es
difícil sin embargo encontrar numeroso ejemplo en la literatura médica que ilustran la manera como
los pasos anteriores se aplican en la investigación. Considérese al respecto, el descubrimiento del
bacilo tuberculoso:

Koch observó ciertas formas bacilares en los esputos de pacientes tuberculosos (primer paso), y
como hipótesis de trabajo atribuyó a ellas la causa de la enfermedad (segundo paso), lo cual
demostró más tarde, al comprobar que el bacilo se encontraba en los esputos de individuos
tuberculosos y nunca en los procedentes de individuos sin enfermedad (tercer paso).

No hay que creer que los pasos esbozados son privativos de las grandes investigaciones
solamente, pues no es difícil entrever como ellos se siguen rutinariamente, quizás
inconscientemente, aun en algo tan sencillo como la historia clínica de cualquier paciente. En
efecto, en todo diagnóstico:

a. Primero se recogen los datos sobre los antecedentes del enfermo, los cuales se complementan
por inspección, palpación, percusión o auscultación. Es decir, se hacen determinadas
observaciones.
b. En segundo lugar se hace el diagnóstico, el cual al principio es solamente un diagnóstico
provisional, es decir, una hipótesis de trabajo.
c. Finalmente se hará la verificación del diagnóstico, mediante nuevas observaciones, con la
ayuda del laboratorio y de otras técnicas especializadas, o en última instancia, observando los
resultados del tratamiento, los cuales serán favorables cuando el diagnóstico fue correcto.

1.3. La Estadística y el Método Científico.

La estadística cumple diferente papel en cada uno de los 3 pasos del método científico, siendo
especialmente importante en la observación de fenómenos y en la verificación de las hipótesis. En
la formulación de estas también tiene importancia aunque ello es un proceso en el cual intervienen
sobre todo la intuición y la imaginación de los investigadores.

a. La estadística interviene en el primer paso de la investigación científica ayudando a que las


observaciones fidedignas y exactas. Cada uno de los tres factores que intervienen en la
observación. –Observador, método de observación e individuo observado –pueden ser una
fuente de error que contribuya a que las observaciones sean incorrectas y como estas son el
punto de partida de la investigación, se requiere de un método que permita la medición y el
control de errores así determinados, con el fin de que las conclusiones tengan validez. Este
método no es otro que la Estadística, la cual nos enseña que parte de la variabilidad
registrada puede considerarse como real y que parte puede atribuirse a errores cometidos
durante el proceso de observación de los fenómenos.

b. En la verificación de las hipótesis también es importante la Estadística. Como la verificación de


las hipótesis se hace siempre mediante nuevas observaciones, es necesario resumir
adecuadamente los resultados de estas, pues la mente humana es incapaz de desentrañar la
verdad que se encuentra en una gran cantidad de datos si estos no han sido previamente
ordenados y clasificados. La Estadística al reducir a sencillas fórmulas numéricas el material
recogido y presentarlo y resumirlo en cuadros y gráficos, ayuda a este proceso de síntesis
mental, facilitando el análisis de los resultados.
c. Finalmente, aunque la formulación de las hipótesis es ante todo un proceso de imaginación e
intuición, la Estadística puede ayudar a ese proceso, pues al resumir convenientemente el
resultado de las observaciones, facilitando el razonamiento y pone de presente relaciones que
pueden concluir a la formulación de hipótesis racionales.

1.4 La Estadística y la Medicina.

Las consideraciones ya expuestas bastarían para explicar las relaciones existentes entre la
Estadística y la Medicina, la ciencia está caracterizada por los complejos y variables fenómenos
que estudia.

Para medico clínico, lo mismo que para el sanitarista, el método estadístico es un instrumento
invalorable a pesar de que a menudo se desconoce su gran utilidad. Al investigador médico que
trata de probar una hipótesis de trabajo o que pretende simplemente extraer ciertas deducciones
de las observaciones realizadas, la estadística le ayudara a decidir sobre el número de pacientes
que debe estudiar para que sus conclusiones tengan validez, a recoger adecuadamente los datos
pertinentes, a resumir y analizar convenientemente el material reunido y a presentar a otros el
fruto de sus investigaciones. El estudiante por su parte, solo podrá evaluar más objetivamente la
evidencia que otros investigadores le presentan, si es capaz de comprender el alcance y
limitaciones de los datos numéricos que han servido de base a las conclusiones de estudio, y esa
capacitación requiere un mínimo de conocimientos estadísticos.

1.4.1. Usos en Medicina Individual.

En el campo de la clínica, al diagnóstico de cualquier enfermedad solo es posible llegar mediante


la experiencia ganada a través del análisis estadístico de un conjunto de síntomas y signos
observados en muchos individuos. Si decimos por ejemplo, que el signo de Koplick es
patognomónico del Sarampión, es porque la clasificación estadística de las enfermedades, de
acuerdo a sus síntomas y signos, nos ha mostrado que el Koplick solo se presenta en el
sarampión y no en otra enfermedad.

Un pronóstico a su vez no es otra cosa que la aplicación que el cálculo de probabilidades a un


enfermo determinado. Si ante un paciente con fiebre Tifoidea predecimos que casi con seguridad
se salvara, lo hacemos con confianza, pues el estudio estadístico de innumerables enfermos
demuestra que la enfermedad cuando se trata correctamente, solo es fatal en aproximadamente un
30% de los casos.

Finalmente, todo nuevo tratamiento requiere su ensayo experimental que demuestre si es


realmente efectivo e inocuo. En tales ocasiones solo a través de la Estadística podemos analizar la
evidencia recogida y decidir si los efectos observados son debido a la casualidad y si pueden ser
lógicamente atribuidos al nuevo tratamiento.

1.4.2 Usos en Medicina Colectiva.

En el campo de la Salud Pública solo mediante procedimientos estadísticos podrá conocerse la


composición y principales características de la población que se va a servir, los cambios que
acontecen en ella, los riesgos a que está sometida y las necesidades que presenta.

La planificación de las actividades de Salud Pública, el control de los programas que se estén
desarrollando y la evaluación final de sus rendimientos y eficiencia solo podrá llevarse a cabo
mediante procedimientos estadísticos. En tal sentido, la estadística es tan imprescindible para el
trabajador de Salud Pública como lo es la contabilidad en las actividades de comercio e industria.
CAPITULO II

LAS ETAPAS DEL METODO ESTADISTICO

La aplicación de la Estadística a un problema determinado comprende las siguientes etapas:

1. Planificación del estudio.


2. Recolección de la información.
3. Elaboración de los datos recogidos.
4. Análisis e Interpretación.

En el presente curso, se estudiaran los puntos más importante de cada una de estas etapas y
aunque se pondrá más énfasis en la enseñanza de aquellas técnicas más necesarias al
investigador médico, se procurara ante todo familiarizar al alumno con los principios básico del
método estadístico.

Hay buenas razones que justifican este proceder. Las técnicas estadísticas son muy numerosas y
aquellas que son más apropiadas para determinados problemas pueden no ser convenientes para
otros. En cambio los principios generales de método estadístico son universales en su utilización,
no importa cuál sea la investigación que se realice o el ramo de conocimiento humano a que se
aplique. Parece mucho más conveniente por lo tanto, conocer las posibilidades y limitaciones de
una técnica aun cuando no se tenga ninguna destreza en su manejo, que dominar los más
intrincado secretos de su cálculo cuando no se tiene una visión acertada de su aplicación.
CAPITULO III

LA ETAPA DE PLANIFICACIÓN

PLANIFICACIÓN DE LAS INVESTIGACIONES MÉDICAS


3.1 Generalidades.

Aunque algunos de los más importantes descubrimientos científicos se ha debido a la casualidad


(Rayos X, Penicilina, etc.), puede decirse que por regla general todo nuevo conocimiento ha
surgido unas veces por la necesidad de encontrar solución práctica a determinado problema, y
otras por curiosidad científica, que impulsa al investigador a llenar lagunas existentes en nuestros
conocimientos o a explorar campos todavía no perfectamente conocidos.

En estos últimos casos, planificar en esencial no solo para calcular el tiempo que durara la
investigación, el personal que se requiere y el presupuesto necesario, sino con el fin de que la
investigación se realice con metas perfectamente definidas, evitando improvisaciones durante el
desarrollo de la misma, que en general introduce fuentes de error capaces de invalidar o
desmeritar el estudio.

Básicamente la etapa de planificación tiene por fin el estudio de los detalles concernientes a la
recolección elaboración y análisis de la información, sobre la base de la cual se describirán las
características de determinada población o se confirmara o negara determinada hipótesis de
trabajo. Es obvio sin embargo que ninguna planificación podrá hacerse adecuadamente si antes no
se ha definido claramente la naturaleza y objetivos de la investigación y si no se ha hecho una
conveniente evaluación de los conocimientos que sobre el problema se poseen y de las hipótesis
que se han formulado para explicarlo.

3.2 Pasos de la Planificación.

Los diferentes pasos que deben considerarse en la etapa de planificación, se comprenderán


fácilmente si se considera brevemente el procedimiento que se sigue habitualmente en cualquier
investigación.

Cuando intentamos realizar un estudio, comenzamos por hacer un planteamiento del problema en
el cual estamos interesados. Consideramos su naturaleza e importancia y a grandes rasgos
decidimos sobre los objetivos que perseguiremos en su realización.

Luego tratamos de documentarnos convenientemente sobre dicho problema, haciendo una


búsqueda y evaluación de la información existente, lo que nos llevara a su mejor conocimiento, nos
enseñara nuevas técnicas y complementara nuestra previa experiencia, pero a la vez nos pondrá
presente a un conjunto de fallas en nuestros conocimientos que conducirá a la formulación de
hipótesis que pueden explicarlas. El paso siguiente es lógicamente la verificación de las hipótesis
mediante la planificación y ejecución de la respectiva investigación, sobre la base de la cual
podremos formular una serie de Conclusiones y Recomendaciones.

Las anteriores consideraciones nos permiten esquematizar la planificación en los siguientes 5


pasos (45):

1. Planteamiento del Problema.


2. Búsqueda y Evaluación de la información existente.
3. Formulación de hipótesis.
4. Verificación de las Hipótesis.
5. Conclusiones y Recomendaciones.
El estudio de alguno de estos puntos no es en realidad un problema estadístico, pero se detallaran
a continuación, ya que su conocimiento y ordenada aplicación constituyen un método ideal de
trabajo para cualquier investigador.

3.3. Primer paso: Planteamiento del problema.

Al plantear el problema que se va a investigar, debe darse especial consideración a los siguientes
puntos:

a) Definición de la naturaleza e importancia del problema que se estudia.


b) Determinación del objetivo final y de los objetivos inmediatos de la investigación.

3.3.1. Naturaleza e Importancia del Problema.

Definir la naturaleza del problema que se estudia es explicar QUE vamos a estudiar. Es obvio que
será imposible la planificación de las etapas posteriores si antes no se ha determinado claramente
el problema que se trata de investigar. No basta por ejemplo, decir que se va estudiar la Fiebre
Tifoidea, pues probablemente ningún investigador este en capacidad de cubrir todos los aspectos
de esta enfermedad. Debe acentuarse explícitamente se vamos a evaluar una técnica diagnóstica,
un nuevo tratamiento o algunos de sus aspectos epidemiológicos.

Definir la importancia del problema es cuantificar su extensión y equivale a explicar POR QUE se
va a estudiar. Un investigador puede abocarse al estudio de un problema por razones éticas.
Estéticas o metafísicas, pero la mayoría de las veces, es el deseo utilitarista el que lo guía.

3.3.2. Determinación de Objetivos.

Determinar el objeto final, significa dilucidar las posibilidades de aplicación práctica de la


investigación, es decir, explicar PARA QUE se realice. De acuerdo a la finalidad de estudio, se
decidirá sobre los datos que deben investigarse y sobre la precisión con que deben recogerse y se
orientara el análisis en tal forma que se obtengan respuestas a las preguntas previamente
formuladas.

Determinar los objetivos inmediatos es explicar COMO se va a hacer la investigación, es decir,


señalar la estrategia que se utilizara en los procedimientos generales que se usara en el desarrollo
de la misma.

3.4. Segundo Paso: Búsqueda y evaluación de la información existente.

Antes de proceder el estudio, el investigador debe revisar, en cuanto sea posible, lo que al
respecto se haya hecho, con el fin de percatarse de lo que realmente se conoce sobre el y
familiarizarse con las técnicas de estudio más convenientes para su propósito, pues solo en esa
forma tendrá posibilidades de investigar con éxito lo que se propone.

No basta sin embargo, conocer todo sobre determinado tópico se haya escrito, sino que debe
hacerse una cuidadosa revisión de tales publicaciones.

Debe en primer lugar, hacerse una búsqueda tan completa como sea posible haciendo uso de
todos los medios bibliográficos al alcance.

Luego, el material disponible se clasificara para su lectura por tópicos y de acuerdo a la


investigación que se realice.

La evaluación tiene dos partes: a) Evaluación de los trabajos individuales y b) Evaluación conjunta
del material estudiado.
3.4.1. Evaluación de Trabajos Individuales.

Para la evaluación de los diferentes trabajos, no pueden darse reglas fijas, sobre todo que ella
depende en gran parte de la preparación de la persona que evalúa, pero quizás es de mucha
utilidad, tratar de dar respuestas a las siguientes preguntas propuestas por Donald Mainland (23).

¿QUIÉN hizo el estudio?


¿POR QUÉ lo hizo, o sea, ¿cuáles fueron sus propósitos y objetivos?
¿CUÁL fue el material estudiado?
¿DONDE se hizo el estudio?
¿CUANDO se hizo?
¿COMO fue realizado?
¿CUANTOS individuos estudiaron?
¿QUE conclusiones se obtuvieron?

Debe darse especial importancia, en primer lugar, a la manera como fueron recogidos los datos,
pues los procedimientos y métodos empleados en la recolección, servirán de guía para juzgar
sobre su precisión y limitaciones. En segundo lugar es preciso analizar cuidadosamente si las
conclusiones fueron legítimamente derivadas del material estudiado si fue correctamente la
interpretación de las asociaciones encontradas, pues hay muchos trabajos que a pesar de que
fueron cuidadosamente planificados y convenientemente realizados, han sido analizados
defectuosamente llegándose a conclusiones equivocadas.

3.4.2. Evaluación Global del material estudiado.

La anterior evaluación nos permitirá destacar como inadecuados muchos de los trabajos
evaluados, a la vez el de aceptar como correctas algunas conclusiones. Estas conclusiones deben
analizarse ahora en su conjunto para ver si son consistentes entre sí o si existen algunas que son
contradictorias. Justamente, la presencia de tales contradicciones revela tópicos que deben
investigarse y guía al investigador hacia la Formulación de hipótesis que deben verificarse,
mientras que conclusiones unánimes sobre el mismo problema, quizás nos lleven a abandonar o
modificar nuestro primitivo plan de trabajo ya que por lo general no vale la pena duplicar un trabajo
ya hecho.

3.5 Tercer paso: Formulación de la Hipótesis.

En toda investigación (salvo aquellas esencialmente descriptivas) implícita o explícita, se trata de


probar una hipótesis de trabajo. “La hipótesis es simplemente una explicación provisional de los
hechos, que se anticipa con el fin de constatar que es cierta”.

Ella permite centrar la observación sobre aquellos fenómenos que guardan relación con el
problema que se estudia evitando que muchos hechos importantes pasen inadvertidos o que el
investigador se pierda en un cúmulo de observaciones inconexas.

La escogencias de la hipótesis que va a verificarse dependerá de la síntesis del investigador, de


las necesidades existentes del personal y recursos con que cuenta, pero su formulación debe
hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerá de la
hipótesis que se trata de probar.

3.6 Cuarto paso: Verificación de la Hipótesis.

La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se


consideran dos aspectos: a) el diseño de la investigación y b) la ejecución de la misma.

3.6.1. Diseño de la Investigación.


Al diseñar la investigación se debe estudiar por adelantado cada una de sus diferentes etapas, es
decir, todos los detalles relacionados con la recolección, elaboración y análisis de los datos. Es
necesario determinar de antemano todo lo concerniente a las observaciones que se harán, al
número de individuos que se estudiará y el procedimiento a utilizar en su escogencia, investigando
cuidadosamente si existen factores éticos que pueden oponerse a la realización del estudio en la
forma proyectada. Se considerara la época en la que se hará el estudio, el tiempo que durara, los
gastos que determinara. Se hará la seleccio9n y entrenamiento del personal que va a colaborar y
si es el caso, se buscara el asesoramiento de un estadístico que aconseje sobre el diseño del
experimento proyectado.

Es necesario definir los términos que se usaran en la investigación, pues frecuentemente


aparentes resultados contradictorios sobre el mismo problema, se deben al uso de los mismos
términos, con significados diferentes. Así por ejemplo, la población urbana de Venezuela fue
respectivamente de un 30% y 54% según los censos de 1941 y 1950. Aun cuando el país tiende a
un urbanismo progresivo, parte de la diferencia anterior se debe al distinto significado que se ha
dado al termino urbano, pues en el primer censo se consideró como población urbana las
localidades de 2500 o más habitantes, y en el segundo, las localidades de 1000 o más habitantes,
es decir, que en todas las poblaciones entre 1000 y 2500 habitantes que no se consideraban como
urbanos en 1941, si se consideraron como tales en el censo de 1950.

Es importante sobre todo:

a. Definir la unidad que se observa, con el fin de incluir a la totalidad de los individuos que
presentan las características que se estudian y excluir a aquellos que no las presentan;
b. Definir lo que se va a observar para que todos los individuos sean uniformemente estudiados.

Así por ejemplo, si vamos a estudiar un número determinado de familias debe especificarse
claramente quienes deben considerarse formando parte de ellas. Para un estudio sanitario deben
incluirse todas las personas que vivan bajo un mismo techo aunque no tengan ningún parentesco,
pues todas ellas participan de las mismas condiciones sanitarias, las cuales modifican con su
presencia. En cambio para un estudio que tuviera por finalidad investigar la transmisión hereditaria
de cualquier característica biológica, la familia incluirá solamente a personas con lasos
consanguíneos, sin tomar en cuenta a los demás, aunque vivan bajo el mismo techo y aunque
haya de por medio cualquier otro tipo de vínculo familiares o legales.

Las definiciones que se adopten deben ser claras y precisas para evitar ambigüedades y con el fin
de facilitar las comparaciones entre los diversos investigadores, deben escogerse cuando existen
aquellas de aceptación universal.

Finalmente debe hacerse un balance entre los recursos que se tienen y los que se necesitan para
ejecutar la investigación conforme se ha planificado. Tal balance puede mostrar que los recursos
con que se cuestan son suficientes o que no lo son. En el primer caso podrá proseguirse con la
investigación pero en el segundo, habrá que decidirse por una de las siguientes alternativas 1)
Aumentar –cuando ello sea posible-la cantidad o el rendimiento de los recursos que se poseen
hasta el nivel necesario; 2) Planificar de nuevo la investigación de manera que pueda ejecutarse
con los recursos existentes y 3) Diferir la investigación hasta tanto se pueda conseguir los
recursos adicionales que se necesitan.

3.6.2. Ejecución de la Investigación.

La ejecución de la investigación es la: Recolección, Elaboración y análisis de la información


recogida, etapas que deben realizarse tal como han sido planeadas de antemano y cuyos detalles
serán motivos de estudio a lo largo de este curso.
3.7. Quinto paso: Conclusiones y Recomendaciones.

Ejecutado el estudio se considera si fue realizado conforme estaba planificado y con los resultados
a la vista se concluirá si la hipótesis han sido verificadas o no haciéndose las recomendaciones
pertinentes.

No es de esperarse que todas las veces se verifiquen las hipótesis, pero aun cuando ello no se
logre, el esfuerzo no ha sido en vano. En medicina experimental sobre todo, tan importante como
probar que un tratamiento es bueno, puede ser demostrar que una droga que sé venía aplicando
de rutina, no tiene ningún valor. Muchas drogas que por años se consideraron excelentes se han
abandonado luego por ineficaces o perjudiciales. Muchos males se hubieran evitado si antes de su
aplicación se hubiera exigido mayor evidencia sobre sus virtudes.
CAPITULO IV

LA ETAPA DE RECOLECCION DE LA INFORMACIÓN


PASOS EN LA RECOLECCION DE LA INFORMACIÓN

Esta etapa tan a menudo olvidada, tiene para el investigador mucha más importancia que cualquier
otra. Mientras que la elaboración y el resumen de los datos recogidos pueden ser delegados en un
componente técnico estadístico, la recolección de la información tiene que ser vigilada
constantemente por el propio investigador y realizada conforme a los planes previamente trazados.
Como ya se ha advertido, solo si la información ha sido recogida de la manera correcta, podrán
tener validez las conclusiones que de ella deriven. En el caso contrario, no se justifica siquiera el
empleo de las Estadística, ya que ninguna técnica podrá corregir los errores presentes en los datos
básicos recogidos.

La decisión sobre los datos que van a recogerse y sobre la precisión con la que deben ser
obtenidos depende primordialmente del propósito de la investigación y del material estudiado,
siendo conveniente limitarse a recoger tan solo0 aquella información que va a ser utilizada pues el
deseo de investigar muchos datos, en la esperanza de que algún día serán de utilidad, conspira
contra la correcta obtención de aquellos que son realmente esenciales.

Entre los principales puntos que deben considerarse al recoger la información y que serán motivo
de los próximos capítulos figuran:

a. Los errores que pueden cometerse en la recolección de los datos y la manera de controlarlos.
b. Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la
información.
c. Las condiciones que deben reunir los individuos que se estudian y los procedimientos más
convenientes para su elección.
d. El diseño de los formularios que servirán para registrar la información que se recoja.
CAPITULO V

LOS ERRORES EN LAS OBSERVACIONES


5.1 Generalidades.

Los integrantes de toda población, a la vez que poseen características que le son comunes
presentan algunas diferencias que sirven para individualizarlos. Es justamente por la existencia de
tales diferencias que se justifica el empleo de la Estadística, pues si todos los individuos de
determinada población fueran exactamente iguales, bastaría describir uno de ellos, para tener una
descripción acertada del conjunto.

A lado de esta variación real, inherente a los individuos que se estudian, hay que considerar una
variación sobreentendida o espuria que solo es en realidad, errores determinados por los factores
que intervienen en toda observación, es decir dependientes de:

1. El observador:
2. El método de observación, y
3. El objeto o individuo observado.

La presencia de tales errores determina por lo tanto que ninguna medición sea absolutamente
exacta. Esto debe tenerse en cuenta cuando se comparan dos o más observaciones, con el fin de
no dar mayor importancia a la existencia de pequeñas diferencias, las cuales pueden deberse
simplemente al proceso de medición utilizada. Así por ejemplo, si un paciente mostró en un primer
examen sanguíneo que tenía 4’000,000 de glóbulos rojos por milímetro cúbico y luego, tras un
tratamiento con drogas anti-anémicas, un segundo contare señala 4’200,000, debemos considerar
que parte de esta diferencia se debe a errores del análisis, antes de que podamos alegrarnos por
el éxito del tratamiento. Por lo tanto, solo en la medida en que tales errores pueden controlarse,
podrán conocerse la verdadera variabilidad que intentamos medir.

5.2 Errores dependientes del observador

El grado diferente de preparación o entrenamiento de los observadores, su estado físico, el exceso


de trabajo, las condiciones ambientales bajo las cuales trabajan, se reconocen como las
principales causas de error de las observaciones. Con el fin de ilustrar este tipo de error,
considérese la siguiente experiencia realizada hace algún tiempo en los Estados Unidos.

A un grupo de cinco expertos radiólogos se entregaron en dos oportunidades diferentes-separadas


una de otra por el lapso de dos meses-, las mismas 1256 radiografías de tórax, con el fin de
diagnosticar la existencia de tuberculosis pulmonar. Las radiografías, de tamaño estándar (14 x 17
pulgadas), fueron leídas separadamente por cada radiólogo con los siguientes resultados:

Cuadro 26

Resultados de la lectura de las mismas 1256 radiografías torácicas realizadas por


Los cinco radiólogos diferentes en dos oportunidades distintas.

Numero de Radiografías declaradas positivas


Observador
Primera Lectura Segunda Lectura
A 118 139
B 59 78
C 83 88
D 96 69
E 106 88
Fuente: Bikelo y colaboradores / A.M.A. Vol. 133 Pág.359 Febrero 1947.
Puede observarse en el cuadro que antecede, que en ninguna de las dos ocasiones las diferentes
observaciones coincidieron en él número de radiografías patológicas (variación Inter.-
observadoras) y que para un mismo observador las lecturas dadas como patológicas son
diferentes en las dos oportunidades (variación intra-observadores). Como en una y otra ocasión los
diversos investigadores estudiaron exactamente las mismas 1256 radiografías, debemos concluir
que tales discordancias no reflejan una variación real, sino simplemente, errores cometidos por
quienes hicieron la lectura del material radiográfico.

5.3 Errores dependientes del método de observación.

Todos los métodos de observación tienen errores más o menos importantes y de ahí la continua
preocupación científica de mejorarlos o cambiarlos por otros más convenientes.

Al estudiar las condiciones pulmonares de un paciente puede utilizarse la fluoroscopia y la


fluorofotografía de Abreu o la radiografía corriente de 14 x 17 pulgadas, pero la eficiencia de estos
métodos es muy diferente, como se observa en el siguiente cuadro:

Cuadro 27

Eficiencia de diversos métodos en él diagnóstico de la Tuberculosis Pulmonar

Método Eficiencia
Radioscopia 70%
Fluorofotografía de Abreu 90%
Radiografía estándar 95%

El cuadro muestra una marcada variación entre los diferentes métodos, siendo la radioscopia el
menos conveniente (variación Inter.-métodos). Se reconoce además, que para cada método en
particular hay una serie de factores que pueden conducir a falsear los resultados. Así por ejemplo,
una baja del voltaje de la corriente eléctrica o una pérdida de potencia de los líquidos reveladores
pueden dar radiografías de mala calidad que causan errores en su lectura (variación intra-
métodos).

5.4 Errores dependientes de los individuos observados.

Fuera de la variabilidad real que presentan los individuos que se observan, hay también una
variabilidad sobreañadida dependiente de ellos mismos, debido a las condiciones y al tiempo en
que se estudian.

La glicemia normal de varis individuos puede ser diferente por el solo hecho de que la sangre sea
tomada a intervalos diferentes después de la comida o porque algunos pacientes hayan ingerido
muchos hidrocarbonados y otros no (variación Inter.-individual).

Se comprende además, que para un mismo individuo, los factores acabados de mencionar harán
variar los resultados de una ocasión a otra (variación intra-individual).

5.5 Relaciones entre las diversas fuentes de error.

A pesar de la clara distinción que hemos hecho entre las anteriores fuentes de error, no debe
pensarse que ellos son completamente independientes. Si se recapacita sobre el ejemplo dado
para ilustrar los errores dependientes del observador, puede admitirse que ellos dependen en gran
parte del método de observación utilizado, pues no se escapa que mientras más perfecto sea éste,
menores serán los errores cometidos. Si el método fuera tan perfecto, que al colocar una
radiografía en una pantalla se encendiera una luz cuando existiera una lesión, sólo una persona
ciega o que estuviera distraída, fallaría en el diagnóstico.
De la misma manera, muchos de los errores dependientes de los individuos que se observan,
pueden atribuirse a condiciones relacionadas con el método de investigación y de ahí la necesidad
de estudiar a los diferentes individuos en condiciones tan similares como sea posible.

5.6 Control de errores en las observaciones.

Cualquiera que sea la causa de los errores anteriores, su control puede hacerse por reducción o
medición. Reducirlos primero hasta donde sea posible; medirlos luego, cuando ya no puedan
reducirse.

5.6.1. Reducción de los errores.

La reducción de los errores se logrará de acuerdo a las causas que los determinan. Aquellos
dependientes de los observadores, pueden reducirse aumentando la preparación y entrenamiento
de los observadores, vigilando sus condiciones físicas y poniéndolos en las más optimas
condiciones de trabajo. Para disminuir los errores causados por el método de observación, se
procurará seleccionar las mejores técnicas conocidas, estandarizar los métodos a emplear y
controlar constantemente el funcionamiento de los aparatos utilizados. Se procurará finalmente,
que los individuos estudiados se investiguen en las más favorables y similares circunstancias con
el fin de disminuir los errores que de ellos puedan depender.

5.6.2. Medición de los errores.

Al hablar de la medición de los errores, nos referiremos al progreso de la evaluación de las


diferentes técnicas y métodos de estudio.

Aunque algunos de los errores cometidos se deben a la técnica en sí, y otros a los observadores
que la utilizan, su separación es difícil y conviene considerarlos en conjunto. Cada investigador
debiera estimar los errores que comente en el trabajo habitual con las técnicas e instrumentos de
rutina y cada técnica debiera valorarse convenientemente, investigando los márgenes de error a
que pueda conducir su aplicación. Los procedimientos para tal evaluación ya implican un proceso
estadístico, cuyos fundamentos sólo se comprenderán en próximos capítulos, pero cuya utilidad
ilustran los siguientes ejemplos:

a. Si mediante todos los medios diagnósticos al alcance llegamos a la conclusión que en un


grupo de personas hay 100 enfermos con lesiones pulmonares de tuberculosis y si mediante la
radioscopia pulmonar descubrimos solamente 70, podremos concluir que la eficiencia de tal
método es alrededor del 70%. Por lo tanto, si al practicar una radioscopia declaramos que
determinado individuo no presenta tuberculosis pulmonar, es posible que una lesión mínima se nos
haya escapado, ya que el método no es efectivo en el 100% de los casos.

b. La mayoría de las veces, sin embargo, los errores que se comenten al realizar determinada
medición se hacen unas veces por exceso y otras por defecto. El siguiente sencillo experimento,
frecuentemente utilizado por los profesores de estadística, pone de presente la anterior afirmación.
Si se traza una línea en el tablero y se pide a un grupo de estudiantes que estimen a simple vista
su longitud, se constata que aproximadamente la mitad de los alumnos sobreestiman su valor,
mientras que la otra mitad da valores inferiores a las reales. Se constata además, que casi
invariablemente la verdadera longitud de la línea se encuentra aproximadamente a mitad del
intervalo determinado por el mayor y la menor de las estimaciones hechas.

Sobre la base de la anterior observación, no es difícil comprender que si un laboratorista quisiera


por ejemplo, conocer la precisión de los exámenes hematológicos que realiza, podría hacer
digamos, 20 preparaciones de una misma sangre y en cada una practicar el recuento de glóbulos
rojos. Si los resultados encontrados varían entre 4.600.000 y 5.000.000. En tal caso y volviendo al
ejemplo dado anteriormente, en el cual un paciente tenía originalmente 4.000.000 de glóbulos y
después de un tratamiento anti-anémico registraba 4.200.000, puede admitirse que la primera cifra
pudo ser 3.800.000 ó 4.200.000 y la segunda 4.000.000 ó 4.400.000, es decir, que no hay
evidencia definitiva a favor del mejoramiento del paciente.
CAPITULO VI

METODOS DE RECOLECCION DE LA INFORMACIÓN


6.1. Generalidades

Aunque en la mayoría de las investigaciones la información debe recogerse directamente de su


fuente de origen, en muchas ocasiones suelen aprovecharse los datos previamente recogidos por
otros individuos. En el primer caso se considera que la información ha sido recogida de fuentes
primarias y se habla de fuentes secundarias de recolección en el segundo caso.

6.1.1. Fuentes primarias de recolección.

Cuando la información no está registrada, habrá que recogerla directamente de su fuente de


origen, es decir, de los individuos en donde puede suceder el fenómeno o encontrarse la
característica en que estamos interesados. En tales ocasiones, sólo hay 2 procedimientos para
recolectar la información:

a. La observación.
b. El interrogatorio.

Aunque la observación y el interrogatorio son los 2 únicos procedimientos generales que permiten
recoger información a partir de su fuente de producción, ellos, aislada y conjuntamente, forman
1
parte de métodos especiales que luego se estudiarán ( )

Cuando la información que nos interesa se encuentra registrada, como corresponde tan solo,
buscarla y hacer buen uso de ella. A veces se halla publicada en textos o revistas y entonces es
fácil encontrarla en cualquier buena biblioteca. Si por el contrario no está publicada, su obtención
suele dificultarse a causa del carácter confidencial con que ha sido recogida, aunque resúmenes
adecuados son generalmente fáciles de conseguir.

De existir varias fuentes con la misma información, la escogencia una con preferencia a las otras
debe basarse en 2 criterios:

a. Calidad de la información, y;
b. Accesibilidad administrativa.

Aunque es obvio que entre diversas fuentes debe preferirse la de mejor calidad, muchas veces no
hay lugar a tal escogencia, pues por razones administrativas o de otra índole, puede suceder que
no se tenga acceso a alguna de ellas. Antes de conformarse con aprovechar la única disponible,
debe evaluarse adecuadamente el material suministrado para constatar si reúne las necesarias
condiciones de fidelidad y exactitud.

6.2. La Observación.

La observación directa de los diferentes fenómenos ha sido el método clásico de la investigación


científica y cuando es aplicable debiera ser el preferible, por ser el más objetivo. Sin embargo,
este método es caro, pues requiere personal altamente especializado y no es conveniente cuando
se estudian grandes masas humanas. Por otra parte, no puede aplicarse cuando se trata de

1
En un sentido general “observar significa ganar conocimientos por cualquiera de los órganos de los sentidos, y por lo
tanto, el interrogatorio sería simplemente uno de los procedimientos de realizar observaciones, no habiendo razón de
contrastar sus versiones y desventajas con las de la Observación, de la cual formaría parte. Los dos términos sin embargo
sugieren procedimientos perfectamente diferenciables, mientras que en el interrogatorio hay participación activa del
individuo que se estudia, en la Observación hay pasividad por parte de éste, a pesar de que en ciertas oportunidades se
provocan sus reacciones. Los próximos párrafos no dejan ninguna duda sobre el significado que se ha querido dar a estos
dos términos.
investigar las manifestaciones subjetivas de los individuos, su comportamiento pasado o sus
actitudes futuras. Si en el estudio de un paciente se desea averiguar si tiene buen apetito o
conocer qué enfermedad ha padecido anteriormente o a cuáles actividades se dedicará una vez
mejorado, en tales casos tendremos que recurrir al interrogatorio.

6.3. El Interrogatorio.

Las ventajas del interrogatorio no son otras que las limitaciones señaladas en la observación
directa, siendo por lo tanto el único método a emplear cuando se averigua el pasado, el futuro o las
manifestaciones subjetivas de los individuos. Tiene como desventajas, el apelar a la memoria y a la
buena fe de los interrogados y dar diferentes resultados según el tipo de preguntas y la manera
como son formuladas.

El que un paciente registre entre sus antecedentes, el haber padecido determinada enfermedad,
depende de que guarde memoria del tal acontecimiento y de que tenga voluntad de confesarlo,
sobre lo cual influye desde luego, la claridad con que se haga el interrogatorio.

Al interrogar a una persona, las preguntas que se le formulan deben ser concisas y claras, evitando
aquellas ambiguas o capciosas y las que presuponen un hecho o sugieren una respuesta.

Si se está interesado por ejemplo, en saber si un paciente consume vitaminas, lo lógico es


preguntarle primero si las toma o no y luego en caso afirmativo, averiguar la frecuencia con que lo
hace. Conformarse con preguntar si se toman vitaminas, no es suficiente, pues una respuesta
afirmativa puede decir que se toman diariamente o una vez por semana o sólo ocasionalmente.
Además siempre se procurará evitar aquellas preguntas que sugieren la respuesta. Si a una
madre se le pregunta con cierto énfasis: ¿Usted le da a su niño vitaminas, no es verdad?, sería
raro que ella respondiera que no.
El interrogatorio puede ser directo o indirecto.

El interrogatorio directo es aquel que se hace por medio de entrevistas y su ventaja principal es
que puede complementarse con la observación directa. A un paciente puede preguntársele si ha
tenido viruela y si contesta afirmativamente, puede constatarse su respuesta buscando las
cicatrices indelebles que deja la enfermedad. En encuestas sociales es posible que la
personalidad, clase social, la inflexión de la voz y la manera de preguntar del entrevistador, hagan
varia las posibles respuestas.

El interrogatorio indirecto habitualmente se hace mediante los cuestionarios postales. En general,


es un método más barato y rápido, aunque sólo es posible para preguntas sencillas. Como
inconveniente se señala el hecho de que generalmente es muy pequeño el número de personas
que envían contestación, especialmente en poblaciones con alto personaje de analfabetismo y en
tales casos, es posible que las personas que consten no representan a la totalidad de la población
que se quiere conocer:

6.4. Principales métodos de recolección.

La escogencia del método de recolección depende fundamentalmente del método de estudio, de la


naturaleza de la información y de la forma en que esta se recoja (ocasional, periódica o
continuamente). Entre estos métodos, cuyos detalles se verán posteriormente se escribirán a
continuación:

a. Las encuestas y los experimentos, como ejemplos de métodos utilizados cuando la información
se recoge ocasionalmente.
b. El método censal, como tipo de información recogida periódicamente
c. El sistema de registros, como tipo de información recogida continuamente.
6.4.1. Encuestas y experimentos

Generalmente se piensa que encuestas y experimentos difieren porque en las primeras la


información se recoge mediante el interrogatorio y en los segundos, mediante la observación.
La verdadera diferencia estriba sin embargo, en la naturaleza de los datos recogidos. En la
encuesta, los datos ya existen y solo es necesario recogerlos. En el experimento los datos no
existen y es necesario provocar su aparición.

Cuando una nueva droga se introduce o un nuevo tratamiento se recomienda, no hay al respecto
ninguna información registrada, simplemente porque no hay ninguna información existente. En
dichos casos, es necesario planificar un estudio con el fin de producir dicha información y luego
registrarla para subsiguientemente analizarla. En otras palabras, es necesario realizar un
EXPERIMENTO. En tales ocasiones la observación directa es el método habitual de recoger la
información, pero el interrogatorio puede ser también utilizado, como a menudo se hace en algunos
estudios de Sociología.

Hay otras ocasiones en que ya existe la información sobre la cual estamos interesados, pero no se
halla registrada. En dicho caso solo tenemos que buscarla y registrarla convenientemente para su
análisis posterior. Si queremos, por ejemplo, saber con que frecuencia se presentan quemaduras
en los trabajadores del petróleo o cual es el sueldo medio de los profesionales de la medicina,
nuestro trabajo consistirá solamente en buscar y registrar tal información. En dicho casos, la
técnica consiste en hacer una ENCUESTA en el grupo de personas en el que estamos
interesados. Tal encuesta puede hacerse por entrevistas personales o por medio de cuestionarios
postales, adoptando de acuerdo a los propósitos del estudio, uno cualquiera de los sistemas que
se describirán en el capítulo sobre Estadísticas de Morbilidad (Capitulo XXXII).

6.4.2. Censo de Población

El tipo de información recogida periódicamente en el Censo de Población. Venezuela, como casi


todos los países del mundo, se ha comprometido a efectuar un censo cada 10 años, habiéndose
efectuado el último el 26 de Febrero de 1961.

A menudo se cree que el Censo y la Encuesta difieren en cuanto a la población que cubren, pues
mientras que el primero se referiría a la totalidad del universo, la segunda solo estudiaría una
muestra de dicha población. Tal concepto es erróneo pues tanto el uno como la otra pueden cubrir
a toda la población o solo a un segmento de ella. La diferencia esencial radica en la naturaleza de
la información que se busca. En el Censo habitualmente se buscan datos generales de la
población. En la encuesta, por el contrario, se trata de lograr información sobre un tema concreto,
procurando profundizar en sus diferentes aspectos.

El censo cuyos detalles se estudiaran en el capítulo XXIX, puede compararse con una fotografía de
la nación en un momento determinado de su historia, siendo el medio mas seguro para conocer la
composición y principales características de las poblaciones humanas.

6.4.3. Sistemas de Registro

Mediante los registros se recoge la información continuamente, a medida que se va produciendo.


Los detalles por ellos suministrados son datos dinámicos, y de ahí que puedan que puedan
compararse con una cinta cinematográfica de la población, mediante el cual pueden compararse
los cambios que acontecen en ella.

Esta información se refiere unas veces a la totalidad de determinada población o país, como es el
caso del Registro Civil de Nacimientos y Defunciones, y otra a fenómenos que suceden en
determinada institución, como es el caso de las Historias Clínicas de los Hospitales. Los principios
generales sobre la organización de estos sistemas de registro, se estudiaran a propósito de las
Estadísticas Vitales.
CAPITULO VII

LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR


7.1 Generalidades.

Ya dijimos que cuando la información no está registrada, habrá que recogerla directamente de su
fuente de origen, es decir, de las personas en donde el fenómeno que nos interesa puede
acontecer. El problema que se presenta en tales ocasiones, es la acertada escogencia de las
personas que vamos a estudiar.

Este problema se presenta, porque muchas veces resulta imposible y otras impráctico estudiar la
totalidad de personas en donde puede encontrarse la característica en la que estamos interesados
y en tales casos, nuestro estudio tiene que limitarse a un grupo de dichos individuos, es decir, a
una muestra. No hay que olvidar, sin embargo, que aunque es la muestra la que observamos, es el
universo lo que queremos conocer, pues el estudio no tendría ninguna trascendencia sino
pudiéramos generalizar a la población los hechos observados en la muestra. Sin embargo, para
que esta generalización sea posible, los individuos integrantes de la muestra deben ser escogido
adecuadamente, y esto plantea una serie de dificultades que trataremos de estudiar en las
próximas páginas.

7.2. Universo (Población) y muestras.

Se entiende por universo o población la totalidad de individuos o elementos en los cuales puede
presentarse determinada característica susceptible de ser estudiada. Una muestra a su vez, es
una parte o grupo del universo. Así por ejemplo, si con el fin de conocer la estatura media de los
1500 alumnos de la Escuela de Medicina escogemos un grupo representativo de 200 de ellos, el
universo en estudio estará formado por la totalidad de los 1500 alumnos, y la muestra constara de
los 200 escogidos.

Las anteriores definiciones ameritan algunas explicaciones. En primer lugar, las unidades que se
estudian pueden ser personas, animales o cosas o pueden ser conglomerados de unidades, como
ser una familia, una colonia de parásitos o un bloque de viviendas. En segundo lugar, los términos
universo y muestra son conceptos relativos, pues un conjunto de individuos puede ser considerado
como un universo para ciertos estudios o como una muestra para otros. Así por ejemplo, los
alumnos de la Universidad Central constituyen una muestra con respecto a la totalidad de los
universitarios del país, pero constituyen el universo para dicha universidad en particular.

Los universos pueden ser finitos e infinitos. El universo se denomina finito, cuando está formado
por un número limitado de unidades, como ser el número de alumnos de la Universidad, de
médicos en Venezuela, etc. Se denomina infinito, cuando cuenta con un número limitado de
unidades. El número de estrellas en el ciclo, son universos infinitos que nunca podrían ser
cuantificados. En ocasiones, el universo que se estudia puede ser hipotético y entonces se le
considera como infinito. Así por ejemplo, si con el fin de ensayar una nueva droga contra la Fiebre
Tifoidea se la prueba en una muestra de 20 enfermos. El universo correspondiente, estará
constituido por todos los pacientes que actualmente tienen la enfermedad y por todas las personas
que alguna vez puedan adquirirla. Igualmente si a determinado individuo se le mide la tensión
arterial en tres oportunidades diferentes esas tres mediciones constituyen el universo de infinitas
mediciones que en dicho individuo pueden practicarse.

7.3. Ventajas del empleo de muestras.

Hay varias razones por las cuales el estudio de una muestra es preferible al de la totalidad del
universo.
Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de
universos infinitos o de universos limitados pero muy extensos, pues ningún investigador sería
capaz de tratarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales
el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba
la acción de ciertos casos en animales de experimentación.

Pero aun en el caso en que se quiera estudiar un universo perfectamente limitado, debemos
decidirnos por la muestra, pues su utilización tiene las siguientes ventajas:

1. Ahorra tiempo, dinero y trabajo


2. Permite una mayor exactitud en el estudio

El primer punto no necesita mayores comentarios. Si queremos estudiar cualquier característica de


los 20000 estudiantes de nuestra Universidad Central —digamos su metabolismo basal--- y para
ello tenemos una muestra de 2000 alumnos, el tiempo, el dinero y el trabajo serian
aproximadamente una décima parte del que se invertiría en el estudio de toda la población
estudiantil.

En efecto, como será menor el número de investigadores que intervienen en el estudio, será
mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente: como se necesitaran
menos instrumentos de investigación, estos podrán vigilarse y calibrarse más cuidadosamente, y
como serán menos los individuos a estudiar, será posible controlarlos más adecuadamente, de tal
manera que todos ellos estén en la más óptimas condiciones de estudio. Todo lo anterior
disminuirá los errores en las observaciones y por lo tanto, los resultados obtenidos tendrán mayor
exactitud.

7.4. Desventajas del empleo de muestras

Al lado de las ventajas señaladas, la única desventaja del uso de muestras, es el llamado error de
muestreo, el cual sumado a los 3 tipos de errores antes mencionados, podría invalidar nuestro
estudio.

Este error por muestreo es una consecuencia e la variabilidad de las poblaciones. Como los
individuos de toda la población son muy variables los diferentes grupos o muestras que podemos
formar con ellos difieran también unos de otros y como nosotros solamente estudiamos una
muestra para generalizar luego a toda la población, los resultados serán algo distintos según la
muestra que hayamos escogido. Esta diferencia por el valor dado por la muestra y el verdadero
valor del universo, constituye el error por muestreo, a condición desde luego, que en uno y otro
caso se utilicen idénticos métodos de estudio, pues en caso contrario, gran parte de dicha
diferencia pudiera ser debida a errores inherentes a los métodos empleados.

Con el fin de aclarar el anterior concepto, supongamos una población de 4 personas que tuvieran
respectivamente 5, 3, 2 y bolívares. El capital total de esta población es Bs. 20, o sea un promedio
de Bs. 5 por persona (20/4=5). Si no se conociera dicho promedio y para averiguarlo se tomara una
muestra de dos personas digamos las dos primeras (Bs. 5 y Bs. 3), concluiríamos a través de esta
pequeña muestra que el capital promedio de cada persona de la población es Bs. 4 cuando en
realidad vimos que era 5. Esa diferencia de 1 bolívar entre el valor de la muestra y el valor del
universo constituye el error por muestreo.

La presencia del error por muestreo parecía indicar que el estudiar una muestra en vez de la
totalidad del universo, es desfavorable y no ventajoso como hemos indicado. Sin embargo
conviene tener presente, en primer lugar, que el error por muestreo suele ser mucho menos
importante que los errores debidos al observador, al método de observación y a los individuos
estudiados, y en segundo lugar, que el error por muestreo puede medirse estadísticamente y en
cierto modo puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra.
Por lo tanto, como una muestra bien tomada permite el control de los errores debidos al
observador, al método de observación y a los individuos estudiados y, como por otra parte, el error
por muestreo puede medirse y disminuirse, se comprende fácilmente el por que hemos dicho que
los resultados a partir de una muestra, son mucho más exactos que aquellos obtenidos del estudio
de todo el universo.

7.5. Condiciones de una buena muestra.

Por lo dicho anteriormente, se deduce que no todas muestras contienen información acerca de la
población de donde proceden y por consiguiente, la muestra debe ser escogida de tal forma que la
información buscada se encuentre en ella.

Las condiciones que la muestra debe tener para que sea buena, es decir, para que rinda la mayor
utilidad posible, son dos. La muestra debe ser adecuada en:

a. cantidad, y
b. calidad.

7.5.1. Cantidad de individuos en la muestra

El que una muestra sea buena en cantidad, quiere decir que debe incluir un número óptimo y
mínimo de individuos. Hay fórmulas estadísticas que estudiaremos luego, mediante las cuales
podemos determinar el número de individuos que debemos incluir en cada investigación, pero
mientras tanto, las siguientes consideraciones ayudaran a aclarar este punto.

Supongamos una lista de alumnos de los cuales 15 sean hombres y una mujer. Si de esta lista
extraemos el nombre de un alumno y este es un hombre, a nadie se le ocurriría tomar esto como
evidencia para afirmar que todos los alumnos son del sexo masculino. Es evidente que en el
‘’mejor” de los casos, se necesitara extraer cuando menos dos nombres para poder afirmar que
hay hombres y mujeres en el curso, pero podría suceder que los 15 primeros nombres que
extraigamos sean de varones y en este caso extremo, sería necesario ver la totalidad de la lista
para indicar con absoluta seguridad cual es la composición verdadera del curso. De la misma
manera, si entre los 16 alumnos del curso hubiera 4 de cada una de las regiones geográficas del
país, sería imposible afirmar tal hecho, con una muestra que tuviera menos de 4 individuos.

Los ejemplos anteriores aunque aparentemente pueriles, permiten señalar que el número de
individuo que deben incluirse en la muestra, depende de 2 factores, a saber:

La frecuencia con la cual el fenómeno que se estudia se encuentra en el universo, pues es


evidente que si una enfermedad se presenta tan solo en el 1% de la población, habrá necesidad de
estudiar por lo menos 100 casos, para tener la posibilidad de hallar una persona enferma, mientras
que, si su frecuencia fuera del 50%, al menos teóricamente, de cada 2 personas que se estudien
se encontrara una enferma.

La variabilidad del universo que se estudias, pues se comprende que si todos los individuos que lo
forman fueran exactamente iguales, bastaría con estudiar uno solo para conocer todo el universo y
en el caso opuesto, en que todos los individuos fueran completamente diferentes, habría que
estudiarlos en su totalidad.

7.5.2. Calidad de la muestra

El que una muestra sea buena en CALIDAD, quiere decir que debe reflejar fielmente las
características del universo del cual procede y diferir de él, solo en el número de unidades
incluidas.
Los aspectos referentes a la calidad de la muestra, son más importantes que los referentes a su
cantidad y no debe pensarse que la calidad de la muestra depende de su cantidad. Si quisiéramos
estudiar las características del pueblo venezolano, y nos empeñáramos en estudiar solamente a
los habitantes de Caracas, aunque estudiáramos a todos ellos, nuestra muestra no seria todavía
representativa de toso el país.

7.5.3. Muestras representativas y muestras seleccionadas

Lo anterior quiere decir que si queremos generalizar que lo que es cierto en la muestra es cierto
también en todo el universo entonces la muestra debe ser perfectamente representativa de él. Si la
muestra no es representativa de su universo, se dice que es una muestra “seleccionada” y
generalmente no es conveniente trabajar con tales muestras. En el lenguaje corriente se llama
seleccionado algo que es excelente o de óptima calidad. En estadística por el contrario una
muestra seleccionada suele ser mala, ya que por definición, ella no representa su universo. No
quiere esto decir que una muestra seleccionada sea inútil significa tan solo, que es necesario
considerar ciertas limitaciones en las conclusiones que de ello se deriven. Por lo demás una
muestra seleccionada, que no es representativa para determinado problema puede ser
representativa para otro. Así por ejemplo, los estudiantes de la Facultad de Ingeniería forman una
mala muestra para un estudio que tuviera por fin, averiguar la proporción de hombres y mujeres en
la Universidad Central pues pocas mujeres eligen esta carrera, pero formarían una muestra
adecuada, si el problema fuera conocer el porcentaje de católicos en la Universidad, pues
aparentemente no hay ninguna relación entre los sentimientos religiosos y la elección de la carrera
que se estudia.

La selección puede ser voluntaria o involuntaria. En el primer paso el investigador conoce las
limitaciones del material que está estudiando y las conclusiones que deriven deben estar de
acuerdo con ellas. Un investigador, por ejemplo que estudia las variaciones del paso de un grupo
de escolares de 8 años, no podrá generalizar sus hallazgos a escolares de todas las edades sino
exclusivamente al grupo de edad investigado.

El segundo caso es más importante, porque como a menudo se agrupa dicha selección, se
pretenderá generalizar a toda una población conclusiones que no le corresponde. Generalmente
este error se comete por una de las tres causas siguientes:

a. Porque se toma la muestra de solo un sector del universo, creyendo equivocadamente, que
dicho sector constituye todo el universo.

b. Si se quisiera estudiar por ejemplo, el ingreso promedio del obrero venezolano y para ello se
obtuviera una muestra que incluyera solamente a trabajadores del Zulia, el promedio obtenido
no sería válido para toda Venezuela, pues se sabe perfectamente que los salarios en el Zulia
son muchos más altos que en el resto del país, a causa de las explotaciones petroleras. Una
muestra adecuada debería incluir trabajadoras delos diversos estados y territorios de la nación.
c. Como un segundo ejemplo, supongamos que se desea hacer un estudio para averiguar la
letalidad de la fiebre tifoidea, o sea la proporción de enfermos de fiebre tifoidea que fallecen.
Se sabe que la letalidad de la enfermedad varía en las diversas edades y depende del estado
nutritivo del paciente y del momento en que se inicia el tratamiento. Una buena muestra por lo
tanto, debe incluir pacientes de diversas edades, tanto desnutridos como bien nutridos en
diferentes etapas de la enfermedad. Si para dicho estudio se escogiera la muestra en el
Hospital Vargas de Caracas, tal muestro no nos revelaría la verdadera letalidad de la Fiebre
Tifoidea, pues como se sabe, a dicho Hospital solo asisten personas adultas, generalmente
pobres y desnutridos y en estado grave, pues los casos benignos permanecen en sus
domicilios. Las conclusiones derivadas de un estudio como el anterior, podrían generalizarse
solamente a enfermos de condiciones semejantes a los estudiados (adultos, desnutridos, etc.),
pero sería erróneo pretender aplicarlas a otras circunstancias.
d. Porque el método de escogencia de los individuos no es al azar, cual como veremos
enseguida es el único procedimiento que no garantiza una buena escogencia. Tal error se
comete siempre que se trabaja con muestras de conveniencia.

e. Porque una vez obtenida la muestra, existen circunstancias que nos impiden estudiar a, los
individuos escogidos. La muestra puede haber sido escogida de toda la población y por un
procedimiento al azar, con lo cual se elimina las dos causas de error acabadas de estudiar,
pero si no es posible recoger la información de las personas que deben estudiarse, ciertos
segmentos de la población no van a quedar representados, esto sucede por ejemplo, en
encuestas mediante cuestionarios postales, pues en general quienes contestan pueden ser
muy diferentes de quienes no lo hacen.

En Venezuela por ejemplo, una encuesta en tal forma seria contestada solamente por una clase
social relativamente alta, ya que los pobres son generalmente analfabetos.

7.6 Clases de muestras.

Hay dos clases de muestras:

a.- muestras de conveniencia


b.- muestras probabilísticas.

7.6.1. Muestras de conveniencia o propositivas

Entran en esta categoría todas aquellas muestras en las cuales los individuos se escogen sobre la
base de la opinión de un experto por considerarlos representantes típicos del universo que se
quiere conocer.

Si se deseara, por ejemplo, averiguar los porcentajes de hombres y mujeres en la Universidad, en


vez de obtener una muestra de las diferentes facultades que la integran, podríamos limitarnos al
estudio de un grupo de alumnos de aquella Facultad que nos parezca muy representativa con
relación al sexo de sus integrantes. Sin embargo la validez de los resultados obtenidos, dependerá
exclusivamente del acierto que hayamos tenido al seleccionar como típica dicha facultad.

Tal es la desventaja de este tipo de muestras: aun cuando sus resultados son bastantes
fidedignos, estamos en incapacidad de juzgar objetivamente sobre su posición. Hace falta pues un
mecanismo más objetivo de apreciación que ofrezca garantías de probabilidad y que a la vez nos
permita medir la exactitud de los valores encontrados. Esto se logra con las muestras
probabilísticas.

7.6.2. Muestras probabilísticas.

Son aquellas en que cada individuo de la población tiene una posibilidad perfectamente conocida
de ser incluido en la muestra. No es siquiera necesario que los diferentes individuos tengan una
posibilidad de pertenecer a la muestra, basta con que tengan cualquier posibilidad (diferente de
cero) de formar parte de ello y que la posibilidad sea conocida.

La elección de una muestra probabilística requiere dos condiciones fundamentales. En primer lugar
como acaba de mencionarse, es necesario que la probabilidad de elegir cada individuo sea
perfectamente conocida, pues si no lo es, no será posible calcular los errores que pueda
cometerse al hacer su escogencia. Así por ejemplo, muchas muestras de opinión pueden ser
representativas de su universo, pero por no llenar el anterior requisito, estamos en incapacidad de
juzgar objetivamente sobre su representatividad. En segundo lugar, es indispensable que los
individuos se elijan al azar, sin permitir la intervención de ningún factor que favorezca la elección
de unos en detrimento de los otros.
Elegir los individuos al “azar”, no quiere decir elegirlos sin ton ni son, a nuestra voluntad o a
voluntad de otros, quiere decir elegirlos por un método perfectamente estudiado en tal forma que la
voluntad no tenga ninguna participación en dicha elección, tal como se hace en el popular juego de
la lotería o bingo, en el cual la obtención de cualquier número es obra de la suerte. Veremos
enseguida, que solo para aquellos casos en los cuales el azar se utiliza como sistema de elección
de los individuos, ha sido posible determinar y valorar la variación que es dado esperar entre
diversas muestras.

7.7. Demostración práctica.

Antes de segur adelante, conviene recurrir a una de la cualquiera de las demostraciones Ya


clásicas, con el fin de entender la verdadera importancia del azar en la obtención de muestras.
Con el fin vamos a presentar los resultados de una de esas demostraciones obtenidas en el último
curso de médicos higienistas.
La demostración consistió en colocar 500 metras blancas y 500 negras en una caja y después de
mezclarlas cuidadosamente se pidió a los alumnos del curso que secaran, sin ver, muestras de 10
metras.

Cada vez que se extraía una muestra se anotaba él número de metras blancas obtenidas y luego
de retornar las 10 metras a la caja se mezclaban convenientemente antes de obtener otras
muestras. En esta forma se obtuvieron 150 muestras en total, las cuales se presentan en el
próximo cuadro, clasificadas de acuerdo al número de metras blancas.

Antes de comentar los resultados obtenidos, obsérvese que esta demostración no es tan teórica
como parece y que ella es equivalente a muchos problemas prácticos. La caja con 1000 metras
blancas y negras pudiera ser una población de 1000 habitantes, unos sanos y otros enfermos, de
la cual el un primer investigador obtuvo una muestra de 10 individuas con el fin de conocer el
porcentaje de enfermos, luego un segundo investigador hizo lo mismo y así sucesivamente hasta
que 150 personas distintas estudiaron dicha población.

El examen del cuadro 46 revela varios puntos:

a. Hay cierta variación en los resultados obtenidos con las muestras. No todas ellas arrojaron el
mismo resultado.

b. Como fueron los mismos observadores quienes por el mismo método estudiaron el mismo
universo de metras, hay que concluir que la causa de la variación observada fue al azar

c. A pesar del variación presente, puede observarse que no todos los resultados se presentan en
la misma frecuencia. La mayoría de los valores están muy cerca del verdadero valor de la
población estudiada (50%) y los valores muy diferentes al del universo, van siendo mucho más
raros, mientras mucho más se aparten de él. En realidad no hubo ninguna muestra en que no
apareciera por lo menos una metra blanca, o en la cual todas las metras fueran blancas, a
pesar de que en ocasiones puedan presentarse. Los resultados que con mayor frecuencia se
presentaron fueron aquellos vecinos a la verdadera composición del universo de 1000 metras y
de hecho. Hubo 36 muestras en las cuales el porcentaje de metras blancas fue de 50 %, valor
exactamente igual al del universo

d. Puede observarse igualmente que los resultados no son desordenados, sino que presentan
cierta simetría. En efecto, puede notarse que las frecuencias aumentan paulatinamente hasta
llegar a un máximo, para decrecer luego en la misma forma si se unen los vértices de las
barritas que señalan las frecuencias puede observarse que se forma una curva de campana.
Esta curva cuyas características se estudiaran mas tarde, se conoce con el nombre de Curva
de Gauss o Curva normal
Distribución de 150 muestras de 10 metras cada una, de acuerdo al número de metras
blancas obtenidas.

(Metras blancas en el universo: 50 %)

Cuadro 46
Número de muestras
Metras blancas por muestra
obtenidas
0 0
1 3
2 6
3 20
4 30
5 36
6 28
7 18
8 8
9 1
10 0
Total 150

Gráfico 46

40

30
Frecuencia

20

10

0
1 2 3 4 5 6 7 8 9 10 11

Metras blancas por muestra


El hecho de que los resultados dados por el azar sigan una Curva normal es importantísimo, pues
esta Curva es un modelo matemático perfectamente estudiado y por lo tanto, si el azar sigue une
Curva normal, las leyes matemáticas que se apliquen a esta, podrán ser a aquel. La utilidad de
esta conclusión solo será aparente en próximos capítulos, pero la demostración que se acaba de
hacer nos indica que aunque los resultados dados por el azar son muy variables, dicha variación
no es anárquica, sino perfectamente ordenada y perfectamente previsible, y de ahí la confianza
que debemos tener cuando usamos dicho método para escogencia de las muestras.
7.8. Elección entre muestras probabilísticas y de conveniencia

Como se ha visto, la diferencia entre muestras probabilísticas y muestras de conveniencia estriba


en que estas últimas la posibilidad de que un individuo sea incluido en la muestra es desconocida
como siendo imposible medir la exactitud de los resultados obtenidos.

A causa de esto, siempre que sea posible deben utilizarse muestras probabilísticas, a pesar de que
hay ocasiones- ilustradas en los siguientes ejemplos-en las cuales se precisa recurrir a muestras
de conveniencia.

a.- Muchas veces, por limitaciones nuestros recursos tenemos que estudiar un número de
individuos menor que el que fuera deseado y entonces la opinión de un experto puede ser
conveniente. Así por ejemplo, si al ensayar una nueva droga solo se tienen 5 o 6 dosis en vez de
escoger los individuos al azar, pueden seleccionarse solamente casos graves, ya que se presume
que la droga es efectiva en ella con mayor razón lo será en los casos benignos o corrientes de la
enfermedad. Igualmente, si se quiere conocer cualquier característica de una población a través
del estudio de unos pocos individuos se lograra una mayor exactitud, si se aprovecha de la
experiencia que se tiene, para estudiar tan solo a individuos que presenten en promedio la
característica que se investigue.

b.- Otras veces, no se puede obtener una lista completa de la población que se va a estudiar,
siendo por lo tanto imposible aplicar el azar. En tales casos, la selección de los individuos que se
estudian envuelve un proceso de opinión.

Finalmente, hay ocasiones en las cuales el principal interés está en localizar individuos con
determinadas características en una población muy numerosa, digamos los enfermos tuberculosos
de una comunidad en tales casos es preferible concentrarnos en el estudio de aquellos grupos en
los cuales la experiencia señala que hay posibilidades de encontrar a los individuos buscados.

7.9 Métodos para la obtención de una muestra probabilística.

Básicamente son dos los métodos para asegurar escogencia que una buena muestra:

a. El método de la lotería.
b. El método de los números al azar o aleatorio.

El método de la lotería: consiste en colocar en un recipiente fichas con los nombres de todos los
integrantes de la población que se va a estudiar y después de revolverlas bien, se extraerán tantas
fichas como individuos se quieren obtener. Se comprende que la población es muy numerosa este
procedimiento resulta poco práctico y por consiguiente, debe darse preferencia a la que
describiremos a continuación.

Las tablas de números al azar: son tablas con miles de números obtenidos con un procedimiento
como el de la lotería, es decir, por su procedimiento al azar. Algunas de ellas contienen hasta un
millón de dígitos y la que se inserta en la próxima página es solo un modelo obtenido en prácticas
de clase.

Aunque los números están agrupados de 5 x 5, tal distribución se hace simplemente con el fin de
facilitar la lectura, siendo indiferente que esta se realicen hacia abajo, hacia arriba, horizontal o
diagonalmente.

Para utilizar estas palabras se empieza por numerar a los individuos de la población desde el uno
en adelante y luego se extraerán tantos números como individuos vayan a incluirse en la muestra.
La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al azar la columna y la
fila de comienzo, para lo cual es suficiente colocar a siegas un dedo sobre el cuerpo de la tabla y
empezar en ese sitio la lectura.

Supongamos por ejemplo, que de una población de 5000 individuos previamente numerados del 1
al 5000 se desea extraer una muestra de 500. Como él número 5000 consta de 4 dígitos será
necesario utilizar 4 columnas de la tabla sin que tenga importancia cuales sean. Si mediante el
procedimiento mencionado sea decidido comenzar en la columna 7, fila 3, el primer individuo será
él número 01954, el segundo número será 4321. Luego aparecerán los números 9183 y 6956 los
cuales no se tomara en cuenta ya que la población solo consta de 5000 elementos y por lo tanto el
tercer individuo que se escogerá será el 139. Al terminar estas columnas se continuara en la parte
superior de la tabla con los números 2481, 2835, etc. (columnas 1 a 14) hasta que haya sido
obtenida la muestra de 500.
Cuadro 49
Tabla de números al azar
____________________________________________________________
Filas Columnas
____________________________________________________________

1-5 6-10 11-15 16-20 21-25

1 28596 75255 24813 25171 00935


2 95504 73814 28355 99264 20968
3 70426 01954 86694 53918 47721
4 25757 44321 02621 03392 19773
5 00076 39183 92696 62103 88027

6 05428 36956 09005 81983 53470


7 71540 80139 17632 61177 77333
8 66292 79184 81386 82260 29281
9 78168 15727 03388 16789 27661
10 68603 72198 93952 80082 56210

11 42641 60859 17445 45157 00820


12 25205 33559 52323 08309 53669
13 55563 62108 98633 31743 08345
14 11495 13819 86358 59582 87793
15 21729 72882 07456 22912 43280

16 68598 46869 37573 24965 75237


17 76384 54351 43621 64510 90654
18 17648 75770 89043 69826 94302
19 46105 03781 91384 80785 99901
20 81383 22762 60794 63630 30169

21 10395 09373 42604 35861 80689


22 35258 90303 15371 13264 28390
23 75014 35713 15138 81415 78187
24 20562 64270 51580 76136 74954
25 41987 61152 98447 93635 33871

26 15993 08117 66623 83885 12276


27 74230 97335 35355 21799 90234
28 57667 28151 44889 28879 50985
29 40917 21639 65973 30101 75678
30 70585 73790 74377 49114 53839
7.10 Diferentes tipos de muestras probabilísticas

En el terreno práctico, las nociones anteriores suelen combinarse con el fin de lograr mayor
precisión en el muestreo. Entre los numerosos modelos utilizados y que describiremos muy
brevemente están:

a. Muestras por azar simple


b. muestras sistemáticas
c. muestras estratificadas
d. muestras de conglomerados
e. muestras por procedimiento combinado o mixto.

Con el fin de señalar las diferencias, ventajas y desventajas de estos procedimientos, tomemos el
siguiente ejemplo teórico. Supongamos que en cada una de las 4 zonas geográficas del país hay
100 escuelas artesanales con 50 alumnos en cada escuela y que con el fin de estudiar
determinada característica, resolvemos extraer una muestra de 2000 alumnos.

Hay en total 400 escuelas con 20000 alumnos y la elección de los 2000 que vamos a estudiar
podrá hacerse por cualquiera de los siguientes procedimientos.

7.10.1. Muestra por azar simple

A partir de una lista con los nombres de los 20000 estudiantes del país se elegirán los 2000 que
deben estudiarse, por el método de la lotería o con la ayuda de una tabla de números al azar. El
procedimiento tiene tres inconvenientes:

1. Se necesita una lista detallada con todos los alumnos del país, lo cual no es fácil de obtener.
2. La muestra quedara tan dispersa, que probablemente haya necesidad de trasladarse a una
apartada región, para estudiar uno o dos alumnos.
3. No hay garantía de que las 4 regiones estén adecuadamente representadas en la muestra,
pues puede ser posible que mientras de una región se escojan 800 alumnos de otra se
obtengan solamente 100 o 200.

7.10.2. Muestras sistemáticas.

Como son 20000 alumnos de los cuales se estudiaran 2000, esto quiere decir que de cada 10 se
estudiara uno. Para obtener una muestra sistemática, nos procuraremos una lista de tolos alumnos
del país que numeraremos del 1 al 20000. Luego se escogerá al azar un número entre el 1 y el 10,
el cual indicara el primer alumno que se va estudiar y completaremos la muestra tomando de la
lista cada décimo niño. Si él número escogido fue 5, líos alumnos serán los correspondientes a los
números 5, 15, 25, 35, etc.

Cuando la lista está hecha al azar, este procedimiento es equivalente al descrito anteriormente y
presenta sus mismos inconvenientes. Pero dada la sencillez de su aplicación, suele utilizarse en
todos aquellos casos en los cuales existen ficheros o tarjeteros especiales con los nombres de
cada uno de los individuos de la población que se investiga. Así por ejemplo, si en los archivos de
un hospital hay 20000 historias clínicas numeradas del 1 al 20000 y se desea unas muestra de
1000 de ellas (una de cada 20), en vez de tomarnos la molestia de extraer 1000 números de tabla
de dígitos al azar será fácil obtener un número del 1 al 20, digamos el 10, el cual indica la primera
historia que se estudiara continuándose luego con cada 20 historias hasta completar las 1000
deseadas, o sea, que se escogerán las 10, 30, 50, 70, etc.

Sin embargo, si la lista no está hecha al azar, la utilización de muestras sistemáticas puede
conducir a serios errores. Considérese como ejemplo el siguiente caso extremo: 1000 parejas que
van a contraer matrimonio acuden a obtener el correspondiente certificado de salud, cuya copia es
archivada en el mismo orden que se examinaran las personas. Como por galantería la mujer
siempre se examinó de primero como los números impares corresponderán a historias de mujeres
y los pares a historias de hombres. En tales circunstancias, si quisiéramos extraer una muestra
sistemática del 10% de las historias con el fin de conocer por ejemplo, la edad promedio de los
contrayentes y comenzamos digamos en él número 3, todas las historias corresponderían a
mujeres (3, 13, 23, etc.).

7.10.3. Muestras Estratificadas

En este sistema la población se divide primero en “estratos” y luego en cada uno de los estratos
escogen al azar los que compondrán la muestra.

Nuestro ejemplo hipotético, las cuatro zonas del país las consideraremos estratos diferentes de
cada uno de los cuales escogeremos los individuos para completar los 2000 de la muestra. La
escogencia se da con el método de la lotería o mediante una tabla de números al sustrayendo
sucesivamente 500 alumnos de cada uno de las zonas.

Esta al igual que los métodos anteriores requieren una lista detallada de todo los alumnos y a
pesar de que la muestra puede ser demasiado dispersa hay garantía de que las 4 zonas estarán
adecuadamente representadas.

La estratificación es un procedimiento mediante el cual se utiliza la competencia que se tiene sobre


el problema que se estudia, con el fin de dar mayor exactitud a los resultados. Así por ejemplo es
que en promedio los días de hospitalización de los servicios de maternidad, pediatría, cirugía y
medicina general son muy diferentes unos de otros, pues mientras que en la maternidad una
parturienta dura por término medio 3 días, en cirugía esta cifra se acerca a 10 días. Este
conocimiento puede utilizarse en el muestreo construyendo una muestra separada de cada uno de
los 4 servicios y esperando luego sus resultados con lo cual hay 2 ventajas sobre el muestreo por
azar simple: a) Se obtiene información separada para cada uno de los servicios. b) Se evita el
riesgo que determinado momento quede inadecuadamente representado, pues de no hacerse la
estratificación, puede darse el caso que la mayoría de la historias prolongan el servicio de
maternidad, en el cual la hospitalización es menor y la muestra nos haría concluir erróneamente
que el tiempo de permanencia en el hospital es menor de lo que en realidad es.

7.10.4. Muestras de Conglomerados

En este procedimiento, en lugar de escoger a los individuos que van ha estudiarse. Se escogerá
grupos o conglomerados de individuos.
Como cada escuela tiene 50 alumnos, al escoger 40 escuelas tendremos los 2000 alumnos que
queremos estudiar.

En las muestras de conglomerado no se necesita tener una lista detallada de los alumnos pues
basta con numerar las 400 escuelas del país para escoger las que se estudiaran. Por otra parte se
evita la dispersión, pues aunque haya que estudiar una escuela en un pueblo lejano, al
trasladarnos allí lo haremos, no por uno o dos alumnos sino por 50 lo cual se traduce en un ahorro
de tiempo dinero y esfuerzos.

El único inconveniente pudiera ser que las zonas no nos quedaran adecuadamente representadas.
Además, las muestras de conglomerados no suelen dar resultados tan precisos como las
obtenidas con las estratificadas. Mientras que en estas debe procurarse que cada uno de los
estratos sea tan homogéneo como sea posible, en aquellas se obtendrán mayor precisión mientras
más heterogéneos sean los individuos que conformen el conglomerado, pues en tal caso, cada
conglomerado viene a ser como una población en miniatura.
7.10.5. Muestras por procedimiento combinado

Como las muestras de conglomerados evitan la necesidad de tener una lista detallada de la
totalidad del universo que se estudia evita la dispersión de la muestra y como a su vez la s
muestras estratificadas aseguran la representatividad de los diferentes sectores de la población se
comprende que una combinación elimina los 3 grandes inconvenientes del muestreo por azar
simple.

En nuestro ejemplo, una muestra estratificada de conglomerados se obtendría escogiendo


separadamente 10 escuelas de cada una de las zonas del país (4x10x50=2000 alumnos).

Habitualmente una vez que se escogen los conglomerados no se estudia la totalidad de las
unidades que los forman sino que se escogen al azar algunas de estas unidades. En nuestro
ejemplo note que para elegir los 2000 alumnos, cualquiera de las siguientes combinaciones será
posible:

Alumnos estudiados Total de alumnos


Tipo de combinación Número de escuela
por escuela estudiados
A 400 5 2000
B 200 10 2000
C 100 20 2000
D 50 40 2000
E 40 50 2000

E y A se escogen 5 alumnos de cada escuela pero 100 por ciento de alumnos están representados
en una muestra. En E solo se escogen 40 alumnos, pero el 100 % de sus alumnos deben ser
estudiados.

Cualquier combinación de las anteriores podría ser escogida, pero con miras a una mayor
precisión, esta aumentara mientras mayor sea el número de escuelas que se estudien
(combinación A mejor que B esta mejor que C y así sucesivamente). Nótese sin embargo, que
mientras más escuelas se estudien más dispersa quedara la muestra y en la combinación A sería
necesario tener una lista de toda la población, con lo que se pierden las dos grandes ventajas de
las muestras de conglomerados.

7.11. Análisis del resultado de la muestra

Una vez obtenida la muestra y convenientemente resumidos los hallazgos, el paso siguiente es la
generalización de los resultados de esta población de la cual procede. Dicha generalización exige
2 requisitos, A) estimar los valores del universo y b) juzgar sobre la posición de tales valores.

7.11.1 Valores del universo

La estimación de los valores del universo depende del tipo de muestra que se haya utilizado.
Cuando se trata de una muestra por azar simple o de una muestra sistemática, los resultados
observados de ella pueden aplicarse directamente al universo. Si en el anterior ejemplo de los
escolares encontramos que el 40% de los escolares de Venezuela son mujeres.

Cuando la muestra es estratificada o de conglomerados, se resumirán rimero los resultados de


cada estrato o conglomerado, y luego se estimara el valor global de todo el universo lo cual
requiere la utilización de los llamados promedios ponderados, cuyo cálculo se estudiara en la
sección 16.8.

El caso de las muestras por procedimiento combinado es más complicado siendo aconsejable el
asesoramiento de un técnico estadístico.
7.11.2 Precisión de los resultados de la muestra

Si en la muestra estudiada se encontró que el 40% de los escolares son mujeres, podemos aplicar
tal porcentaje de la totalidad de la población escolar de Venezuela, aunque se entiende desde
luego, que dicha cifra es tan solo una aproximación. Cabe preguntarse cuán exacta es tal
aproximación.

Este problema será dilucidado en próximos capítulos y tratado especialmente en el capítulo XIX,
pero mientras tanto, téngase presente que siempre que siempre que se hacen generalizaciones a
partir de una muestra, se corre el riesgo de que los valores dados por ella no correspondan
exactamente a los del universo. Sin embargo, aunque tal riesgo no puede eliminarse por cualquier
procedimiento, puede reducirse convenientemente y estimarse con bastante exactitud a partir de
los propios resultados de la muestra, a condición de que sea una muestra probabilística y que su
tamaño sea adecuado.
CAPITULO VIII

DISEÑO DE FORMULARIOS
8.1 Generalidades

Cuando se hace un estudio, se recogerá tal cantidad de datos que será imposible confiarlos a la
memoria. En tales caso, habrá necesidad de registrarlos en formularios adecuados como paso
previo para su resumen y análisis.

Bajo la denominación genérica de “formularios” se incluye toda forma impresa destinada a la


recolección de datos, tal como las historias clínicas, las fichas epidemiológicas o tarjetas
especiales que a la vez permiten recoger los datos, sirven para su computación.

Los formularios deben ser planeados cuidadosamente, en tal forma que sean realmente útiles y
que faciliten y no dificulten la obtención de los datos. Ellos deben ayudar a recoger la información
de manera completa y eficiente, permitiendo uniformidad en las diferentes observaciones y
evitando la recolección de datos inútiles o irrelevantes al estudio.

El formulario debe permitir recoger dos tipos de datos:

a. Datos administrativos o de identificación.


b. Datos sobre el problema que se estudia

Los primeros ayudaran a identificar las unidades en observación e incluyen el nombre de a


persona, su edad, sexo, residencia y fecha de estudio. A través de ello puede medirse el
rendimiento del personal y la distribución de algunas características en el tiempo y en el espacio.

En cuanto a los segundos deben tener un propósito perfectamente definido y ser pertinentes al
estudio.

8.2. Elaboración del formulario

Antes de elaborar el formulario debe considerarse el propósito para el cual será utilizado y las
circunstancias bajo las cuales se recogerá la información. Lo primero tiene importancia para decidir
sobre los datos que en última instancia se recogerán y lo segundo, para la adopción del tamaño,
forma y material más conveniente.

Aunque es imposible dar reglas fijas para la correcta elaboración de un formulario, los siguientes
puntos serán de utilidad:

1. Decidir sobre los datos que recogerán. Un formulario muy extenso, conspira con la exacta
recolección de los datos y de allí que solo deban recogerse aquellos útiles y pertinentes al
estudio. En esta decisión es conveniente:

a. Hacer una lista de todos los datos de acuerdo a la finalidad del estudio.

b. Considerar cuales datos son “factibles” de recoger de manera fidedigna y exacta. Averiguar si
una persona es o no adicta a la s drogas heroicas, es una información deseable de recoger,
pero generalmente no vale la pena investigarla, pues es raro que las personas Ester
dispuestas a suministrarla.

c. Limitar los datos aquellos “prácticos” de recoger. Así por ejemplo hay ciertas reacciones
serológicas mucho más específicas que el VDRL para el diagnóstico de la Sífilis, pero siendo
más complicadas posiblemente se prefiera no utilizarlas.
d. Limitar la información aquella que se usará. Generalmente se recogen muchos datos pensando
que algunos que hoy parecen sin importancia, posiblemente en el futuro sean de utilidad. Tal
actitud es justificada, solo cuando se tiene la seguridad de que esta investigación adicional
entorpecerá la recolección de los datos verdaderamente esenciales.

2. Decidir sobre el orden en que se asentarán los datos en el formulario. La distribución debe
hacerse en manera lógica y ordenada y así por ejemplo, datos sobre la ocupación, vivienda,
educación y otros referentes a las condiciones económicas y sociales no deben ser
separados.

3. En general la parte superior del formulario debe reservarse para datos clarificativos y de
identificación (nombre, dirección, área geográfica, etc.) y no ocuparla, como suele hacerse, con
el nombre de la oficina que hace el estudio.

4. Considerar cómo se hacen las preguntas.-Esto tiene mucha más importancia en los formularios
utilizados en ciertas encuestas sociológicas que en el caso de las historia clínicas o formularios
afines empleados por el médico.

5. En todos los casos en que ciertas preguntas deben ser formuladas, se procurará un lenguaje
simple, sin ambigüedades y como hemos señalado, se evitarán las preguntas insinuantes,
poco explicitas o insuficientemente específicas.

6. Planear como se anotarán las respuestas. No es infrecuente el hecho que para anotar ciertas
respuestas más o menos extensas, apenas se deja espacio para una o dos palabras, lo cual,
como es lógico, impide recoger la información de manera completa. El espacio que se deje
debe ser adecuado para las respuestas que se espere siempre que sea posible se adoptará el
sistema que exija el esfuerzo menor. Obsérvese como la misma información del sexo puede
consignarse de tres manera diferentes, aunque la segunda parece mucho más conveniente.

a. ¿Sexo?...............

Hombre
b. Sexo
Mujer

SI

c. ¿Hombre?

NO

7. Determinar Las características del formulario. Con respecto a este punto vale la pena
considerar:

QUIÉN ¿Recogerá la información?


DE QUIÉN ¿Será recogida?
DONDE Y CUANDO ¿Se registrará?
CÓMO ¿Se procesarán los datos?

De acuerdo a las anteriores preguntas, se deducirá sobre las formas, tamaño, material, color,
etc. de los formularios.
a) Forma y tamaño: Aunque una sola página facilita considerablemente su manejo a forma y
tamaño dependerá de la cantidad y extensión de los detalles que se van a recoger y de si el
formulario se usará directamente o no para las computaciones.

b) Material: Depende del empleo que se le dará al formulario, mientras que formularios que se
van a usar justifican un material de óptima calidad, otros que solo se utilizaran una vez, como
las órdenes para los exámenes de laboratorio, podrán ser hechos de papel corriente.

c) Colores: Cuando en una misma dependencia se utilizan varios formularios, suele ser
conveniente usar diferentes colores para distinguirlos fácilmente así por ejemplo, el Ministerio
de Sanidad usa el color blanco para consulta de lactantes, rozado para escolares, amarillo
para la consulta de prenatales, etc.

d) Probar la operatividad del formulario. Antes de que el formulario sea impreso de forma
definitiva, es conveniente probarlo en el terreno mediante un estudio piloto, para darse cuenta
de las fallas que aun puedan presentar y hacer las correcciones necesarias. Muchas veces,
solo después de múltiples experiencias puede llegarse a la adopción de un formulario
definitivo. La historia clínica por ejemplo a pasado por tres diferente etapas, antes de que se
empleara la forma que hoy se utiliza. Al principio era una simple hoja en blanco, en donde el
médico anotaba los hallazgos de su examen, lo cual tenía como inconveniente, la falta de
uniformidad de las observaciones haciendo imposible la comparación entre un grupo de
pacientes y otro. Después se transformó en una lista interminable de preguntas, de la cual el
médico no podría apartarse. Como se ha señalado, era un atentado contra la personalidad del
médico y del paciente. Hoy en día, en la historia clínica, a manera de recordatorio para el
médico, se señalan las grandes bases de datos que deben investigarse, pero se deja en
libertad al profesional para investigarlos en la forma y en detalle que juzgue conveniente.

8. Redactar las instrucciones necesarias. Estas pueden imprimirse en el mismo formulario cuando
no son muy extensas o en hojas aparte en caso contrario.
CAPITULO IX

LA ETAPA DE ELABORACIÓN DE LA INFORMACIÓN

PASOS EN LA ELABORACIÓN DE LA INFORMACIÓN

Una vez recogida la información, es necesario revisarla cuidadosamente y luego resumirla y


presentarla convenientemente, antes de que sea posible analizarla.

Así por ejemplo, los datos referentes al peso de un grupo de 30 individuos, tal como aparecen a
continuación, no revelan fácilmente ninguna característica del grupo:

En cambio, los mismos datos ya elaborados, presentados en la forma que sigue, permite
formarse juicio bastante exacto, sobre el conjunto de personas estudiadas:

73 69 72 67 63 62
66 68 52 61 68 64
52 55 63 60 58 54
63 62 56 58 51 59
64 61 64 57 56 56

Cuadro 61
Individuos de acuerdo a su peso

Peso en kilos Número de personas


50-54 4
55-59 8
60-64 12
65-69 4
70-74 2
TOTAL 30

Al resumir los datos en tal forma, algunos detalles sobre las variaciones individuales se han
perdido, pero las características generales del grupo se han conservado y son mas aparentes.

En la etapa de elaboración se consideran los tres pasos siguientes, cuyos detalles se estudiaran
en los próximos capítulos:

1. Revisión y Corrección de la información recogida.


2. Clasificación y Computación de los datos.
3. Presentación mediante Cuadros y Gráficos.
CAPITULO X

REVISIÓN Y CORRECCION DE LA INFORMACIÓN RECOGIDA


Es necesario revisar cada uno de los formularios recogidos, como fin de ver si los datos han sido
registrados de manera completa y fidedigna, ya que las conclusiones que del estudio se deriven
nunca podrán ser más exactas que los datos en los cuales se basan.

Hay que ver ante todo si el formulario está completo o si existen omisiones, es decir, ver si todos
los datos que debieron investigarse se encuentran asentados.

Hay que fijarse luego si dichos datos son correctos. No siempre será posible decidir sobre la
corrección o no de un dato, pero frecuentemente la existencia de otra información en el formulario
y cierto conocimiento de la materia que se estudia, ayudara al respecto. Así por ejemplo, una
persona nacida en 1950 puede aparecer como de 40 años, lo cual a todas luces es imposible, o un
niño de 5 años aparecer con un peso de 50 Kilos, lo cual, indudablemente, es una equivocación.

Cuando tales inexactitudes se comprueban, será necesario hacer las correcciones pertinentes
cuando ello sea posible, u omitir de las computaciones finales los formularios incompletos e
incorrectos. En este último caso se corre el riesgo de invalidar el estudio, pues generalmente se
trabaja con muestras y la eliminación de unos cuantos individuos puede viciar los resultados. Una
adecuado planificación de la investigación y una cuidadosa recolección de la información, serán la
manera lógica de precaverse contra tales eventualidades.
CAPITULO XI

CLASIFICACION Y COMPUTACIÓN DE DATOS


La computación consiste simplemente en contar cuántos individuos presentan o no alguna
característica especial o averiguar en qué forma se distribuyen de acuerdo a determinada escala
de clasificación.

Antes de que se haga cualquier computación, es necesario por lo tanto, haber decidido de
antemano el criterio bajo el cual serán clasificadas las personas estudiadas, pues un grupo de
individuos podrá clasificarse de muchas maneras diferentes, según la finalidad que se persigue: de
acuerdo al sexo, la raza, la edad, etc.

11.1 Escalas de clasificación

Como la presentación de los datos estadísticos y su análisis posterior depende en gran parte de la
manera como están clasificados, algunas consideraciones al respecto son convenientes.

11.1.1 Condiciones de una buena escala

Cualquiera que sea la escala que se escoja, debe reunir, entre otras, dos condiciones básicas:

1. Debe ser exhaustiva;


2. Las clases o subdivisiones de que consta deben ser mutuamente excluyentes.

El que la escala sea exhaustiva significa que debe permitir la clasificación de cualquier individuo
que se estudia. Una escala que dividiera las razas solamente en Blanca y Negra sería incompleta,
ya que no permitiría la inclusión de personas de otros grupos raciales.

El que las clases sean mutuamente excluyentes quiere decir, que no debe dejar dudas sobre
donde incluir a cada una de las unidades en estudio.

Grupos de Edad
Escala Escala
Incorrecta Correcta
0-5 0-4
5-10 5-9
10-15 10-14
15-20 15-19
etc. etc.

Una escala como la de la izquierda es incorrecta, porque es ambigua y en un momento dado no se


sabría donde incluir a un niño que tuviera exactamente 5 o 10 años de edad. La escala de la
derecha evita tal confusión y es preferida por su sencillez y exactitud.

11.1.2. Diferentes tipos de escala

Al estudiar a un individuo, podemos contentarnos con investigar simplemente si presenta o no


determinada cualidad o atributo, o podemos, cuando ello sea posible, tratar de medir cuánto o qué
cantidad posee de alguna particular característica.

La anterior noción permite distinguir dos clases de escalas:


1. cualitativas, y
2. cuantitativas

11.1.2.1 Escalas (Variables) cualitativas. Las escalas cualitativas solo permiten distribuir a los
individuos de acuerdo a ciertas características que le son comunes y por medio de las cuales
pueden distinguirse de otros individuos que no las poseen. Al clasificar a un grupo de personas por
sexo, raza, estado civil, región de donde proceden, enfermedad que padecen, etc., se está usando
una escala cualitativa.

Las escalas cualitativas pueden ser:

a. Nominales: presenta modalidades no numéricas que no admiten un criterio de orden. Por


ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado
y viudo. A su vez, éstas se clasifican en binarias o dicotómicas (cuando tienen dos categorías
ej. sexo) y Policotómicas (cuando tienen más de dos categorías ej. estado civil)

b. Ordinales: presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La
nota en un examen: suspenso, aprobado, notable, sobresaliente.

c. 11.1.2.2. Escalas cuantitativas. Las escalas cuantitativas son mas precisas, porque a más de
permitir la diferenciación entre unos individuos y otros, señalan cuan grandes son las
diferencias observadas. La determinación del peso, la estatura, edad, pulso o tensión arterial
de una persona, o la división de las familias por el número de hijos de que constan o de
acuerdo a sus ingresos se hace mediante el uso de una escala cuantitativa.

Las escalas cuantitativas se dividen en:

a. Continuas
b. Discontinuas

Una escala cuantitativa se denomina continua cuando cualquier valor intermedio entre 2 íntegros
es posible. La edad de una persona por ejemplo, puede ser 40 años, o 40 años y 10 meses, o aún
podría expresarse como 40 años, 10 meses, 5 horas, 15 minutos, etc. De la misma manera el peso
de un hombre puede ser 60 Kilos, pero si se tuviera una balanza de precisión quizá podría
anotarse como 60 kilos, 300 gramos, 20 centigramos, etc.

Una escala se llama discontinua cuando solo admite valores de números enteros. Las familias
clasificadas según el número de hijos o los escolares por el número de dientes cariados que
tengan, son ejemplos de escalas discontinuas, porque una familia podrá tener 1,2.... 15 hijos; o un
escolar 1,2... 20 caries, pero ningún valor fraccionado tendrá significado.

La distinción entre escalas continuas y discontinuas es útil aunque su diferenciación en ocasiones


no tiene razón de ser. El número de glóbulos rojos por persona es un ejemplo de escala
discontinua, ya que no puede haber valores fraccionados, pero la discontinuidad es tan poco
aparente, que tal escala se trata como si fue continua. En realidad, nadie podría señalar si una
persona tiene 4.999.999 glóbulos rojos o exactamente 5.000.000.

11.1.3. Clasificación de los Datos

Se comprende fácilmente que los individuos que se estudian pueden clasificarse según una escala
única o de acuerdo a dos o más escalas a la vez. Teniendo en cuenta esta noción, los datos
estadísticos podrán clasificarse en los tres tipos que a continuación se describen:

11.1.3.1. Distribuciones de Frecuencias. En un grupo de personas podemos averiguar primero


cuantos hombres y cuantas mujeres hay, o investigar después, como se reparten de acuerdo a su
raza. En uno y otro caso se está usando una única escala cada vez.
Individuos por Sexo Individuos por Raza
Hombres 45 Blancos 80
Mujeres 55 Negros 20
Total 100 Total 100

Datos como los anteriores, en donde un grupo de individuos se clasifica de acuerdo a una única
escala, sean su edad, peso, raza o estatura, reciben el nombre de Distribuciones de Frecuencia.

11.1.3.2. Datos de Asociación. Sin embargo, si se deseara saber cuántos hombres son de raza
blanca o cuantas de las personas negras son del sexo femenino, los datos presentados
anteriormente no permitirían responder tales preguntas. Para poder responderlas, las personas
deben clasificarse simultáneamente, de acuerdo a las dos escalas:

Cuadro 67

Individuos por Sexo y Raza

Raza
Sexo Total
B N
Hombres 36 9 45
Mujeres 44 11 55
Total 80 20 100

Note que el cuadro anterior resume los dos primeros, pero a partir de aquellos no puede elaborarse
este último. Para su elaboración se requiere una nueva computación de datos.

Casos como el anterior, en donde los individuos se clasifican simultáneamente de acuerdo a dos
escalas, como ser raza y sexo, o edad y sexo, estatura y edad, etc., constituyen los llamados Datos
de Asociación.

11.1.3.3. Series Cronológicas. Finalmente algunas veces la escala que se emplea es el tiempo,
para mostrar la evolución de un fenómeno en relación a él. Tales series ilustradas a continuación,
reciben el nombre de Series Cronológicas.

Cuadro 68

Mortalidad por Tuberculosis – Caracas, 1952 – 1955

Año Número de Defunciones


1952 459
1953 325
1954 270
1955 252

11.1.4. Subdivisiones o clases de la escala.

Aunque las subdivisiones o clases de la escala suelen escogerse arbitrariamente, tal escogencia
debe reunir ciertas condiciones.

11.1.4.1. Formación de las clases. Solo deben incluirse en una misma clase datos más o menos
homogéneos. Si por ejemplo, de 100 casos de una enfermedad se presentan:

10 casos en menores de 1 año


12 casos en niños de 1 año
8 casos en niños de 2 años, etc. etc.
Es posible formar un solo grupo que incluya:

Menores de 3 años: 30 casos

Pues el número de casos es más o menos constante en cada año de edad (alrededor de 10 =
30/3)

En cambio sí en el mismo ejemplo tuviéramos:


22 casos en menores de 1 año
7 casos en niños de un 1 año, y
1 caso en niños de 2 años
__
30 casos

No convendría formar una sola clase, pues es evidente que hay una gran diferencia entre una y
otro.

11.1.4.2. Número de clases. Si las clases son muy numerosas habría tantos detalles, que
relaciones importantes pueden pasar inadvertidas. Si hay por el contrario muy pocas clases,
importantes diferencias entre los individuos estudiados se pasarán por alto.

El número de clases debe ser tal, que se evite el detalle innecesario, pero que no conduzca a la
pérdida de más información de la que puede ser convenientemente ignorada. Al estudiar los
habitantes de una población, grupos quinquenales de edad son perfectamente adecuados, pero
ellos serían inconvenientes para clasificar los alumnos de una escuela, dado que en ésta, la
variabilidad es muy poca.

En todo caso, es preferible utilizar más clases que las necesarias, que utilizar menos de las que se
necesitan, pues si las clases resultan muy numerosas, podrán unirse varias de ella a voluntad y en
cambio será imposible subdividir una clase ya constituida, a menos que se hagan todas las
computaciones nuevamente. Por lo general, 8 a 15 clases suelen ser adecuadas.

11.1.4.3. Límites de la Clase. Ya se ha señalado que con el fin de evitar ambigüedades, las clases
se señalan como 50 – 54, 55 – 59 y no 50 – 55, 55 – 60, etc.

Sin embargo los verdaderos límites de esas clases son algo diferentes de los anotados. Si
estudiamos el peso de un grupo de personas y lo mismo es cierto siempre que el dato se
aproxime al dígito más cercano, cualquier individuo que pese algo más de 49.5 kilos o algo menos
de 50.5 kilos será registrado como peso de 50 kilogramos. Igualmente, un individuo que se registre
con 54 kilos pero en realidad entre 53.5 y 54.5.

Lo anterior debe tenerse presente, para poder determinar la amplitud y punto medio de cada clase,
pero antes de ocuparnos de estos aspectos hay que advertir que en el caso de la edad, la
determinación de los verdaderos límites es algo distinta. Como la edad no se aproxima al
cumpleaños más próximo, sino que se registra como años cumplidos, un individuo de 50 años
puede tener cualquier edad entre 50 y 50,999 años, o sea, prácticamente entre 50 y 51 años.

11.1.4.4. Amplitud de la Clase. Se entiende por amplitud de la clase, la diferencia que hay entre el
máximo y el mínimo valor observados en dicha clase. Para su determinación deben tenerse en
cuenta los verdaderos límites de la clase, tal como se explicó anteriormente. Por lo tanto, si la clase
fuera 50-54 kilos, su amplitud no sería 4, pues como sus límites verdaderos son 49.5 y 54.5 kilos la
amplitud sería: 54.5 – 49.5 = 5

De la misma manera, si se tratara de una escala de edades, como los límites son 50 y 54.999 la
amplitud sería nuevamente 5.
Aunque generalmente es recomendable que todas las clases tengan la misma amplitud, pues con
ello se facilitan muchos cálculos y en algunos problemas tal disposición no es posible, ya que
deben fijarse de acuerdo a los datos que se estudian y al método que se ha resuelto utilizar.

11.1.4.5. Punto medio de la clase. Se obtiene tomando los verdaderos límites de la clase. Note por
consiguiente si la escala fuera 50-54 años, los limites verdaderos serían 50 y prácticamente 55
años y el punto medio de la ecuación.

50 + 5
= 52.5
2
En cambio de una escala de peso, los limites verdaderos serian 49.5 y 54.5 Kilos, y el punto medio
de la clase 104/2 = 52 kilos.

11.2. Métodos de Computación.

Hay varios métodos de computación y la escogencia de uno influencia a los demás, depende del
número de individuos que hay y de la complejidad del análisis que se intenta y de los recursos
económicos con los que se cuenta.

A continuación se tratara sobre los siguientes 5 métodos:

1. Método de las listas


2. Método de los palotes
3. Tarjetas simples
4. Tarjetas con perforaciones marginales
5. Tarjetas tipo Hollerith.

11.2.1. Métodos de las listas

Frecuentemente los resultados de un estudio se resumen en una larga lista, en la cual se destina
una línea para anotar las características correspondientes a cada individuo. En tales casos, la
computación se concentrara a buscar cuales individuos presentan determinada característica y a
contarlos mentalmente marcándolos con un signo convencional (v) o (x), con el fin de facilitar la
verificación al final.

Cuadro 71

Lista de defunciones y características a ser tabuladas

Nombre
Estado Atención Causa de
del Sexo Edad Residencia Nacionalidad
Civil Medica Defunción
paciente
A.P. M 15 Soltero Urbana Extranjero SI TBC
B.D. F 25 Casada Rural Venezolana SI Eclampsia
H.O. F 30 Casada Urbana Venezolana SI Neumonía
T.P. M 56 Casado Rural Venezolana SI Diabetes
P.H. M 48 Casado Rural Venezolana NO Accidente
C.C. M 30 Casado Urbana Venezolana SI Neumonía
S.Q. M 27 Casado Urbana Venezolana SI Accidente
E.G. F 25 Soltera Urbana Venezolana SI TBC
I.P. F 23 Casada Urbana Venezolana SI Eclampsia
P.V. M 39 Casado Urbana Venezolana SI Diabetes
Como se comprende, el método solo es utilizable cuando son pocas las unidades que se estudian
y siempre que no se pretenda clasificarlas por más de dos escalas a la vez. En el presente
ejemplo, sería muy fácil contar cuantos individuos eran hombres o mujeres, o cuantos murieron por
Tuberculosis o Neumonía, pero el trabajo sería interminable si quisiéramos hacer computaciones
combinadas, con el fin de averiguar por ejemplo: cuantas mujeres extranjeras, menores de 30 años
y que residían en el campo, murieron por determinada enfermedad.

11.2.2. Método de los palotes

Consiste en poner en una hoja de trabajo un palote (/) por cada unidad que se cuenta, destacando
cada quinta unidad con el fin de facilitar la computación final.

Las computaciones pueden hacerse a partir de los formularios originales en los cuales se recogió
la información, o a partir de una lista como la anterior que la resuma.

11.2.4 .Tarjetas con perforaciones marginales

Prácticamente estas tarjetas pueden usarse en cualquier estudio que se haga y sólo cuando el
número de casos es excesivo, digamos más de 5000, sería ventajoso utilizar las tarjetas tipo
Hollerith, que lo describiremos. Con ellas el trabajo es rápido, relativamente dinámico y los errores
en la computación se reducen al mínimo.

11.2.4.1. Descripción.

Son tarjetas de tamaño variable. Con una serie de orificios en sus bordes, a cada uno de los cuales
se le asigna la representación de una de las características que se estudian.

Los datos que van a inscribirse en la tarjeta, puede encontrarse en los formularios especiales o
pueden recogerse directamente en ella, caso en el cual se anotarán en su parte central. A veces,
cuando se hacen encuestas sencillas, en vez de escribir los datos, pueden asentarse directamente
en las tarjetas perforadas, marcando con tinta los orificios correspondientes que luego deban ser
desmarginados. Observe que esto se ha hecho en la tarjeta que se reproduce en el gráfico 75.

11.2.4.2. Inscripción de los datos.

Para facilitar la exposición volveremos al ejemplo anterior sobre la mortalidad de un grupo de


personas en los cuales se investigaron los datos que enseguida aparecen, súper simplificados con
propósito docente.

Datos
Información buscada Número de datos
investigados
Edad Lactantes pre-escolares escolares o adultos 4
Sexo Masculino o femenino 2
Estado Civil Soltero casado viudo o divorciado 4
Residencia Urbana o rural 2
Nacionalidad Venezolana o extranjera 2
Atención Médica Recibió o no-atención médica 2
Causas de muerte Según los 17 grupos de la clasificación internaciona 17
TOTAL 33
GRAFICO 75

Tarjeta con perforaciones marginales utilizadas con los datos ilustrados en el texto
(Nota: Loa orificios correspondientes a la edad, sexo, estado civil, ya han sido “abiertos”, mientras que los que indican
residencia, nacionalidad, etc. Solamente están señalados. La tarjeta indica que se trata de un adulto hombre casado con
residencia rural, extranjero, etc.)

Se podrá notar que como se investigaron en total 33 diferentes datos, al asignar un orificio a cada
uno, la tarjeta en su forma más simple tendrá que constar de 33 perforaciones aunque luego
veremos que algunas simplificaciones son posibles.

11.2.4.3. Utilización.

A cada individuo se destinará una tarjeta distinta y la inscripción de los datos se hará mediante un
“saca bocado”, con lo cual se destroza el orificio correspondiente, cortando la lengüeta que lo
separa del borde.

Debe tenerse cuidado de abrir convenientemente los orificios, pues de lo contrario, la tarjeta puede
engancharse en las vecinas y noquear en un momento dado.

11.2.4.4. Computaciones.

Al introducir un punzón por cualquier orificio de un bloque de tarjetas y levantarlo ligeramente,


aquellas tarjetas en los cuales se han desmarginado el tal orificio, caerán en la mesa, mientras que
en el punzón quedarán aquellas con los orificios intactos.

Si en el ejemplo que nos sirve de ilustración, quisiéramos clasificar a los individuos según el sexo y
el estado civil, procederíamos de la siguiente manera:

1.- Se toma el bloque de tarjetas, se acomoda convenientemente y se pasa el punzón por el


orificio que representa el sexo masculino. Al levantar el punzón, caerá a la mesa las tarjetas con
orificios ensanchados, es decir, las del sexo masculino, mientras que las del sexo femenino
quedarán sostenidas en el punzón. Las tarjetas, por consiguiente, han quedado divididas en dos
bloques: en uno están los hombres y en otro las mujeres.

2.- Tomando el primer bloque ( digamos el de hombres), se pasará el punzón por los orificios que
representan el estado civil: primero por el “solteros” y luego sucesivamente por los “casados”,
“viudos” y “divorciados”, con lo cual el grupo de hombres quedarán divididos según su estado civil,
restando solamente contar y anotar cuántas personas hay en estas categorías.

3.- El paso anterior se repetirá con el bloque de las tarjetas de las mujeres, con lo cual se habrá
terminado la computación deseada.

Si hubiéramos querido hacer las computaciones de acuerdo a tres variables a la vez, para
averiguar por ejemplo, cuántas defunciones ocurrieron entre mujeres casadas extranjeras o entre
hombres solteros venezolanos, bastaría con dividir en dos partes cada uno de los bloques de
tarjetas obtenidas anteriormente aprovechando el procedimiento acabado de discutir.

11.2.4.5 .Codificación

Al utilizar las tarjetas perforadas pueden recurrirse a ciertas simplificaciones, gracias a los cuales
no habrá necesidad de utilizar un orificio diferente para cada dato que se inscriba. Para ello, antes
de asentar los datos en las tarjetas, se hará una transformación previa, conocida como
codificación.

La codificación es simplemente una “clave”, mediante la cual cada dato se designa por un número.
Así por ejemplo, si se estudia las diferentes causas de mortalidad, se puede convenir la
tuberculosis es la enfermedad Nº 1; el cáncer la Nº 2, etc. De igual manera, si se estudian los 23
Estados y Territorios de la nación, puede designarse al distrito federal con el número 1 al estado
Anzoátegui con el 2 y así sucesivamente.

Con los datos así codificados, solo se necesitarán 4 orificios para inscribir hasta 10 características.
Efectivamente, bastan solamente 4 dígitos (1, 2, 4 y 7) para representar cualquier número hasta el
9, pues para señalar el 6 se tomarán los números 4 y 2: para señalar el 9, se tomarán el 7 y 2:
para indicar el cero, se dejarán todos los orificios intactos.

7 4 2 1 7 4 2 1
Decenas unidades

Si los mismos 4 básicos dígitos se repiten de nuevo haciéndolos presentar las decenas, entonces
8 orificios serán suficientes y para representar hasta 100 características (del 00 al 99).

11.2.5. Tarjetas tipo Hollerith

De las tarjetas que utilizan el procedimiento inventado por Hollerith, las más conocidas son las
mundialmente famosas tarjetas IBM, cuyo uso requiere complicadas maquinarias electrónicas, por
ello indicaremos solamente sus características, a pesar que es el sistema de computación más
perfecto que se conoce.

La utilización de moderadas unidades electrónicas permite clasificar varios miles de tarjetas por
minuto y de ahí que el sistema sea irremplazable en las grandes compañías y en los servicios
nacionales de estadística, que manejan millones de datos.

11.2.5.1. Descripción. La tarjeta IBM es una cartulina de material especial, que consta de 80
columnas, cada una con 10 filas numeradas del 0 al 9 (véase modelo anexo).

Aunque a primera vista la tarjeta solo permite escribir datos que den un máximo de 800
computaciones (80 columnas por 10 filas), la verdad es que una sola tarjeta puede recibir datos
que representen millones de combinaciones.

11.2.5.2. Requerimientos para su utilización. Para utilizar estas tarjetas es impredecible codificar
los datos previamente, de acuerdo a los principios ya señalados. Como cada columna tiene 10
filas, cualquier característica que no tenga más de 10 subdivisiones, podrá inscribirse en una sola
columna. Con 2 columnas se podrán inscribirse hasta 100 datos; con 3 columnas hasta 1.000, etc.

Esta codificación explica porque dijimos antes que en la tarjeta podrían asentarse millones de
combinaciones, pues como se desprenden de lo dicho, una característica que tuviera 100.000 (¡)
subdivisiones, solo necesita 5 columnas.

11.2.5.3. Inscripción de los datos. La inscripción de los datos en la tarjeta se realiza haciendo
pequeñas perforaciones rectangulares en los espacios que le corresponde, según el código
adoptado. Dichas perforaciones se hacen eléctricamente con una máquina especial que tiene un
teclado como una máquina de calculador.

La computación de las tarjetas se hace en otras máquinas especiales, que no solo las encuentran
y las separan de los grupos deseados, sino que llegan hasta totalizar e imprimir los resultados.

GRAFICO 79

Tarjeta I.B.M.
CAPITULO XII

CUADROS ESTADÍSTICOS
12.1. Características generales.

La finalidad de los cuadros estadísticos es presentar en forma resumida e inteligible determinando


material numérico.

Aunque la disposición del cuadro variará de acuerdo a los datos que intenten resumir, hay algunos
principios comunes que deben tener en cuenta.

En todo cuadro debe considerarse:

1. El título.
2. El cuadro propiamente dicho.
3. Las notas explicativas.

12.1.1. Título.

Como los resultados deben entenderse fácilmente. Sin necesidad de recurrir al texto que
acompañan, el título debe reunir las condiciones.

a. Ser completo: un título que sea completo, debe indicar claramente cuál es el contenido del
cuadro. En otras palabras, debe responder a las preguntas:

¿QUE? ¿COMO? ¿DONDE? ¿CUANDO?

QUE: se estudia, o sea, cual es el universo que se investiga.


COMO: se estudia, es decir, de acuerdo a cuales características se clasifican los individuos
investigadores.
DONDE: o a que se refiere los datos
CUANDO: o sea la época a que se refiere el estudio.

b. Lo más conciso posible: el titulo debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión. Observe como el primero de los dos títulos siguientes es
completo, pero le falta brevedad y no añade nada nuevo al segundo de ellos.

Titulo no recomendable:

“Cuadro de muestra la descripción de las defunciones habidas en el hospital Vargas de Caracas,


durante el año de 1960, clasificadas de acuerdo con la edad de los fallecidos”.

Titulo correcto:

“Defunciones por edad y sexo, Hospital Vargas. Caracas. 1960”.

12.1.2. Cuadro propiamente dicho.

Sucintamente, el cuerpo del cuadro consta de un conjunto de casillas o celdas, dispuestas en


columnas y filas.

En la primera columna y la primera fila tiene una finalidad diferente a las restantes, porque en ellas
irán las diferentes subdivisiones de la clasificación que se adopte, a los encabezamientos que se
indiquen a que se refieren los datos numéricos escritos.
La primera fila, es la de los ENCABEZAMIENTOS, los cuales indican a que se refieren los datos
que van inscritos en las celdas subyacentes. Ellos al igual que las últimas, deben ser breves, pero
suficientemente explícitos. Así por ejemplo, en vez de poner simplemente EDAD, es preferible
poner “Edad en Años “o“ Edad en Meses “ según el caso. Igualmente, en vez de poner tan solo
“TASAS“ debe indicarse: “Tasa de Mortalidad por 1.000“,”Tasas de Mortalidad por 100.000“, etc.

La primera columna conocida como “COLUMNA MATRIZ“ se destina a asentar las diferentes
clases de la escala de clasificación utilizada. Cuando las observaciones se clasifican de acuerdo a
una única escala, digamos edad, las subdivisiones de esta, deben ir en esta columna (véanse
cuadros 83 y 84). Cuando dichas observaciones se clasifican simultáneamente de acuerdo a dos
escalas, digamos edad y sexo, cualquiera de estas dos características podrá ir en columna o
matriz, según veremos luego (véase cuadro 86).

12.1.3. Notas Explicativas

Con el fin de que no haya duda sobre el contenido del cuadro, este se acompaña a veces de notas
explicativas, que pueden ir en la parte superior o inferior. Convencionalmente, las notas colocadas
en la parte superior afectan todo el contenido del cuadro, mientras que aquellas que se colocan en
la parte inferior, sólo se refieren a las cifras de determinadas celdas o de una fila o columna en
particular.

Lo cual se indicará con un pequeño número o letra (1) (a).

Estas notas, repetimos, sólo se utilizan en ocasiones aunque en trabajos que no son originales,
siempre deben ponerse al pie del cuadro, la fuente de donde se obtuvieron los datos, no son sólo
por reconocimiento de sus autores, sino para que el lector en un momento dado, pueda consultar
el trabajo original, de donde dichas cifras proceden.

12.2 Diferentes clases de cuadros.

De acuerdo a su finalidad los cuadros estadísticos pueden dividirse en dos categorías:

a. Cuadros de propósito general.


b. Cuadros de propósito especial.

Los primeros, los cuales sirven de base para la construcción de los segundos, son cuadros
extensos, de resumen, frecuentemente destinado a presentar material básico a otros
investigadores y de ahí que cuando se publican se acompañan de extensas notas explicativas y de
cuidadosa mención de los procedimientos y métodos utilizados en la recolección de los datos.

Los segundos, son cuadros generalmente elaborados con propósitos analíticos. Habitualmente se
intercalan en la presentación de trabajos y monografías originales y están destinados a mostrar
determinadas relaciones sobre las cuales el autor quiere llamar la atención y que constituyen el
núcleo de las conclusiones que de la investigación se derivan. Ellos serán los únicos a que
haremos referencia en los próximos párrafos.

Los cuadros más sencillos, son aquellos en que los individuos se agrupan de acuerdo a una escala
única de clasificación. Cuando se clasifican simultáneamente en dos, tres o más escalas, son
desde luego más complejos; aunque los mismos principios generales ya vistos son aplicables.

12.2.1. Presentación tabular de las Distribuciones de Frecuencia

Si los individuos se clasifican de acuerdo a una única escala; el cuadro podrá hacerse como el que
aparece a continuación:
Cuadro 83

Defunciones por accidentes, por grupos de edad. Venezuela, 1961


(Se excluyen 16 defunciones cuya edad se desconoce)

Años de edad Número de defunciones


0-4 501
5-14 453
15-24 605
5-44 931
45-64 499
65-84 218
TOTAL 3207
Columna matriz

Fuente: Anuario de Epidemiología y Estadística Vital.

En cuadros de este tipo, se acostumbra poner una columna más con la distribución porcentual de
los casos, lo cual facilita grandemente las comparaciones:

Cuadro 84
Defunciones por accidentes, por causas. Venezuela, 1961

Causas Número de defunciones Porcentajes


Accidentes de transporte 1377 42,7
Sumersión accidental 438 13,6
Caídas accidentales 343 10,6
Envenenamientos 101 3,1
Otros accidentes 964 30,0
TOTAL 3223 100,0

Fuente: la misma del cuadro anterior.

Obsérvese que aunque los dos cuadros anteriores se refieren a los mismos datos, los dos totales
no son iguales, pues como indica la nota del primero, allí se excluyeron 16 defunciones de edad
desconocida.

12.2.2. Presentación tabular de las series cronológicas

Cuando la escala de clasificación es el tiempo, mostrando como varía un fenómeno en relación a


él (series cronológicas) la elaboración del cuadro es muy semejante al cuadro anterior.

Sin embargo, como tales cuadros sólo pretenden mostrar la variación de un fenómeno de una
época a otra, en ellos se emite los totales y lógicamente, al no existir estos, será imposible el
cálculo de la respectiva columna de porcentajes.

No obstante, si el cuadro se refiere a lo ocurrido en una población cuyo número de habitantes ha


variado a través de los años, es conveniente colocar una última columna que señale el número de
veces que ocurrió el fenómeno estudiado por cada 1000, 10000 o 100000 habitantes. En otras
palabras: las cifras absolutas se deben acompañar de los coeficientes o tasas respectivas, con lo
cual se facilitará la comparación de los datos.
Cuadro 85
Defunciones por accidentes y tasas por 100.000 habitantes.
Venezuela, 1957-1961

Años Número de defunciones defunciones por 100000 habitantes


1957 2872 43,3
1958 3255 47,3
1959 3390 47,6
1960 3217 43,7
1961 3223 42,4

Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela 1957-1961.

12.2.3 Presentación Tabular de los Datos de Asociación

Si los individuos se clasifican simultáneamente de acuerdo a dos escalas, por ejemplo: edad y
sexo (Datos de Asociación), una escala irá en la vertical y otra la horizontal. El que una u otra
vayan en la horizontal o en la vertical no cambia el significado del cuadro. Sin embargo, es
conveniente poner en la vertical, aquella escala que presente más subdivisiones, ya que el ojo
humano compara más fácilmente, números dispuestos de arriba abajo, que arreglados unos al
lado de otros, en filas horizontales.

Observe que como hay dos escalas la tabla debe tener dos totales. Estos suelen ponerse en la
última columna y en la última fila, pero si se prefiere puede colocarse en la primera columna y en la
primera fila.

Téngase en cuenta también, que es posible presentar en el mismo cuadro tanto las cifras
absolutas como los porcentajes o tasas correspondientes. Debe evitarse sin embargo que el
cuadro quede con demasiadas columnas, pues en tal caso su interpretación se hará difícil. En tales
ocasiones, es preferible presentar la información en 2 o más cuadros distintos.

Cuadro 86
Defunciones por sexo y grupos de edad
Venezuela, 1961
(Se excluyen 12 hombres y 4 mujeres cuya edad se desconoce)

Sexo
Años de edad Ambos sexos
Hombres Mujeres
0-4 275 226 501
May-14 288 165 453
15-24 519 86 605
25-44 835 96 931
45-64 400 99 499
65-84 115 103 218
Total 2432 775 3207

Si los individuos se clasifican al mismo tiempo de acuerdo a tres escalas, como edad, sexo y
causa del accidente, el cuadro aparecerá de la manera ilustrada en la próxima página.

Queremos advertir, que aunque por dificultades técnicas, los encabezamientos de algunos cuadros
del siguiente texto, fueron colocados verticalmente, es preferible sin embargo, por razones
estéticas y para facilitar la lectura, disponerlos de forma horizontal.
Como observación final, recuérdese la importancia de numerar las diferentes columnas del cuadro
cuando son muy numerosas, especialmente si han de hacerse referencia a ellas en el texto (verse
cuadro 87)

Cuadro 87

Defunciones por accidentes, por sexo, edad y causa externa que los produjo
Venezuela, 1961
(Se excluyen 16 casos, cuya edad se desconoce)

Sexo y edad Causas del accidente

C
d

u
n

a
s
e

e
a
s

a
s

c
o
a

s
r

l
Hombres 1140 344 241 58 649 2132
15 años 170 110 45 32 206 563
15-44 712 191 101 20 330 1354
45 y más 258 43 95 6 113 515

Mujeres 228 92 101 43 311 775


15 años 102 59 18 34 181 321
15-44 74 28 9 9 62 182
45 y más 52 5 74 3 68 202

Ambos sexos 1368 436 342 101 960 3207


15 años 272 169 63 63 387 954
15-44 786 219 110 29 392 1536
45 y más 310 48 169 9 181 717

Fuente: la misma del cuadro anterior

12.3 Errores en la presentación tabular

Entre los errores que se cometen al elaborar un cuadro estadístico, deben evitarse especialmente
los siguientes:

a) Disposición incorrecta de los datos. Contrástese el cuadro anterior que es correcto con el
que aparece a continuación, el cual ilustra generalmente un error cometido por los principiantes. El
error consiste en que no se clasifica a cada individuo de acuerdo a tres escalas. En realidad son
dos cuadros diferentes colocados el uno al lado del otro.

Cuadro 88

Cuadro incorrecto que intenta presentar los datos del cuadro anterior

Sexo Causas del accidente


Edades (años) M F Total T S C C Otras Total
15 563 391 954 272 169 63 63 387 954
15-44 1354 182 1536 786 219 110 29 392 1536
45 y más 515 202 717 310 48 169 9 181 717
Total 2432 775 3207 1368 436 342 101 960 3207
Por ejemplo, él no indica cuantos hombres o mujeres murieron en cada grupo de edad a causa de
caídas accidentales, lo cual si puede ser determinado en el cuadro anterior.
b. Títulos y encabezamientos incompletos o inadecuados. El cuadro debe comprenderse
fácilmente, sin necesidad de recurrir al texto que lo acompaña, lo cual será imposible si los títulos y
encabezamientos son incompletos o insuficientemente claros.

c. Cuadros que muestran solamente porcentajes. Por lo general, los cuadros no deben
mostrar solamente porcentajes sin indicar las cifras de donde proceden, pues un porcentaje del
50% puede indicar 1 caso en 2, 10 en 20, 100 en 200, etc. Y como es obvio mientras menor sea el
número de casos, menor valor tendrá el porcentaje.

d. Cuadros sobre cargados. Cuadros que intentan mostrar muchos datos a la vez, resultan
confusos e inadecuados. En tales casos es recomendable realizar varios cuadros separados.

Cuadros sobrecargados. Cuadros que intentan mostrar muchos datos a la vez, resultan confusos e
inadecuados. En tales casos es recomendable realizar varios cuadros separados.

12.4 Manera de leer un cuadro estadístico.

La lectura de un cuadro estadístico no debe de hacerse de forma desordenada. Existen ciertas


reglas resumidas por W. Allen Wallis y Harry V. Robert, en su libro “Statics: A new Approach” las
cuales trataremos de ilustrar en el siguiente cuadro, en el cual se resumen algunos de los
resultados de una encuesta de morbilidad, realizada en la urbanización “23 de Enero” de Caracas.
Las viviendas de esta urbanización comprenden 2 tipos: por una parte “bloques de apartamentos”
de hasta 15 pisos de altura, y por otra parte “ranchos” en los cuales las condiciones sanitarias son
desastrosas.

Aun cuando la encuesta incluyó 22168 personas de todas las edades, solo nos referimos a un
grupo de adultos.

Cuadro 89

Porcentajes de enfermos por grupos de edad y sexo de la población adulta de los bloques y
ranchos de la urbanización 23 de enero. Caracas, 1960.

(Resultado de una muestra de 10983 personas mayores de 15 años. Como enfermo se consideró
a toda persona que manifestó sufrir de alguna dolencia).

Bloques Ranchos Total


Niños de Hombres Mujeres Hombres Mujeres Hombres Mujeres Total
Total (4) Total (7)
edad (1) (2) (3) (5) (6) (8) (9) (10)
15-24 11.3 15.3 13.6 15.8 48.8 17.5 42.0 15.8 44.4
25-34 13.3 22.4 17.9 15.9 26.3 20.6 13.7 22.9 18.3
35-44 19.6 27.2 23.4 18.8 30.9 24.9 19.5 27.8 23.6
45-54 24.3 40.4 33.9 18.5 42.3 29.9 22.9 40.8 33.1
55 y + 35.5 51.1 46.7 37.7 43.6 41.2 36.1 49.9 ¿?
Total 15.3 24.1 20.1 18.1 27.4 22.8 15.8 24.6 ¿?

Fuente: basada en J. D. Maldonado y M. Pizzi “una encuesta de mortalidad en el sector oeste de la urbanización 23 de
Enero. “Revista venezolana de sanidad y asistencia social. Vol. XXVI N. 1 marzo de 1960.

Los pasos a seguir son los siguientes:

1.- Leer cuidadosamente el título

La lectura del título es necesaria con el fin de entender perfectamente a que se refiere el cuadro.
En el caso presente, el título indica claramente que el cuadro se refiere a los adultos enfermos
encontrados en la ciudadela 23 de Enero de caracas, distribuidos de acuerdo a su edad, sexo y
tipo de vivienda. Nos indicará también que los datos se expresan en forma de porcentajes. Tales
hallazgos suelen presentarse en formas de las tasas que indican el número de enfermos cada
1000 o 100000 habitantes, pero aquí hemos preferido los porcentajes puesto que este es un
término de más fácil comprensión para cualquier lector no familiarizado con los términos
estadísticos.

2.- Leer las notas explicativas

Las notas explicativas que acompañan al cuadro, permiten a que esté consultando su mejor
comprensión. En nuestro ejemplo, vemos en primer lugar que no se estudian todos los habitantes
de la urbanización sino solamente una muestra de 11000. Esto es importante pues ya sabemos
que los resultados obtenidos están sometidos al error por muestreo. Aunque solo en próximos
capítulos se aprenderá a medir este error, ya sabemos, no obstante, que su magnitud es pequeña
cuando la muestra es suficientemente grande y de ahí la importancia que se nos haya aclarado
que fueron 10983 las personas estudiadas.

En segundo lugar la nota indica que el estudio se trata de persona mayores a 15 años, con lo cual
se nos disipa cualquier duda que pudiéramos tener sobre a quienes se los consideró como adultos.

Finalmente se especifica que como “enfermo” debe entenderse a cualquier persona que
manifestase tener alguna dolencia. De nuevo, esta es una aclaración importantísima, por que el
hecho de catalogar a un individuo como sano o enfermo, depende en gran parte de la persona que
decide. Este será un punto que se discutirá posteriormente, pero debe señalarse desde ahora que
cuando es el mismo paciente quien decide si se encuentra o no enfermo, se introduce una
apreciable fuente de error, ya que frecuentemente tal decisión se presta para notables
arbitrariedades.

3.- Averiguar las unidades de medida utilizadas.

El encabezamiento de la primera columna explica que se trata de años de edad y no de meses y


días. Quizás en el caso frecuente tal aclaración está demás, pero en otras ocasiones es necesario
tener muy en cuenta este detalle.

El título nos indica que no se están utilizando porcentajes, es decir que para cada grupo la cifra
indica el número de personas enfermas por cada 100 entrevistados. Note por consiguiente, que las
columnas y filas de totales no son la suma de porcentajes parciales, ni el promedio aritmético
corrientemente utilizado. Son en realidad promedios, pero promedios ponderados que después se
aprenderán a calcular.

4.- Fijarse en el promedio o porcentaje general del grupo.

El cuadro muestra que el 20,5 % de las personas entrevistadas, es decir 1 de cada 5 personas,
manifestó sentir alguna dolencia.

Esta cifra es desde luego extremadamente elevada, pero como señalan los autores del trabajo, no
deben de olvidarse que de este tipo de encuestas algunos tipos tienden a magnificar sus dolencias
con el objeto de recibir atención médica.

5.- Relacionar el promedio general del grupo con cada una de las variables que se estudian.

Las variables presentadas en el cuadro anterior son: edad, tipo de residencia y sexo, y ellas deben
de analizarse separadamente.

a. Edad: si nos fijamos en la última columna del cuadro, vemos que la morbilidad asciende
constantemente, al ascender la edad de las personas estudiadas. En realidad el porcentaje de
enfermos mayores de 55 años es tres veces mayor al del grupo de 15-24 años (45,7 versus 14,1%)
b. Sexo: Fijándonos en las últimas cifras de la penúltima y antepenúltima columnas-las de los
hombres y mujeres en la población total-. Vemos que la morbilidad es mucho mayor en las
hembras que en los varones (24,6% y 15,8% respectivamente).

Este hallazgo deberá de ser analizado posteriormente con mayor profundidad, pues como ya
sabemos la morbilidad es mayor en las personas ancianas que en las jóvenes, si el grupo de
mujeres tuviera más ancianas que el de los hombres, esto explicará por qué la morbilidad es mayor
en ellas.

Tipo de residencia: Con el fin de comparar la morbilidad en los bloques con la de los ranchos, se
examinará las cifras al final de las columnas (4) y (7). Su examen revela que mientras que en los
bloques el 20,1% de la población estaba enferma, en los ranchos las cifras ascendieron al 22.8%
una diferencia del 2,7%. Aparentemente tal diferencia es mucho menor de la que era dado
esperar, pues ya habíamos mencionado que las viviendas de los ranchos presentan condiciones
higiénicas deplorables. Sin embargo, lo mismo que para el caso del sexo, tal diferencia amerita un
examen más detallado pues como ya hemos encontrado una relación entre la morbilidad y la
edad, tal diferencia podría explicarnos por qué la diferencia entre los bloques y los ranchos no son
mayores, pues si en los bloques hubiera habido más ancianos que en los ranchos, su morbilidad
se presentaría mucho más alta por este simple hecho. Hay desde luego procedimientos
estadísticos que permiten mejorar tal comparación (ver tasas ajustadas), pero por el momento
seguiremos nuestro análisis prescindiendo de ellos.

Antes de proseguir el análisis podemos resumir nuestros hallazgos hasta el presente, diciendo que
la morbilidad es mayor en los viejos que en los jóvenes, en las hembras que en los varones, que
en los ranchos que en los bloques.

6. Relacionar entre sí los promedios o porcentajes de las variables que se estudian.

Esto es necesario pues como hemos mencionado, puede haber alguna interacción entre ellas, que
causen las diferencias observadas.

a. Edad: Comparando las columnas de totales para la población de los Bloques y la de los
Ranchos (columnas 4 y 7) se observa que el aumento de la morbilidad con la edad aparece en
ambos lugares. Sin embargo, puede notarse, que hasta los 45 años, los porcentajes son mayores
en los Ranchos, pero después de esta edad, se hacen superiores en los Bloques.

Si examinamos ahora la influencia de la edad con respecto a los sexos, para lo cual veremos las
cifras de la penúltima y antepenúltima columnas, se constata que el aumento de la morbilidad con
la edad es constante. Pero también observaremos que dicho aumento es algo menor para los
varones que para las hembras, pues mientras en los primeros la diferencia entre el grupo de 15 -
24 años y el de mayores de 55 años es de 24,1% (36,1%-12,0%) para las segundas es de 34,1%
(49,9%-15,8%)

Si se quiere examinar lo anterior con más detenimiento, pueden compararse separadamente,


primero los hombres de los dos tipos de viviendas y luego las mujeres. Al hacer esta comparación,
puede apreciarse que tanto para los bloques como para los ranchos, la edad parece jugar mayor
papel en las hembras que en los varones y que para cada edad los porcentajes de aquellas, son
sistemáticamente superiores a los de éstos.

En conclusión, los cambios en la morbilidad relacionados con la edad, son más importantes en las
hembras que en los varones. Para cada grupo particular de edad la morbilidad es superior en las
mujeres que en los hombres, ya vivan en los bloques o en los ranchos.
b. Sexo: Comparando los totales para los dos sexos, separadamente para los bloques y para
los ranchos (columna 2 versus 3 y 5 versus 6), concluimos que la influencia del sexo es
prácticamente igual en ambos tipos de residencia (8,8 y 9,3 respectivamente), con una morbilidad
mayor en las mujeres, conclusión que viene a confirmar nuestros hallazgos anteriores.

c. Tipo de residencia: Si comparamos el total para los hombres de los Bloques con el de los
Ranchos y luego hacemos lo mismo con las mujeres (columnas 2 versus 5 y 3 versus 6),
concluimos como anteriormente, que la influencia del sexo es prácticamente semejante en los
bloques y ranchos (2,8% para los hombres y 3,3% para las mujeres).

7. Buscar irregularidades en los datos.

En el cuadro presente hay dos irregularidades que ameritan una investigación mas profunda. Los
varones de 45-54 años de los ranchos presentan una morbilidad algo menor que los del grupo 35-
44 años y las mujeres del grupo 55 y más años de los ranchos, prácticamente tienen la misma
morbilidad que las del grupo 45-54 años. Tales no parecen consistentes con los restantes del
cuadro, aunque al consultar los datos originales de la encuesta nos damos cuenta que dichos
porcentajes se basan en 92 y 78 personas respectivamente y por lo tanto podemos considerarlo
como fluctuaciones debidas al tamaño relativamente pequeño de la muestra entrevistada

8. Conclusiones Finales.

En conclusión, la lectura del cuadro anterior nos revela:

a. La morbilidad es mayor mientras mayor es la edad de las personas.

b. La morbilidad es mayor en los ranchos que en los bloques y en las mujeres que en los
varones.

c. La influencia del sexo es semejante en los bloques y ranchos y por lo tanto, las diferencias
observadas en los dos tipos de vivienda, no pueden ser atribuidas a distinta composición de los
pobladores con respecto a los sexos.

d. La relación entre la edad y la morbilidad es más acentuada en las hembras que en los varones
y por lo tanto la mayor morbilidad de aquellas pudiera ser debida a una composición estaría
diferente. Sin embargo, este factor puede ser descartado, pues como vimos en el punto 6 las
diferencias entre hombres y mujeres se mantienen para cada edad en particular.

e. La relación entre la edad y la morbilidad es más acentuada en ranchos hasta los 45 años, pero
sucede a la inversa a partir de esta época. Aparentemente la mayor morbilidad de los ranchos
puede deberse en parte a una composición estaría diferente, y para despejar esta duda abría
necesidad de recurrir a las llamadas tasas ajustadas (ver Estadísticas de Mortalidad)

f. Irregularidades de los datos en la población masculina de los ranchos, en el grupo de 45-54


años y en las mujeres mayores de 55 años pueden atribuirse a fluctuaciones causadas por el
escaso número de personas examinadas en tale s grupos.
CAPITULO XII
GRAFICOS
13.1 Características Generales.

Los gráficos dan una idea mucho más sintética que los cuadros estadísticos. Unas veces su
finalidad es simplemente tratar de mostrar a otras personas la evolución de determinado
fenómeno, pues mientras que la interpretación de un cuadro estadístico requiere ciertos
conocimientos, cualquiera puede comprender fácilmente que una línea ascendente traduce un
aumento del fenómeno estudiado y que una línea descendente significa una disminución. Otras
veces la finalidad del gráfico es ayudar al análisis de la información, poniendo de presente o
aclarando ciertas relaciones poco aparentes en el material tabulado.

Al igual que en los cuadros estadísticos, en los gráficos se considera:

a. El título
b. El gráfico propiamente dicho.
c. Las notas explicativas.

Sobre el título y las notas explicativas no es necesario insistir, pues todo lo que se dijo a propósito
de los Cuadros, es valedero para los gráficos.

13.1.1 Escalas del gráfico y errores en su empleo.

Dejando a un lado contadas excepciones que se señalarán a su debido tiempo, la mayoría de los
gráficos presenta forma rectangular y se inscriben en las llamadas “coordenadas rectangulares”,
que son aquellas formadas por la intercepción de dos líneas en ángulo recto.

De estas dos líneas la horizontal o “abscisa” se destinará para las diferentes clases de la escala
que se utiliza y la vertical u “ordenada”, para anotar la frecuencia o número de veces que se
observa el fenómeno estudiado.

A propósito de estas escalas es necesario recordar los siguientes principios:

a. Las dos escalas deben ser de la misma longitud o algo mayor la horizontal que la vertical. En
general, salvo ocasiones se señalarán oportunamente, las dos escalas deben guardar una
proporción entre 1 a 1 y 1 a 2, es decir, que si la ordenada mide 10 cm. la abscisa debe medir
entre 10 y 20. Esta exigencia se hace con el fin de no distorsionar el fenómeno que se estudia.

b. Nótese en los tres primeros diagramas del gráfico 97 - los cuales representan el mismo
fenómeno - , que cuando se exagera la escala vertical (diagrama A), se tiene la impresión de
un descenso irreal y cuando se exagera la escala horizontal (diagrama B) parece que el
fenómeno estudiado no ha variado. Una impresión correcta se obtiene en cambio, cuando se
observa el diagrama C, en el cual hay un buen equilibrio en la longitud de las dos escalas.

c. De igual manera, para evitar la incorrecta apreciación de los hechos, las escalas deben
comenzar en 0 (cero), pero sin embargo cuando los valores que se representan son muy
elevados y con pequeñas fluctuaciones debe “partirse” el gráfico (diagrama E), para evitar
diagramas como el D, poco vistoso y sin mayor utilidad, pues es difícil formarse juicio sobre
las variaciones que se quieren representar. Ya veremos que en algunos diagramas tal
partición de la escala no es aconsejable.

d. Cada escala debe ser rotulada de tal manera que se comprenda fácilmente que representa:
edad en años o en meses, kilos o libras de peso, etc.
e. Como el gráfico de ninguna manera da una idea matemáticamente exacta de las fluctuaciones
estudiadas – para ello están los cuadros con los datos originales-, las escalas no deben tener
demasiadas subdivisiones. Aquellas que se utilicen deben ser por lo general, números
redondos.

Gráfico 97
Ilustración de los errores más comunes en la elaboración de los gráficos

Principales gráficos

Los principales gráficos se pueden apreciar en el siguiente esquema:


* DIAGRAMA DE BARRAS:

- SIMPLES
- DOBLES
GRAFICOS A - COMPUESTAS
CUALITATIVAS
UTILIZAR
* DIAGRAMA DE SECTORES

* PICTOGRAMAS

TIPO DE
DISCONTINUAS
VARIABLES
O DISCRETAS

CUANTITAITVAS
* HISTOGRAMA

* POLIGONO DE FRECUENCIAS

* DIAGRAMA DE FRECUENCIAS
GRAFICOS A ACUMULADAS (OJIVA)
CONTINUAS
UTILIZAR
* DIAGRAMAS DE PUNTOS (XY o DE
DISPERSION)

* DIAGRAMA SEMILOGARITMICO
* DIAGRAMA DE CAJAS.

De acuerdo a lo señalado, pueden por consiguiente distribuirse dos clases de gráficos: aquellos
destinados a mostrar las variaciones de determinado fenómeno y aquellos utilizados con fines
analíticos, los primeros aunque muy demostrativos no son siempre los de mayor utilidad para el
investigador.

Dada la extraordinaria diversidad de gráficos existentes (2) solo nos referiremos a los más
generalmente utilizados. Estudiaremos sucesivamente:

1. Diagrama de barras y sus diferentes modalidades


2. Diagrama de sectores
3. Histograma
4. Polígono de frecuencias
5. Diagrama de frecuencias acumuladas
6. Diagrama semilogarítmico
7. Diagrama de puntos
8. Diagrama de cajas y bigotes.

13.2.1 Diagrama de barras y sus diferentes modalidades

Es aquel en el cual el fenómeno que se estudia queda representado por una serie de rectángulos o
barras, las cuales pueden dibujarse horizontal o verticalmente. Las barras deben ser de la misma
anchura y el espacio que los separa no debe ser mayor que el espesor de ellas mismas.

Dos detalles deben tenerse en cuenta cuando se utiliza este diagrama:

Si los datos representados no están en alguna secuencia que debe conservarse, deben ordenarse
de tal manera que las barras queden de mayor a menor, con lo cual se mejora la estética del
gráfico y se captan mejor las variaciones que se estudian.
Si se quieren representar por ejemplo, las variaciones mensuales de un fenómeno durante
determinado año, los meses deben colocarse ordenadamente de enero a diciembre cualesquiera
que sean las cifras correspondientes, pues sería ilógico que por razones estéticas se empezara por
marzo, seguido de noviembre, julio, etc. En cambio en el gráfico 101 las barras han sido
correctamente ordenadas de mayor a menor, pues es indiferente que un tipo de vacunación se
mencione de primero o de último.

(Note que en el diagrama de barras los rectángulos están separados y en el Histograma van unidos)

(Note la escala vertical en el diagrama lineal, dos números consecutivos siempre están a igual
distancia, pero no así en el semilogarítmico)

La escala de la frecuencia debe comenzar siempre en O:

Debe interrumpirse, pues de lo contrario la visualización del fenómeno será errada. Observe dicho
error en el gráfico adjunto en el cual se representa dos enfermedades de la cual se conocieron 450
casos respectivamente.

Gráfico 100

Correcta e incorrecta manera de numerar la escala de un diagrama de barras.


13.2.1.1. Diafragma de barras sencillas: Se utiliza para las distribuciones de frecuencias en escala
cualitativa y cuantitativa discontinua. Puede utilizarse también para series cronológicas, cuando
son pocos los valores que se quieren representar; especialmente cuando corresponde a
observaciones periódicas, como ser la población de Venezuela en los censos de 1936, 1941,1950
y 1961. Para elaborar el diagrama se necesita tan solo dibujar las barras de tal manera, que en
altura este en proporción con las cantidades que representan en el gráfico 101

Vacunaciones practicadas en la primera zona epidemiológica del Estado Lara en 1961

Tipo de vacunación Personas


Antivariólica 16202
Doble 5239
Triple 15584
Antipolio 22591
Antifica 873
BCG 7752
Total 68241

Gráfico 101

Personas inoculadas

BCG

Antifica

Antipolio

Triple

Doble

Antivariólica

0 5000 10000 15000 20000 25000

13.2.1.2. Diagrama de barras dobles. Esta diagrama, (gráfico cuya idea puede hacerse extensiva
para barras triples y cuádruples que se emplea para representar datos de asociación cuyas dos
barras sean cualitativas (defunciones por sexo y causa, etc.). También se emplea cuando se quiere
comparar dos distribuciones de referencias con relación al tiempo.
Gráfico 101 a.
Distribución por tipo de instrucción y sexo.

13.2.1.3. Diagrama de barras compuestas. Las aplicaciones de este diagrama, el cual se


esquematiza a continuación (gráfico 102) son muy semejantes a las del gráfico anterior, sobre el
cual no tiene ninguna ventaja. Note sin embargo, que aunque los gráficos 101 no representan los
mismos datos del cuadro 101 a, la comparación que tienen es algo diferente. En el gráfico 103 se
intenta señalar para la causa de accidente la contribución de cada uno de los sexos.

En el gráfico 102 se desea enfatizar la proporción en que intervienen las diferentes causas en la
mortalidad de cada sexo.

Gráfico 102

Defunciones por accidentes, por causa y sexo.- Venezuela, 1961


Cuadro 103
Defunciones por accidente por causa y sexos.- Venezuela 1961
Gráfico 103

13.2.2. Diagrama de sectores.

Este diagrama, el cual es uno de los más frecuentes empleados se utiliza con fines comparativos,
cuando se quiere mostrar los diversos componentes de una serie y con tal propósito a menudo se
emplea el lugar de diagrama de barras sencillas, a pesar de que no tiene ninguna ventaja sobre el.

En el pueden representarse cifras absolutas o porcentajes. Como círculo tiene 360º, la manera
más fácil de elaborarlo es expresar los datos que se estudian en forma de porcentajes, pues en tal
caso, el 1% corresponde al 3,6º del círculo.

13.2.2.1. Elaboración. En el cuadro 104 se presenta las muertes por diversos tipos de leucemias y
aleucemias ocurridas en Venezuela. Como para representar cada 1% se necesitan 3,6º del círculo,
los porcentajes se multiplicaran por 3,6 con el fin de averiguar cuántos corresponde a cada uno de
los sectores, por ejemplo, el sector que representa la leucemia tendrá (15,2% x 3,6% = 55º) y el
que representa la leucemia linfática tendrá 49º (13,6% x 3,6%= 49º)

Cuadro 104

Defunciones por diversos tipos de Leucemia y Aleucemias. Venezuela 1961


Gráfico Nº 104

Defunciones por Leucemia y Aleucemia por formas clínicas


Venezuela 1961

Hechos los cálculos anteriores se inscribirán con un transporte sobre los correspondientes sectores
sombreándolos diferentemente para distinguirlos entre sí. Para indicar que representa cada sector,
puede usarse cualquiera de los procedimientos ilustrados en el gráfico 105.

13.2.3. Histograma.

En el histograma el fenómeno que se estudia queda representado por una serie de rectángulos
semejantes a los diagramas de barras. Sin embargo, las barras del histograma siempre se colocan
verticalmente y deben ir unas al lado de las otras, sin que haya ningún espacio que las separe.

Este gráfico se utiliza para representar distribuciones de frecuencia en escala cuantitativa continua,
como ser la distribución de un grupo de individuos de acuerdo a su edad, peso, estatura, etc.

13.2.3.1. Elaboración. Para elaborar el histograma véase gráfico 109. Deben seguirse los pasos
que a continuación se detallan, los cuales se encuentran esquematizados en el cuadro 107.

1. Antes de trazar el sistema de coordenadas, los datos originales deben ser transformados en tal
forma, que para cada clase se obtengan el número de casos promedio por unidad de la escala
para ello se buscara primero la amplitud de cada clase y se dividirá la frecuencia
correspondiente por dicha amplitud. Observen el ejemplo que la primera clase tiene amplitud
de 5 y como esa clase había 501 defunciones, al dividir 501 por 5, nos dará en promedio hubo
100 defunciones por cada año (omitiendo la fracción decimal).

Igualmente para el grupo (5-14 años), la amplitud de la clase en 10 y dividiendo por 10 las 453
defunciones observadas, se obtendrán que en promedio se presentaron 45 por cada año de la
vida.
Cuadro 107

Defunciones por accidentes, por grupos de edad.- Venezuela, 1961


(Datos que ilustran los pasos necesarios para la elaboración del histograma ilustrado en el gráfico
109)

Para entender la razón por la cual deben obtenerse estos promedios piénsese en una enfermedad
que afectará por igual a todas las personas, sin distingos de edades y que en determinada
colectividad hubiera producido 10 enfermos en cada uno de los años de la vida.

Si los pacientes se agruparan por edades, lógicamente aquellos grupos que comprendan más años
de edad mostraran más pacientes, dando la impresión de que la enfermedad tiene preferencia por
esas edades, cuando en realidad se ha visto que tal preferencia no existe. Por lo demás, sino se
obtuvieran los promedio, bastaría cambiar los grupos de edad para hacer variar la aparente
preferencia de la edad.

Observe la mencionada falacia, cuando los mismos 300 casos presentan, utilizando agrupaciones
diferentes.

Cuadro 108

2. Trazar el sistema de coordenadas

3. Enumerar las escalas. La ordenada debe comenzar en cero (O), pero como las frecuencias
que se utilizaran para la elaboración del histograma, son los promedios acabados de obtener,
el límite máximo de dicha ordenada estará dado por el máximo promedio obtenido. Observe en
nuestro ejemplo, que aunque se observaron 931 muertes en el grupo 25-44 años, la ordenada
solo se numera hasta 100 ó 120, ya que el máximo promedio obtenido fue 100.

Con respecto a la abscisa, no ha de olvidarse que l comienzo de una clase corresponde


exactamente a la terminación de la clase que le precede. Note en el ejemplo que sirve de
ilustración que el final de la primera clase 5, que es a su vez el comienzo de la segunda.

Igualmente la segunda clase termina en 15 que es el comienzo de la tercera. Por lo tanto al


numerar la escala, deben colocarse solamente las cifras que indican el principio de cada clase.
Además debe evitarse un error común de los principiantes, que consiste en destinar igual
longitud de la escala a clases que tienen igual actitud.

En el ejemplo adjunto la primera clase comprende 5 años, la segunda y la tercera 10 y las


restantes 20 años y por lo tanto si para la primera clase se dejan 5 milímetros para la segunda
y la tercera se dejaran 10 y para las restantes 20.

4. La inscripción de los rectángulos debe hacerse teniendo en cuenta que la altura de cada uno
es dada por la frecuencia que aparece en los datos originales, sino por los promedios
obtenidos en el paso número uno. En nuestro ejemplo el histograma hecho con los datos
originales no es correcto, como puede verse en el gráfico 109.

Gráfico 109

Defunciones por accidentes, por grupos de edad.- Venezuela 1961

5. Un último detalle que se debe tener en cuenta es el siguiente: como la frecuencia en cada
clase se ha dividido por la amplitud de clase para obtener el numero promedio de muertes por
año de edad, en la escala vertical no debe ponerse simplemente “Defunciones”, sino que es
necesario especificar las defunciones por año tal como hemos hecho en el grafico
correspondiente

13.2.3.2 Caso especial de histograma. Según se recordara la relación entre varios números no se
altera si se dividen por la misma cifra. Así por ejemplo, si en la progresión: 40 :20: 10:, cuya razón
2, se divide cada termino por 10, se obtiene la nueva progresión 4: 2:1, en el cual la razón sigue
siendo 2, ósea, en ambas progresiones cada número es la mitad del que le precede.
40 . ___ .___ . ___ . ___. . ___ . ___ . ___ . ___ . 4
20 . ___ . ___ . . ___ . ___ . 2
10 .___ . . ___ . 1

Este recordatorio permite comprender que cuando las clases de una serie tiene la misma amplitud
(digamos 10), los rectángulos del histograma que representa dichas cifras guardara la misma
proporcionalidad, sea que se escriban los datos originales, o los promedios que resulten de dividir
la frecuencia de cada clase por su amplitud.

Por consiguiente en aquellas ocasiones en que todas las clases de una serie tiene la misma
amplitud, el histograma puede hacerse inscribiendo directamente las frecuencias dadas sin
necesidad de obtener los promedios de casos por unidad de las escala pues exceptuando la
graduación de la ordenada, los gráficos serán iguales obténgase o no los promedios mencionados

En el ejemplo siguiente nótese que los histogramas elaborados con los datos originales de la
segunda columna del cuadro 108 y con los promedios de las clases son exactamente iguales, pero
que la numeración de la ordenada es diferente, pues en el último caso la escala es de 1/10 de la
primera, pues como en cada grupo decenal se obtienen el promedio por año de edad, se han
representado “defunciones por año de edad “

Grafico 110

Defunciones por accidentes, por grupos de edad. Venezuela. 1961.

nº de muertes
800

600

400

200

0
0 10 20 30 40 50 60 70 80 90

años de edad

Fuente: Datos de cuadro 108.

Todos los detalles mencionados a propósito del histograma son aplicables a la construcción del
polígono de frecuencias y por lo tanto lo mismo que en aquel, es necesario obtener el número
promedio de observaciones por año de edad cuando las clases son desiguales en amplitud.

La diferencia entre estos dos diagramas estriba en que el polígono de frecuencia no se usa
rectángulos, sino una serie de puntos que se colocan a la altura que ocuparían los rectángulos del
histograma y en la parte media de cada clase. Luego para dar la idea de continuidad dichos
puntos se reúnen para un trazo continuo.
Por regla general el histograma debe preferirse al polígono de frecuencias. Este debe destinarse a
aquellos casos a los que se debe destinar más de una serie en el mismo gráfico, con fines
comparativos. Si por ejemplo se quisiese comparar la distribución etaria de las defunciones por
accidentes para los dos sexos no se lograrían ninguna claridad con la superposición de dos
histogramas uno para cada sexo. La representación se hará correctamente en un polígono de
frecuencias, inscribiendo sucesivamente los datos para hombres y mujeres.

Gráfico 112

Comparación entre el histograma y el polígono de frecuencias

Fuente: Datos de cuadro 107.

Y, utilizando un trazado diferente para cada serie de datos cuyo significado se aclarara al lado
De el gráfico (gráfico 103) (datos que ilustran la elaboración de un polígono de frecuencias)

Amplitud de Defunciones por año


Edades Sexo clase de edad
Hombres Mujeres Hombres Mujeres

0-4 275 226 5 55 45


5 > 14 288 165 10 29 17
15-24 519 86 10 52 9
25-44 835 96 20 42 5
45-64 400 99 20 20 5
65-84 115 103 20 6 5

Total 2432 775

Fuente: Anuario de epidemiología y estadística vital. Venezuela.


Gráfico 113

900
800
700
600
500
Hombres
400
Mujeres
300
200
100
0
0-4 5 > 14 15-24 25-44 45-64 65-84

13.2.4.1 Detalle adicional. Un gráfico todo semejante al polígono de frecuencias para la


representación de las vías cronológicas sin embargo debe tenerse en cuenta un detalle
adicional para su correcta elaboración

Gráfico 114

1950 1951 1952 1950 1951 1952

AÑOS AÑOS

Si ven los esquemas adjuntos se observará que las subdivisiones del tiempo (años, meses, días,
etc.) pueden colocarse entre dos ordenadas opuestas inmediatamente debajo de ellas

En el primer caso el año comienza en una ordenada y termina en la siguiente, es decir, que para
su representación se dispone de todo el espacio comprendido entre dos ordenadas. En tales
ocasiones, la inscripción del punto que representa determinada frecuencia, se hará generalmente
en la mitad de dicho espacio, salvo el caso de que se quiera descartar que la cifra corresponda al
total para un periodo especifico. Si por el contrario, los años se han puesto debajo de las
ordenadas los puntos correspondientes se inscribirán sobre ellas.

13.2.5 Diagrama de frecuencias acumuladas. Este diagrama se utiliza para representar


distribuciones de frecuencia en escala cuantitativa con fines analíticos o para resumir ciertas series
cronológicas cuando se tiene interés, no tanto en las fluctuaciones de un lapso a otro, sino en el
efecto acumulado a través del tiempo.

Antes de indicar la elaboración del diagrama obsérvese los datos presentados en el siguiente
cuadro. Las dos primeras columnas del cuadro muestran las muertes accidentales en el país en
1961 por grupos decenales de edad. Sumando sucesivamente las defunciones ocurridas, en los
diversos decenios se obtienen las cifras de la columna (3) que indican el número de defunciones
ocurridas a determinada edad. Así por ejemplo, hubo 748 en el grupo “0-9 años” y por lo tanto,
todas ellas fueron en menores de 10 años.

Como luego aparecen 457 en el grupo de “10 a 19años” al sumar esta cifra a la anterior 748 + 457
= 1205), se tiene 1205 defunciones ocurrieron en personas menores de 20 años. Igualmente hubo
1847 en menores de 30 años, ósea, las 748 menores de 10 años + las 457 del grupo de 10- 19, y
las 642 que el grupo de 20 a 29. Si se desea puede dividirse estas frecuencias acumuladas por la
frecuencia general del grupo, y multiplicar * 100 para obtener los porcentajes acumulados que
aparecen en la columna.

Cuadro 115

Defunciones por accidentes. Frecuencias acumuladas por grupos de edad. Venezuela, 1961.

Frecuencias acumuladas
Edad en años Número de defunciones
Número Porcentajes
1 2 3 4
0- 9 748 748 23.3
10 > 19 457 1203 37.6
20-29 642 1817 57.6
30-39 466 2313 72.1
40-49 340 2653 82.7
50-59 244 2891 90.2
60-69 156 3050 95.1
70-79 76 3126 97.5
80-89 81 3207 100
Total 3207

Fuente: Anuario de epidemiología y estadística vital, Venezuela.

Grafico 116
Defunciones por accidentes, frecuencias acumuladas por grupos de edad, Venezuela, 1961.

3500

3000

2500

2000

1500

1000

500

0
1 0- 9 10 > 19 20-29 30-39 40-49 50-59 60-69 70-79 80-89
Fuente: Datos del cuadro 115.
13.2.5.1 Elaboración. La elaboración del diagrama de frecuencias acumuladas se resume en los
siguientes pasos:

1. Obtener las frecuencias acumuladas tal como se acaba de indicar.

2. Trazar el sistema de coordenadas y numerar las escalas. En la abscisa, se ponen intervalos de


clase, en la misma forma indicada en el histograma.

3. La ordenada debe comenzar en cero y llegar hasta la cifra que corresponda al total del grupo.

4. Generalmente es preferible utilizar una doble escala como se ha hecho en el grafico 116 en el
cual la escala vertical derecha muestra los porcentajes acumuladas (0% - 100%) y la izquierda
el número de defunciones acumulada.

5. Inscribir las frecuencias acumuladas. Cada frecuencia queda representada por un punto, el
cual debe colocarse al final del espacio destinado a la respectiva clase, para indicar el número
de casos que hubo por debajo de dicho valor. Así por ejemplo, como aparecen 748
defunciones en el grupo “0-9 años” el punto debe ir encima del valor de la abscisa
correspondiente a 10 años, significando que 748 defunciones ocurrieron en menores de 10
años. Igualmente, como hubo 1205 en menores de 20 años, el punto estará colocando encima
del valor “ 20 años” de la abscisa

6. Unir los puntos inscritos, con una línea continua, para facilitar la lectura del gráfico.

7. El grafico de frecuencias acumuladas permite responder fácilmente preguntas como las


siguientes:

a. ¿Cuántas defunciones hubo en menores de determinada edad?

b. Por ejemplo, para averiguar las muertes ocurridas en menores de 35 años, se levanta una
vertical a esta edad hasta la curva del diagrama y se proyecta en la escala vertical
izquierda, lo cual nos indica que por debajo de esa ocurrieron aproximadamente 2100
defunciones.

c. De las defunciones totales. ¿que porcentaje ocurrió por debajo de determinada edad?

d. Para el ejemplo anterior, se levanta una vertical hasta la curva y se proyecta en la escala de
los porcentajes obteniéndose que aproximadamente el 65% de las defunciones fueron en
menores de 35 años.

e. ¿Por debajo de que edad ocurrió determinado porcentaje de las defunciones?

f. Por ejemplo, si se desea saber antes de que edad ocurrió el 50% de las muertes, se traza
una horizontal desde esta cifra hasta la curva del diagrama y bajando luego una vertical
hasta la abscisa, vemos que el 50% ocurre antes de los 26 años (Q) . En la misma forma
podemos ver que el 25% de las defunciones ocurre antes de los 11 años (Q1) y el 75%
antes de los 43 años (Q3). Desde luego, son valores aproximados y más adelante se
estudiarán métodos matemáticos más exactos.

13.2.6. Diagrama Semilogarítmico.

Es aquel cuya escala vertical tiene una escala logarítmica, mientras que la horizontal presenta una
graduación aritmética como la utilizada en todos los gráficos vistos anteriormente.

Con fines recordatorios, puede decirse que un logaritmo no es otra cosa que el número que indica
cuantos ceros siguen a la unidad. Así por ejemplo, 100 tiene dos ceros y por siguiente su
logaritmo es 2, el número 1000 tiene tres ceros y su logaritmo es 3. Siendo 2 el logaritmo de 100
y 3 el logaritmo de 1000, cualquier número comprendido entre los anteriores, digamos 300, tendrá
un logaritmo entre 2 y 3, es decir, que su logaritmo será 2 más alguna fracción.

De lo anterior se deriva que los logaritmos 2, 3, 4, etc., representan números que están en
progresión geométrica: 100, 1000, 10000, etc. Por consiguiente cuando se utiliza la escala
logarítmica, aquellos números que representan una misma proporción, como ser: 1 y 2 o 3 y 6 ò
100 y 200 etc., quedaran en el gráfico separadas por una misma distancia, lo cual no sucede en la
escala aritmética corriente. Esto puede apreciarse en el esquema de la próxima página.

La escala consta de uno o varios ciclos exactamente iguales, de tal manera que si el primero
representa los números del 1 al 10, el segundo representara los números del 10 al 100 y así
sucesivamente. Note por consiguiente que la escala logarítmica, nunca empieza en cero. Su
comienzo puede ser 0,1; 1 ò 10 ò 100 de acuerdo a los datos que se representan.

En el comercio se consigue ya timbrado, papel de 1, 2 o más ciclos pero en ocasiones se desea


hacer el gráfico más grande o más pequeño de lo que el papel timbrado lo permite. Para ello,
utilizando el papel comercial, puede agrandarse o empequeñecerse la escala mediante
procedimiento esquematizado en el gráfico 120.

13.2.6.1. Utilización del diagrama semilogarítmico. El papel semilogarítmico tiene, entre otros,
los siguientes usos:

a. Si se quieren representar en el mismo gráfico dos series cuyas cantidades son muy diferentes
unas de otras, como ser las variaciones en él número de glóbulos rojos y de glóbulos blancos, o los
casos y muertes de ciertas enfermedades, la escala aritmética no lo permitirá, como lo demuestra
el siguiente ejemplo:
GRAFICO 120
PROCEDIMIENTOS PARA OBTENER CICLOS LOGARÍTMICOS MÁS PEQUEÑOS (A) O MÁS

GRANDES (B)

CUADRO 121

CASOS Y DEFUNCIONES POR TOSFERINA. ÁREA DE NOTIFICACIÓN ORGANIZADA


VENEZUELA, 1956 – 1960

Años Casos Defunciones

1956 2.824 79
1957 1.420 76
1958 938 43
1959 4.476 118
1960 6.764 101

Fuente: Anuario de Epidemiología y Estadística Vital Venezuela 1961

Al utilizar una escala aritmética para representar estos datos se caería en una de las dos
alternativas siguientes:

1. Si la escala presenta subdivisiones en 1000, las variaciones de los casos se apreciarían


correctamente, pero como las defunciones presentan muchas pequeñas variaciones con
referencia a ellos, quedarían prácticamente representadas por una línea recta, lo cual no
permitiría apreciar los cambios en la mortalidad habida en el lapso. (Véase el grafico 122B).

2. Si para subsanar el anterior inconveniente se hicieran subdivisiones de 10 en 10, entonces el


grafico tendría que tener varios metros de altura, para que permitiera inscribir los miles de
casos presentados.
Gráfico 122 A

DIAGRAMA SEMILOGARITMICO
Frecuencias

7.000

5.000

CASOS
2.000
1.000
500

200

100 DEFUNCIONES

50

20

10

1956 1957 1958 1959 1960


AÑOS

Gráfico 122 B

USO INADECUADO DE LA ESCALA ARITMÉTICA


(No se aprecian las variaciones anuales en el número de defunciones)

7.000

6.000

5.000

4.000

3.000
CASOS

2.000

1.000
DEFUNCIONES

1.956 - AÑOS - 1.960


Fuente: Datos del cuadro 121

La representación correcta de los datos anteriores puede hacerse fácilmente utilizando el papel
semilogarítmico. En el grafico 122 A la vez que se apreciaran las variaciones en él número de
casos, se apreciaran también las ocurridas en las defunciones.
3. Muchas veces se tiene interés en comparar, no los cambios absolutos que presentan 2 o
más series, sino los cambios relativos y en tales ocasiones, el papel Semilogarítmico es el
adecuado. Considere por ejemplo, los siguientes datos:

CUADRO 123
MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS
VENEZUELA, 1953 – 1957
Tasas por 100.000 habitantes

Año Tuberculosis Bilharziosis


1953 87.0 1.9
1954 74.0 1.5
1955 57.0 1.2
1956 45.0 1.0
1967 43.0 0.7
Fuente: Anuario de Epidemiología y Estadística Vital de Venezuela. 1961

Note que de 1953 a 1957, la Bilharziosis descendió en más del 60% y la Tuberculosis solamente
en un 50%. Esto se aprecia correctamente en el diagrama Semilogarítmico pero en diagrama de
escala aritmética aparece que la Tuberculosis hubiera descendido mucho más que la Bilharziosis

GRÁFICO 124

MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS.


VENEZUELA, 1953 – 1957

SEMILOGARITMICO ARITMÉTICO

Tasas por 100.000 habitantes Tasas por 100.000 habitantes

3.0 90
Tuberculosis

Tuberculosis
2.0 60

30
1.0 Bilharziosis

Bilharziosis

0.1 0
1953 1954 1955 1956 1957 1953 1954 1955 1956 1956

AÑOS AÑOS

Fuente: Datos del Cuadro 123

13.2.7. Diagrama de Correlación

Este gráfico se utiliza para aquellos casos en los cuales a cada individuo que se estudia se le
toman dos medidas diferentes, es decir, cuando cada individuo se clasifica al mismo tiempo en
relación a 2 escalas cuantitativas como ser peso y estatura, edad y peso, etc.
En el gráfico cada individuo queda representado por un punto según la forma como estos puntos
se agrupen, se podrá juzgar sobre el grado de asociación entre las dos variables, lo cual se
estudiará en detalle posteriormente.

13.2.7.1Elaboración. Para elaborar el diagrama de Correlación, se procederá así:

1. Trazar el sistema de coordenadas. En este gráfico las dos escalas deben ocupar la misma
longitud, es decir, si la ordenada mide 15cms; la abscisa también debe medir 15cms.

2. Numerar las escalas. No es necesario como en otros gráficos, que las escalas comiencen en 0.
La numeración puede comenzar con el valor menor observado en los datos o con el número
redondo inmediatamente inferior y terminará con el máximo valor observado o con el número
redondo inmediatamente superior.

3. Como cada individuo va a ser representado por un punto, éste se colocará en la intercepción de
2 líneas imaginarias que pasen por los correspondientes valores.

Ejemplo: Con el fin de constatar si realmente los estudiantes que obtienen las mejores
calificaciones en sus ejercicios son quienes presentan los mejores exámenes finales, un
grupo de 20 estudiantes de estadística ha sido clasificado de acuerdo a las notas previas
obtenidas en los ejercicios y a los resultados del examen final.
El gráfico 126 representa los mencionados datos. Observe que en el diagrama se ha destacado el
o
valor correspondiente al individuo N 7, para mostrar cómo deben colocarse los puntos. Dicho
valor corresponde a un estudiante que tenía una nota previa de 11 puntos y obtuvo 10 en el
examen final.

Detalles sobre la interpretación de los gráficos de correlación y sobre las asociaciones


encontradas, serán dados al estudiar el Análisis de la Información recogida.

NOTAS PREVIAS DEL EXAMEN FINAL DE 20 ESTUDIANTES


DE METODOLOGÍA ESTADÍSTICA.

ALUMNOS NOTA PREVIA NOTA FINAL


1 15 13
2 13 12
3 16 18
4 14 16
5 20 18
6 17 18
7 11 10
8 15 16
9 18 18
10 12 11
11 19 17
12 16 16
13 10 9
14 11 13
15 18 15
16 10 8
17 15 15
18 16 17
19 14 13
20 13 14
Gráfico 126

25

20

15
NOTA PREVIA

10 NOTA FINAL

0
0 5 10 15 20 25

13.2.8. Diagrama de Cajas – Bigotes

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o verticalmente.

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el
recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se
posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que
el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que
tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la
caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato
o caso que no se encuentre dentro de este rango es marcado e identificado individualmente

Ejemplo distribución de edades:

Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de
un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31 4 29 23 41 40 33 24 34 40

1. Ordenar los datos

2. Para calcular los parámetros estadístico, lo primero es ordenar la distribución

3. 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

4. Cálculo de cuartiles
5. Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1 = (24 + 25) / 2 = 24,5

6. Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la


variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:

Med.= Q2 = (33 + 34)/ 2 =33,5

7. Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15.

Q2=(39 + 39) / 2 = 39

8. Dibujar la caja y los bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la


caja a (Q1, Q2),

La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).

9. Información del diagrama

Podemos obtener abundante información de una distribución a partir de estas representaciones.


Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades
comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.

El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más
jóvenes están más concentrados que el 25% de los mayores.

El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en


14,5 años.
CAPITULO XIV

EL ANÁLISIS DE LA INFORMACIÓN:
LOS ESTUDIOS DESCRIPTIVOS
FACTORES QUE DETERMINAN EL METODO DE ANÁLISIS

14.1. Generalidades:

El análisis de todo estudio, debe comenzar con una evaluación global de la información disponible
y de la manera como fue recogida.

Conviene examinar si los planes se cumplieron a cabalidad y si los datos se recogieron en la forma
prevista y sólo una vez que se está seguro de la fidelidad de la información, podrá iniciarse el
análisis estadístico propiamente dicho.

Las técnicas de análisis estadístico son muy numerosas, y la escogencia depende, entre otros
factores de:

1. El propósito del estudio.


2. El tipo de información recogida.
3. La escala de clasificación utilizada.
4. El número de individuos estudiados.

En capítulos anteriores, ya se consideraron algunos aspectos referentes al tipo de información


recogida (distribuciones de frecuencia, datos de asociación y series cronológicas) y a la escala de
clasificación utilizada (cualitativa y cuantitativa). Consideramos ahora, la importancia que para el
análisis tiene el propósito del estudio, y el número de observaciones estudiadas (series agrupadas
o no agrupadas).

14.2 Estudios descriptivos y estudios comparativos.

De acuerdo a su propósito, los estudios se clasifican en:

- Descriptivos, y
- Comparativos.

En los estudios descriptivos interesa sobre todo, resumir adecuadamente la información y al mismo
tiempo destacar las características importantes del grupo que se estudia. En los estudios
comparativos interesa primordialmente averiguar si hay o no diferencias entre los dos o más
grupos que se estudian y si dichas diferencias existen, hallar razones valederas que puedan
explicarlas.

Es de advertir que esta tajante diferenciación entre estudio; descriptivos y comparativos, es más
bien aparente. En primer lugar, todo estudio comparativo debe comenzar con una descripción de
los hallazgos encontrados, pues solamente después que estos han sido resumidos
convenientemente, podrá hacerse con provecho las comparaciones deseadas. En segundo lugar,
no debe olvidarse que en muchos estudios descriptivos la finalidad última es hacer ciertas
generalizaciones a partir de los resultados observados, pues aunque por razones prácticas el
investigador solo estudia una muestra de la población en que está interesado, su deseo es llegar al
conocimiento de dicha población a través de los resultados de la muestra. Tal proceso de
inducción exige técnicas, distintas a las utilizadas en la simple descripción de los datos, las cuales
tienen mucho en común, con aquellas que se emplean en los estudios comparativos.
A pesar de las salvedades anteriores, con propósitos docentes se estudiarán separadamente las
técnicas estadísticas que se emplean los estudios descriptivos y aquellas que se utilizan en las
comparaciones de grupo, pues el perfecto conocimiento de las primeras, es imprescindible para
poder estudiar las segundas.

14.3 Número de individuos estudiados

Trátese de un estudio descriptivo o comparativo, la escogencia de las técnicas de análisis que se


utilizarán, depende del número de individuos en los cuales se basa la investigación.

Cuando el número de individuos observados es poco numeroso, los valores correspondientes se


pondrán uno al lado del otro sin que haya necesidad de agruparlos en diferentes categorías. Se
tienen entonces las llamadas series no agrupadas.

Cuando por el contrario, el estudio incluye una cantidad apreciable de individuos, ningún análisis
podrá hacerse si no se clasifican previamente en un determinado número de grupos o clases, tal
como señalamos en el capítulo noveno. Tales datos así presentados reciben el nombre de series
agrupadas.

Las técnicas estadísticas de análisis serán distintas según se traten de series agrupadas o de
series no agrupadas, siendo un poco más laboriosas las primeras

14.4 Técnicas de análisis de los estudios descriptivos.

Las técnicas utilizadas en el resumen de los estudios descriptivos pueden esquematizarse en la


forma siguiente:

14.4.1 .Distribuciones de Frecuencias

Las distribuciones de frecuencia en escala cualitativa se resumen por frecuencias relativas (tasas,
porcentajes, etc.) Si la escala es cuantitativa, pueden resumirse en la misma forma, pero
generalmente se resumen mediante las llamadas tendencias centrales (promedio, mediana, modo)
y medidas de dispersión (desviación, desvíos, percentiles, etc.)

14.4.2. Datos de Asociación

Si las dos escalas son cualitativas, se resumirán en frecuencias negativas. Si una es cualitativa y la
otra cuantitativa, podrá escogerse, de acuerdo con la finalidad del estudio, cualquiera de las
medidas hasta ahora mencionadas y si ambas escalas son cuantitativas se emplearan el
Coeficiente de Correlación o el Coeficiente de Regresión.

14.4.3. Series cronológicas

Se resumen por medio de las tendencias calculadas, cambios porcentuales y técnicas de


regresión.
CAPITULO XV

DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUALITATIVA

Razones, proporciones, porcentajes y tasas


15.1. Presentación tabular.

Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la
primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el
número de individuos observados. Generalmente el cuadro se acompaña de una primera columna,
en la cual se ponen los porcentajes respectivos.
(Ver cuadro 84)

15.2. Presentación gráfica

Pueden utilizarse el diagnóstico de barras o de sectores, pero la escala tiene muchas


subdivisiones, siempre debe preferirse el número. En ellos pueden respetarse los números
absolutos o los porcentajes respectivos. El grafico quedará igual en ambos casos, cuando
solamente la numeración de la escala utilizada. (Ver gráfico 101 y 105)

15.3. Análisis: frecuencias relativas.

El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general
de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices,
porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo.
Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia
que comprender su utilización y aplicaciones.

La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más
fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comprobación de diversos resultados.

El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor
para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada
localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben
proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario
relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio
en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella
deben haber más o menos 5 veces más defunciones.

15.3.1. Razones y Proporciones.

Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:

Hombres 297
Mujeres 99
Total 396

Aunque es evidente el predominio de los hombres, la intensidad de esa relación se apreciará


mejor, al dividir el número de hombres por el de mujeres, con lo cual podemos decir, que hay 3
hombres por cada mujer en dicho grupo (297/99=3).
Puede también dividirse el número de hombres por la totalidad de personas en el grupo (297/396 =
¾ = 75%), con lo cual se evidencia fácilmente, que cada 4 estudiantes, tres son de sexo
masculino, es decir, que hay 3 hombres por cada mujer en dicho grupo de estudiantes.

En el primer caso se ha relacionado el número de individuos en la categoría con el número de


individuos la otra. En el segundo caso se ha relacionado el número de observaciones de una
categoría, con el total general del grupo. La primera de tales frecuencias se denomina una “razón”;
la segunda se llama una “proporción” cuando la serie que se estudia consta solamente de dos
categorías hombres y mujeres o enfermos y sanos - puede usarse según las referencias una razón
o una proporción -. Si la serie consta de tres o más categorías, no hay una manera única de
calcular una razón en tales casos es preferible utilizar las proporciones.

15.3.2. Porcentajes.

Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes,
basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el
resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 =
75%) y el 25% mujeres: (99/396) x 100 = 25%.

El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente
2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a
100.

Note que si se tienen los 2 siguiente grupos de personas:

Hombres 297 Hombres 255


Mujeres 99 Mujeres 85

Total 396 Total 340

El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los
dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de
su cálculo.

En segundo lugar, a través de los porcentajes se puede resumir la probabilidad de la ocurrencia de


un hecho. En la ilustración anterior por ejemplo, hay un 75% de probabilidad de que una persona
sea de sexo masculino (297/396) y un 25% de que sea de sexo femenino (99/396)

15.3.3. Tasas

En toda la población es importante conocer su composición y los cambios que acontecen en ella.
Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten
analizar completamente la información disponible. Supóngase que en la población de San Pedro
los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:

Cuadro 133
Accidentes automovilísticos según sexo de los conductores.
San Pedro, 1961

Sexo de los conductores Frecuencia Porcentajes


Hombres 400 80%
Mujeres 100 20%
Total 500 100%
La información anterior es desde luego útil. Los porcentajes calculados señalan, entre otras cosa,
que al ocurrir un accidente hay un 80% de probabilidad que sea un hombre quien conduce, lo cual
facilitará ciertas decisiones administrativas. Así por ejemplo, si se está planeando construir un
hospital para atender conductores heridos o una cárcel para detenerlos, los porcentajes nos
indican que aproximadamente un 80% de las camas hospitalarias o de las celdas carcelarias
deben ser para hombres.

Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres
tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean
más cuidadosas al manejar.

Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de
que acontezca determinado fenómeno debe relacionarse con la población en la cual puede
acontecer. Tales relaciones reciben el nombre general de tasas.

Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió
determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente
dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el
fenómeno descrito en el numerador:

Número de veces que ocurrió determinado fenómeno


n
x 10
Población en la cual ocurrió el fenómeno

Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será
menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000,
10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en
1960 fue de 9 por 1000 que recordar que es 0.009.

Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera.
Entre ellas, tienen importancia en Medicina:

1. Las tasas de mortalidad: las cuales expresan el riesgo de morir.


2. Las tasas de morbilidad: que expresan el riesgo de adquirir determinadas enfermedades.
3. Las tasas de natalidad: que miden el crecimiento de las poblaciones.
4. Las tasas de letalidad: que indican cuan graves son las enfermedades.

Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de
sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas
veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas
en particular.

Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas
crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se
denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas
por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica
como se quiera, desde que se disponga de los datos básicos necesarios.

Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo,
para que el denominador sea correcto.

Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y
de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de
habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población
especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues
se considera, que dicha población es intermedia entre la de principios y final de año.
15.3.3.1. Principales Tasas.

Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el
cálculo de las más comúnmente empleadas:

Defunciones por todas las causas


y en todas las edades ocurridas
en determinada región durante
determinado año.
Tasa Cruda de Mortalidad: x 1000
Población de la mencionada región
para el 1° de Julio del año
que se estudia

Ejemplo: La población de Venezuela para el 1-7-64 se estimó en 7.600.000 habitantes y


en dicho año ocurrieron en el país un total de 55.466 defunciones. La tasa cruda de mortalidad fue
por lo tanto:

55.466 x 1.000
= 7.3 por 1.000 habitantes
7.600.000

Total de nacimientos vivos habidos


en determinada región
durante determinado año
Tasa Cruda de Natalidad = x 1.000
Población de la mencionada región
para el 1° de Julio del año
que se estudia

En 1961 se registraron en Venezuela 340.433 nacimientos vivos, y la población se estimó en


7.600.000 habitantes. Su tasa cruda de natalidad fue por consiguiente:

340.433 x 1.000
= 44,7 por 1.000 habitantes
7.600.000

Tasa Cruda de Morbilidad: Habitualmente no se calcula, ya que salvo el caso de


encuestas especiales, es imposible conocer la morbilidad total de una
región.

Defunciones por determinada causa habidas en


determinada región durante el año en estudio
Tasa de Mortalidad x 100.000
Específica por causa:
Población de la mencionada región para el 1°
de Julio del año respectivo

Ejemplo: Durante 1961 ocurrieron en Venezuela 1.312 defunciones por Tuberculosis.


Como la población del país dicho año se estimó en 7.600.000 habitantes, la tasa de mortalidad
específica por Tuberculosis fue:
1.312 x 100.000
= 17,3 por 100.000 habitantes
7.600.000

Defunciones por todas las causas en


determinado grupo de edad
Tasas de Mortalidad x 1.000
específica por edades: Población del correspondiente grupo de
edad para el 1° de Julio del año estudiado

Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en 3.400.000
habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas
menores de 15 años. La tasa de mortalidad en menores de 15 años fue:

26.303 x 1.000
= 7,7 por 1.000
3.400.000

Defunciones habidas por determinada causa


en determinado grupo de edad
Tasa de Mortalidad x 100.000
Específica por causa
y por edades: Población del correspondiente grupo de edad
para el 1° de Julio del año de estudio.

Ejemplo: En 1961 ocurrieron en Venezuela 140 defunciones por Tuberculosis en el grupo de


menores de 15 años. Como la población estimada para esas edades, fue de 3.400.000 habitantes,
la tasa de mortalidad específica por Tuberculosis para menores de 15 años fue:

140 x 100.000
= 4,1 por 100.000
3.400.000

Número de enfermos por determinada causa


conocidos en determinada región durante el año
Tasa de Morbilidad x 100.000
Específica por causa: Población de la región para el 1° de Julio del
año en estudio

Ejemplo: En 1961 se conocieron en Venezuela 8.242 casos de Tuberculosis Pulmonar. Como la


población del país era de 7.600.000 la tasa de morbilidad por Tuberculosis fue:

8.242 x 100.000
= 108,4 por 100.000
7.600.000

Defunciones por determinada causa


Tasa de Letalidad: x 100
Casos conocidos de la enfermedad en
el mismo año y en la misma región
Ejemplo: En 1961 se conocieron en el país 861 casos de Fiebre Tifoidea, de los cuales fallecieron
26. La tasa de letalidad para la Fiebre Tifoidea fue por lo tanto:

26 × 100 = 3.0%
861

Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no
puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos
se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna.

La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han
cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de
niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos
censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos
ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad
infantil se calcula mediante la fórmula siguiente:

Tasa de Mortalidad Infantil = Defunciones de niños menores de un año x 1.000


Nacimientos vivos

Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de
1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de
mortalidad infantil fue:

18.137 x 1.000 = 53.2 por 1.000 nacimientos vivos


340.433

Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año.

b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable
directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas
parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos,
quedando la tasa:

Tasa Mortalidad Materna: Defunciones Maternas × 1.000


Nacimientos Vivos

Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo,
parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad
materna fue:

378 x 1.000 = 1.1 por 1.000 nacimientos vivos.


340.433
CAPITULO XVI

DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUANTITATIVA
16.1. Presentación tabular.

Los cuadros que sirven para representar estos datos son en lo semejantes a los utilizados en otras
distribuciones de frecuencias (cuadro 83).

16.2. Presentación gráfica.

Cuando la escala es continua, la representación gráfica se hace en polígonos de frecuencia y


preferentemente en histogramas (ver gráfico 109). En los raros casos en los cuales la escala es
discontinua, debe utilizarse el diagrama de barras.

16.3. Análisis.

Lo mismo que las series anteriores, las distribuciones de frecuencias en escala cuantitativa pueden
analizarse mediante porcentajes, pero generalmente el análisis se efectúa mediante las llamadas
constantes centrales y de dispersión. Las primeras (promedio aritmético, mediana y modo) señalan
aquellas cifras alrededor de las cuales está la mayoría de las observaciones y las segundas
(desviación estándar, percentiles, etc.)

Señalan la manera como se distribuyen las observaciones con respecto a los anteriores valores
centrales.

El que se prefiera analizar una serie mediante porcentajes o mediante medidas centrales y de
dispersión depende de la finalidad que se persigue en el estudio. La información dada por unos y
otras es diferente y en ocasiones suelen utilizarse al mismo tiempo los dos tipos de medida.

16.4. Análisis mediante frecuencias relativas.

Distribuciones de frecuencias en escala cuantitativa, pueden analizarse para ciertos propósitos


mediante porcentajes y porcentajes acumulados.

Cuadro 141
Escolares de acuerdo a su peso

Peso en Kilos No. de Escolares Porcentajes Porcentaje acumulado


20-24 4 8.0 8.0
25-29 8 16.0 24.0
30-34 9 18.0 42.0
35-39 10 20.0 62.0
40-44 7 14.0 76.0
45-49 6 12.0 88.0
50-54 6 12.0 100.0
Total 50 100.0
Fuente: Datos hipotéticos para ilustración

En muchas ocasiones como esta, el promedio puede ocultar diferencias importantes entre los
individuos que se estudian, mientras que el simple análisis de los porcentajes puede ser mucho
más ilustrativo. Supongamos por ejemplo, que el peso promedio normal para niños de la edad
estudiada hubiera sido fijado en 35 kilos.
El promedio para este grupo de 50 escolares, calculado por el método que luego se estudiará es
exactamente 37 kilos, el cual nos lleva simplemente a formarnos la impresión de que el grupo
estudiado, presenta un estado nutritivo normal. Sin embargo, el análisis de los porcentajes nos
muestra claramente que el 8% de los niños pesa entre los 24 kilos y que el 42% pesa menos de 35
kilos, o sea, que debido a nuestro patrón de normalidad, casi la mitad de estos escolares estarían
desnutridos.

16.5. Constantes centrales en series no agrupadas.

� ) (µ para el caso de la muestra)


16.5.1. Promedio aritmético ( 𝑋

El promedio aritmético es la cifra que se obtiene al dividir la suma de todos los valores observados
por el número de observaciones y se tienen 5 niños cuyos respectivos pesos son:

7, 4, 9, 6, y 4 kilos

El promedio aritmético se obtendrá sumando las cifras anteriores y dividiendo por 5 que es el
número de niños:

� =7+4+9+6+4
𝑋 = 30 = 6 kilos
5 5

Es decir, los niños pesan en total 30 kilos, y si todos ellos pesarán igual, esto es, si no existiera
variación, el peso de cada uno sería de 6 kilos.

16.5.2. La Mediana (M)

La mediana es aquella observación que divide la serie en 2 partes iguales, en tal forma, que la
mitad de las observaciones son iguales o menores que dicho valor y la otra mitad, iguales o
mayores que él.

Para calcular la mediana, es necesario ordenar las observaciones de menor a mayor o viceversa.
Por lo tanto, en el ejemplo anterior, la mediana no es 9, pues ordenando los datos de menor a
mayor, se obtendría:

4, 4, 6, 7, 9

y la mediana será 6, a cada lado de la cual quedan 2 observaciones.

Si en vez de un número impar de observaciones tuviéramos las 6 siguientes:

4, 5, 7, 8, 9, 10

se ve que no hay en realidad ninguna observación que “ocupe la mitad”, pues el límite estaría entre
el 7 y el 8. En dichos casos, para obtener la mediana, se promediarán los 2 valores centrales, en
este caso, los correspondientes a la 3ª y 4ª observaciones, es decir:

7 ÷ 8 = 7 1/2
2

16.5.3. El Modo (M)

El modo, o valor de moda, es aquel que se observa con mayor frecuencia. En el primer ejemplo, en
que los pesos eran:
7, 4, 9, 6, 4 kilos
El modo es 4, pues éste es el valor que se observa con mayor frecuencia.

Obsérvese que si los valores fueran 7, 4, 8, 3, y 5, no hay en realidad ningún valor que se observe
más frecuentemente que los otros. Lo mismo sucede si los valores fueran:

2, 2, 4, 4, 6, y 6
16.6. Constantes centrales en series agrupadas.

16.6.1. Promedio Aritmético

Para calcular el promedio, se asume que cada uno de los individuos en determinada clase tiene un
valor igual al punto medio de la clase. En el ejemplo que sigue, se ve que el punto medio de la
primera clase es 22 (recuérdese sección II ), lo cual significa que cada uno de los 4 individuos de
esa clase pesa 22 kilos y por lo tanto, los 4 pesarán en conjunto 88 kilos (22 × 4). Igualmente, el
punto medio de la segunda clase es 27, o sea que cada individuo de los 8 que hay, pesa 27 kilos y
por lo tanto, los 8 pesarán en total 216 kilos (27 × 8 = 216). Bastará entonces sumar estos
productos para saber cuántos kilos pesa la totalidad de los individuos estudiados y dividir esta
suma por el número de observaciones para encontrar el punto medio.

En las 2 primeras columnas del siguiente cuadro aparecen los datos sobre el peso de 50
escolares y en las restantes, los cálculos necesarios para obtener el promedio, los cuales se
resumen a continuación.

Cuadro 144
Escolares de acuerdo a su peso
(Cálculo del Promedio)

Peso en kilos No de Individuos fi Punto medio de la clase xi Peso total de cada clase fi xi
(1) (2) (3) (4)
20-24 4 22 88
25-29 8 27 216
30-34 9 32 288
35-39 10 37 370
40-44 7 42 294
45-49 6 47 282
50-54 6 52 312
Total 50 1.850

Aproximado a la unidad completa

Promedio: 1.850 = 37.0 kilos


50

Los pasos seguidos en el cálculo anterior son los siguientes:

1. Averiguar el punto medio de cada clase (Columna 3).

2. Multiplicar el punto medio de cada clase por los individuos en ella (Columna 4) y sumar estos
productos.

3. Obtener el promedio dividiendo la suma anterior por el número de individuos estudiados.

16.6.2. Mediana

Para calcular la mediana se considera que los individuos de cada clase se encuentran
uniformemente repartidos en ella. Así por ejemplo, en la clase 35-39, cuyos verdaderos límites son
34.5 y 39.5 kilos y cuya amplitud es 5, hay 10 individuos, o sea, que existe una diferencia de peso
entre uno y otro igual a 0.5 kilos (5 /10 ÷ 0.5).

Es como si el intervalo de la clase 34.5 a 39.5 en la cual hay 10 personas, se divide en 10


subintervalos de 0.5 de amplitud, en medio de cada uno de los cuales se encuentra un individuo.
Como en la primera clase hay 4 personas, esto quiere decir que allí están los individuos del 1 al 4 y
por consiguiente, como en la segunda clase hay 8, allí estarán los individuos del 5 al 12 y así
sucesivamente.

La colocación de los 10 individuos de la clase 34.5-39.5 (individuos 22-31) se hará como lo


muestra el siguiente esquema:

Colocación de los individuos

Con estas explicaciones podemos ilustrar el cálculo de la mediana tomando el mismo ejemplo
utilizado en el cálculo del promedio en series agrupadas.

Cuadro 146
Escolares de acuerdo a su peso
(Cálculo de la mediana)

Peso en kilos Intervalos verdaderos No. de escolares Frecuencias acumuladas


(1) (2) (3) (4)
20-24 19.5-24.5 4 4
25-29 24.5-29.5 8 12
30-34 29.5-34.5 9 21
35-39 34.5-39.5 10 31
40-44 39.5-44.5 7 38
45-49 44.5-49.5 6 44
50-54 49.5-54.5 6 50
Total 50

Los pasos son los siguientes:

1. Escribir los verdaderos límites de cada clase. Esto no es esencial, pero es conveniente para el
principiante.

2. Obtener a frecuencia acumulada de las observaciones por el procedimiento conocido (columna


4).

3. Averiguar cuál observación es la mediana, para lo cual:

4. Observación mediana n = 50 = 25
2
5. Como la mediana es la observación número 25 y como hay 21 por debajo de 34.5 kilos (véase
columna 4), se necesitan 4 observaciones más (25 – 21 = 4) de las 10 que hay en la siguiente
clase. Puesto que se considera que dichas observaciones están a igual distancia una de otra,
se tomará 4/10 de la amplitud de esta clase y se añadirá a 34.5 que es su comienzo, con el fin
de obtener la mediana:

Mediana = 34.5 + (4/10 x 5) = 34.5 + 2.0 = 36.5 kilos

El lector observará que como se trata de un número par de observaciones (50), el valor de la
mediana correspondería al promedio de las observaciones 25 y 26 y no a la observación número
25. Un atento examen del esquema anterior muestra que el individuo 25 tiene un peso de 36.25 y
el individuo número 26 un peso de 36.75. El semipromedio de estos valores que sería la mediana
es de 36.5 kilos. Si para facilidades de cálculo se asume que el primer individuo de esta clase (el
número 22) está en el punto 35, en vez de estar en el punto 34.7, que es su verdadera colocación,
lo estamos desplazando ½ subintervalo hacia la derecha.

Para compensar este desplazamiento, en vez de formar el valor medio entre las observaciones 25
y 26 se tomará el valor de la número 25, como se ha hecho en la fórmula anterior, con lo cual
obtenemos el verdadero valor investigado.
a
16.7. Escogencia entre el promedio, la mediana y el modo ( )

De las tres constantes anteriores, el promedio aritmético puede ser más frecuentemente utilizado,
quizás por la facilidad de su computación a pesar de que en muchas ocasiones la mediana o el
modo resultan de mayor interés.

a. El promedio aritmético como medida de resumen tiene la ventaja de tomar en cuenta la


totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ella pero
a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de
valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede
decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a
cualquier otra constante de resumen.

b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian haya
alguno muy diferente de los otros. Su valor extremo afectará el promedio por ejemplo, el
tiempo de hospitalización de 5 niños con gastroenteritis fuera respectivamente:

2, 3, 4, 6 y 30 días

El último valor, debido tal vez a alguna complicación de la enfermedad, hace aparecer la
permanencia en el hospital mucho más larga de lo que generalmente es. El promedio:

2 + 3 + 4 + 6 + 30 45
= = 9 días
5 5
Es engañoso, pero en cambio la mediana, que es 4 días, tiene la ventaja de no tomar en cuenta los
valores anormales extremos, dando una impresión más acorde de lo usual. Observe que si la
última observación fuera 300 en vez de 30, el promedio ascendería a 63 días, pero la mediana
continuaría siendo 4.

(a) Además del promedio aritmético ocasionalmente se utiliza el promedio geométrico y armónico cuya
enseñanza se omite por constatarlo de escaso interés, pero cuyo cálculo se ilustra en el Apéndice.
Note que cuando dichos valores extremos no existen, el valor del promedio y de la mediana
concuerda bastante bien y se hacen exactamente iguales si la serie es simétrica. Por ejemplo, si
se tiene:
3, 5, 7, 9, 11

El promedio es 7 y la mediana también es 7.

Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio.
Tal sucede en aquellas series en las cuales la primera o la última clase no tienen límites precisos.
Si en el ejemplo de los 50 escolares dado anteriormente, la primera clase hubiera sido “menos de
25 kilos“ o la última figurara como “50 kilos y más” se comprende que habría sido imposible
calcular el promedio, a no ser que se fijaran arbitrariamente los límites de las mencionas clases.

Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre el promedio aritmético,
pues su valor depende solamente del número de términos, sin tomar en cuenta los valores
(∂)
numéricos de estos .

c. El modo finalmente, es la constante que se emplea cuando el interés se centra en conocer


el valor que se presenta más frecuentemente. Tal sucede cuando se trata de determinar
el periodo de incubación de una enfermedad o su duración habitual, casos en los cuales el
promedio y la mediana pueden no ser convenientes a causa de sus defectos señalados.

16.8. Promedios ponderados.

Hay ocasiones en que se quiere expresar en una sola cifra, los resultados de varios grupos de
individuos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el
caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En
dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los
promedios parciales, sino que es necesario tener en cuenta el número de observadores en que se
basa cada promedio. Tal promedio recibe el nombre de Promedio Ponderado.

Supongamos un grupo de 4 mujeres y otro de 6 hombres, cuyos pesos fueron los siguientes:

Mujeres: 46, 48, 52 y 54 Promedio = 50 Kilos


Hombres: 55, 38, 59, 60,61 y 67 promedio = 60 Kilos

50 + 60
El promedio general para estas 10 personas no es = 55kg
2
El promedio correcto se obtiene ponderando cada promedio parcial por el número de personas que
incluye. Como 50 fue el promedio para las 4 mujeres, el grupo de mujeres peso en total 200 kilos
(4x 50) e igualmente los hombres pesaron en total 3360 kilos (6x60). Por consiguiente, las 10
personas pesaron 560 kilos en conjunto (200 + 360) y el verdadero promedio será: 560 ÷ 10 = 56
kilos.

En resumen si tenemos los promedios etc., calculado respectivamente en n1 , n2 , n3 observaciones


el promedio correcto será

n1 x1 + n2 x 2 + n3 x 3
Promedio Ponderado =
n1 + n2 + n3

(∂)
En la Sección 32.10 se estudiará la aplicación de la Mediana en el cálculo del Índice Endémico
es decir, basta multiplicar cada promedio parcial por el número correspondiente de personas
estudiadas, sumar luego estos productos y dividir por el número total de personas en los varios
grupos.

De la misma manera se procederá para promediar los porcentajes de varios grupos de individuos.
Si los porcentajes de mujeres en 3 escuelas diferentes fueran:

Escuela N° de alumnos Porcentaje de mujeres


A 48 50,00
B 60 70,00
C 30 40,00

El porcentaje global de mujeres, para las 3 escuelas, no sería:

50 + 70 + 40 160
= = 53,3%
3 3
El porcentaje verdadero sería:

(50% × 48) + (70% × 60) + (40% × 30) 7.800


= 56,5%
48 + 60 + 30 138
16.9. Medidas de dispersión.

16.9.1 Importancia de las medidas de dispersión.

Supongamos que se tiene tres grupos de pacientes de 7 individuos cada uno y como ejemplo
ilustrativo supóngase además que el primer grupo sufre de Gastroenteritis, el segundo de
Bronquitis y el tercero de Amigdalitis.

Si la permanencia hospitalaria de cada paciente fuera la que aparece a continuación:

Enfermedades Días de hospitalización de los Pacientes


Gastroenteritis 1, 3, 5, 7, 9, 11, 13
Bronquitis 1, 2, 3, 7, 11, 12, 13
Amigdalitis 1, 5, 6, 7, 8, 9, 13

Sería fácil constatar los siguientes puntos:

a. Cada serie tiene el mismo número de observaciones, es decir 7 pacientes


b. En los 3 casos la amplitud de la serie es la misma: de 1 a 13 días.
c. Las 3 series tienen el mismo promedio, o sea 7 días.
d. Las 3 series tienen la misma mediana, o sea 7 días.
e. En cada serie el promedio y la mediana coinciden exactamente.

No obstante las similitudes señaladas, las 3 series son muy distintas, pues como puede apreciarse
en el grafico siguiente:

a. En el caso de la Gastroenteritis, los 7 pacientes se distribuyen uniformemente en el lapso de 1


a 13 días
b. En el caso de la Bronquitis, los pacientes se agrupan en los extremos de dicho lapso (1 – 2 – 3
y 11 – 12 - 13).
c. En el caso de la Amigdalitis, se agrupan hacia el centro ( 5 – 6 – 7 – 8 – 9 )
Grafico 151
Días de hospitalización de 3 grupos de pacientes

DIAS DE HOSPITALIZACION

ENFERMEDADES

GASTROENTERITIS

BRONQUITIS

AMIGDALITIS

Las anteriores anotaciones señalan que cuando se tienen un grupo de observaciones no basta
conocer cuál es su promedio o su mediana, sino que además, es necesario tener una medida que
indique claramente cómo se distribuyen las observaciones alrededor de ese promedio o esa
mediana.
(∂)
Con tal fin se utilizan la llamada Desviación Estándar y el Intervalo Intercuartilar. Debe tenerse
en cuenta que cuando se busca el promedio aritmético, se debe calcular la Desviación Estándar y
es el Intervalo Intercuartilar, pues este último se utiliza solamente para medir la dispersión
alrededor de la mediana. Es decir: con el promedio se utiliza la desviación estándar y con la
mediana, el intervalo intercuartilar.

16.9.2 Cálculo de la Desviación Estándar en series no agrupadas

Como ilustración tonemos el ejemplo de la Bronquitis, dado anteriormente, es decir, los días de
hospitalización de 7 pacientes que fueron:

1, 2, 3, 7, 11, 12, 13

Para el cálculo, se dispondrán los datos convenientes, tal como aparecen en el siguiente cuadro:

(∂)
La Desviación estándar D. E. suele representarse con la letra griega sigma minúscula ( σ ) y a veces se
coloca su valor después del signo ± que sigue al promedio ( x = 10 ± 2 indica que la D. E. = 2) Como
ambos procedimientos se utilizan también para indicar el valor del Error Estándar que estudiaremos luego,
con el fin de evitar confusiones, utilizaremos D. E. y E. E. respectivamente, al referirnos a estas constantes.
Cuadro 153

Días de hospitalización en 7 pacientes con Bronquitis (Cálculo de la Desviación


Estándar)
Días de Desviaciones (valor de cada Desviaciones al
Pacientes 2
hospitalización observación menos promedio) cuadrado (d )
1 2 3 4
Primero 1 1-7 =-6 36
Segundo 2 2 - 7 = -5 25
Tercero 3 3-7=-4 16
Cuarto 7 7-7=-0 0
Quinto 11 11 - 7 = + 4 16
Sexto 12 12 - 7 = + 5 25
Séptimo 13 13 - 7 = + 6 36
Total 49 158

49
Promedio = = 7 días
7

Desviación Estándar =
∑d 2

=
154
= 22 = 4,7 días (∂)
n 7

Los pasos a seguir son los siguientes:

1. Averiguar el promedio: 49/ 7= 7


2. Buscar la diferencia que hay entre cada observación y el promedio (columna 3). Así por ejemplo:
el primer paciente solamente estuvo 1 día hospitalizado es decir, 6 días menos que el promedio y
en cambio el ultimo paciente estuvo 13 días, o sea, 6 días más que el promedio. Nótese que es
necesario poner el signo (-) o (+) para distinguir, entre quienes están por debajo o por encima del
promedio (desde luego el signo (+) no hay necesidad de ponerlo). La suma de esta columna debe
ser igual cero (0).

3. Como la suma de la columna (3) será siempre igual a cero (0), no se podrá saber cuál es en
promedio la desviación del grupo de observaciones. Para obviar este inconveniente se eleva al
cuadrado cada desviación de la columna (4). la cual se totaliza luego.

4. El total de la columna ( 4) se dividirá por el número de observaciones que en nuestro ejemplo es 7,


o sea 154/7=22. Esto quiere decir que en promedio cada paciente difiere en 22 unidades
cuadradas del promedio general del grupo.

5. Como cada desviación la habíamos elevado al cuadrado y no tiene ningún significado hablar de
días cuadrados o de kilos cuadrados, con el fin de volver a las unidades primitivas se extraerá la
raíz cuadrada al anterior valor y dicha cantidad será la desviación estándar. En este ejemplo

D. E. = 22 = 4,7 días

(∂)
cuando se calcula la Desviación Estándar d un pequeño grupo de individuos. Es más exacto
dividir por (n - 1) que por (n), pero en grupos más o menos grandes, digamos más de 30
individuos, tal refinamiento no en necesario. Aunque es evidente que en el presente ejemplo la
división debe hacerse por 6 y no por 7, los cálculos tratan de ilustrar el caso general y no el caso
particular a que hemos hecho referencia.
16.9.3 Desviación Estándar en series agrupadas

Los diferentes pasos que deben seguirse para el cálculo de la Desviación Estándar y explicaremos
en seguida, aparecen resumidos en el siguiente cuadro, cuyas primeras cuatro columnas se
utilizan para calcular el promedio, conforme ya se ha estudiado.

Cuadro 155

Escolares de acuerdo a su peso


(Cálculo de la Desviación Estándar)

Desviaciones
Número de Punto Desviaciones
Producto Desviaciones por número
Peso. Kg. individuos medio de al cuadrado
X1*f1 (d) 2 de individuos
(f1) clase (X1) (d )
(f1*d)(2*6)
1 2 3 4 5 6 7
20 -24 4 22 88 -15 225 900
25 - 29 8 27 216 -10 100 800
30 - 34 9 32 288 -5 25 225
35 - 39 10 37 370 0 0 0
40 - 44 7 42 294 +5 25 175
45 - 49 6 47 282 +10 100 600
50 - 54 6 52 312 +15 225 1350
Total 50 1850 4057

1850
Promedio = = 37,0
50

4,050
Desviación Estándar = = 81 = 9.0 kilos
50

Los pasos son los siguientes:

1. Calcular el promedio por la técnica conocida para lo cual se utiliza las 4 primeras columnas del
cuadro.
2. Buscar la diferencia entre el promedio, y cada uno de los puntos medios de las clases (columna 5).
Estas cifras indican en cuantos difiere cada observación del promedio general del grupo.
3. Elevar al cuadrado las anteriores diferencias (columna 6).
4. Multiplicar reglón a reglón, las cifras de las columnas (2) y (6). Esto es necesario, pues las
diferencias de la columna 6 se refiere a un solo individuo y por lo tanto, si en la primera clase hay 4
individuos y cada uno difiere 225 unidades cuadradas de su promedio, los 4 individuos diferirán en
900 unidades ( 4 x 225 ).
5. Sumar los productos de la columna (7), para saber la diferencia global entre todos los individuos y su
promedio.
6. Dividir la suma anterior por el número de individuos estudiados
7. ( en nuestro caso n = 50 ).
(∂)
8. Extraer la raíz cuadrada. Este último valor será la Desviación Estándar

(∂)
una fórmula que suele ahorrar trabajo es la siguiente:
D. E. =
∑fd 1 1
2

=
4.050
= 9 kilos
n 50

16.9.4 Utilización de la Desviación Estándar

Hemos dicho que la Desviación Estándar indica en que formas se distribuye las observaciones
alrededor del valor central representado por el promedio.

Su utilidad se debe a que ella, junto con el promedio, ayuda a determinar los limites dentro de los
cuales se encuentran las observaciones que se estudian, en tal forma, que basta conocer el
promedio y la D. E. para reproducir toda la información contenida en los datos originales, salvo,
desde luego, pequeñas variaciones. Esta interpretación se basa en las propiedades de la Curva
Normal.

16.9.5. La Curva Normal

La curva normal es una curva en forma de campana, perfectamente simétrica, de tal manera, que
una perpendicular que pase por el vértice la divide en 2 mitades exactamente iguales. Dicha
perpendicular representa el promedio aritmético (véase gráfico 158).

Puede observarse que en cada mitad, la curva es primero cóncava hacia arriba, y luego cóncava
hacia abajo, habiéndose dado el nombre de “punto de inflexión” a aquel en el cual la curva cambia
de dirección.

Hay por consiguiente, 2 puntos de inflexión, uno izquierdo y otro derecho. La distancia que separa
a cada punto de inflexión de la línea central que representa el promedio, constituye una desviación
estándar, aunque teóricamente, la curva nunca toca la horizontal para propósitos prácticos, puede
considerarse que la totalidad de al área se encuentra comprendida entre 2 líneas verticales
situadas a 3 D. E. a cada lado del promedio.

Los matemáticos han demostrado que aproximadamente un 68% del área de todo el área de la
curva se encuentra comprendida entre las 2 verticales que pasan por los puntos de inflexión, lo
cual equivale a decir que el 68% del área se encuentra entre el promedio más una desviación
estándar y el promedio menos una desviación estándar.
Igualmente se ha visto que entre el promedio más menos 2, D. E. se encuentra aproximadamente
el 95% del área de la curva y que prácticamente el 100% del área se encuentra entre el promedio
(∂)
más menos 3 D. E.

D. E. =
∑fx 2
1 1
−x
2

n
O sea: multiplicar cada una de las cifras de la columna (4) por el respectivo punto medio de la clase; sumar estos productos
y dividir por el número de observaciones. Restar al resultado anterior el cuadrado del promedio y extraer la raíz cuadrada.
(esta fórmula fue utilizada para e cálculo de la D. E. que aparea al final dela Pág. 199). Un método más abreviado se ilustra
en el apéndice.

(∂)
Exactamente un 95% del área de la curva se encuentra entre el x ± 1,96 D. E. y un 99% entre x ± 2,58 D. E.
Para fácil memorización dichas cifras se forman habitualmente como 2 y 2.8 D. E. Igual aproximación se utiliza en las
diversas aplicaciones del error estándar que se verán posteriormente.
GRAFICO 158

Curva Normal que muestra los porcentajes de su área total comprendidos entre diversos
múltiplos de la desviación estándar.

En resumen, y usando una notación matemática:

x ± 1 D. E. Incluye aproximadamente el 68.27% del área de la curva


x ± 2 D. E. Incluye aproximadamente el 95.45 % del área de la curva
x ± 3 D. E. Incluye aproximadamente el 99.73 % del área de la curva
Lo anterior es importante por dos razones principales. En primer lugar, porque ya señalamos que
los resultados dados por el azar siguen una curva normal –punto que discutimos nuevamente en
próximo capítulo- y en segundo lugar, porque se ha visto que casi todas las constantes fisiológicas
de los individuos (peso, estatura, presión arterial, etc.). Y en general las diferentes características
de la población, se distribuyen formando una curva normal.

Y se quiere decir que las propiedades de la curva normal pueden servirse a cualquier
característica que tengan una distribución normal y así por ejemplo, si la edad promedio de los
individuos es 30 años y la D. E. = 3 años, entonces:

• Aproximadamente el 68% de los individuos tienen entre 27 y 33 años ( x ±1 D.E = 30 = 1 x 3 )


• Aproximadamente el 95% de los individuos tienen entre 24 y 36 años ( x ± 2 D.E = 30 = 2 x 3 )
• Prácticamente todos los individuos tienen entre 21 y 39 años ( x + 3 D.E = 30 = 3 x 3 ).
• Si el promedio hubiera sido 30 años, pero D. E. = 1 año, entonces:

• Aproximadamente el 68% de los individuos tienen de 29 a 31 años.

• Aproximadamente el 95% de los individuos tienen de 28 a 32 años.

• y prácticamente la totalidad tienen entre 27 y 33 años.

A través de los anteriores ejemplos puede verse como el promedio y la D. E. basta para resumir un
estudio. Debe advertirse sin embargo, que:
a. Cuando la serie es muy pequeña como en el ejemplo de la página 155, las anteriores
propiedades de la D. E. son difíciles de comprobar, y

b. Para que la interpretación sea correcta se requiere que la característica estudiada semeje una
curva normal, si tal similitud no existe, es preferible recurrir a la mediana y a los percentiles
para resumir la serie y conformarse con analizar esta mediante el uso de porcentajes.

16.9.6 Intervalo Intercuartilar

Antes de enseñar a calcular el intervalo intercuartilar debe definirse que se entiende por percentiles
y cuartiles.

16.9.6.1 Percentiles y Cuartiles.

El término percentil deriva de “por ciento”, y por lo tanto una serie de observaciones no puede tener
más de 100 percentiles. Cada percentil indica el porcentaje de observaciones que en cada serie
está por debajo de él. El 10º percentil es el valor por debajo del cual el 10% de las observaciones y
el 25º percentil es el valor por debajo del cual se encuentra el 25% de las observaciones.

Según esto, la mediana es simplemente el 50º percentil, ya que debajo de ella se encuentra el 50%
de las observaciones, según lo estudiado anteriormente.

Al 25º percentil suele dársele el nombre de “primer cuartil”, por debajo de este valor se encuentra el
25% de las observaciones, es decir la cuarta parte de estas. De la misma manera, al 75º percentil
se le da el nombre de “tercer cuartil”, pues por debajo de él, dan tres cuartas partes de las
observaciones.

16.9.6.2. Cálculo del primer cuartil.

Para calcular el primer cuadril (Q1) se procederá de manera semejante como se hizo para el
cálculo de la mediana, tomando el mismo ejemplo que sirvió para lograr el cálculo (ver el cuadro
146) se procederá en la siguiente forma:

a. Buscar los límites verdaderos de las clases.


b. Obtener la frecuencia acumulada de las observaciones.
c. Averiguar cuál de las observaciones corresponde al primer cuartil, o sea:

N = 50 / 4 = 12.5

d. Como el primer cuartil está situado en la posición 12.5 y como hay 12 observaciones por
debajo de 29,5 kilos, se necesita ½ observación + (12.5 - 12 = 0.5) de las que hay en la
siguiente clase. Como se ha asumido que las observaciones están igualmente escapadas se
tomara 0.5/ 9 de la amplitud de la respectiva clase y se añadirá a su punto de comienzo, con el
fin de obtener el valor del primer cuartil.

Q1 =29.5 + (0,5 x 5)/9 = 29.5 + 0.27 = 29.77kilos

16.9.6.3 Calculo Del Tercer Cuartil.

La observación correspondiente al tercer cuartil (Q3) será la:

3𝑁 𝑃3 − 𝑓𝑎 𝑎𝑛𝑡
4
= 𝑃3 𝑄3 = 𝐿𝑖𝑛𝑓 + � 𝑓
�∗𝑖

Linf: límite real inferior


f a ant: frecuencia acumulada anterior
f: frecuencia modal
i: intervalo

Por lo tanto como hay 31 observaciones por debajo de 39.5 kilos se necesitan 6.5 observaciones
más de las siete que hay en la próxima clase, o sea que debemos tomar 6.5 / 7 de la amplitud de
la clase y añadirlo a su comienzo para averiguar el valor del tercer cuartil:

Q3 = 39.5 + ( 6.5 x 5 ) / 7 = 39.5 + 4.64 = 44.14 kilos.

16.9.6.4 Intervalo Intercuartilar.

El intervalo intercuartilar es aquel comprendido entre el primero y el tercer cuartiles. Su utilidad


consiste en que dentro de los límites determinados por él, se encuentra el 50% de las
observaciones “centrales”. Generalmente no afectadas por las fluctuaciones extremas de la serie.
El intervalo intercuartilar mide la dispersión de los valores de la serie, pues mientras más próximos
sus límites, mayor concentración de las observaciones alrededor de la mediana.
Si los días de hospitalización de 2 grupos de pacientes es respectivamente:

Primer grupo Segundo grupo


Md = 10 Md = 10
Q1 = 9 Q1 = 3
Q3 = 11 Q3 = 18

A pesar de que la mediana es 10 para ambos grupos, se observa que en el primero el 50% de los
pacientes tienen valores muy próximos a ella y en cambio, en el segundo grupo, la dispersión es
muchísimo mayor.
Sin la información adicional suministrada por el cálculo de los cuartiles Q1 y Q3, el resumen de la
serie quedaría incompleto.
En ocasiones se calcula la llamada desviación cuartana o cuartilar (Q), que es simplemente la
mitad del intervalo intercuartilar:

𝑄3 − Q1
𝑄=
2
Si la serie es perfectamente simétrica, entonces: Md ± Q

Engloba el 50% de las observaciones.

Si por lo contrario la serie es muy asimétrica, y en tales casos la desviación cuartana sugiere una
interrelación errónea, razón por la cual, casi nunca se utiliza.

16.9.6.5 Percentiles en series pequeñas.

Note que cuando el número de observaciones es muy pequeño, sólo se pueden calcular ciertos
percentiles. Si hay 5 observaciones sólo pueden calcularse: en realidad 5 percentiles; si hay 7,
podrán calcularse solo 7, etc.
En tales casos, para calcular determinado percentil, se utiliza la fórmula:

𝑛+1
𝑥 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑒𝑠𝑒𝑎𝑑𝑜
100
Supóngase por ejemplo, que se tienen las siguientes observaciones:

2, 3, 5, 9, 11, 15, 18
De acuerdo a la formula anterior:

a. El primer cuartil (25° percentil) será:

7+1
𝑥 25 = 2
100
b. Es decir, la observación número 2 cuyo valor es 3.

c. La mediana (50° percentil) será la observación número 4 cuyo valor es 9.

7+1
𝑥 50 = 4
100
d. El tercer cuartil (75° percentil) será:

7+1
𝑥 75 = 6
100
O sea la observación número 6 cuyo valor es 15.
CAPITULO XVII

DATOS DE ASOCIACIÓN
Como se recordará, se llaman datos de asociación a aquellos en los cuales los individuos se
clasifican simultáneamente mediante dos escalas.

Las escalas utilizadas pueden ser:

1. Ambas cualitativas.
2. Una cualitativa y otra cuantitativa.
3. Ambas cuantitativas.

La presentación y análisis subsecuente de los datos dependerá de la división anterior:

17.1 Ambas Escalas Cualitativas.

17.1.1 Presentación Tabular

Según se ha visto, una escala irá en la vertical y otra en la horizontal. Por lo general, aquella con
más subdivisiones se coloca en la vertical, salvo en los casos en que una de las escalas es
notoriamente más importante que la otra y por lo tanto debe ocupar dicho lugar. Como son dos
escalas, el cuadro mostrará una fila y una columna de totales.

Con fines analíticos, el cuadro suele llevar una o varias columnas con porcentajes o tasas, para
facilitar su interpretación por lo general no conviene presentar cuadros exclusivamente con
porcentajes, en ocasiones puede hacerse, pero en tales casos, debe editarse el número de
observaciones sobre los que se basan dichos porcentajes, como se han hecho en los cuadros 165,
166, y 167.

Cuadro 164

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo.


Venezuela, 1961

Sexo
Formas clínicas Ambos sexos
Hombres Mujeres
Linfoide 15 11 26
Mieloide 14 15 29
Agudas 51 40 91
Otras 23 22 45
Total 103 88 191
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela, 1961.

7.1. 2 Presentación Gráfica.

La presentación gráfica de estos datos en cualquiera de las formas del diagrama de barras (ver
gráfico 102 y 103).

17.1.3 Análisis

El análisis se hace mediante porcentajes, cuyo cálculo variara de acuerdo al propósito del estudio.
Como un cuadro de asociación tiene una fila y una columna de datos, como además de un total
general, pueden, por consiguiente, calcularse porcentajes de 3 maneras diferentes lo cual
ilustraremos con los datos del cuadro anterior.
a. En relación al gran total. De las 191 defunciones, 26 fueron por leucemia linfoide, o sea, el
13,7%:

126
𝑥 100 = 13.7
191
El 53,9% de las defunciones fueron en hombres:

103
𝑥 100 = 53.9 %
191
Cuadro 165

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo.


Venezuela, 1961

Formas clínicas Sexo Ambos sexos


Hombres Mujeres (N = 191)
Linfoide 7.9 5.8 13.7
Mieloide 7.3 7.9 15.2
Agudas 26.7 20.9 47.6
Otras 12.0 11.5 23.5
Total 53.9 46.1 100.0
Fuente: datos del cuadro 164

b. En relación a los totales de la última columna. De las 26 defunciones por leucemia linfoide 15
fueron en hombres, o sea el 57. 7 %:

15
𝑥 100 = 57.7 %
26
y de las 29 por leucemia mieloide, 15, o sea el 51.7% ocurrieron en mujeres.

15
𝑥 100 = 75.0 %
2
Cuadro 166

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo.


Venezuela, 1961
(Porcentajes en relación a los totales de la última columna)

Sexo Ambos sexos


Formas clínicas
Hombres Mujeres (N = 191)
Linfoide (N = 26) 57.7 42.3 100.0
Mieloide (N = 29) 48.3 51.7 100.0
Agudas (N = 91) 56.0 44.0 100.0
Otras (N = 41) 51.1 48.8 100.0
Total (N = 191) 53.9 46.1 100.0

Fuente: datos del cuadro 164.

c. En relación a los totales de la última fila. De las 103 defunciones en el sexo masculino, 15, o
sea el 14.6% fueron a causa de leucemia linfoide:
15
𝑥 100 = 14.6 %
103

y 51, o sea el 49,5% fueron por leucemia aguda:

51
𝑥 100 = 49.5 %
103
Cuadro 167

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo.


Venezuela, 1961
(porcentajes en relación a los totales de la última fila)

Sexo
Ambos sexos
Formas clínicas Hombres Mujeres (N = 191)
(N = 103) (N = 88)
Linfoide 14.6 12.5 13.7
Mieloide 13.6 17.0 15.2
Agudas 49.5 45.5 47.6
Otras 22.3 25.0 23.5
Total 100.0 100.0 100.0

Fuente: datos del cuadro 164

Lo anterior señala que hay que saber escoger los porcentajes que se usarán. Por regla general
puede decirse que los descritos en primer lugar no tienen mayor utilidad, pues en realidad
contribuyen muy poco a la mejor interpretación del cuadro. En cambio, las otras dos clases son
igualmente útiles, pues la información dada por ellos es algo diferente.

En el ejemplo presentado, si el interés está en saber cuál de las formas clínicas de la enfermedad
causa más muertes en cada uno de los sexos, los porcentajes calculados sobre los totales de la
última fila son los más convenientes (cuadro 167). Si por el contrario se desea averiguar cuál de los
dos sexos es afectado en cada forma clínica entonces los porcentajes en relación a los totales de
la última columna son los adecuados (cuadro 166).

Como un segundo ejemplo consideramos la información siguiente:

Cuadro 168

Casos, defunciones y tasas de letalidad en enfermos de neumonía de acuerdo a tratamiento


recibido

Número de Numero de Número de Tasa de


Tratamiento
defunciones sobrevivientes casos letalidad por 100
Terramicina 4 96 100 4
Penicilina 6 54 60 10
Sulfadiazina 6 34 40 15
Total 16 184 200 8
Fuente: Datos hipotéticos para ilustración
En el ejemplo presente es evidente que el mejor análisis consiste en comparar la letalidad habida
en los diferentes tratamientos tal como el caso en el cuadro el cual señala claramente que los
enfermos tratados con terramicina presentan la menos letalidad. Así 4 veces menos cuando se
emplea sulfadiazina. Desde luego así hubiéramos podido llegar a las mismas conclusiones aunque
no (4/16) a pesar que en el 50% de los casos estaba en dicho grupo (100/200) mientras solo el
20% de los casos recibió sulfadiazina (40/200) en dicho grupo se presentó el 37.5% de las
muertes (6/16)

17.2 Una escala cualitativa y otra cuantitativa

17.2.1 Presentación tabular

Se hace en la misma forma que en el caso anterior, colocando de preferencia la escala cuantitativa
en la primera columna, salvo en el caso que la escala cualitativa tenga muchas subdivisiones
(véase cuadro 196)

17.2. 2 Presentación gráfica

Comúnmente se utiliza el polígono de frecuencia o el diagrama semilogarítmico. Cuando le


frecuencia o tasa no difiere grandemente un de otra, se usa de preferencia el primero pero si tales
diferencias son marcadas debe utilizarse el segundo (ver gráfico 113 y 122)

Análisis

Este tipo de datos puede analizarse mediante el cálculo de constantes centrales y de dispersión, o
calculando, como en el caso anterior tasas y porcentajes.

Por lo general los datos que maneja el medico clínico y el experimentador se resume mejor usando
valores promédiales y de dispersión mientras que para el trabajador en salud pública o el
demógrafo, el análisis con tasas y porcentajes es más útil.

Lo anterior no quiere decir que datos susceptibles de un análisis no puedan ser analizados por el
otro método. La escogencia es cuestión de lo que se quiera poner más de patente. De todas
maneras recuérdese el siguiente principio: si no hay seguridad sobre que método usar debe
utilizarse las tasas y los porcentajes

Cuadro 169

Peso a nacer de 180 niños según el sexo

Peso en gramos hombres mujeres total


2000-2499 8 12 20
2500-2999 20 25 45
3000-3499 50 35 85
3500-3999 16 14 30
Total 94 86 180
Fuente datos hipotéticos para ilustración

En el cuadro anterior se calcula primero para los hombres y luego para las mujeres el promedio
estándar y la desviación estándar respectiva podemos concluir que el promedio de al nacer de los
niños 3144gr mientras que para las niñas es de 3047gr.

Sin embargo para un sanitarista, quizás es importante conocer que el 43% de las niñas pesan
menos de 3kg (37/86), mientas que solo el 30% de los niños pesan menos de 30kg (28/94).
17.3 Ambas escalas cuantitativas

Entra en esta categoría todos aquellos casos en los cuales a cada uno de los individuos estudiados
se le investiga dos medidas diferentes como ser cantidad de oxigeno inalado y CO2 exhalado,
contenido de oxígeno en la sangra arteria y venosa edad y estatura, etc.

17.3.1 Regresión y correlación

El análisis de cuadros presenta dos aspectos diferentes. Unas veces nuestros intereses esta en
conocer si las dos variables están variadas y medir hasta qué punto los cambios en una pueden
explicares por los cambios en la otra. En tal caso tenemos el problema de correlación y la unidad
de medida es el llamado coeficiente de correlación (r).

Otras veces cuando estamos seguros que existe un alto grado de variación entre 2 variables sea
porque lo conozcamos por experiencia o porque así los indique el coeficiente de correlación
previamente calculado el análisis se encamina a cuantificar la relación existente con el fin de
predecir cuáles serán los valores de una variable, cuando se conocen los valores de la otra. En
este caso se trata de un coeficiente de regresión y la medida utilizada es el coeficiente de
regresión (b)

Como se ve la explicación de un método no excluye precisamente el otro. Al estudiar las


variaciones de cualquier característica debemos averiguar cuáles son los factores que pueden
explicar dichas variaciones y una vez que lo hemos identificado podemos dedicarnos a medir en
qué grado los cambios que ellos experimentan a las características que nos interesa. (Problema de
regresión).

Supóngase por ejemplo, que al estudiar la mortalidad por determinada enfermedad, se sospecha
que hay una serie de causas que actúan sobre ella. Mediante técnicas de correlación precisaremos
cuales de esas causas están más íntimamente ligadas con la enfermedad y cuando ya han sido
identificadas, las técnicas de regresión ayudaran a determinar hasta qué punto cada una de esta
causas es responsable por las variaciones observadas en la mortalidad.

Hay sin embargo, ciertas limitaciones en la escogencia de la técnica más apropiada para cada
caso. Muchas veces es muy fácil constatar que los valores de una escala están determinados o
dependen de los valores de la otra. Así por ejemplo la estatura de un niño " depende " de su edad y
la cantidad de oxígeno en la sangre venosa "depende" de la cantidad de oxígeno en la sangre
arterial. Hablemos entonces de una escala independiente (x) y dependiente (y), y es justamente en
tales casos cuando es correcto el ejemplo de las técnicas de regresión.

Otras veces la anterior relación no es cierta. NO puede decirse que ciertos valores determinen los
otros, si no que unos y otros varían conjuntamente. Así por ejemplo, es frecuente observar que al
aumentar las pulsaciones, aumentan también las respiraciones, sin que por ello se pueda concluir
que el aumento de las pulsaciones dependen del aumento de las respiraciones o viceversa, en tal
caso no puede hablarse propiamente de un variable dependiente y otra independiente, sino de una
mutua relación entre las dos. Las técnicas de correlación serán empleadas electivamente en tales
ocasiones

17.3.2 Presentación tabular

Si los individuos son pocos bastara con especificar a lado de cada uno, los valores de las
observaciones hechas tal como puede verse al cuadro que acompaña al próximo gráfico, pero si
son más de 50 o 60 se agruparan en clases.
17.3.3 Presentación gráfica

Tratase de un problema de correlación o de regresión, la presentación se hará mediante el


diagrama de puntos cuya elaboración se discutió anteriormente cuando se trató de la presentación
de los datos estadísticos, sin embargo, como dicha representación será base para el análisis de los
datos, insistiremos sobre ello en los párrafos siguientes.

17.3.4 Coeficiente de regresión

En cualquier problema de regresión lo primero que se debe hacerse es un gráfico. Los principios
generales para su elaboración ya fueron estudiados y el único detalle adicional que debe tenerse
presente es de los valores de la variable independiente, se acostumbra colocarlos
proporcionalmente en la abscisa, mientras que la ordenada se reserva a los valores de la variable
dependiente.

En el cuadro y grafico siguiente se presenta el peso y estatura de un grupo de alumnos


ligeramente modificado para facilitar los cálculos.

Cuadro 172
Estatura y peso del curso de estadística

ALUMNOS ESTATURA EN CENTÍMETROS PESO EN KILOS


1 162 58
2 158 54
3 155 56
4 162 60
5 170 68
6 160 61
7 175 70
8 165 60
9 168 64
10 165 69

La distribución de los puntos del diagrama sugiere que la relación entre las dos variables puede ser
resumida adecuadamente mediante una línea recta tal como la trazada en el gráfico. Claramente
se observa que tales puntos tienden a agruparse alrededor de la línea y el peso aumenta
uniformemente cuando aumenta la esta uniformemente cuando aumenta la estatura

Grafico 173
Estatura y peso de un grupo de alumnos de metodología estadística

Peso

Estatura
Lógicamente, mientras más tienda los puntos a caer sobre la línea de regresión, más estrecha es
la relación entre las 2 variables y constatarse que si a cada aumento de 1 cm corresponderá a un
aumento de 2 kg entonces todos los puntos se dispondrían en una línea recta.

Si por lo contrario no existiera ninguna asociación entre las 2 variables, de tal manera que altos
pesos hubieran sido presentados distintamente por alumno distintos “altos” y “bajos”, los puntos
tenderían a alejarse considerablemente de la línea, formando una especie de círculo o cuadrado.
En tal caso se concluiría que no existe asociación entre las 2 variables y con ello se terminara el
análisis.

Si el fenómeno estudiado puede ser resumido por una línea recta, como en nuestro ejemplo
podemos intentar resumir matemáticamente dicha relación, con lo cual nos será posible predecir
los valores de la escala dependiente (Y) cuando se conoce los de la escala independiente (X).

La medida estadística utilizada es el coeficiente de regresión (b) el cual indica q los valores en la
escala dependiente cambia b unidades por unidad que cambia los valores de la escala
independiente. En el método presente al utilizar el ejemplo que luego estudiaremos, encontramos
que b = 0,80; lo cual quiere decir que por cada aumento de 1cm en la estatura se observa un
aumento de 0,80 Kg. de peso.

El coeficiente de regresión puede tener cualquier valor negativo. Si es positivo, significa que ambas
variables disminuyen o aumenta a la vez; si es negativo, quiere decir que cuando una variable
aumenta, la otra disminuye o viceversa; si fuere 0, tendríamos que para cualquier valor de la
escala independiente habría siempre el mismo valor para la escala independiente, o que para cada
valor de la escala independiente pudiéramos observar cualquier valor en la escala independiente
(ver gráfico 1745).

17.3.4.1. Calculo del coeficiente de regresión.

Es fácil aunque las operaciones son muy laboriosas.

GRAFICO 175
Cuadro 176
Talla y peso de un grupo de alumnos del curso de Metodología Estadística
(Cálculo del coeficiente de regresión)

Desviaciones Desviaciones Desviaciones Desviaciones Producto


Estatura
Peso ( Y) del promedio del promedio de X al de Y al de la
(X)
cuadrado cuadrado desviación
dx dy dx2 dy2 (dx) (dy)
(2) (3) 2 (5) (Y- Y )
2
(6) (X- X )
2
(7) (Y- Y )
2
(4) (X- X ) (8)
162 58 -2 -4 4 16 8
168 54 -6 -8 36 64 48
155 56 -9 -6 81 36 54
162 60 -2 -2 4 4 4
170 68 6 6 36 36 36
160 61 -4 -1 16 1 4
175 70 11 8 121 64 88
165 60 1 -2 1 4 -2
168 64 4 2 16 4 8
163 69 1 7 1 49 7
1640 620 0 0 316 278 255
Media 164 Media 62

255
b = = 0,80 kilos
316
Los pasos a seguir en el cálculo del coeficiente de regresión se resumen a continuación:

a. Disponer los datos como en el cuadro anterior.


b. Obtener el promedio para cada una de las variables en estudio.
c. Ver cuánto difiere cada observación de su promedio respectivo. Estas desviaciones se
obtendrán primero para una variable y luego para la otra y se anotarán respectivamente en las
columnas (4) y (5) del cuadro teniendo cuidado de indicar si son positivas o negativas.
d. Elevar al cuadrado las anteriores desviaciones, anotando los cuadrados en las
e. Columnas respectivas (6) y (7).
f. Totalizar las dos columnas de cuadrados.
g. Buscar el producto de las desviaciones obtenidas en el punto (3), para lo cual se multiplicara
renglón a renglón las columnas (4) y (5) conservando los signos algebraicos. Totalizar luego
estos productos.
h. Calcular el coeficiente de regresión, para lo cual se divide el total de la columna de productos
por el total de la columna dx2 (desviaciones cuadradas de los valores independiente)

∑ dxdy =
255
= 0,80 kilos
∑ dx 2
316

17 .3. 4 .2 La línea de regresión.- La línea recta trazada en el grafico 173 recibe el


Nombre de línea de regresión. Ella representa una inclinación de 0,8 kilos de peso por cada
centímetro de estatura.
Dicha línea se puede utilizar para predecir el peso de cualquier individuo cuya estatura se conozca,
pero para ello, necesario poderla trazar con absoluta exactitud. La ecuación general de esta línea
es:

Y = ( Y – b X ) + bX
En donde:

Y = valor de variable dependiente que se quiere conocer dado determinado valor de la variable
independiente.

Y y X = promedio de variables de estudio.


b = coeficiente de regresión.
X = valor de la variable independiente para el cual se quiere conocer el
correspondiente valor de la otra variable (Y)

Ejemplo: se quiere conocer el peso (Y) de un individuo que mide 180 centímetros de estatura (X).

Mediante el cuadro 176 sabemos que:

Y = 62
X = 164
b = 0,80 kilos
además:

X = 180, ser de la estatura del individuo cuyo correspondiente peso (Y) queremos conocer.

Por lo tanto, reemplazando en la fórmula anterior:

Y180 = 62 – (0,80 x 164) + (0,80 x 180)

Y haciendo los cálculos cuidando poner correctamente los signos algebraicos:

Y180 = 62 – 131,2 + 144,0 = 74,8 kilos

Es decir, el peso de un individuo de 180 centímetros puede estimarse en 74,8 kilos.

En la misma forma, si se quiere averiguar el peso de un individuo de 158 centímetros de estatura:

Y158 = 62 – (0,80 x 164) + (0,80 x 158) = 57.2 kilos

3. 4. 3. Limitaciones en la utilización del coeficiente de regresión.

El cálculo de b solo debe hacerse cuando el gráfico correspondiente señala que la relación
estudiada es lineal. Si no se llena esta condición su cálculo no tiene ningún significado.

Por lo demás, el coeficiente no puede aplicarse para predecir valores que excedan los límites de la
serie en donde fue calculado.

Así por ejemplo, es un hecho que la estatura depende de la edad, pero esto solo es cierto hasta el
final de la edad del crecimiento y será absurdo averiguar cuál sería la estatura de un hombre de 50
años, utilizando el coeficiente de regresión.

Finalmente, téngase presente que b no es una medida de la intensidad de la asociación que existe
entre dos variables. Si b es 800 en lugar de 0,80, esto no significa que en el primer caso la
asociación sea 1000 veces mayor que en el segundo caso. El valor de b depende de las unidades
de medición que se empleen y puede constatarse con los datos del cuadro 176, en donde b = 0,80
kilos que si hubiéramos expresado el peso de los estudiantes en gramos, entonces b hubiera sido
igual a 800.
17. 3. 5. Coeficiente de correlación

En un problema de correlación no puede decirse que una variable sea independiente y otra
dependiente. Si a un grupo de individuos tomamos el número de pulsaciones y respiraciones, sería
igualmente valedero preguntarse qué cambios se producen en el número de pulsaciones al
aumentar las respiraciones o viceversa. Para resumir los datos habría que calcular dos coeficientes
de regresión: b’ que indicará los cambios en las respiraciones por cada pulsación que aumenta y
b’’ que indicará los cambios en el número de pulsaciones al variar las respiraciones.

Con el fin de reducir las dos constantes a una sola, se utiliza el coeficiente de correlación r, que es
simplemente igual a la raíz cuadrada del producto de los dos coeficientes de regresión
mencionados ( b’ y b’’). Por lo tanto:

r= b' xb' '

3. 5. 1. Cálculo del coeficiente de correlación.

El cálculo del coeficiente de correlación se hace fácilmente con los datos de cuadro 176 para lo
cual se tomará los totales de las 3 últimas columnas, pues siendo r = b' xb' ' , si se considera
primero que la estatura, es la variable independiente, entonces, conforme ya se ha visto:

Σdxdy 255
b’ = = = 0,80 kilos
Σdx 2 316
y si se considera luego que el peso es la variable independiente, entonces se calculará b’’, para lo
cual solo variará el denominador del quebrado:

Σdxdy 255
b’’ = = = 0,91centímetros
Σ dy 2 278

y por lo tanto:

255 255 255


r= b' xb' ' = x = = 0,86
316 278 316 x 278

3. 5. 2. Valores de “r”.

El coeficiente de correlación puede tener cualquier valor entre –1 y +1. Valores positivos indican
que las dos variables aumentan o disminuyen al tiempo: valores negativos significan que cuando
una variable aumenta, la otra disminuye o viceversa. (Véase gráfico 181).

Si “r “es exactamente igual a –1 o +1, quiere decir que hay una perfecta asociación entre las dos
variables, en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra
cambia siempre igual número de unidades. En dichas ocasiones los puntos en el gráfico caerían
todos sobre una línea recta. Tal sería el caso si a cada aumento de una pulsación correspondiera
siempre el mismo aumento en el número de respiraciones (esquema A) o si a cada aumento de
una pulsación se observara siempre una misma disminución en el número de respiraciones
(esquema B).

Si “r “ = 0, significa que no hay ninguna asociación entre las dos variables, o que de existir, no es
una relación lineal. El gráfico que entonces se obtendría sería semejante al del esquema C, lo cual
se observaría, si para cada número de pulsaciones pudiera encontrarse cualquier número de
respiraciones.

Sin embargo, valores de r = 0 o iguales a la unidad, son más bien teóricos. En primer lugar aunque
no haya ninguna asociación entre 2 características, las variaciones causadas por el azar suelen
dar una correlación aparente. En segundo lugar, aun tratándose de correlaciones perfectas, no es
de esperar que r sea exactamente igual a 1, a causa de los errores que se cometa al hacer las
observaciones.

En la práctica pues, solo se observan valores intermedios entre 0 y ± 1 . Si las pulsaciones y las
respiraciones aumentaran o disminuyeran al mismo tiempo, pero sin que a cada aumento de una
pulsación corresponda siempre el mismo aumento en las respiraciones, se obtendría un gráfico
como el esquema D. Finalmente, si cuando las pulsaciones aumentan las respiraciones disminuyen
o viceversa, pero sin que haya la misma variación en las respiraciones por cada unidad que
cambia las pulsaciones, entonces se observaría algo como el esquema E.

Gráfico 181
Diagrama de puntos que ilustran diferentes grados de correlación

A: r = + 1 B: r = - 1

C: r = 0 D: r = 0.50

E: r = - 50
3. 5. 3. Interpretación de “r”.

En el ejemplo que nos sirvió para el cálculo del coeficiente de correlación encontramos que r =
0,86. Este valor no debe interpretarse como se hace corrientemente, en el sentido de que el 86%
de las variaciones en el peso son causadas por las variaciones en la estatura.

Para una interpretación, hay que obtener el Coeficiente de determinación que es la forma más
2 2 2
correcta debe tomarse r . En nuestro ejemplo r = (0,86) = 0,74, nos indica que un 74% de los
cambios en el peso se explican por las variaciones de la estatura. Si se hubiera encontrado que r =
2
0,71 y por lo tanto r = 0,50 se concluiría que solo el 50% de los cambios observados en el peso
son explicables por las variaciones en la estatura, quedando todavía un 50% de variación no
atribuible a esta última variable. La anterior explicación ayuda a comprender por qué coeficientes
de correlación menores de 0,50 son por lo general difíciles de interpretar, no debiéndose dar
demasiada importancia a tales hallazgos.

17. 3. 5. 4.Recomendaciones finales. Al interpretar las asociaciones entre dos variables, deben
tenerse en cuenta, finalmente, los siguientes principios:

1. Asociación no es sinónimo de causalidad. El que una variable aumente o disminuya al mismo


tiempo que otra, no quiere decir que los cambios en una, son determinados por la otra. Así por
ejemplo, en los últimos años la mortalidad por accidentes y la mortalidad por cáncer pulmonar
han aumentado considerablemente sí que pueda decirse que la una sea causa de la otra.
Evidentemente los asares de la vida moderna y otros muchos factores que han evolucionado
con el tiempo determinan tales ascensos.

2. Las asociaciones encontradas no deben aplicarse indebidamente a valores que excedan los
límites de las series estudiadas. Ya dijimos que la estatura aumenta con la edad, pero eso solo
es válido hasta el final de la edad del crecimiento y a nadie se le ocurriría predecir la estatura
de un adulto de 50 años en base a la anterior asociación.

3. El cálculo de coeficiente de correlación r sólo se justifica cuando el gráfico señala que la


asociación estudiada puede ser convenientemente resumida por una línea recta. En algunas
ocasiones el gráfico señala claramente que tal asociación no existe, pero si se calcular r podría
llegarse a obtener un valor equívoco a causa de la presencia de una valor aberrante como en
el caso esquematizado.
Gráfico 183
Diagrama de puntos que muestra una falsa correlación positiva

Por lo demás la relación existente puede no ser lineal. En el esquema próximo r = 0 a pesar de
que existe una perfecta relación curvilineal. En ocasiones como esta el cálculo de la
correlación es mucho más difícil y al asesoramiento por un técnico estadístico se hace
imprescindible.

4. La interpretación del coeficiente de correlación se hará teniendo en cuenta el número de


individuos estudiados. En las secciones 7.4 y7.7 señalamos que al obtener muestras repetidas
de una población los promedios de estas no siempre eran iguales.

a. Gráfico 184
Perfecta correlación curvilíneal en donde r = 0
De la misma manera, si muestras repetidas se extraen de determinado universo y para cada una
se calcula el coeficiente de correlación o el de regresión, dichos coeficientes, como sucede en el
promedio, pueden diferir del verdadero valor del universo en una cantidad más o menos
apreciable. Sin embargo, mientras mayor sea el tamaño de la muestra, menor variabilidad
presentarán dichos coeficientes y mayor será su validez. Se ha visto por ejemplo que aun en
poblaciones en las cuales no existe ninguna asociación (r = 0 por lo tanto) es posible encontrar
valores de r tan altos como 0,30 para muestras de 40 individuos, debido simplemente a accidentes
del muestreo. Esta es una nueva dificultad para la interpretación del coeficiente de correlación, la
cual debe tenerse siempre presente, para no dar mucha importancia a valores de r que se basen
en muestras muy pequeñas.

b. Cuando se estudia un grupo grande de individuos es necesario agrupar los datos en un número
conveniente de clases, con el fin de facilitar las complicaciones, las cuales sin embargo siguen
siendo muy laboriosas y se prestan a múltiples equivocaciones cuando se carece de práctica. Si el
investigador no puede recurrir al asesoramiento de un técnico estadístico es preferible analizar los
datos a la manera descrita anteriormente, pues el tiempo adicional consumido en tal análisis,
queda compensado por errores de cálculo que han podido evitarse. Si la realización de una
investigación ha exigido meses de trabajo, unas cuantas horas destinadas a su análisis estadístico
no representa una inversión inútil.
CAPITULO XVIII

SERIES CRONOLÓGICAS
Las series cronológicas son aquellas que estudian la variación de un fenómeno a través del
tiempo. El fenómeno estudiado puede referirse a: los casos o muertes de una enfermedad, al
ingreso per cápita de una colectividad, al número de estudiantes universitarios, etc.

El análisis de una serie cronológica puede tener por único propósito, describir la marcha histórica
de un fenómeno. Sin embargo, habitualmente se persigue evaluar los cambios ocurridos por la
introducción de alguna actividad particular o resumir la evolución de un fenómeno con miras a
predecir su posible ocurrencia en el futuro.

Cualquiera sea el propósito, el análisis de tales series es por lo general difícil, y aquí solo se
explicarán las técnicas más corrientes, no debiéndose olvidar, que la presentación tabular y gráfica
es paso previo indispensable para decidir sobre el análisis.

18.1. Presentación tabular.

Como ya se vio anteriormente, el cuadro que resume una serie cronológica consta habitualmente
de dos columnas: la primera se destina a la escala del tiempo y la segunda a la inscripción del
número de veces que acaeció el fenómeno estudiado.

Sin embargo, cuando se describen las variaciones de una población, es conveniente colocar una
tercera columna de tasas, las cuales señalan la frecuencia con que se presentó el fenómeno por
cada 1.000, 10.000 o 100.000 habitantes, etc., con lo cual se facilitan grandemente las
comparaciones.

Cuadro 187
Tuberculosis. Mortalidad estimada y tasas por 100.000 habitantes.
Venezuela, 1956 – 1960

Año Número estimado de defunciones Tasa x 100,000 hab.


1956 2843 45,0
1957 2835 43,0
1958 2459 36,2
1959 2275 32,3
1960 2111 29,5
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela. 1960.

18.2. Presentación gráfica.

Los gráficos utilizados para la presentación de las series cronológicas ya fueron descritos
anteriormente, pudiéndose utilizar el papel aritmético corriente o el semilogarítmico. Se recordará,
que cuando el interés está en conocer los cambios absolutos en el periodo, debe preferirse la
escala aritmética, pero si por el contrario se desea estudiar los cambios relativos de la serie, el
papel semilogarítmico es preferible. En los estudios médicos, por lo general el mayor interés se
encuentra en conocer los cambios absolutos ocurridos: en averiguar por ejemplo, cuántas vidas se
han salvado o cuántos casos de determinada enfermedad se han evitado, en tales ocasiones el
gráfico en papel aritmético debe por consiguiente ser utilizado.

18.3 Análisis de las series cronológicas.


Los fenómenos cambian de intensidad en las diversas épocas del año (variaciones estacionales);
presentan alzas y bajas de unos años a otros (ciclos anuales), y para largos periodos pueden
permanecer más o menos estacionarios o manifestar una tendencia hacia el aumento o el
descenso (tendencia secular). Considérese por ejemplo el caso de Tosferina en Venezuela. A
partir de 1936 cuando se fundó el Ministerio de Sanidad, la enfermedad ha venido en franco
retroceso gracias a las diversas medidas preventivas realizadas (tendencia secular hacia el
descenso). Sin embargo cada cuatro años se observa un aumento en el número de casos pues los
niños que nacen en el periodo forman una población de susceptibles que favorecen a la
propagación de la enfermedad (ciclos anuales). Finalmente, puede constatarse que para cada año,
la enfermedad tiene predominancia durante los meses de noviembre y diciembre, época del año en
la cual parece que las condiciones ambientales son propicias para la multiplicación del bacilo
(variación estacional).

Es a consecuencia de la ocurrencia conjunta de estos tres tipos de variación, que el análisis de las
series cronológicas se dificulta. Mientras que el examen de las tendencias seculares solo es
factible cuando se hace abstracción de las pequeñas variaciones que ocurren cada año, se
comprende fácilmente que los cambios anuales solo pueden interpretarse tomando en
consideración las variaciones cíclicas y seculares del fenómeno. Desconocer la anterior
interrelación ha conducido frecuentemente a numerosos errores de interpretación. Observe por
ejemplo el esquema siguiente, el cual representa una enfermedad con exacerbaciones cada 10
años: 1940. 1950, 1960.

Si un investigador estudiara el decenio 1950-1959, llegaría a l conclusión de que la enfermedad ha


descendido considerablemente, pero si otro investigador estudiaría el decenio 1951-1960
concluiría que la enfermedad se ha incrementado. Una simple ojeada al grafico mostraría que la
enfermedad continua estacionaria a pesar de lo asensos que aparecen cada 10 años.

En cualquiera de los casos anteriores, el grafico de una serie cronológica es muy importante, pues
de una simple mirada, podemos apreciar las variaciones habidas en lapso estudiado. Si se quiere
no obstante expresar la magnitud de las variaciones observadas, será necesario recurrir a otros
métodos, cuya escogencia depende de gran parte del aspecto que presenta los datos previamente
acentuados en el gráfico.

Cuando el grafico muestra que la serie asciende o desciende en forma más o menos lineal, el
análisis es bastante sencillo y cualquiera de las técnicas que a continuación se describen pueden
ser utilizadas

GRAFICO 189
Enfermedades con ciclos epidémicos decenales
Si la serie presenta por el contrario muchas irregularidades o si el grafico muestra que su tendencia
es más bien curvilínea, entonces el análisis es mucho más complicado. La suavización de los datos
mediante el método de los promedios móviles descrito en la sección 18.3.1.3. puede servir de
ayuda en la descripción de estas series.

18.3.1. Líneas de Tendencia

Este método consiste en buscar la línea o curva que represente mejor los datos estudiados, en tal
forma, que sin tenerse en cuenta las fluctuaciones menores, se destaque la tendencia general a
través de los años.

Dicha línea o curva viene a ser una línea promedio y mediante ella puede leerse en la ordenada,
los valores que corresponden a las distintas fechas.

Aunque existen técnicas matemáticas especiales para encontrar la mejor línea en cada caso,
debido a su complejidad, solo mostraremos métodos aproximados más sencillos.

18.3.1.1 Línea de tendencia a mano libre. Una vez hecho el grafico con los datos
correspondientes, se traza a mano una línea recta o curva, que aproximé lo más fielmente los
hechos descritos, evitando prolongar el trazo más allá del periodo en cuestión.

Desde luego, que si prolonga la línea un poco más allá del último año estudiado, se podrá predecir
la intensidad del fenómeno en los años futuros. Sin embargo, tales estimaciones asumen que el
fenómeno investigado varia en la misma forma que en el pasado, lo cual no siempre es verdadero,
y de ahí que por lo general solo son correctas cuando se hacen por el inmediato futuro.

Por lo demás, el método es solo aproximado, pues es difícil que dos personas distintas obtengan
los mismos resultados.

18.3.1.2. Línea de tendencia usando semipromedios. Este método solo debe utilizarse cuando
el grafico de los datos señala que ellos pueden ser representados por una línea recta.

Con los datos del cuadro 187 se procederá de la forma siguiente:

a. L os datos del periodo que se estudia se divide en dos grupos iguales y en cada uno se obtendrá el
promedio respectivo. Si el número de años es impar como en el ejemplo presente , el año de la
mita se incluirá en ambos promedios

Años Tasas
1956 45,0
1957 43,0
……………………………… …………………… ………
1958 36,2 .
1959 32,3 .
1960 29,5 .
………………………………………. ………

Por lo tanto los semipromedios serán:

45.0 + 43.0 + 36.2 124.2


= = 41.4
3 3
36.2 + 32.3 + 29.5 98.0
= = 32.7
3 3
b. En el grafico previamente elaborado se asentaran los dos semipromedios obtenidos, mediante
dos pequeñas cruces. Cada cruz debe ir en la mitad del espacio destinado para el periodo.
Puede verse en el grafico que sigue, que como el primer periodo se refiere a los años 1956,
1957 y 1958, el promedio se inscribe al frente del año 1957, que es el año central.

Gráfico 191
Mortalidad Estimada Por Tuberculosis, Venezuela, 1956 – 1960

Fuente: datos del cuadro 187

18.3.1.3. Línea de tendencia con promedios móviles. Cuando las variaciones de las series son
muy irregulares es a veces difícil captar con la claridad la tendencia general del fenómeno que se
estudió. En tales ocasiones puede recurrirse a suavizar los datos mediante los promedios móviles.

Según el número de términos de la serie, puede calcular promedios móviles que incluyen 3,5 o
más años a la vez. En general, mientras mayor el número de años que se incluyen en la obtención
de los promedios, más regular se hace la línea de tendencia, pero en esos casos, más probabilidad
hay de que se pierdan importantes situaciones de la serie que se estudia y de ahí que el número
de los escogidos, no debe ser tan numeroso.

Para ilustrar la obtención de estos promedios, tomaremos los casos de Lepra, conocidos en el área
de Notificación Organizada durante el periodo 1941-1960. Dicha área comprende aquellas
regiones del país en las cuales los servicios sanitarios están bien organizados, en tal tema que los
datos sobre morbilidad y mortalidad se conocen de manera bastante exacta.
Cuadro 192
Lepra. Casos notificados por 100000habitantes. Área de notificación organizada 1941 – 1960.
(Cálculo de promedios móviles para 5 años)

Años Casos x 100.000 habitantes. Totales móviles Promedios Móviles


1941 8,3 - -
1942 8,9 - -
1943 11,3 47,2 9,4
1944 9,8 49,5 9,9
1945 8,9 50,8 10,2
1946 10,6 47,7 9,5
1947 10,2 46,8 9,4
1948 8,2 48,9 9,8
1949 8,9 50,6 1,1
1950 11,0 48,5 9,7
1951 12,3 48,5 9,7
1952 8,1 47,3 9,5
1953 8,2 41,4 8,3
1954 7,7 34,1 6,8
1955 5,1 30,2 6,0
1956 5,0 26,9 5,4
1957 4,2 26,5 5,3
1958 4,9 26,7 5,3
1959 7,3 - -
Fuente. Anuario de Epidemiología y estadística Vital Venezuela 1960

Los datos del cuadro anterior pueden suavizarse calculando promedios móviles de 5 en 5 años.
Para ello:

a. Se sumaran las tasas de los 5 primeros años disponibles y esta cifra, la cual representa el total
para el primer quinquenio, se colocara frente al año intermedio (1943).

b. Los totales sucesivos se obtendrán excluyendo del total precedente el primer año del
quinquenio y añadiéndole el siguiente año (1941 a 1945). (1942 a 1946) (1943 a 1947), etc.

c. Se obtendrán los promedios móviles dividiendo por 5 cada una de las cifras de la columna
anterior.

d. Una vez obtenidos estos promedios, se inscribirán en el mismo grafico en el cual se hayan
inscrito los datos originales.
Gráfico 193

Lepra; tasas observadas y promedios móviles, 1941-1960

Fuente: Datos de cuadro 192

Se observa en la serie anterior que no ha podido calcularse un promedio móvil para los 2 primeros
y los 2 últimos años, pues ellos se basan en datos que no figuran en el cuadro. Si los promedios
hubieran sido para tres años, en tal caso no se hubiera podido calcular el promedio para el primer
año y para el último de la serie.

A pesar del uso frecuente de los promedios móviles, ellos pueden ocultar oscilaciones importantes
de la serie o dar origen a dar irregularidades ficticias. Puede observarse en la serie anterior que en
los años en los cuales las tasas fueron elevadas, se hacen menos aparentes, pero el ascenso se
manifiesta dos años antes y termina dos años después.

18.3.2 Variación promedio anual

Consiste en averiguar mediante una simple resta, cual ha sido el aumento o el descenso absoluto
observado en el periodo y dividir por el número de años correspondientes, con el fin de obtener la
variación promedia anual.

En el ejemplo del cuadro 187, como la enfermedad descendió de 45.0 en 1956 a 29.5 en 1960 o
sea un descenso de 15.5 al dividir por 4 (1960 – 1956= 4), obtendremos que la tasa disminuyo 3.9
cada año. Observe que hemos dividido por 4 y no por 5, pues en el periodo solo hay en realidad 4
descensos anuales y no 5.

Conviene insistir en dos observaciones finales: a) el método sólo debe utilizarse cuando la
representación gráfica de los datos sigue más o menos una línea recta; b) proyecciones futuras
solo deben hacerse para años inmediatos. Observe que de acuerdo a nuestros datos, puede
estimarse que la tasa para 1961 será 25.6 (29.5 en 1960 – 3.9 = 25.6) pero si la proyección fuera
para 1970 se obtendrían un valor negativo (29.5 – 10 x 3.9 =-9. 5.

18.3.3 Ascenso y descenso porcentual


Para obtener el ascenso o descenso porcentual para el período se buscara la diferencia existente
entre los datos para el año inicial y los del año terminal del periodo y se dividirá por la frecuencia
correspondiente al año inicial. El resultado se multiplicara por 100 para expresarlo en forma de
porcentaje.
En los da tos anteriores se ve que el cambio porcentual para el período fue de:

Se observara que en este cálculo, al igual que en el método anterior, sólo se toman en cuenta los
valores del primero y del último año y el resultado siempre será igual cualesquiera que sean las
cifras intermedias. De ahí que el método solo debe usarse, cuando los datos ascienden o
descienden siguiendo una línea recta.

18.3.4. Línea de regresión en series cronológicas

Cuando la serie estudiada puede resumirse adecuadamente por una línea recta, como en los datos
del cuadro 187, las técnicas de regresión son aplicables.

El cálculo del coeficiente de regresión da una mejor estimación del cambio anual que experimenta
el fenómeno que se estudia, pues toma en cuenta todos los valores de la serie, y no solamente los
valores inicial y terminal. Los cálculos son idénticos a los aprendidos en el capítulo XVII, pero
reemplazados los años 1956, 1957, etc. por 1, 2, 3, etc.

− 41.7
b= = - 4.17
10
Lo cual indica que en promedio, la tasa desciende en 4.17 cada año.

La ecuación de la línea según se ha estudiado, será:


Y= Y- bX + bX = 37.2 – (- 4.17 x 3)+ (-4.17X) = 49.7 – 4.17 X
Si se desea saber cuál será la tasa a esperar en 1961 (sexto año de la serie); bastaría reemplazar
por 6, la incógnita de la fórmula anterior:

Y1961= 49.7 – (4.17 x 6)=49.7 – 25.0 = 24.7


CAPITULO XIX

MEDICIÓN DEL ERROR POR MUESTREO:


ERROR ESTÁNDAR Y SUS APLICACIONES

19.1. Introducción.

Al resumir los resultados de un estudio mediante, cualquiera de las medidas estadísticas acabadas
de ver (promedios, porcentajes, etc.), hay que tener en cuenta que tales constante pueden
adolecer de los mismos defectos que presentan las mediciones individuales.

Los errores debidos al observador, al objeto observado método de observación, pueden algunas
veces desaparecer al utilizar una medida de resumen o hacer al contrario más aparentes.

Un observador a causa de su impericia o fatiga puede registrar como negativos exámenes que en
realidad son positivos. Una técnica defectuosa, la pérdida de potencia de los reactivos utilizados o
la observación de los individuos bajo condiciones desfavorables, pueden conducir a cometer el
mismo error .En tales casos, al resumir los resultados encontrados, el número de reacciones
positivas será mucho menor de lo que en realidad es a causa de que se ha cometido un error
sistemático en una misma dirección.

Otras veces, los errores que se cometen no se hacen siempre en una misma dirección. Al tomar el
metabolismo basal de un grupo de individuos , unas veces se peca por exceso y otras por defecto
y en tales casos ,al resumir los resultados mediante un promedio por ejemplo, los errores en más o
menos, tienden a compensarse y el promedio así calculado representara el verdadero valor o un
valor muy cercano al que quiere conocerse.

En realidad no existe ningún método estadístico que permita valorar exactamente los anteriores
errores una vez cometidos. Una perfecta preparación de los observadores, un control adecuado de
las técnicas y aparatos utilizados en las observaciones y la estandarización de un método que
permita estudiar a todos los individuos en las mejores condiciones serán imprescindibles para
reducir a un mínimo tales errores.

19.2 Error por muestreo

Existe sin embargo otro tipo de error susceptible de controlarse estadísticamente. Conforme hemos
mencionado previamente por lo general resulta imposible estudiar la totalidad de la población en la
cual puede observarse determinado fenómeno, teniendo que limitarnos al estudio de una muestra
de dicha población. Pero de la misma manera que los individuos difieren unos de otros, las
diferentes muestras formadas con ellos diferirán también unas de otras, dando origen nuevamente
a una nueva fuente de error. Ese error el cual se debe simplemente al hecho de que no estamos
estudiando la totalidad del universo solo una porción de él, se conoce con el nombre de Error por
Muestreo y el representante en realidad la diferencia que hay entre el valor dado por la muestra y
el verdadero valor del universo que tratamos de averiguar a través del estudio de aquel.

19.2.1 Medición del error por muestreo: Error Estándar.

La constante estadística que permite la medición del error por muestreo recibe el nombre de error
estándar.
Desde luego que cada una de las medidas de resumen conocidas tendrá su correspondiente error
estándar. Podrá hablarse por consiguiente del error estándar del promedio, del error estándar de
un porcentaje o del error estándar de coeficiente de correlación, etc. y las fórmulas utilizadas para
su cálculo varían en cada caso.
19.2.2 Origen del Error estándar.

Aunque es difícil explicar sucintamente el origen del error estándar los resultados de la
demostración práctica comentados en la sección 7.7 y ayudaran a su comprensión. Según se vio
entonces si de una población determinada se obtiene un número grande de muestras del mismo
tamaño en cada una se calcula el promedio, estos promedios se distribuirán alrededor del
verdadero valor del universo formando una curva normal.

Por consiguiente como los promedios del conjunto de muestras extraídas de determinado universo
se distribuye alrededor del verdadero valor del universo formando una curva normal, puede
afirmarse: que ninguna muestra diferirá del valor del universo en más de tres veces la desviación
estándar, pues ya se sabe que entre X ± 3D.E. se encuentra prácticamente el 100% del área de
la curva.

Ahora bien, si con el fin de averiguar el verdadero valor del promedio de determinado universo, se
obtiene una muestra y se calcula su promedio, esto no será exactamente igual al del universo, pero
si conociéramos la desviación estándar de un conjunto de muestras extraídas de dicho universo
bastaría tomar X ± 3D.E. para determinar los limites dentro de los cuales se encuentra el
promedio del universo que se quiere conocer.

Sin embrago, para calcular este desviación estándar habría necesidad de obtener, digamos 100 o
200 muestras diferentes, lo cual es impráctico, pues en la investigación real se extraen solamente
una muestra y a partir de ella, se tratara de conocer la población de donde procede.
No obstante, se ha demostrado que la desviación estándar de un conjunto de muestras obtenidas
de determinada población, puede estimarse con bastante exactitud a partir de una sola muestra.

Esta constante estadística, mediante la cual se estima la verdadera desviación estándar de un


conjunto de muestras, que recibe el nombre de Error estándar.

Con el fin de contestar que tan bien el error estándar puede estimar la desviación estándar de un
conjunto de muestras, volveremos nuevamente a los resultados de la demostración de la sección
7.7 en dichas demostraciones como se recordara teníamos un universo de metras en el cual el
50% eran blancas y de él extrajeron 150 muestras de 10 metras cada una. El resultado es obtenido
entonces los que se copian en el siguiente cuadro, en el cual se han añadido las dos últimas
columnas para el cálculo del promedio y la desviación estándar.

El promedio y la desviación estándar calculados por los métodos estudiados por el capítulo XVI
son respectivamente (véase cuadro 200)

7420 407000
X = = 49.5% D.E = − (49.5) 2
= 16.3%
150 150
CUADRO 200

Distribución de 150 muestras de 10 metras cada una, de acuerdo al porcentaje de metras


blancas obtenidas
(Cálculo del promedio y la Desviación Estándar)

Porcentaje de N° de muestras
metras blancas observadas FX FX2

0 0 0 0
10 3 30 300
20 6 120 2.400
30 0 600 18.000
40 30 1.200 48.000
50 36 1.800 90.000
60

Calculemos ahora el error estándar de esta serie, para apreciar si él realmente estima la desviación
estándar acabada de obtener. La fórmula para calcular el error estándar de un porcentaje, que
será estudiada con más detalle en la sección 19.4.2., es la siguiente:

𝑝∗𝑞
𝐸. 𝐸 = �
𝑛
en donde:

p = porcentaje de metras blancas en el universo (50% en nuestro ejemplo).


q = porcentaje de metras no blancas = 100 - p = 50%
n = tamaño de la muestra (10 en nuestro ejemplo).

Reemplazando en la fórmula los anteriores valores:

50 𝑥 50
𝐸. 𝐸 = � = √250 = 15.8 %
10

Puede apreciarse que este valor estima con bastante exactitud la desviación, estándar calculada
anteriormente, que fue 15.8%.

19.2.3. Desviación Estándar y Error Estándar.

Antes de seguir adelante, conviene tener en cuenta la diferencia que hay entre la desviación
estándar y el error estándar.

La desviación estándar, como hemos señalado, sirve para indicar la variación que presentan los
individuos de una muestra, alrededor de su promedio.

El error estándar por su parte, mide la variación de un conjunto de muestras y puede considerarse,
por lo tanto, como la desviación estándar de un conjunto de muestras.
Por lo tanto, si queremos describir la manera como se distribuyen alrededor del promedio los
individuos de la muestra que estamos estudiando, debemos calcular la desviación estándar, pero si
lo que deseamos es saber cómo se distribuyen los promedios de diferentes muestras alrededor del
verdadero valor del universo, entonces debemos calcular el error estándar.

19.2.4. Interpretación del Error Estándar.

Como este error no es otra cosa que la desviación estándar de un conjunto de muestras, los
conceptos estudiados a propósito de esta son también aplicables a él y por lo tanto, podemos
afirmar que:

� = 1𝐸𝐸 incluye aproximadamente el 68% de las observaciones.


𝑋
� = 2𝐸𝐸 incluye aproximadamente el 95% de las observaciones.
𝑋
AREAS DE LA CURVA NORMAL

Diferencia E.E: Diferencia observada, expresadas en unidades de curve normal. Esta columna
también se refiere al intervalo comprendido entre el promedio y determinada múltiplo de la D.E.
P: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia igual o mayor de la
observada o proporción de los individuos estudiados que se encuentran fuera de los limites
comprendidos entre el promedio más sanos al múltiplo de la D.E indicado en la columna anterior.

IP: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia menor que la observada
o proporción de los individuos estudiados que se encuentran entre los limites comprendidos entre
el promedio más sanos múltiplo de la D.E.

X ± 3 E.E. incluye aproximadamente el 100% de las observaciones.


Lo anterior puede expresarse en otra forma, quizás no correcta desde el punto de vista matemático
puro, pero fácil de comprender para quienes poseen escasos conocimientos matemáticos. En vez
de decir que entre el promedio del universo más o menos dos veces su error estándar se
encuentra el 95% de los promedios de las muestras que de él puedan obtenerse, podría decirse
que solo el 5% de las muestras extraídas de determinado universo, diferirán de él en más de dos
veces el error estándar o lo que es lo mismo, si afirmamos que el verdadero promedio del universo
se encuentra comprendido entre el promedio de la muestra más o menos dos veces su error
estándar, tendremos la seguridad de estar en lo cierto en un 95% de las veces.

(Recuérdese nota de la página 157).

De la misma manera, al afirmar que el promedio del universo se encuentra comprendido entre el
promedio de la muestra más o menos 3 veces su error estándar, tendremos la seguridad de estar
en lo cierto, prácticamente en un 100 de los casos.

19.3. Certeza absoluta. Certeza relativa.

La explicación anterior parecería indicar que al hacer afirmaciones como las ilustradas, debiera
buscarse siempre una certeza del 100%, usando el promedio más o menos 3 veces el error
estándar. Sin embargo, las siguientes explicaciones permitirán comprender por qué esto no es
siempre posible.

Cuando afirmamos un hecho, se tiene una de las siguientes posibilidades:

• afirmar que es cierto, algo que en realidad es cierto.


• afirmar que es falso, algo que en realidad es falso.
• afirmar que es verdadero, algo que es falso.
• afirmar que es falso, algo que es verdadero.

Reconocer que es cierto o falso, algo que en realidad lo es, constituye la meta de todo
investigador, buscándose evitar los errores envueltos en las 2 últimas afirmaciones. Sucede sin
embargo, que en estadística, mientras más procuramos no cometer el primer error, mayores
probabilidades tenemos de cometer el segundo.

En el esquema siguiente se representan dos universos, uno de sanos y otro de enfermos. Si se


toman 3 errores estándar a cada lado, se tendría la seguridad que ningún individuo enfermos
dejaría de reconocer como tal, pero al mismo tiempo algunos sanos se están incluyendo como
enfermos (falsos positivos), ahora estamos decidiendo que es cierto algo que en realidad es falso.

Si no queremos cometer el anterior error, podemos tomar 2 lados estándar en lugar de 3 y


entonces ningún individuo sano se incluirá como enfermo, pero en tal caso, algunos individuos
realmente se dejarían de reconocer como tales (falsos negativos), es estamos reconociendo como
falso algo que es realmente verdadero.
Gráfico 204
Lustración de los errores que pueden cometerse en la comparación de 2 muestras

Puede observarse que mientras más procuramos no cometer el primer error, más caemos en el
segundo y viceversa. Por lo tanto, aspiramos a tener un 68%, un 95% o un 100% de certeza en
nuestras afirmaciones, depende del problema de que se trate.

El siguiente ejemplo servirá para aclarar este punto.

Imaginemos un nuevo tratamiento sobre el cual se tienen favorables indicios en cuanto a su


efectividad, pero cuya aplicación presenta cierta peligrosidad. Si el tratamiento es para una
enfermedad relativamente benigna, como la difteria, descaremos tener una certeza así absoluta de
que es efectivo, pues existiendo otros medios terapéuticos para la enfermedad, no correremos el
riesgo de recomendar una su aplicación.

19.4. Cálculo del error estándar.

Se ha señalado que cada una de las medidas de resumen tiene su correspondiente error estándar.
A continuación se señalan las fórmulas utilizadas para calcular el error estándar de un promedio y
el de un porcentaje. Otras fórmulas se explicarán a medida que sea necesario.

19.4.1. Error Estándar de un promedio (Error típico).

𝐷. 𝐸
𝐸. 𝐸 =
√𝑛
En su cálculo se seguirán los siguientes pasos:

1. Calcular el promedio de la serie.


2. Calcular la D.E. por el método conocido.
3. Dividir la D.E. por la raíz cuadrada del número de observaciones incluidas en la muestra. El
valor así obtenido es el error estándar del promedio.

19.4.2. Error Estándar de un Porcentaje.

𝑝∗𝑞
𝐸. 𝐸 = �
𝑛

En esta fórmula:
p: es el porcentaje de personas que poseen determinadas características, y,
q: el porcentaje de personas que no la poseen.
Si en un grupo de personas que se estudian, el 25% son hombres.
P = 25% y
q = 75%

Por lo tanto, conociendo “p” se conocerá el valor de “q”, pues

q = 100 - p

19.5 Utilización del error estándar.

El error estándar se utiliza para 3 fines principales:

1. Para conocer dentro de que límites se encuentra el verdadero valor del universo.
2. Para estimar el tamaño que debe tener una muestra para lograr determinada precisión.
3. Para saber si una muestra procede o no de determinado universo.

Las dos primeras de estas aplicaciones se estudiarán a continuación y en cuanto a la tercera, será
vista a propósito de los estudios comparativos.

19.6. Estimación de valor del universo.

Aunque el investigador toma una muestra con el fin de inferir partir de ella el verdadero valor de la
totalidad del universo, los resultados arrojados por la muestra no corresponden exactamente a los
del universo. Si con el fin de calcular la estatura promedio de alumnos de la Universidad,
estudiamos un grupo de 400 jóvenes encontramos que el promedio es 160 centímetros, esta cifra
no representa exactamente el verdadero valor para todos los universitarios, aunque sí es una cifra
muy aproximada.

Pero, ¿qué tan aproximada es esa estimación? El cálculo del error estándar, nos permitirá dar
contestación a esta pregunta.

De acuerdo a la investigación que se haya realizado, se presentan los casos diferentes:

1. Estimar el promedio del universo.


2. Estimar el porcentaje del universo.

El procedimiento general es el mismo, pero el cálculo del error estándar se hará utilizando las
correspondientes fórmulas vistas anteriormente.

19.6.1. Estimación del verdadero promedio del Universo.

Ejemplo: Con el fin de conocer la edad promedio de los 20.000 estudiantes de la Universidad
Central, se estudió una muestra de 400 alumnos, encontrándose que su promedio fue 23 años y la
desviación estándar 2 años.

En base al resultado de esta muestra, se desea saber dentro de que límites se encuentra el
verdadero promedio de los 20.000 estudiantes. Se desea poder hacer tal afirmación con un 95%
de certeza.

Procedimiento: El error estándar de la muestra (sección 19.4.1.) será:


𝐷. 𝐸 2 2
𝐸. 𝐸 = = = = 0,10 𝑎ñ𝑜𝑠
√𝑛 √400 20
Como al tomar 2 E.E. a uno y otro lado del promedio tendremos una certeza del 95%, entonces:

X ± 2 E.E. = 23 ± 2 x 0,10 = 23 ± 0.2


es decir, que el promedio verdadero de la edad de los universitarios estaría entre 22,8 años y 23,2
años.

Si los límites anteriores parecieran muy amplios, es decir, si se quisiera lograr mayor exactitud en
los resultados, sería necesario aumentar el tamaño de la muestra, pues como señala la fórmula,
mientras mayor el número de individuos estudiados, mayor el denominador del quebrado y menor
por consiguiente el error estándar.

Así por ejemplo, si en vez de 400 estudiantes se hubieran estudiado 1.600 y se hubiera encontrado
el mismo promedio y la misma desviación estándar, entonces el error estándar sería:

2 2
𝐸. 𝐸 = = = 0,20 𝑎ñ𝑜𝑠
√1600 40

y los límites dentro de los cuales estaría la edad promedio de los 20.000 universitarios sería:

23 ± 2 x 0.05 = 23 ± 0,1
es decir, entre 22,9 y 23, 1 años.

19.6.2 Estimación del verdadero porcentaje del universo.

Ejemplo: Con el fin de conocer el porcentaje de personas vacunadas contra la viruela, en una
población de 20 000 habitantes se estudió una muestra de 400 personas, de las cuales 300
estaban vacunadas, es decir, un 75%.

En base al resultado anterior se desea saber dentro de que límites se encuentra el verdadero
porcentaje de vacunados en la población. Se desea hacer tal estimación con un 95% de certeza.

Procedimiento: El error estándar de la muestra se calcula mediante la fórmula:

pq
E.E. =
n
en donde

“p” porcentaje de personas vacunadas en la muestra (75%) y


“q” porcentaje de personas no vacunadas, o sea, 100 – 75 = 25%

75 * 25
(E. E.) = = 4.69 = 2.16
400

Como al tomar 2 errores estándar tenemos una certeza del 95%, podemos afirmar que el
verdadero porcentaje de vacunados, estará entre:
75% ± 2 (2.16) = 75 ± 4.3, es decir, entre el 70.7 % y 79.3%
Lo mismo que en el caso anterior si estos límites parecen muy amplios y se desea mayor precisión,
podrá lograrse aumentando el tamaño de la muestra.

Así por ejemplo, si hubiera estudiado 1600 personas en vez de las 400 estudiadas y asumiendo
que si hubiera obtenido el mismo 75% de vacunados el E.E sería:

75x 25
= 1.17 = 1.08
1600

y los límites estarían entre:

75 ± 2 (1.08) = 75 ± 2.2, es decir, entre 72.8% y 77.2%.

19.7 Tamaño de la muestra (n).

Algo que inquieta frecuentemente al investigador, es el tamaño de la muestra que debe utilizar.
Esta preocupación es obvia, pues si la muestra es demasiado pequeña los resultados pueden
carecer de validez y si es demasiado grande, quizás represente al gasto de energías y recursos. El
tamaño de la muestra depende principalmente, de los siguientes factores:

1. Variabilidad del universo que se estudia, pues mientras más variable sea este, mayor ha de ser
el tamaño de la muestra.
2. Precisión que se quiere en los resultados, es decir, magnitud del error que podemos tolerar. Se
comprende que para afirmar el promedio del peso de un grupo de individuos está entre 40 y 60
kilos, se necesitará una muestra mucho más pequeña que si quisiéramos afirmar, que dicho
promedio está entre 50 y 51 kilos.
3. Margen de certeza que se desea obtener (95% o 99%), pues para determinada precisión
mientras mayor sea la certeza que se busca, mayor debe ser el tamaño de la muestra.

4. Como la precisión a que se aspire y la certeza que se desee, dependen del problema que se
estudie, podemos señalar que el tamaño de la muestra dependerá en parte de la aplicación
que se va a dar a los resultados que se obtengan (ver 19.3). Para fijar el tamaño de la muestra
debemos en primer lugar decidir sobre el margen de certeza que deseamos y sobre la
precisión que aspiramos en nuestros resultados. Luego, suponiendo por ejemplo, que
deseemos un 95% de certeza, mediante la igualdad: precisión deseada = 2 E.E., nos será fácil
despejar n. Como se ilustra en los siguientes párrafos en los cuales se estudia separadamente
el caso de los promedios y de los porcentajes.

19.7.1 Tamaño de la muestra en la estimación de un promedio.

Ejemplo: para conocer el promedio de peso de un grupo de escolares, se desea tomar una
muestra, en tal forma que el promedio estimado no difiere más de ½ kilo del verdadero valor del
universo, y que se pueda afirmar con un 95% de certeza que dicho resultado es correcto.

Como se quiere tener un 95% de certeza, hay que tomar 2 errores estándar, pues ya sabemos que
el 95% de las observaciones se encuentran en el intervalo determinado por:

x ± 2 E.E.

Esto quiere decir que el promedio de la muestra no debe diferir en más de 2 E.E, del promedio
verdadero del universo, o sea que si P es la precisión deseada o máximo error que podemos
tolerar, entonces podemos escribir:
P = 2 E.E
D.E
Y como ya sabemos que el error estándar del promedio es igual a: , reemplazando en la
n
igualdad anterior tendremos:

D.E
P=2
n

y por simple despeje algebraico encontramos que el tamaño de la muestra será:

2 D.E 2
n=( ) ( ∗)
P
Antes que debamos responder cuál debe ser el número de individuos que hay necesidad de
estudiar, es necesario conocer el valor de la Desviación Estándar. Es lógico que este valor solo
puede conocerse una vez que se haya hecho la investigación, pero un valor aproximado puede
obtenerse consultando la opinión de algún experto, o basándose en un estudio previo o recurriendo
a una encuesta piloto.

Generalmente un conocimiento de la población que vamos a estudiar nos permite predecir la


variación que se encontrará. Así por ejemplo podemos decir casi con seguridad –sin que ello sea
difícil- que el peso de los escolares presentará variaciones entre 30 y 48 kilos.

Ahora bien, como la desviación estándar es aproximadamente 1/6 de la amplitud total de la serie
(pues X ± 3D.E incluye la totalidad de la curva) podemos estimar, en el ejemplo dado, que:
48 − 30
D.E. = = 3
6
Si admitimos que para nuestro ejemplo presente D.E. = 3, entonces, con el fin de no cometer una
equivocación mayor de ½ kilo (P = 0.50), el tamaño de la muestra sería:
2 D.E. 2 2X 3 2
n=( ) = ( ) = 144
P 0,5

Es decir, que nuestra muestra de constar aproximadamente de 150 individuos.

19.7.2 Tamaño de la muestra en la estimación de un porcentaje.

Ejemplo: Se desea conocer con un 95% de certeza y sin cometer un error mayor de 3%, el
porcentaje de mujeres que hay en la Universidad.
Como se quiere tener un 95% de certeza hay que tomar 2 E.E. y por lo tanto; P, la precisión
deseada sería:

P = 2 E.E.
y como se sabe que el error estándar de un porcentaje es igual a 2 pq /n reemplazando en la
equivalencia anterior:


Como X = 2.58 cubre el 99% de las observaciones, si se quisiera una certeza del 99% la fórmula quedaría:
2.58 D.E
n =( )2
p
P=2 pq /n

de donde, finalmente, se deduce que el tamaño de la muestra será:

4 pq
n = P2 ( ∗)

De nuevo hay necesidad de tener un valor aproximado de p, es decir, conocer aproximadamente el


porcentaje de mujeres en la Universidad.

Este valor no necesita que sea muy preciso, pues note como p + q = 100, el producto de p x q es
más o menos igual, si “p” varía dentro de los límites prudenciales:

Si p = 40 entonces 40 x 60 = 2.400
Si p = 50 entonces 50 x 50 = 2.500
Si p = 60 entonces 60 x 40 = 2.400

Si en el ejemplo presente suponemos que alrededor del 20% de los estudiantes son mujeres (p =
20%), el número de individuos que debería tener la muestra con el fin de no cometer un error
mayor del 3% (P = 3%) sería, de acuerdo a la fórmula anterior:

4 pq 4(20 X 80 ) 710
n= = =
P2 P(3) 2 (3) 2

De la misma manera, si se supone que alrededor del 30% de los estudiantes son mujeres (p =
30%) y se quiere no cometer un error mayor del 5% (P = 5%), el tamaño sería:

4 pq 4(30 X 70)
n= = = 336
P2 (5) 2

Desde luego, no es indispensable examinar exactamente 336 alumnos, ya que de acuerdo al “p”
que encontraremos al tomar la muestra, el número anterior puede variar.

La fórmula sólo nos da un dato aproximado, pero de todos modos, tal dato es mucho más útil que
si se tomará arbitrariamente determinado número de individuos.


Si se deseara una certeza del 99% la fórmula quedaría:
6,6 pq
n=
P2
en donde 6,6 es el cuadrado de 2,58 ya que como se recordará, el intervalo X = 2,58 E.E. cubre el 99%
de las observaciones.
CAPITULO XX

ANALISIS DE LA INFORMACION:

LOS ESTUDIOS COMPARATIVOS


20.1 Generalidades.

Ya mencionamos anteriormente que la finalidad de los estudios comparativos es averiguar si


existen diferencias entre 2 o más grupos que se estudian y tratar de determinar las causas
capaces de explicarlas.

El hecho de que entre 2 grupos de pacientes tratados diferentemente se encuentren ciertas


diferencias, no debe hacernos concluir desde un principio que tales diferencias sean debidas a que
un tratamiento es mejor que el otro. En efecto, si suponemos que tenemos 2 grupos de pacientes,
el primero tratado con sulfadiazina y el segundo con Penicilina y que la letalidad fue
respectivamente 5% y 2%, la diferencia del 3% pudiera ser debida a una de las siguientes causas:

1. Falta de comparabilidad entre los 2 grupos, es decir, que los 2 grupos de pacientes no tenían
características semejantes.
2. Variación explicable por azar, pues según se ha visto, si 2 muestras son obtenidas del mismo
universo, los resultados no siempre serán exactamente iguales.
3. Mayor efectividad de la Penicilina con respecto a la Sulfadiazina.

Ahora bien, para poder concluir que el mejor resultado observado se debe a que la Penicilina es
más efectiva, habrá que descartar primero las otras 2 posibles causas:
Habrá que probar en primer lugar, que los grupos son comparables, pues de no serlo, ello ya sería
una explicación adecuada de las diferencias observadas. Será necesario luego, demostrar que no
es probable que el azar haya producido tales diferencias, pues si ellas pueden explicarse
fácilmente por éste, no sería necesario recurrir a otras explicaciones.

20.2 Comparabilidad de los grupos.

En medicina experimental, frecuentemente se busca evidenciar si algún tratamiento es mejor que


otro, y para ello se requiere que los grupos que se están comparando están homogéneamente
constituidos en relación a aquellas características que tienen relación con el problema que se
estudia.

Si por ejemplo, se está estudiando alguna enfermedad cuya mortalidad, depende en parte de la
edad, estado nutritivo y sexo de los pacientes, los 2 grupos deberán estar igualmente constituidos
con respecto a estos factores.

Sucede sin embargo, que aunque igualemos los 2 grupos con respecto a las características que
son conocidas, todavía pueden existir otras características desconocidas que influencian el
fenómeno que se estudia. En tal caso, la única manera de igualar los 2 grupos es mediante el
sistema al azar, el cual, a la larga, tiende a uniformizar su composición, haciéndolos equivalentes.
Si al azar no se ha usado como sistema de elección de los individuos que se estudian, nunca se
podrá estar seguro que los grupos son valederamente comparables y quedará duda si la diferencia
observada en la comparación se debe a una afectividad real del tratamiento o a una falta de
comparabilidad entre los grupos.

El siguiente ejemplo ayudará a aclarar los conceptos expresados anteriormente.


Hoy en día no hay ninguna duda de que existe una estrecha relación entre el hábito de fumar y el
cáncer de pulmón, pero ha sido imposible todavía probar de manera concluyente que el cigarrillo
produce la enfermedad.

Esta imposibilidad radica en que la asociación encontrada puede tener 3 explicaciones:

1. El cigarrillo produce cáncer.


2. El cáncer predispone al hábito de fumar (?)
3. Tanto el cáncer como el hábito de fumar son determinados por un tercer factor aún
desconocido.

CIGARRILLO

FACTOR DESCONOCIDO
CÁNCER

Nuestros actuales conocimientos médicos nos permiten descartar la hipótesis de que el cáncer
induzca al hábito de fumar, pero la tercera de las explicaciones mencionadas todavía sigue en pie.

Si se pudieran formar dos grupos al azar, de tal manera que a los individuos de un grupo se les
ordenará fumar y a los componentes del otro se les prohibiera hacerlo, podría estudiarse del
cáncer en unos y otros y cualquier diferencia encontrada podría atribuirse al cigarrillo, pues el azar
al igualar los grupos, haría una distribución más o menos homogénea de todos los factores,
conocidos o no, que pudieran influenciar la aparición de la enfermedad.

Como tal experimento no es posible, en la primera práctica se toman 2 grupos tan semejantes
como sea posible, pero nunca se puede igualar con respecto a todas las características conocidas
que puedan tener relación con la enfermedad y como es obvio, tampoco aquellas que son
desconocidas. En tales condiciones, de existir un factor desconocido que a la vez produjera el
cáncer y el hábito de fumar, el grupo de grandes fumadores sería a la vez el que tuviera más
cáncer y viceversa, y aunque exista una indudable asociación entre los 2 factores, dicha asociación
no podría interpretarse en el sentido de que el hábito de fumar produce la enfermedad.

Al comparar 2 o más grupos debe tenerse en cuenta que en ocasiones, especialmente cuando las
muestras son muy pequeñas puede suceder que a pesar que el azar haya sido utilizado como
sistema de elección, se presenten ciertas diferencias, debidas exclusivamente al hecho de que los
resultados que se comparan no son realmente comparables.

Vamos a suponer que con el fin de probar la hipótesis de que el estado nutritivo es mejor en las
familias pudientes que en las pobres, se hubieran escogido muestras probabilísticas de 2 escuelas
diferentes: la escuela A en donde asisten solamente niños ricos y la escuela B para los niños
pobres. Supongamos que los resultados hubieran sido los siguientes:
Cuadro 217
Peso de dos grupos de alumnos, por sexo

Escuela A Escuela B
Alumno Sexo Peso Alumno Sexo Peso
1 M 34 1 M 31
2 M 36 2 M 33
3 M 33 3 M 35
4 M 34 4 M 37
5 M 32 5 F 32
6 M 35 6 F 30
7 M 33 7 F 31
8 M 35 8 F 31
9 F 29 9 F 30
10 F 31 10 F 31
11 F 32 11 F 32
12 F 32 12 F 31

Escuela A: X = 396 / 12 = 33,0 kilos


Escuela B: X = 384 / 12 = 32,0 kilos

El investigador desprevenido, calculará los promedios respectivos para las dos escuelas y al
encontrar que los alumnos de la Escuela A pesan un promedio 1 kilo más que los de la escuela B,
daría por probada su hipótesis de trabajo.

Pero son en realidad comparables los grupos anteriores?. Puede observarse en los datos
precedentes que en la muestra de la Escuela A hay muchos más hombres que mujeres (8 vs. 4) y
que en la Escuela B, sucede lo contrario. Como el peso es una característica que en gran parte
depende del sexo, este factor no debe pasarse por alto al hacer la comparación. Si comparamos
los promedios de los varones para las 2 escuelas y hacemos luego lo mismo con las hembras,
encontraremos:

Masculino: X A= 272/ 8=34 Kilos; X B = 136/4 =34 Kilos

Femenino: X A= 124/4=31 Kilos; X B = 248/8= 31 Kilos


Es decir, teniendo en cuenta el sexo no existe absolutamente ninguna diferencia entre dos
escuelas; por lo tanto la diferencia controlada entre los dos promedios globales era una diferencia
artificial, debida exclusivamente al hecho que se estaba comparando grupos que no eran
comparables.

Este ejemplo ilustra por consiguiente la necesidad de ver primeramente si los grupos que van a
compararse son homogéneos con respecto a las características que tengan en relación con el
problema que se estudia, pues de no serlo, una comparación global de los resultados seria
inadecuada.

20.2.1 Importancia del grupo control

Comparar, por lo tanto involucra la existencia de un patrón de comparación con el cual puedan
contrastarse los resultados que estarás tratando de medir. Dicho de otra manera, en todo estudio
en que se pretenda probar que el tratamiento es eficaz, o se trate de determinar causa y efecto, a
lado del grupo experimental, debe haber un grupo control.

Son pocas las ocasiones en que dicho grupo control no es necesario. Así por ejemplo, se ha
señalado que, ningún control fue necesario para afirmar que la Estreptomicina era efectiva en el
tratamiento de la meningitis tuberculosa, ya que la experiencia había señalado que antes del
advenimiento de la droga, la enfermedad era siempre mortal. De la misma manera, cualquier
droga que pueda disminuir la letalidad de la rabia, no necesitar la existencia de un grupo control
para decidir que es efectiva, pues ya sabemos que la enfermedad una vez declarada conduce
inexorablemente a la muerte.

En todas las otras ocasiones, el grupo control es imprescindible y para que él sea conveniente,
debe ser escogido de tal forma, que sea perfectamente comparable con el grupo experimental.

Este grupo control puede ser escogido de dos maneras:

a. control histórico
b. control simultáneo
c. individuo de grupo experimental como sus propios controles
d. el universo como grupo control.

20.2.2 Control histórico

En esta modalidad, los resultados son observados en el grupo experimental y compactados con
aquellos obtenidos en épocas pasadas. Así por ejemplo, si se investiga la acción de una nueva
droga sobre la viruela, la letalidad observada en los pacientes sometidos a nuevo tratamiento, se
compara con la letalidad habitual observas en el pasado en pacientes con dicha enfermedad. Sin
embargo, para que esta comparación fuera valedera, habría que estar seguro de que atrevas de
los años no ha habido ningún cambio marcado en la virulencia de los gérmenes, en la
susceptibilidad de los individuos, ni en las condiciones que favorece la interacción entre gérmenes
y susceptibles. Como nunca tendremos certeza sobre los puntos anteriores, solo si se exceptúa
los casos en los cuales hay grandes diferencias entre el grupo experimental y el control histórico,
queda la duda sobre si dichas diferencias son debidas a la acción del nuevo tratamiento o que los
grupos no son comparables.

20.2.3 Control simultaneo

Por los motivos anteriores, el grupo control debe escogerse en tal forma, que los individuos que lo
integran sean similares al grupo experimental, en todas aquellas características importantes en
relación con el problema que se estudia. Es necesario que antes de asignar cada individuo al
grupo respectivo, se decida de antemano si él va a ser incluido o no en la investigación, pues en
caso contrario puede llegarse a una selección de la muestra. Hecha esta decisión los individuos se
repartirán por cualquier procedimiento al azar que garantice, su correcta distribución. Entre estos
procedimientos hay tres principales:

1. Alternación. Consiste en decidir al azar, el grupo al cual pertenezca el primer individuo


escogido y los restantes, se distribuirían alternadamente en los diferentes grupos. El simple
lanzamiento de una moneda a cara o sello decidirá el grupo al que ira el primer individuo, en el
caso en que se estudien dos grupos.

2. Pareamiento. Si son dos grupos, se escogen primero pares de individuos que sean tan
semejantes como sea posible, con respecto a determinado número de características (mismo
sexo, misma edad, mismo peso, etc.) y luego, mediante al azar, se determina el grupo al que
pertenecerán los integrantes de cada par. El mismo procedimiento general se aplica cuando
se trata de más de dos grupos.

3. Azar simple. Los individuos se asignan a los grupos mediante el uso de tablas de números al
azar, según lo explicado en el capítulo sobre muestreo. En la práctica, si son, dos grupos, se
prepare una serie de sobres cerrados, la mitad para el grupo control y la otra mitad para el
grupo experimental. Una vez que se decida que el individuo formara parte de la investigación,
se tomara un sobre para decidir el grupo en que se incluirá.
20.2.4 Los mismos individuos como su propio grupo control.

En ocasiones los mismos individuos hacen a la vez de grupo experimental y de grupo control, para
lo cual se hacen determinadas indecisiones en cada individuo, antes y después de aplicarle las
droga que se estudia o de someterlo al estímulo que se investiga. Este método debe utilizarse
siempre que las condiciones de la investigación lo permitan.

20.2.5.1 El Universo como Grupo control.

Los resultados observados en una muestra que ha sido sometida a un estímulo especial, se
comparan con lo que ocurre en el universo del cual fue extraída la muestra.

20.2.5.2 Eliminación del azar como causa de las diferencias observadas.

Una vez seguros que las muestras son comparables y Antes que tratemos de investigar las
causas de las diferencias observadas, es necesario descartar la influencia del azar, pues ya
sabemos que debido al error por muestreo, habitualmente se observan ciertas diferencias entre
diversas muestras provenientes del mismo universo.

No hay en realidad ningún procedimiento que nos indique con certeza absoluta cuales muestras
proceden de un determinado universo y cuáles no, pero podemos aceptar el criterio de que
aquellas muestras que ocurren con una frecuencia menor al 1% (0 al 5%) son tan improbables
que en ausencia de información al respecto, se considerarán como provenientes de otro
universo.

El problema por lo tanto, se reduce a averiguar con qué frecuencia se presentan las diferentes
muestras, cuando muestras repetidas se extraen de determinados universos.

Ahora bien, se ha señalado que el azar es ordenado y al estudiar el error estándar, concluimos
que:

X ± 1E.E. incluye al promedio del universo en el 68.2% de los casos.


X ± 2E.E incluye al promedio del universo en el 95.4% de los casos.
X ± 2.58 E E. Incluye al promedio del universo en el 99 de los casos.
X ± 3 E. E. Incluye al promedio del universo en el 99.7% de los casos.
Lo anterior quiere decir que muestras cuyos promedios difieran del verdadero promedio del
universo en más de dos errores estándar solo se presentan con una frecuencia inferior al 5%
(100 % -95% = 5%) y aquellas que difieran en más de 3 errores estándar, solo aparecen con una
frecuencia menor al 0.3%.

Dicho de otra manera: si la diferencia entre el promedio de una muestra y el promedio del universo
es mayor que 2 veces el error estándar, tal diferencia solo puede observarse por azar en menos
del 5% de los casos y si dicha diferencia es mayor que 3 veces el error estándar su ocurrencia es
mucho menor al 0.3%.

Por consiguiente, si hemos adoptado el criterio de llamar improbables resultados que se presentan
con una frecuencia menor al 5% designaremos como tales, todas aquellas diferencias mayores a 2
errores estándar. Igualmente, si adoptamos el criterio de llamar improbables solamente aquellos
resultados que se presentan con frecuencia menor al 0.3%, se designaran como tales las
diferencias que exceden a 3 veces el error estándar.

Dichas diferencias, tan improbables en su aparición (menos del 1% o del 5%, según el criterio que
se adopte), se denominan “estadísticamente significantes” o simplemente “significantes”.
El hecho de que clasifiquemos como improbables las muestras qu4e se presentan con frecuencia
menor al 1% o al 5%, es una cuestión arbitraria que debe decidirse de acuerdo a cada problema
particular. Al estudiar el error estándar, señalamos que mientras más exigente nuestro estándar
acerca de lo que es improbable (1% en vez del 5%), más probabilidad hay de fallar en reconocer
diferencias en realidad son verdaderas. Si por el contrario, rebajamos nuestro estándar (5% en
vez del 1%), corremos el peligro de calificar como reales, diferencias que en verdad no lo son.
Recuérdese sección 19.3.

20.2.6 Interpretación de la significancia estadística

A menudo el investigador cree terminada su responsabilidad concluyendo que el resultado es o no


significante, lo cual se debe a que habitualmente se ignora el verdadero significado de estos
términos.

Un resultado se denomina significante cuando no puede explicarse fácilmente por azar, pero esto
no quiere decir que no pueda haber sido producido por él.

De la misma manera, un resultado se cataloga como “no significante”, cuando puede ser fácilmente
producido por el azar, a pesar de que en el caso estudiad este no haya intervenido en su
producción.

Esta aclaración es necesaria porque un resultado significante no es una prueba concluyente de


que existan diferencias reales, de la misma manera que un resultado no significante pruebe que
ellas no pueden existir.
El resultado significante o no significante es solo una evidencia más a favor o en contra de la
hipótesis que se busca probar y corresponde al investigador reunir esta evidencia a cualquier otra
disponible, antes de interpretar los hechos que ha observado.

Al interpretar estos resultados hay 2 importantes limitaciones que deben tenerse en cuenta:

a. Un resultado significante no puede interpretarse como evidencia de casualidad. En el estudio


de Bradford Hill y Richard Doll, sobre cáncer pulmonar- Que ya hemos comentado -, la
diferencia en la aparición de la enfermedad entre fumadores y no fumadores, es
estadísticamente significante, pero por razones entonces explicadas, no puede concluirse que
él habita de fumar sea el causante de la enfermedad

b. Un resultado “estadísticamente significante” no tiene ninguna importancia si no es al mismo


tiempo “prácticamente significante” no tiene ninguna importancia si no es al mismo tiempo
“prácticamente significante”. Como veremos en próximos capítulos, mientras mayor sea el
tamaño de la muestra, mayor será la probabilidad que determinada diferencia sea significante.
Así por ejemplo, si un tratamiento A, cura el 20% de los pacientes y otro tratamiento B, al 22%,
tal diferencia no es significante en grupos de 50 personas, pero si lo es en grupos de 10.000.
Sin embargo, como el objetivo de averiguar si determinado resultado es o no significante, es
tomar una acción subsecuente, tal diferencia del 2% es de muy escasa utilidad en el terreno
práctico.

20.3.1.1 Pruebas de significancia estadística

Son numerosas las pruebas estadísticas utilizadas con la finalidad de medir la influencia del azar y
cada una de ellas suele tener aplicaciones perfectamente definidas. La escogencia de la prueba
más conveniente depende principalmente de los siguientes factores:
a. Número de grupos que se comparan, es decir, según se trata de 2 grupos, o 3 o más.

b. Número de individuos en cada grupo, pues si son pocos, las técnicas son por lo general mucho
más difíciles. Tales pruebas no serán estudiadas en este curso.
c. Escala de clasificación utilizada, pues las pruebas estadísticas son mucho más fáciles cuando la
escala es cualitativa.

d. Grupos independientes o no. Cuando los individuos de un grupo son distintos a los del otro, las
muestras se llaman independientes. En los casos en los cuales los individuos se usan como
grupo control o cuando se escogen por pares semejantes antes de asignarlos al respectivo grupo,
las muestras se llaman dependientes y las técnicas de análisis son diferentes a las del caso
anterior.

Teniendo en cuenta os anteriores puntos, podemos resumir de la manera siguiente, las técnicas de
análisis que serán motivo de los próximos capítulos:

A. Muestras independientes.

1. Comparación entre 2 grupos

1. Estudio resumido por frecuencias relativas Pruebas de


2. Estudio resumido por promedios curva normal

b. Comparación entre más de 2 grupos:


1. Estudio resumido por frecuencias relativas:
Prueba de Chi Cuadrado
2. Estudio resumido por promedios: Prueba de
Kruskal Walles grupos no independientes

c. Comparación entre dos grupos:

1. Estudio resumido por f. relativas. Pruebas modificadas de curva normal


2. Estudio resumido por promedios.

d. Comparación entre más de 2 grupos: Debido a su dificultad no se estudiaran.


CAPITULO XXI

COMPARACION ENTRE EL PROMEDIO DE UNA MUESTRA Y EL PROMEDIO


DEL UNIVERSO
EJEMPLO PRÁCTICO: Se investigará el número de pulsaciones por minuto en 16 hombres,
presumiblemente normales, obteniéndose los siguientes resultados:

Cuadro 225

Pulsaciones por minuto en 16 individuos normales.

Individuos Pulsaciones x minuto Desviaciones Desviaciones al cuadrado


1 70 -4 16
2 66 -8 64
3 82 8 64
4 64 -10 100
5 65 -9 81
6 88 14 196
7 82 8 64
8 70 -4 16
9 70 -4 16
10 84 10 100
11 85 11 121
12 68 -6 36
13 84 10 100
14 76 2 4
15 65 -9 81
16 65 -9 81
Total 1184 1140

PROMEDIO = 1.184/16 =74

1140
D.E.= = 71.25 =8.45
16

Se desea saber con un 95% de certeza, si el promedio observado en este grupo se diferencia
significativamente del valor de 70 pulsaciones, considerado como normal.

21.2. Discusión.

Si de un universo de hombres normales, el promedio de pulsaciones fuera de 70 por minuto, se


extrajeran repetidas muestras de individuos y para cada una se calcularía el respectivo promedio,
es indudable que los promedios así obtenidos no serán del todo exactos. Ellos se distribuirán
alrededor del verdadero promedio del universo (70 pulsaciones) formando, una curva normal
alrededor de 70 y con una desviación estándar que se calcula mediante:

DE
n
Esta fórmula se recordará, es el error estándar del promedio, donde “0” es la desviación estándar
de la muestra que se está estudiando, calculada por el método previamente aprendido y “n” el
número de personas estudiadas.

Como ya sabemos que el promedio más o menos 2 EE, determina el límite dentro, del cual está
el 95% de la muestra, solo quedará un 5% fuera de estos límites. Este 5% de muestras tan
diferentes del universo y de aparición poco frecuente, debe considerare proveniente de otros
universos, a no ser que se sepa de ante mano que proviene de él.

El ejemplo que estamos estudiando el valor:

𝐷𝐸 8.45
= = 2,11
√𝑛 √16

y por lo tanto, los límites dentro de los cuales estará el 95% de la muestra será:

70 ± 2 (2.11)
es decir, entre 65,78 y 74,22 pulsaciones por minuto.

Gráfico 227

Posición de la muestra estudiada en relación a las zonas de significancia de la curva


normal.

Como el promedio de nuestra muestra (74) se encuentra dentro de estos límites, podemos
concluir que ella proviene de un universo cuyo promedio es de 70,o usando la terminología
estadística, la muestra no difiere significativamente de 70.

Anteriormente hay 2 procedimiento equivalente al anterior, que se suele emplear en su lugar:

a. Puede dividirse la diferencia que existe entre el promedio de la muestra y el promedio del
universo (74-70=4) por el error estándar:

Diferencia 74 − 70 4
= = = 1,89
ErrorEs tan dar 2,11 2,11
y buscar este resultado en Tablas de Áreas de la Curva Normal (ver página 202), para conocer la
probabilidad que existe de encontrar por azar una muestra que como la presente difiera en 4
pulsaciones del valor del universo. En nuestro ejemplo, buscando en tales tablas el valor 1,89
vemos que esta probabilidad es casi 6% y como hemos adoptado el criterio de que un fenómeno
que se presente con una frecuencia mayor del 5% no es improbable, concluiremos como antes,
que nuestra muestra no difiere significativamente de 70.

b. Si no se está interesado en buscar la probabilidad del suceso, sino de saber solamente si el


resultado es o no explicable por el azar, basta ver si el resultado de la división anterior (diferencia
sobre E.E) es mayor o menor que 2. Si es menor que 2, se concluirá igualmente que la diferencia
no es significante.

21.3. Resumen del procedimiento.

Una vez obtenido el promedio y la D.E. del grupo que se estudia se seguirá los siguientes pasos:

1. Obtener la diferencia entre el promedio del grupo y el promedio general del universo:

Diferencia = 74 – 70 = 4
2. Obtener el error estándar del grupo que se estudia mediante la fórmula: σ / n , en donde σ es
la desviación estándar de la muestra y n el número de personas que se han observado:

8,45 8,45
E .E . = = = 2,11
16 4

3. Dividir la diferencia obtenida en el punto (1) por el error estándar:

Diferencia 4
= = 1,89
E.E. 2,11

4. Buscar en una tabla de áreas de la curva normal, la probabilidad correspondiente al valor que se
acaba de calcular o simplemente ver si es mayor que 2, según se ha indicado.

21.4 Efecto del tamaño de la muestra.

Note que si la misma D.E.= 8,45 se hubiera obtenido en una muestra de 25 personas en vez de 16,
entonces se hubiera concluido que el promedio de la muestra difería significativamente del
promedio de 70 pulsaciones.

En efecto en tal caso:

σ 8,45
E .E = = = 1,69
25 5

Diferencia 74 − 70 4
y = = = 2,4 valor significante ( ∗).
E.E 1,69 1,69


En esta prueba de significancia, al igual que en las otras que se ilustran en próximos capítulos, un resultado se clasificará
como “significante” cuando la probabilidad de que aparezca por azar sea menor al 5% es decir, cuando Diferencia Error
Estándar sea mayor que 1,96. Debe recordarse no obstante, que algunos catalogan como significantes, solamente aquellos
resultados que pueden aparecer por azar 1% o menos de las veces (diferencia / E.E. igual o mayor que 2,58) y como “no
significantes” cuando su aparición es igual o superior al 5%. Si se adopta este criterio, toda diferencia que se presente con
una frecuencia entre el 1% y el 5% (diferencia / Error Estándar entre 1,96 y 2,58), se catalogará como resultado de
De una manera general, la fórmula DE / n señala, que el error estándar es directamente
proporcional a la desviación estándar e inversamente proporcional a la raíz cuadrada de tamaño de
la muestra. Mientras mayor el tamaño de ésta, menor será el error estándar y más probabilidades
habrá de que determinada diferencia sea significante.

“significancia dudosa”, lo cual quiere decir que la decisión debe ser aplazada hasta que haya más evidencia disponible.
Aunque este proceder es aparentemente acertado, parece una cautela innecesaria si se tiene siempre presente lo expuesto
en la sección 20.31 a propósito de la interpretación de la Significancia Estadística (véase página 222).
CAPITULO XXII
COMPARACIÓN ENTRE EL PORCENTAJE DE UNA MUESTRA Y EL DEL UNIVERSO

22.1 Problema práctico.

En una epidemia de viruela mayor se presentaron 80 casos de los cuales murieron 24, o sea que
hubo una letalidad del 30%.

Como la fatalidad usual para esta enfermedad es 25%, se desea saber con un 95% de certeza, si
la diferencia del 5% que se observa (30-25=5) puede ser explicada por azar.

22.2 Discusión.

Si repetidas muestras de 80 casos fueron tomadas de un universo de enfermos cuya fatalidad es


25% y si en cada muestra se computara la tasa de letalidad, dichas tasas no serían exactamente
iguales, sino que se distribuirían formando una curva normal, centrada en el verdadero valor del
universo (25%) y con una desviación estándar dada por:

p´q´
n
Esta fórmula es “error estándar de un porcentaje” en la cual:

p´ es el porcentaje de casos que mueren en el universo (25%).


q´ es el porcentaje de casos que se salvan en el universo (75%).
n es el número de individuos estudiados, o sea 80.

Se notará que esta es la misma fórmula estudiada en el capítulo XIX, pero mientras allí
utilizábamos los valores p y q de la muestra, por no conocer los del universo, ahora usamos p´ y q´,
es decir los correspondientes valores del universo, ya que siendo ellos conocidos, no es necesario
estimarlos a partir de la muestra,
p´q´
en nuestro ejemplo, el valor
n
es igual a 4,8% y según el criterio adoptado anteriormente, los límites de no - significancia estarán
entre:
25% ± 2(4,8) , es decir, entre 15,4% y 34,6%.
Gráfico 231

Posición de la muestra estudiada en relación a las zonas de significancia de la curva normal

Como la letalidad del 30% observada en nuestra muestra se encuentra dentro de estos límites, se
puede concluir que la observada diferencia del 5%, muy posiblemente fue obra del azar.

En igual forma que el ejemplo del capítulo anterior, hay dos procedimientos alternativos:

a. Dividir la diferencia que existe entre el universo y la muestra por el correspondiente error
estándar:

Diferencia 30 − 25
= = 1,04
ErrorEstándar 4,8

y buscar en Tablas de Áreas de la Curva Normal (véase página 202), la probabilidad que existe de
encontrar por azar una muestra que difiera de su universo en el porcentaje observado. En nuestro
ejemplo, la probabilidad correspondiente a 1,04 es aproximadamente 30%, o sea, que 30 veces de
cada 100, se encontrarán por azar, diferencias como la observada, lo cual desde luego, es una
ocurrencia demasiado frecuente, para considerar significante.

b. De una manera más breve, cuando no se está interesado en hallar la probabilidad de tal suceso,
sino en saber simplemente si la diferencia es o no significante, se dividirá dicha diferencia por el
error estándar y si el resultado es mayor que 2, se concluirá que es significante. En nuestro caso,

Diferencia 30 − 25
= = 1,04
ErrorEstándar 4,8

valor no significante, fácilmente explicable por el azar.

22.3 Resumen del procedimiento.

1. Se buscará la diferencia entre la letalidad usual de la enfermedad y la letalidad observada en la


muestra que se estudia:

Diferencia = 30% - 25% = 5%

2. Se calculará el error estándar del porcentaje mediante:


p´q´
n
en donde como dijimos:

p´ = 25% = porcentajes de casos fatales en el universo.


q´ = (100-25) = 75% = porcentajes de casos que se salvan.
n = número de enfermos estudiados en nuestra muestra.

En nuestro ejemplo:

p´q´ 25 × 75
E.E = = = 4,8
n 80

3. Se divide la diferencia obtenida en el punto (1) por el error estándar:

Diferencia 30 − 25 5
= = = 1,04
Estándar 4,8 4,8

4. Se ve si el último valor es mayor o menor que 2, y si es menor, se dirá que la diferencia


observada no es significante, es decir, que muy posiblemente es debido al azar.

22.4 Observaciones.

a. Si en vez de porcentajes estuviéramos usando por ejemplo, tasas por 1.000, el procedimiento
sería el mismo, recordando tan sólo que p`+ q´ = 1.000.

En el problema presente, si la mortalidad en el universo fuera 250 x 1.000 y la mortalidad en la


muestra 300 x 1.000 entonces:

p´ = 250, q´ =750 y la diferencia: 300 – 250 = 50

250 × 750
E .E = = 48 ; y,
80

Diferencia 50
= = 1.04 , como anteriormente.
E.E 48
b. Lo mismo que en el ejemplo del capítulo XXI, mientras mayor el tamaño de la muestra, mayor
será la probabilidad de encontrar significancia estadística. Si la muestra hubiera sido cuatro veces
mayor, el error estándar se hubiera reducido a la mitad:

25 × 75
E.E = = 2,4 ; y, entonces:
320

Diferencia 30 − 25
= = 2,1
E.E 2,4
valor significante que indicaría que la diferencia observada no es fácilmente explicable por el azar,
y entonces cabría suponer que el actual brote epidémico es de una gravedad mayor que la usual, o
que el tratamiento últimamente empleado no es tan efectivo como el antiguo. En fin, la evidencia
estadística se reunirá a cualquiera otra disponible con el fin de hacer las correspondientes
deducciones.
CAPITULO XXIII

COMPARACION ENTRE LOS PROMEDIOS DE DOS MUESTRAS


INDEPENDIENTES
23.1 Ejemplo práctico.

En un problema anterior se estudió el número de pulsaciones de 16 hombres normales y se


encontró que el promedio fue de 74 por minuto, con una D.E. igual a 8,45.

Supongamos que al mismo tiempo se estuvieran estudiando 16 mujeres, con los resultados que a
continuación aparecen.

Cuadro 235
Pulsaciones por minuto en 16 mujeres normales

Individuos Pulsaciones por minutos Desviaciones Desviaciones al cuadrado


1 76 -1 1
2 72 -5 25
3 79 2 4
4 65 -12 144
5 70 -7 49
6 88 11 121
7 80 3 9
8 76 -1 1
9 78 1 1
10 84 7 49
11 86 9 81
12 74 -3 9
13 84 7 49
14 78 1 1
15 70 -7 49
16 72 -5 25
Total 1.232 0 618

1.232
Pr omedio = = 77
16

618
D.E. = = 38,62 = 6,21
16

Se desea saber si el promedio de pulsaciones para los hombres difiere significativamente del de
las mujeres o si la diferencia observada es fácilmente explicable por el azar.

23.2 Discusión.

Aunque no hubiera ninguna distinción entre hombres y mujeres con respecto al número de
pulsaciones por minuto, no quiere esto decir que los promedios de las dos muestras tengan que
coincidir exactamente. En efecto, si repetidos pares de muestras de 16 individuos cada una, se
extraen del mismo universo, en cada par se podrá computar el promedio para la primera y para la
segunda muestras X 1 y X 2 respectivamente. La diferencia entre estos dos promedios (-) será
unas veces cero y otras veces mayor o menor. De todas maneras, diferencias muy grandes,
positivas o negativas serán extraordinariamente raras.
Estas diferencias se distribuirán en forma de una curva normal centrada en 0 (cero) y con una
desviación estándar dada por la fórmula:

(E.E ) = X 1 − X 2 = (E.E )12 + (E.E )22


Esta fórmula se conoce con el nombre de “error estándar de la diferencia entre 2 promedios”. En
ella: (E.E)1 es el error estándar de la primera muestra y (E.E.)2 el error estándar de la segunda, que
serán calculados en la misma forma previamente estudiada.

Como ya sabemos que el promedio más o menos 2 errores estándar incluirá el 95% de las
muestras, sólo se considerarán como provenientes de diferentes universos, diferencias ( X 1 - X 2 )
que se encuentran fuera de los límites determinados.

En nuestro ejemplo: el valor (E.E )12 + (E.E )22 , calculado por el método que luego se explicará,
es igual a 2,6 y por lo tanto, los límites dentro de los cuales estará el 95% de las diferencias entre
pares de muestras procedentes del mismo universo será:

0 ± (2,6), es decir, entre –5,2 y +5,2

Gráfico 237

Posición de la diferencia observada en relación a las zonas de significancia de la curva


normal

Como la diferencia entre los promedios de las dos muestras que estamos estudiando (77-74=3) se
encuentra dentro de estos límites, se concluye que la diferencia observada no es significante.

Alternativamente del mismo modo que hicimos en los problemas anteriores, podemos:

a. Dividir la diferencia de los dos promedios (77-74=3) por el error estándar de la diferencia:

Diferencia 3
= = 1,1
E.E 2,6
CAPITULO XXIV

COMPARACION ENTRE LOS PORCENTAJES


DE DOS MUESTRAS INDEPENDIENTES
24.1 Problema práctico

En un hospital se trataron por el método clásico, 80 casos de viruela mayor, de los cuales murieron
24, una letalidad del 30%. Otros 120 pacientes fueron sometidos a un nuevo tratamiento, sobre
cuya efectividad existía favorables indicios, En este último grupo fallecieron 30 pacientes, una
letalidad del 25%. Se desea saber si la diferencia del 5%, observada entre los dos grupos de
pacientes, puede ser atribuida al azar o si se debe buscar otra explicación.

Cuadro 240
Viruela, Casos y Defunciones, por tratamiento

Tratamiento Casos Defunciones Letalidad x 100


Tratamiento clásico 80 24 30.0 (p1)
Tratamiento nuevo 120 30 25.0 (p2)
TOTAL 200 54 27.0 (p3)

24.2 Discusión

Si una muestra de 80 y otra de 120 fueran tomadas del mismo universo de pacientes, aunque el
tratamiento no tuviera efecto, la diferencia entre las dos tasas de letalidad no sería necesariamente
0 (cero).

Por lo tanto si se tomaran repetidas pares de muestra y se calculara la diferencia en la tasa de


letalidad de cada par, esas diferencias se distribuirían en una curva normal centrada en cero y con
una desviación estándar dada por la fórmula:

po qo po qo
(E.E) p1-p2 = +
n1 n2

La fórmula anterior llamada “error estándar de la diferencia entre dos porcentajes” y cuya
aplicación luego veremos, nos da en nuestro ejemplo un valor igual a 6.4%.
Gráfico 241

Posición de la diferencia observada en relación a las zonas de significancia de la curva


normal

Como X ± 2 E.E incluye 95% de las muestras, tomando E.E a cada lado del promedio,
encontraremos que diferencias entre muestras, que se encuentran entre – 12.8% no se
consideran como significantes y por consiguiente la diferencia de 5% observada entre nuestros dos
grupos de enfermos (30%-25%=5%), puede haber sido producida por el azar.

De la misma manera que en previos ejemplos:

A) podemos dividir la diferencia observada por el error estándar de la diferencia, ósea:

Diferencia 5
= = 0.78
E.E 6.4
buscar la probabilidad que existe de encontrar por el azar una diferencia como la observada.

La probabilidad correspondiente a 0.78 es de 43% es decir, que de cada 100 veces habrá 43 en
las cuales puede encontrarse por azar una diferencia como la anotada. Fenómenos que se
presentan con esta frecuencia no son raros y por consiguiente, podemos concluir que no hay
evidencia suficiente para afirmar que un tratamiento sea mejor que el otro.

B) Ver simplemente si el resultado de la división anterior es menor que 2, caso en el cual la


diferencia estudiada no es significante.

24.3 Resumen del procedimiento

1) Los datos deben colocarse como en el cuadro de la página anterior, con el fin de saber
cuántas defunciones ocurrieron en los dos grupos juntos y conocer cuál fue la letalidad en el total
de pacientes. Como en el total hubo 200 pacientes, de los cuales murieron 54 la letalidad conjunta
fue del 27% es decir:

54 × 100
= 27%
200
Como no se conoce la letalidad del universo, esta letalidad conjunta de 27% se tomara como una
buena estimación de aquella. Ella será p o , la probabilidad que un paciente muera y por lo tanto,
qo , la probabilidad que un paciente no muera, será igual a 100-27= 73%.

2) Se calculara el error estándar de la diferencia de los dos porcentajes mediante la fórmula:

po qo po qo
+
n1 n2

En el cual:

p o = letalidad global para los pacientes de los dos grupos (27%)


q o = 100- p o = 100-27 = 73%.
n1 = número de individuos en la primera muestra (80)
n2 = número de individuos en la segunda muestra (120)

En nuestro ejemplo:

27 × 73 27 × 73
(E.E.) p1− p 2 = + = 6.4
80 120

3) Se averigua la diferencia entre la letalidad del primer grupo de pacientes y la del segundo:

Diferencia = ( 30% - 25%) = 5%

4) Dicha diferencia se divide por el “Error estándar de la diferencia” encontrado en el punto (2), es
decir:

Diferencia 30 − 25 5
= = = 0.78
E.E 6.4 6.4
5) Si el anterior valor es menor que 2 se concluirá, como en el caso presente, que la diferencia
observada en la letalidad de los dos grupos de pacientes, no es significativa.

24.4 Observaciones.

En algunos textos se utilizan en lugar que el anterior la formula siguiente:

p1 q1 p 2 q 2
+
n1 n2

Es decir, en vez de tomar la letalidad conjunta de los 2 grupos ( p o ) , como estimación de la


letalidad de universo, se emplea la letalidad de la primera muestra ( p1 ) para calcular su error
estándar y la letalidad de la segunda muestra ( p 2 ) para calcular el error estándar de ella.
Esta fórmula es errónea aunque suele dar valores muy cercanos a la formula correcta que
explicamos en el texto, no debe utilizarse, pues en algunas ocasiones, especialmente cuando el
tamaño de las dos muestras es muy diferente puede darse el caso que la formula correcta señale
diferencias estadísticamente significantes y que la fórmula que estamos comentando, indique falta
de significancia en los resultados.

Considérese como ilustración de lo anterior los siguientes datos teóricos sobre 100 pacientes.

Cuadro 244

Pacientes por tratamiento y resultado

Droga Casos Defunciones Letalidad


A 80 12 15% ( p1 )
B 20 7 35% ( p 2 )
Total 100 19 19% ( p 3 )

Aplicando la formula correcta:

po qo po qo 19 × 81 19 × 81
E.E= + = + = 9.8
n1 n2 80 20

Diferencia 35 − 15
= = 2.1 significante.
E.E 9.8

Aplicando la formula incorrecta:

p1 q1 p 2 q 2 15 × 85 35 × 65
E.E.= + = + = 11.3
n1 n2 80 20

Diferencia 35 − 15
= = 1.8 no significante
E.E. 11.3
CAPITULO XXV
CHI CUADRADO X

25.1 Introducción

La curva normal solo puede usarse cuando son dos los grupos que se comparan.

Cuando quieren compararse 3 o más muestras, su aplicación es incorrecta a causa del siguiente
hecho: “Al comparar 2 grupos, si tomamos 2 E.E., tenemos un 95% de certeza en nuestras
afirmaciones y podemos estar equivocados en el 5% restante de los casos. Si comparamos 3
grupos, A, B, C, por el mismo procedimiento, habría que hacer tres comparaciones diferentes, A, vs
B, A vs C, y B vs C y como en cada comparación se puede cometer el 5% de error, el error global
cometido podría alcanzar el 15%. Si fueran 4 los grupos estudiados, habría 6 comparaciones
diferentes y el error que pudiera cometerse alcanzaría al 30%.

Cuando se desea comparar más de dos grupos, no puede aplicarse por lo tanto, las pruebes de
significancia estudiadas hasta ahora.

Si se quisiera comparar los promedios de varios grupos de individuos, habría que recurrir al
llamado Análisis de la Variancia, cuya técnica por ser muy complicada, no se estudiara, aunque en
el próximo capítulo ilustremos un procedimiento sencillo que permite hacer correctamente tales
comparaciones.

Cuando lo que se quiere comparar es una serie de porcentajes tasa, puede recurrirse a la llamada
“Prueba de Chi Cuadrado”, cuya aplicación general se ilustrara en el siguiente ejemplo.

25.2 Ejemplo Práctico

Tres drogas diferentes se ensayaron para el tratamiento del catarro común midiéndose su
efectividad de acuerdo al porcentaje de pacientes que mejoraron dentro de las 24 horas siguientes
a la iniciación del tratamiento. Los resultados de dicho tratamiento aparecen resumidos en el
siguiente cuadro:

Cuadro 247

Pacientes con catarro común por tratamiento y resultado

Droga Curación Fracaso Total Pacientes Porcentaje de Curación


Droga A 12 38 50 24.00
Droga B 27 123 150 18.00
Droga C 21 79 100 21.00
Total 60 240 300 20.00

Se desea saber si las diferencias observadas se deben a distinta efectividad de los tratamientos
empleados o si ellas pueden explicarse razonablemente por el azar.

25.3 Discusión

El porcentaje general de curaciones para los 3 grupos tomados en conjunto fue de 20% (60 ×
100/300=20%). Si tomamos dicho porcentaje como una buena aproximación de lo que sucede en
el universo de donde proceden los pacientes que se estudian podemos darnos cuenta que si los
tres tratamientos fueran eficaces en igual grado, el porcentaje de curaciones en cada uno de ellos
fuera del 20% en vez de 24%, 18%, y 21% como se ha observado en los datos del problema.
Por lo tanto, asumiendo un porcentaje de curación de 20% para cada uno de los grupos, se podría
calcular el número de pacientes que debiera mejorar con cada tratamiento.

Así por ejemplo, en los pacientes del primer grupo, él número de curaciones seria 10 de las 12
observadas (20% de 50=10) y él número de persona s que no curaron seria c40, es decir 50 – 10 =
40.

Igualmente de los 150 pacientes que recibieron la droga B, debieron curar 30 (20% 150 = 30) y de
los que recibieron la droga C, debieron haber curado 20 en vez de 21 que curaron.

Estas frecuencias teóricas (T) junto con las frecuencias observadas (O) en el experimento servirán
de base para el cálculo de Chi Cuadrado.

25.4 Cálculo de Chi Cuadrado

En el siguiente cuadro se resumen los cálculos necesarios para la obtención de X 2 los cuales se
explicaran a continuación.

Cuadro 248

Cuadro de Chi Cuadrado


Curaciones Fracasos
Droga
O Total (O-T) (O-T)2/T O Total (O-T) (O-T)2/T
(1) (2) (3) (4) (5) (6) (7) (8) (9)
A 12 10 2 0.4 38 40 -2 0.1
B 27 30 -3 0.3 123 120 3 0.075
C 21 20 1 0.05 79 80 -1 0.0125
Fuente de datos del cuadro 247

Los pasos a seguir son los siguientes:

1. Se obtendrán las frecuencias teóricas (T) correspondientes a cada una de las casillas del
cuadro lo cual se logra según se acaba de explicar multiplicando el porcentaje global del
cuadro por el total de pacientes en cada tratamiento. El mismo resultado puede obtenerse,
multiplicando para cada cifra observada (O), los dos subtotales que le son comunes y
dividiendo por el total general del cuadro. Así por ejemplo (véase en el cuadro 247) los dos
subtotales para los 12 pacientes que curaron con la droga A, son: 50 y 60 y por consiguiente la
respectiva frecuencia teórica será:

50 × 60
= 10
300
Igualmente para los 27 pacientes que curaron con la droga B los subtotales correspondientes son:
60 y 50 y la frecuencia teórica será:

60 × 150
=30
300
Estas frecuencias teóricas aparecen en las columnas 3 y 7 del cuadro anterior

2. Se restara cada valor observado (O) el correspondiente valor teórico (T) acabado de calcular
(columnas 4 y 8)
3. Cada una de las diferencias anteriores (O- T) se elevara al cuadrado y se dividirá por la
respectiva frecuencia teórica, o sea:

(12 − 10) 2 (27 − 30) 2


: ; etc
10 30
4. La suma de todos los resultados anteriores (columna 5 y 9) será el valor de Chi Cuadrado:

(O − T ) 2
X2 =∑
T
El cual en nuestro ejemplo dará:

(12 − 10) 2 (27 − 30) 2 (79 − 80) 2


X2 = + + ......... + . =
10 30 80
=0.40+0.30+0.05+0.10+0.07+0.01=0.93

25.5 Interpretación de χ2

De acuerdo a lo acabado de exponer es fácil arce cuenta de:

a. Cuando las frecuencias observadas coinciden con las teóricas, χ 2 = 0.


b. El valor de χ será mayor, cuanto más grandes sean las diferencias entre los valores
2

observados y los teóricos.


c. El valor de χ 2 será mayor mientras mayor sea el número de grupos que se estudian..

De acuerdo a este último punto se comprende que para la interpretación de χ , es necesario


2

tener en cuenta no solamente su valor, sino también el número de grupos y número de


características en las cuales se basa y así por ejemplo, un valor de χ
2
= 6 no podría decirse si es
significante o no hasta que no sepamos a cuántos grupos se refiere.

En estadística se dice que es necesario conocer el “grado de libertad” de χ 2 antes de poder


interpretarlo.

La manera más fácil de calcular el “grado de libertad” de χ 2 en la aplicación que estamos


estudiando es la siguiente:

a. Sin tomar en cuenta los totales, se ven cuántas columnas (c) y cuantos renglones (r ) tiene la
tabla.
b. Multiplicando:
gl = (c – 1 ) x (f – 1 ); donde:

c = columna y f = fila. Así se obtendrá el grado de libertad de χ2.


En nuestro ejemplo, como son tres tratamientos, habrá tres renglones como en cada tratamiento
se estudian “curaciones” y “fracasos”, habrá dos columnas. Por lo tanto, el “grado de libertad” será:
(3 – 1 ) ( 2 – 1) = 2 x 1 = 2

Probabilidades dadas por X².

Si se quiere saber cuál es la probabilidad correspondiente a cada valor de χ que pueda


2

calcularse, se buscará en tablas especiales que existen para ello. En la práctica lo que
generalmente interesa es saber si las diferencias observadas entre los grupos son fácilmente
explicables por azar o no.

Si aceptamos el criterio de llamar significante toda diferencia que por azar pueda ocurrir sólo 5
veces o menos en 100 experimentos análogos, bastará conocer qué valor debe alcanzar χ
2

para poderse llamar significante. En la tabla siguiente aparecen algunos de dichos valores
ordenados de acuerdo al correspondiente grado de libertad.

En nuestro ejemplo encontramos que con 2 grados de libertad χ = 0,93. Como este valor está
2

muy por debajo de 6,0 - valor dado por la tabla – concluimos que las diferencias observadas son
fácilmente explicables por azar y no hay necesidad de recurrir a otras explicaciones.

Cuadro 251
Valores de la distribución de X²
25.6 Relación entre χ2 y la Curva Normal.

Todos aquellos casos en que se comparan 2 grupos mediante la Curva Normal, pueden
compararse también mediante Chi Cuadrada.

En el ejemplo dado en la página 240, en el cual encontramos que:

Diferencia 0.78
Error Estándar

El cálculo de chi cuadrado nos daría:

= (24-21.6)² + (30-32.4)² + (56-58.4)² + (90-87.6)² = 0.608


21.6 32.4 58.4 87.6

En estos casos, cuando χ tiene 1 grado de libertad, su valor es exactamente igual al


2

cuadrado de Diferencia/Error Estándar, es decir:

x²= ( Diferencia)² o lo que es lo mismo:


Error Estándar

√ x² = Diferencia
Error Estándar

En el ejemplo acabado de citar en el cual (diferencia/E.E) = 0.78 y χ 2 = 0.608 note que:

0.608 = (0.78)²

En la misma forma si χ2=9 entonces Diferencia/ E.E = 3.

Si este último valor fuera igual a 2, chi cuadrado sería igual a 4.

Debe recordarse que la anterior relación solamente es cierta cuando χ 2 tiene 1 grado de libertad.
CAPITULO XXVI
COMPARACION ENTRE LOS PROMEDIOS DE TRES O MAS MUESTRAS INDEPENDIENTES.

26.1. Introducción.

Con el fin de hacer correctamente comparaciones entre los promedios de tres o más muestras se
utiliza la técnica de Análisis de la Variancia. Dicha técnica no está al alcance del estudiante
corriente, pero en su lugar puede utilizarse la llamada prueba de Kruskal-Wallis, de aplicación
sencilla y cuyos resultados son casi equivalentes a los del Análisis de la Variancia.

26.2 Prueba Kruskal-Wallis.

Esta prueba consiste en dar un número de orden a cada una de las observaciones y calcular el
valor “H” el cual puede interpretarse con la tabla de χ2.

Con el fin de no distraerse en los cálculos aritméticos, supóngase que se ha tomado la estatura de
los alumnos de cuatro escuelas diferentes y se desea saber si los cuatro promedios difieren
significativamente o si tales diferencias pueden explicarse fácilmente por el azar.

26.2.1. Cálculo e Interpretación.

Para efectuar la prueba se procederá de la siguiente forma:

1. Sin tomar en cuenta el grupo al que pertenece, se dará a cada observación un número de
orden de uno en adelante, empezando por la menor y terminando por la mayor. Cuando hay
varias observaciones iguales, a cada una se le dará el promedio del número que corresponda.
Note en el cuadro siguiente que la menor estatura observada fue 135 y a ese individuo se le
dio el número 1. Luego aparece un escolar con 136, a quien corresponde el 2 y otro de 137, a
quien corresponde el número 3. Hay en seguida tres escolares de 138 centímetros, a quienes
corresponderán los puestos 4, 5 y 6 pero no miden exactamente igual, se tomó el promedio de
estos tres números (15/3 = 5) y a cada uno se le dio un valor de 5. Desde luego, el próximo
valor (140 cm) no será 6 sino 7 pues los 3 valores con 5, que representan los escolares
cuarto, quinto y sexto.

En la misma forma se continuará, hasta dar un número de orden a cada observación.

Cuadro 254.
Estatura en centímetros de los alumnos de cuatro escuelas.
(Cálculo de la prueba de Kruskall-Wallis).

Escuela A Escuela B Escuela C Escuela D


Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden
142 9 136 2 135 1 137 3
149 16 138 5 138 5 150 17,5
138 5 145 12 140 7 153 20
150 17,5 144 11 147 14 141 8
151 19 154 21 146 13
148 15 155 22
143 10
Suma T1 66,5 76 27 83,5
n 5 7 4 6
X 146 144 140 147

2. Para cada escuela separadamente se suman los números de orden acabados de calcular
(valores T1 del cuadro anterior).

3. Calcular el valor II, mediante la fórmula: H = [ 12 x T1² ] – 3 (N+1)


N(N+1) n1
en donde:

12 y 3 son constantes invariables en cualquier prueba.


N es el total de personas estudiadas: 22 en nuestro ejemplo.
n1 es el número de individuos estudiados en cada escuela: 5, 7, 4, 6.
T1 es la suma de los números de orden en cada uno de los grupos.
En nuestro ejemplo: 66.5; 76.27; 83.5.

Como indica la fórmula, cada una de las sumas (T1) debe elevarse al cuadrado y dividirse por el
número de escolares en la respectiva escuela y luego sumar los resultados de tales divisiones.

Por lo tanto aplicando la fórmula:

H = [ 12 (66.5² + 76² + 27² + 83.5²) ] – 3 (22 +1)


22 (22+1) 5 7 4 6

= [ 12 (884.45+825.14+182.28+1162.04) ] –(3 x 23)


22 x 23
= [ 12 (3.053.88) ] - 69= 72.42-69= 3.42
506

4. Buscar en la tabla de x² el valor de “H” es o no significante, teniendo en cuenta que el número


de grados de libertad es igual al número de grupos menos 1. En nuestro ejemplo, cómo eran
cuatro escuelas los grados de libertad son: (4-1) = 3

Para que el valor “H” con tres grados de libertad sea significante cuando se desea un 95% de
certeza, la tabla de x² muestra que debe exceder a 7.8. Como nuestro valor calculado fue 3.42,
el cual está muy por debajo del valor d la tabla, concluimos que las diferencias en la estatura
entre las cuatro escuelas, muy posiblemente se deban al azar.
CAPITULO XXVII
COMPARACION ENTRE DOS MUESTRAS NO INDEPENDIENTES.

271. Generalidades.

Cuando los individuos que se estudian sirven como su propio control como en el caso en el cual se
le toma a cada individuo determinada medición “antes” y “después” de cualquier tratamiento, o
cuando con fines comparativos dos métodos diferentes se aplican a los mismos individuos, es claro
que en tales ocasiones, los valores que quieren compararse no son independientes. Así por
ejemplo, sin con el fin de evaluar la acción hipertensiva de una droga se toma la presión arterial a
un grupo de individuos “antes” y “después” de su aplicación, naturalmente que los valores después
de aplicada la droga dependerán de la tensión original, pues una persona cuya tensión sistólica
original sea de 150, posiblemente ascienda a 180, pero es dudoso que quien tenga inicialmente
una tensión de 100, presente luego un valor de180. Los métodos apropiados para hacer estas
comparaciones son algo distintos de los estudiados hasta ahora y lo mismo que en el caso de las
muestras independientes, debe tenerse en cuenta si los resultados se han resumido mediante
promedios o porcentajes.

27.2. Comparación de los promedios de dos muestras no independientes.

En el capítulo XXIII se compararon las pulsaciones por minuto de 16 hombres y 16 mujeres,


llegándose a la conclusión de que las diferencias observadas eran muy probablemente debidas al
azar. Con el fin de comparar los resultados de la prueba estadística utilizada cuando las muestras
son independientes, con la que debe utilizarse cuando las muestras no son independientes,
vamos a suponer que los valores de los hombres corresponden a los de un grupo de individuos a
quienes se les tomó el número de pulsaciones “antes” de inyectarle determinada droga “A” y que
los valores dados entonces para las mujeres, corresponden al mismo grupo de individuos
“después” de la inyección de la droga.

Los resultados, copiados de los cuadros 225 y 235 son los siguientes:

Cuadro 257
Pulsaciones por minuto en 16 individuos normales, antes y después de la aplicación de la Droga
“A”
(Cálculo del promedio y de la D.E. de los “cambios” observados)

Antes Después Cambios Desviaciones Desviaciones


Individuos
de la droga de la droga (después antes) (cambios promedio) al cuadrado
1 70 76 6 3 9
2 66 72 6 3 9
3 82 79 -3 -6 36
4 64 65 1 -2 4
5 65 70 5 2 4
6 88 88 0 -3 9
7 82 80 -2 -5 25
8 70 76 6 3 9
9 70 78 8 5 25
10 84 84 0 -3 9
11 85 86 1 -2 4
12 68 74 6 3 9
13 84 84 0 -3 9
14 76 78 2 -1 1
15 65 70 5 2 4
16 65 72 7 4 16
Total 1184 1232 0 182
Antes de la inyección :¯Xa = 1.184/16 = 74
D.E .= 84.1 (tomado del cuadrado de 225)

Después de la inyección: X¯d =1.232/16 = 77


D.E. = 6.21 (tomado del cuadrado de 235)

Cambios observados: Xe = 48/16 = 3


D.E. = √182/16 = 3.37

27.2.1. Prueba de significancia incorrecta.

Si se considera erróneamente que las mediciones antes y después de la inyección de la droga son
independientes, se aplicaría la prueba estadística vista en el Capítulo XXIII a propósito de la
comparación de 16 hombres y 16 mujeres.

En tal caso:

(E.E.)1 = 8.41/√16= 2.11


(E.E.)2 = 6.21/√16= 1.55
(E.E.) de la diferencia = √(2.11)² + (1.55)² = 2.6

y conforme ya se vio:

Diferencia = 77 – 74 = 1.1 no significante


E.E. 2.6

27.2.2. Prueba de significancia correcta.

Para hacerse esta prueba debe trabajarse con los “cambios” observados de la manera siguiente:

a. Buscar los cambios observados, restando para cada individuo el valor observado “Después” de
la aplicación de la droga, el que se observó “Antes” de que ésta hubiera sido aplicada. Debe
tenerse cuidado en conservar los signos (+) y (-).+

b. Sumar estos valores tomando en cuenta los signos algebraicos y dividir por el número de
individuos estudiados para obtener el promedio de los cambios (X = 48/16=3).

c. Buscar las desviaciones entre cada cambio y su promedio (Xe).

Note por ejemplo, que el tercer individuo presenta un descenso en las pulsaciones (-3) y al restar a
esta cifra el promedio (3), se obtiene:
-3 – (3) = - 6
d. Elevar al cuadrado cada desviación y sumar la columna correspondiente para obtener la
desviación estándar por el método conocido:

D.E.. = √182/16 = 3.37

e. Calcular el error estándar de los cambios, por el procedimiento ya conocido.

E.E. = 3.37 = 3.37 = 0.84


√16 4

f. Para la prueba de significancia, como el promedio de los cambios:

Xe = Xd – Xa = (77 – 74) = 3
Entonces:

Diferencia = 3 – 0 = 3.6 valor significante


E.E. 0.84

Note que la prueba correcta señala que las diferencias observadas son significantes, mientras que
si se hubiera utilizado incorrectamente la prueba para muestras independientes, habríamos
concluido que tales diferencias no eran estadísticamente significantes.

27.3 Comparación entre los porcentajes de dos muestras no dependientes.

Muchas veces se evalúa la eficacia de una nueva técnica diagnóstica comparando los resultados
que se obtienen con ella, con aquellos que se obtienen en lo mismo individuos con la utilización de
otra técnica de reconocida eficiencia.

27.3.1 Comparación incorrecta.

Si a cien niños se les hubiera aplicado PPD intradérmica en un antebrazo y PPD por escarificación
en el otro para determinar cuál procedimiento es mejor, no se obtendrían todas las ventajas de
este experimento si nos contentáramos con averiguar el porcentaje de niños positivos a cada una
de las pruebas.

Por lo tanto, la presentación de tales datos, no sería correcta en tal forma, ni tampoco sería
correcta aplicar la prueba de significancia estadística estudiada en el capítulo XXIV, como si se
tratara las muestras independientes.

Cuadro 260

Resultados de la aplicación de PPD intradérmico y por escarificación


a un grupo de 100 niños

(Presentación inadecuada de los datos)

Resultado Porcentaje de
Vía de ubicación Total
Negativo Positividad positividad
Intradérmica 30 70 100 30,0
Escarificación 20 80 100 20,0
Total 50 150 200 25,0

Aplicando esta prueba:

25x75
( E.E.)1 = = 4.33
100

25x75
( E.E.) 2 = = 4.33
100

E.E. de la diferencia = (4.33) 2 + (4.33) 2 = 6.12


por consiguiente:

Diferencia 30 − 20
= = 1.63 no significante
E.E. 6.12
27.3.2 Comparación correcta

Con el fin de comparar correctamente los resultados del experimento anterior, ellos deben
presentarse de tal manera, que se pueda averiguar cuantos niños fueron positivos o negativos a
las dos reacciones a la vez y cuántos de quienes dieron positividad a una reacción fueron
negativos a la otra o viceversa.

Contraste el cuadro anterior, que no permite conseguir tal información, con el siguiente que sí la
suministra:

Cuadro 261

Resultados de la aplicación de PPD intradérmico y por escarificación


a un grupo de 100 niños

Escarificación
Intradérmico Total
- +
+ 16* 14 30
- 64 6* 70
Total 80 20 100

Puede apreciarse que la diferencia de 10% entre 30% de positividad al PPD intradérmico y el 20%
de positividad al escarificado, se debe al hecho de que hubo 16 individuos positivos a la primera
prueba y negativos a la segunda, mientras que solo hubo 6 niños positivos a la escarificación y
negativos a la reacción intradérmica, es decir:

Intradérmica (+) pero Escarificación (-) 16 en 22 = 72,7%


Escarificación (+) pero Intradérmica (-) 6 en 22 = 27,33%

Si los niños hubieran estado divididos en 11 y 11, entonces las dos pruebas diagnósticas habrían
mostrado la misma positividad. Puede averiguarse por lo tanto, si la discordancia anterior es
significante, comparando con 50% cualquiera de los 2 porcentajes anteriores. Pues observe que
72.7% - 50% = a 22.7% e igualmente 50% - 27.3% = 22.7%. Para efectuar la prueba estadística,
simplemente:

a. Calcule el error estándar correspondiente a los 22 individuos en los cuales las pruebas no
.
concordaron, tomando p = 50%, o sea:

p,q. 50x50 2500


E.E. = = = = 10.65
22 22 22

b. Divídase por este error estándar, la diferencia entre cualquiera de los 2 porcentajes en
discordancia y 50%, o sea:
50% − 27.3% 22.7
= = 2.13 significante.
E.E. 10.65
Mientras que la prueba correcta que se acaba de efectuar muestra una diferencia significante entre
el PPD intradérmico y el escarificado, la prueba incorrecta nos llevaba a una conclusión contraria.

27.3.3 Prueba de Mc. Nemar

En lugar de la prueba acaba de explicar, puede utilizarse la prueba de Mc. Nemar que consiste en
calcular Chi Cuadrado, en base, solamente a los valores en los cuales las dos reacciones no
concuerdan:

Wasserman
Kahn
- +
+ A B
- C D

Si llamamos estos valores, A y D, respectivamente, el cálculo será sencillamente:

( A − D) 2
X2 =
A+ D
o sea, con los datos del ejemplo anterior:

(16 − 6) 2 10 2
X2 = = = 4.5
(16 + 6) 22
2
Buscando este valor en la tabla de X (cuadro 251) vemos que es significante, conclusión
idéntica a la alcanzada con la prueba aplicada en la sección anterior (27.3.2)

Note de paso:
(2.13) 2 = 4.5
2
lo cual confirma nuevamente, que cuando x tiene solamente un grado de libertad, entonces:

Diferecia 2
( ) = X2
E.E.
AJUSTE DE TASAS (Tasas corregidas o estandarizadas)

Al querer comparar dos o más poblaciones que difieran en su composición por edad, sexo o raza,
deben tenerse en cuenta estos factores para que la comparación sea correcta.

Así por ejemplo, la tasa cruda de mortalidad en dos poblaciones puede diferir exclusivamente por
el hecho de que en una de ellas la población sea más vieja que en la otra, a pesar de que las tasas
específicas por edad sean semejantes.

Desde luego que una comparación correcta podría hacerse comparando una a una las tasas
específicas, por edades, pero cuando se desea resumir el estudio en una simple cifra, es necesario
recurrir a un procedimiento que elimine la influencia del factor que está viciando la comparación.
Para tal fin, son de utilidad las tasas corregidas.

Aun cuando la explicación que sigue se refiere concretamente a la corrección de tasas por edades,
el procedimiento es el mismo para la corrección de tasa por sexo, raza, etc. Pueden inclusive
presentarse tasas corregidas simultáneamente por edad y sexo o por edad y raza; según se
requiera.

Población estándar

Para él cálculo de las tasas corregidas se requiere una población estándar, sin que tenga mayor
importancia la población que se escoja como tal.

Si se comparan dos ciudades, la población estándar puede ser la suma del número de sus
habitantes o puede escogerse una de ellas como población estándar.

Si la comparación es entre varias ciudades de un mismo país, puede escogerse la población del
país como estándar.

La obtención de tasas corregidas puede hacerse por dos métodos:

a) Método directo
b) Método indirecto

El método directo equivale a preguntarse cuál sería la mortalidad de la región que se estudia si
ella tuviera la misma composición etaria que la población estándar o cual sería la tasa cruda de
mortalidad de las dos o más regiones que se comparan, si ellas tuvieran la misma composición
etaria.

El método indirecto equivale a preguntarse cuál sería la mortalidad de la región que se estudia, si
ella estuviera sometida a las mismas tasas de mortalidad por edades de la población estándar.

Método directo.

Con el fin de facilitar la verificación de los cálculos tomemos el siguiente ejemplo teórico, en donde
se comparan los datos de dos poblaciones: la primera una población joven en progresión y la otra,
una población vieja, estacionaria.
Cuadro 1

Habitantes, defunciones y tasas de mortalidad por grupos de edad, en las poblaciones de


San Pedro y San Juan, 1960

San pedro San juan

Mortalidad Mortalidad
Grupos de por 1.000 por 1.000
edad Habitantes Defunciones habitantes Habitantes Defunciones habitantes
(1) (2) (3) (4) (5) (6) (7)
- 15 años 40.000 400 10,0 30.000 270 9,0
15 – 49 años 50.000 300 6,0 50.000 250 5,0
50 y + años 10.000 200 20,0 30.000 540 18.0
Todas las 100.000 900 9,0 110.000 1.060 9,6
edades

Puede verse en el cuadro que antecede que a pesar que las tasas por edad son menores en San
Juan, su tasa cruda de mortalidad es mayor que la de san Pedro, lo cual se debe desde luego, a
que en la primera ciudad hay un número mayor de personas de 50 y más años, edades en donde
la mortalidad es mayor.

Para la corrección de tasas por el método directo puede seguirse cualquiera de los dos siguientes
procedimientos.

Primer procedimiento. Los pasos a seguir, resumidos en el cuadro 366, son:

1) Escoger la población estándar y buscar su composición por grupos de edad. En este


ejemplo, se ha tomado la suma de los habitantes de las ciudades, como población
estándar (columna 2).

2) Averiguar el número de muertes que se habrían producido en esta población si ella hubiera
estado sometida a las tasas de mortalidad de cada grupo de edad de la primera de las
ciudades que se estudian. Para ella se multiplicara el número de habitantes en cada grupo
etario de la población estándar por la tasa correspondiente observada en la primera ciudad
(columna 2 x 3. La suma de estos productos será el total de muertes teóricas para la
primera ciudad.

3) Repetir el paso anterior utilizando las tasas de la segunda ciudad (columna 2 x 5).

4) Dividir las muertes teóricas obtenidas en los dos pasos anteriores (total de columnas 4 y
6) por la población estándar total y dichos resultados representaran las tasas corregidas
para las ciudades que se estudian.
Cuadro 2

Cálculos para la corrección de tasas por el método directo, utilizando como población
estándar, la suma de los habitantes de las 2 ciudades

SAN PEDRO SAN JUAN


Habitantes en
Grupos de Mortalidad por Mortalidad por
la población Mortalidad Mortalidad
edad 1.000 1.000
estándar teórica(2) * (3) teórica (2) * (3)
habitantes habitantes
(1) (2) (3) (4) (5) (6)
-15 años 70.000 10 700 9 630
15 – 49 años 100.000 6 600 5 500
50 y + años 40.000 20 800 18 720
Todas las
210.000 2.100 1.850
edades

La tasa corregida par a las dos ciudades será:

2.100
Para San Pedro * 1.000 = 10.0 por 1.000 habitantes
210.000

1.850
Para San Juan * 1.000 = 8,8 por 1.000 habitantes
210.000
Las tasas anteriores señalan, que se las dos poblaciones hubieran tenido una distribución etaria
semejante, la tasa cruda de mortalidad de San Juan habría sido inferior a la de San Pedro y no
superior como lo es en el ejemplo. De hecho, la tasa de San Juan es:

8,8 * 100
= 88% de la de San Pedro
10
Segundo procedimiento. Un habitante de San Juan podría preguntarse cuál sería la tasa de
mortalidad de su ciudad, si ella tuviera la misma distribución etaria de San Pedro. En este caso
podemos tomar como población estándar la de San Pedro.

Los cálculos en todo semejantes al del ejemplo anterior, aparecen a continuación:

Cuadro 3
Cálculos para la corrección de tasas por el método directo, tomando como población
estándar la de la ciudad de San Pedro

SAN JUAN
Habitantes en la
Grupos de edad Mortalidad por 1.000 Mortalidad teórica
población estándar
habitantes (2)*(3)
(1) (2) (3) (4)
- 15 años 40.000 9 360
15 – 49 años 50.000 5 250
50 y + años 10.000 18 180
Todas las edades 100.000 790
La tasa corregida para San Pedro, que ha sido tomada como población estándar, será su misma
tasa cruda de mortalidad (9 x 1.000). La tasa corregida para San Juan será:

790 * 1.000
= 7,9 x mil habitantes
100.000

De nuevo se observa que la tasa de San Juan, es:

7,9 * 100
= 88% de la de San Pedro
9
Método indirecto

Los siguientes pasos esquematizados en el cuadro 369 resumen los correspondientes cálculos:

1. Escoger la población estándar y buscar su tasa cruda de mortalidad y sus tasas de mortalidad
por grupos de edad (columna2.

2. Averiguar la distribución por edades de la población de cada una de las ciudades que se
comparan ( columnas 3y5)

3. Averiguar las muertes teóricas que se producirían en la primera ciudad si estuviera sometida a
las tasas de mortalidad de la población estándar. Para ello se multiplica cada una de las tasas
de la población estándar (columna 2) por el correspondiente número de habitantes de la
primera ciudad (columna 3. La suma de estos productos será el total de muertes teóricas en
dicha ciudad (columna 4.

4. Repetir el procedimiento anterior para obtener el total de muertes teóricas en la segunda


ciudad (columna 6.

5. En cada ciudad dividir el número total de muertes que realmente ocurrieron por el
correspondiente total de muertes teóricas. Con esto se obtiene un factor correctivo que
expresa la relación entre la mortalidad del aria estudiada y la mortalidad de la población
estándar.

6. Obtener las tasas corregidas para las ciudades que se estudian, multiplicando los valores
encontrados en el paso anterior por la tasa cruda de mortalidad de la población estándar.

Cuadro 4
Cálculos para la corrección de tasas por el método indirecto, utilizando las tasas de
mortalidad de una población teórica.

Tasa de SAN PEDRO SAN JUAN


mortalidad
Grupos de por 1.000 Mortalidad Mortalidad
edad habitantes en Habitantes (b) teórica (2) * Habitantes (b) teórica (2) *
la población (3) (5)
estándar (a)
(1) (2) (3) (4) (5) (6)
- 15 años 8 40.000 320 30.000 240
15 – 49 años 5 50.000 250 50.000 250
50 y + años 25 10.000 250 30.000 750
Todas las Ed. 7 100.000 820. 110.000 1.210
(a) cifras teóricas, digamos para todo el país
(b) cifras tomadas del cuadro 365

Como las muertes que relámete ocurrieron fueron (cuadro 365):

San Pedro = 900


San Juan = 1060
Se calculará:

900
Factor correctivo para San Pedro = 1,10
820

1.060
Factor correctivo para San Juan = 0,86
1.240

Las tasas corregidas para las dos ciudades se obtendrán aplicando los anteriores valores para la
tasa cruda de la población estándar, en este caso 7 x 1000:

Tasa corregida para San Pedro: 7 x 1,10 = 7,70 x 1.000

Tasa corregida para San Juan: 7 x 0,85 = 6,02

6,02 * 100
La tasa de San Juan es: = 78% de la de San Pedro
7,7

Comparación de los dos métodos

Aun cuando el método directo parece mucho más lógico que el indirecto, este último tiene como
ventajas:

1. No requiere conocer la mortalidad por edades en las áreas que se comparan.

2. Cuando las poblaciones son pequeñas, sus tasas de mortalidad pueden presentar grandes
fluctuaciones debidas al azar y en esos casos las tasas de población estándar por ser muy
estables suministran una excelente mortalidad teórica.

Se habrá observado que según la población que se escoja como estándar las tasas obtenidas son
diferentes. Sin embargo, la importancia relativa de dichas tasas, que es lo que importa conocer,
permanece casi inmodificable. Puede verse que los ejemplos que sirvieron de ilustración, a pesar
de que los valores que se encontraron para las dos ciudades variaron considerablemente según el
método y la población estándar utilizada, el cambio relativo fue muy semejante en los tres
ejemplos: 88%, 88% y 78% respectivamente.

Debe tenerse en cuenta que las tasas corregidas no añaden ninguna nueva información a las tasas
de mortalidad especificas por edades. Por el contrario mucha información se pierde y por lo tanto,
ellas no deben sustituir a las tasas específicas, cuyo análisis detallado es mucho más importante
que el dato resumido de una tasa corregida.
Revista Mexicana de Pediatría
Volumen Número Marzo-Abril
Volume 70 Number 2 March-April 2003

Artículo:

Sinopsis de pruebas estadísticas no


paramétricas. Cuándo usarlas

Derechos reservados, Copyright © 2003:


Sociedad Mexicana de Pediatría, AC

Otras secciones de Others sections in


este sitio: this web site:

☞ Índice de este número ☞ Contents of this number


☞ Más revistas ☞ More journals
☞ Búsqueda ☞ Search

edigraphic.com
Trabajo de revisión Revista Mexicana de
Pediatría

MEDIGRAPHIC
Vol. 70, Núm. 2 • Mar.-Abr. 2003
pp 91-99

Sinopsis de pruebas estadísticas no


paramétricas. Cuándo usarlas
(Non parametric statistical tests synopsis. When are they used?)

Manuel Gómez-Gómez,* Cecilia Danglot-Banck,* Leopoldo Vega-Franco**

RESUMEN

Se describen las pruebas no paramétricas resaltando su fundamento y las indicaciones para su empleo cuando se trata de una
sola muestra (Ji cuadrada, binomial, de rachas, Kolmogorov-Smirnov), de dos muestras con datos independientes (U de Mann-
Whitney, Kolmogorov-Smirnov, Moses, o de las rachas de Wald-Wolfowitz), de dos muestras con datos pareados (T de Wil-
coxon, del signo, McNemar), de varias muestras con datos independientes (H de Kruskal-Wallis, de la mediana) y de varias
muestras con datos pareados (Ji cuadrada de Friedman, W de Kendall, Q de Cochran).

Palabras clave: Estadísticas no paramétricas, usos de la estadística, pruebas no paramétricas.

SUMMARY

A description of non parametric tests is done. Emphasis about its usefulness when it is studied one sample (chi square, binomial chi,
of runs, Kolmogorov-Smirnov one sample test), two samples with independent data (Mann-Whitney, Kolmogorov-Smirnov of two sam-
ples, Moses or Wald-Wolfowitz), two samples with paired data (Wilcoxon, of the sign, McNemar), several samples with independent
data (Kruskal-Wallis, of the median), or several samples with paired data (Friedman, Kendall, Cochran) it is done.

Key words: Non parametric statistics, non parametric test, uses of statistical methods.

INTRODUCCIÓN der cuándo y cómo se usa una o la otra, es preciso


entender y definir algunos conceptos básicos de la es-
Una manera de definir la estadística es considerándo- tadística.
la una serie ordenada de métodos que se ocupan de la
recolección, organización, presentación, análisis e in- CONCEPTOS GENERALES
terpretación de datos numéricos.1 Se acostumbra divi-
dirla, según el propósito que se persigue, en: descriptiva A diferencia de la estadística paramétrica, en la que el
e inferencial. La estadística descriptiva se utiliza para investigador aspira encontrar en las características de la
describir la frecuencia y distribución de las caracterís- muestra que ha seleccionado, aquellas que distinguen a
ticas (o variables) del objeto en estudio, en tanto que la población de donde ésta procede; hay dos formas de
la estadística inferencial se ocupa del proceso metódi- actuar: 1) estimar el valor de un parámetro a partir de
co para obtener conclusiones válidas de una muestra, la muestra, y 2) contrastar si su hipótesis es confirmada
con respecto a la población, de manera tal que se le en la muestra, poniendo a prueba la hipótesis de las di-
pueda considerar representativa de ella. Para enten- ferencias nulas (Ho), la que de no confirmarse se expli-
ca por la hipótesis alterna (H 1), que acepta que esas
diferencias existen dentro de cierto margen de proba-
bilidad: cuando son significativas (a nivel de una p <
0.05 o < 0.001) se rechaza la hipótesis nula y se acep-
*
Nacional “La Raza” IMSS. edigraphic.com
Maestría en Ciencias (Epidemiología) Clínica, Centro Médico

** Departamento de Salud Pública, Facultad de Medicina, Universi-


ta la hipótesis alterna.2
En estadística se definen como variables a los atri-
dad Nacional Autónoma de México. butos, rasgos o propiedades de un grupo de elemen-

91
Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

tos que toman diferentes valores, magnitudes o inten- una distribución normal (sesgo de -0.5 a +0.5 y curto-
sidades. En el proceso de medición de ellas se les asig- sis de 2 a 4). 4
nan números o códigos de observación. La manera Desde sus inicios, las computadoras se han utilizado
más aceptada para ordenar y cuantificar una variable, en el manejo de los datos y en ellas se puede hacer uso
propuesta por Stevens, 3 es dividirlas en cualitativas de las técnicas estadísticas, por lo que hay paquetes esta-
(según su calidad o atributo) o cuantitativas (de acuer- dísticos entre los cuales el SPSS (Statistical Package for
do a la magnitud de su medición). Cuando la variable the Social Sciences)® es, quizá, el más usado, con más de
cualitativa no tiene punto de comparación como el tres décadas en el mercado.5
color de los ojos (café, azul, verde, negro) se le deno- El procedimiento estadístico que se usará para el aná-
mina variable cualitativa nominal; cuando hay un de- lisis depende de: 1) El tipo de medida de la variable a
terminado orden como clase social :rop odarobale
(alta, FDP
media, baja), sustraídode-m.e.d.i.g.r.a.p.h.i.c
analizar; 2) La distribución que caracteriza a las medicio-
duración de una enfermedad (aguda, subaguda, cróni- nes de las variables, la homogeneidad de las varianzas en
ca), orden en la VC ed AS,
familia cidemihparG
(primero, segundo, tercero, los grupos de ellas, el impacto de los residuos y el tama-
etc.) se le llama variable cualitativa ordinal. Cuando la ño de la muestra; 3) El poder de la prueba que se usará,
variable cuantitativa sólo se puede medirarap en valores es decir, la capacidad de aceptar o rechazar, correcta-
enteros: como el número de alumnos, el número de mente, la hipótesis nula.6 En el cuadro 1 se presenta una
acidémoiB
partos, el número arutaretiL :cihpargideM
de empleados, se le denomina va- guía para la valoración de los datos estadísticos de carác-
riable cuantitativa discreta, discontinua o de intervalo, ter cuantitativo.
mientras que si la variable se puede expresar en frac- Cuando se pretende probar una hipótesis respecto a
ciones, como peso al nacimiento (3,460 g) o estatura uno o más parámetros de una población que tiende a
(51.3 cm), se les denominan variables cuantitativas una distribución normal, las pruebas usadas son las de la
continuas o de razón y puede ser que los datos tengan estadística paramétrica, como la t de Student. 1 En el
cuadro 2 se presentan las características comunes a es-
tas pruebas paramétricas.7 Por lo contrario, si los pro-
Cuadro 1. Valoración de las características de los datos. cedimientos estadísticos no requieren plantear inferencias
acerca de los parámetros de la población (su media y dis-
1. Determinar el nivel de medida de la variable de interés. persión) se le conoce como no paramétricos, o de dis-
2. Valorar la distribución de las variables. tribución libre (ya que no se hacen suposiciones acerca
• Medidas de tendencia central para cada variable. de la distribución de la población de donde procede la
• Sesgo y curtosis para cada variable.
muestra. En el cuadro 3 se presentan las características
• Valoración visual de la distribución de los datos.
• Examinar los diagramas de las probabilidades de la distri-
que son comunes a las pruebas de hipótesis no paramé-
bución. tricas.6-10
• Si se considera necesario transformar las variables. Con las pruebas no paramétricas se puede trabajar
• Ver los resultados de la transformación. con muestras pequeñas de datos categóricos u ordinales,
3. Ver la homogeneidad de las varianzas. independientemente de la distribución de las muestras
4. Ver el tamaño de muestra total y de los subgrupos. que se desea contrastar.6 Moses8 considera que las prue-
5. Determinar qué prueba estadística paramétrica o no para- bas no paramétricas: 1) Son más fáciles de aplicar; 2) Son
métrica es la más adecuada. aplicables a los datos jerarquizados; 3) Se pueden usar

Cuadro 2. Características comunes de las pruebas paramétricas.

1. Independencia de las observaciones a excepción de datos pareados.


2. Las observaciones para la variable dependiente se han obtenido de manera aleatoria de una población con distribución normal.
3. La variable dependiente es medida al menos en una escala de intervalo.
4. Se recomienda un tamaño de muestra mínimo de 30 sujetos por grupo.
5. Los datos son obtenidos de poblaciones que tienen varianzas iguales (una varianza no debe ser el doble o mayor que la otra).
6. Habitualmente las hipótesis se hacen sobre valores numéricos, especialmente el promedio de una población (µ), como ejemplo:
Ho: µ1 = µ2
H1: µ1 ≠ µ2
edigraphic.com
7. Otros posibles requisitos: variable independiente nominal o de intervalo, homocedasticidad (para cada nivel de la variable indepen-
diente hay una variación similar de la variable dependiente) y casillas de igual tamaño.

Rev Mex Pediatr 2003; 70(2); 91-99 92


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

Cuadro 3. Características comunes de las pruebas no paramétricas.

1. Independencia de las observaciones aleatorias a excepción de datos pareados.


2. Pocas asunciones con respecto a la distribución de la población.
3. La variable dependiente es medida en escala categórica.
4. El punto primario es el ordenamiento por rangos o por frecuencias.
5. Las hipótesis se hacen sobre rangos, mediana o frecuencias de los datos.
6. El tamaño de muestra requerido es menor (20 o <).

Cuadro 4. Características de las pruebas no paramétricas.


Ventajas
1. Determinación sencilla. Mediante fórmulas simples de combinación.
2. Fáciles de aplicar. Las operaciones matemáticas son la jerarquización, conteo, suma y resta.
3. Rápidas de aplicar. Cuando las muestras son pequeñas.
4. Campos de aplicación. A grupos mayores de poblaciones.
5. Menos susceptibles a la contravención de los supuestos. Ya que los supuestos son escasos y menos complicados.
6. Tipo de medición requerida. Se pueden utilizar con datos ordinales o nominales.
7. Tamaño de la muestra. Cuando la muestra es < 10 son sencillas, rápidas y sólo un poco menos eficaces. Conforme aumenta el ta-
maño de la muestra se hacen más laboriosas y tardadas, y menos efectivas.
8. Efectividad estadística. Cuando se satisfacen los supuestos de la prueba no paramétrica son igual de efectivas. Si se satisfacen los
supuestos de una prueba paramétrica con muestras pequeñas son un poco menos efectivas y se vuelven menos eficaces a medida
que aumenta el tamaño de muestra.
Desventajas
1. Si se puede utilizar una prueba paramétrica y se usa una no paramétrica hay una pérdida de información.
2. En muestras grandes las pruebas no paramétricas son muy laboriosas

Cuadro 5. Pruebas paramétricas y su alternativa no paramétrica.


Tipo de problema Prueba paramétrica Prueba no paramétrica
Medidas repetidas Prueba del signo
2 periodos t pareada Wilcoxon
> 2 periodos ANOVA Friedman
Muestras independientes Prueba de la mediana,
2 grupos t independiente U de Mann-Whitney
> 2 grupos ANOVA de una vía Prueba de la mediana,
Kruskal-Wallis
Medidas de asociación r de Pearson rho de Spearman,
tau de Kendall

Cuadro 6. Resumen de las pruebas estadísticas no paramétricas.


Variable Una muestra Muestras relacionadas Muestras independientes
dependiente (Bondad de ajuste) dos >2 dos >2 Pruebas de
muestras muestras muestras muestras asociación

Nominal Binomial χ2; McNemar Q de Cochran Fisher, χ2 para χ2 ; Coef. phi,


2 muestras Mantel-Haenszel Coef. Cramér,
independientes Kappa
Ordinal/intervalo Kolmogorov- Del signo, Friedman Mediana, Mediana, Punto biserial,
Smirnov de
1 muestra,
Wilcoxon
edigraphic.com U de Mann-
Whitney
Kruskal-
Wallis
Rho de
Spearman,
2 muestras tau de Kendall

93 Rev Mex Pediatr 2003; 70(2); 91-99


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

cuando dos series de observaciones provienen de distin- Distribución de frecuencias observadas y esperadas
tas poblaciones; 4) Son la única alternativa cuando el ta-
maño de muestra es pequeño; y, 4) Son útiles a un nivel
de significancia previamente especificado. En el cuadro 4 Invalidez Invalidez Funcionamiento Mejoría
se pueden ver las características más importantes de las total parcial normal funcional
pruebas no paramétricas. Frecuencias 31 casos 45 casos 73 casos 106 casos
En términos generales, se puede considerar que aun- observadas
que la potencia de las pruebas estadísticas paramétricas (Fo)
es mayor que la que ofrecen las pruebas no paramétri- Frecuencias 25.10% 30.87% 29.22% 14.81%
cas, ya que con ellas es la probabilidad de rechazar la hi- esperadas de 255 = de 255= de 255 = de 255 =
pótesis nula cuando ésta realmente es falsa (error de (Fe) 64 casos 79 casos 74 casos 38 casos
tipo II: 1-β), es conveniente comentar que el adecuado
tamaño de muestra es un requisito indispensable para
Tercero: Cálculo del valor de χ2 mediante la fórmula:
aumentar la eficacia de una prueba: a medida que au-
menta el tamaño de muestra, disminuye la posibilidad de
χ2 = Σ ( o-e )2
cometer el error de tipo II.9 En el cuadro 5 aparecen al-
e
gunas de las pruebas paramétricas más usadas y sus al-
ternativas no paramétricas.6,9,10 y en el cuadro 6 se En donde : o = frecuencia observada en una modalidad
resumen las indicaciones de las pruebas estadísticas no e = frecuencia esperada en la misma
paramétricas. modalidad

PRUEBAS CON UNA SOLA MUESTRA Resultados de las diferencias

Ji cuadrada Invalidez Invalidez Funcionamiento Mejoría


total parcial normal funcional
Esta prueba de hipótesis se usa para comparar la posi-
(Fo) 31 casos 45 casos 73 casos 106 casos
ble diferencia entre las frecuencias observadas en la (Fe) 64 casos 79 casos 74 casos 38 casos
distribución de una variable con respecto a las espera- (o-e)2 (31-64)2 ( 45-79 )2 ( 73-74 )2 (106-38)2
das, en razón de una determinada hipótesis. 4,11-16 Por e 64 79 74 38
ejemplo: al comparar los resultados obtenidos con una = 17.02 = 14.63 = 0.01 = 121.68
nueva técnica quirúrgica usada en 255 individuos inter-
venidos en comparación con la técnica utilizada ordina- χ2 = 17.02 + 14.63 + 0.01 + 121.68 = 153.34
riamente.
Cuarto: Comparación de la χ2 calculada con el valor
crítico que aparece en el cuadro de χ2 y conclusión res-
Invalidez Invalidez Funcionamiento Mejoría pecto a las hipótesis planteadas.
total parcial normal funcional
Extracto del cuadro de valores críticos de χ2
Nueva 31 casos 45 casos 73 casos 106 casos
Tradicional 25.10% 30.87% 29.22% 14.81% Niveles de significancia

Grados de libertad 0.05 0.01


Pasos a seguir
Primero: Planteamiento de hipótesis estadísticas 1 3.84 6.63
Ho: Fo = Fe. Las frecuencias observadas son iguales a 2 5.99 9.21
3 7.81 11.34
las frecuencias esperadas
4 9.49 13.28
Ha: Fo ≠ Fe. Las frecuencias observadas difieren de ..
las frecuencias esperadas 100 124.34 135.85
Segundo: Disposición de ambas distribuciones de fre-
cuencias. Para obtener la distribución de frecuencias es-
perada (teórica) se aplican los porcentajes de los
resultados de la técnica quirúrgica tradicional al total de
edigraphic.com
Los grados de libertad se refieren, en esta prueba, al
número de modalidades menos una. Como fue de cua-
pacientes. tro modalidades (columnas) en el renglón a considerar,

Rev Mex Pediatr 2003; 70(2); 91-99 94


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

son 3 grados de libertad (número de columnas menos Segundo. Conocer el número total de casos observa-
uno); así, en la tabla de χ2 al cruzar renglón de los grados dos (N).
de libertad con las columnas de los niveles de significan- Tercero. Conocer la frecuencia de las ocurrencias en
cia al 0.05 se obtiene un valor crítico de p=0.05 de 7.81 cada una de las categorías
y al 0.01 es de 11.34. En vista de que el valor calculado Cuarto. Se habla de valores binomiales, con una N de
de la ji cuadrada rebasa, en ambos casos, los valores crí- 2-30, k de 0-30 y p desde 0.01 a 0.50.
ticos de las tablas al nivel de 5 % y 1 %, se puede recha- Quinto. Si la probabilidad asociada con el valor obser-
zar la hipótesis nula ( Ho: Fo = Fe ) con una p < 0.01. vado de valores aún más extremos, es igual o menor al
de alfa se rechaza la hipótesis nula.12-16
Conclusión. Existen diferencias en la frecuencia de pa- Alternativa. Debido a que se utilizan sólo datos cate-
cientes ubicados en las diversas modalidades de los resul- góricos no hay opción. Si la variable de la prueba no es
tados obtenidos con la técnica quirúrgica nueva respecto a dicotómica, por lo que se requiere considerar más de
las frecuencias que se encontrarían en las mismas modali- dos categorías, se deberá usar la Ji cuadrada para bondad
dades si se hubiera aplicado la técnica quirúrgica usual, al de ajuste.
menos en el caso de estos 255 pacientes intervenidos.
Prueba de las rachas
Prueba binomial
La prueba de las rachas mide hasta qué punto en una va-
La prueba binomial compara las frecuencias observadas en riable dicotómica la observación de uno de sus atributos
cada una de las dos categorías de una variable dicotómica puede influir en las siguientes observaciones; es decir, si el
con respecto a las frecuencias esperadas bajo una distribu- orden de ocurrencia en la observación de uno de los atri-
ción binomial que tiene un parámetro de probabilidad es- butos de una variable dicotómica ha sido por azar. 12-16
pecífico que, por defecto, para ambas categorías es 0.5. Una racha es una secuencia de observaciones de un mis-
Para cambiar las probabilidades se puede ingresar una mo atributo o cualidad. Una serie de datos en los que
proporción de la prueba para el primer grupo por lo que hay muchas o pocas rachas, hacen pensar que éstas no
la probabilidad para el segundo será 1 menos la probabili- han ocurrido por azar.
dad especificada para el primero. La prueba está basada Alternativa. Para probar que dos muestras vienen de
en la distribución binomial, que permite estimar que la poblaciones con las mismas distribuciones, se emplea la
probabilidad en una muestra de sujetos que puedan pro- prueba de rachas sugerida por Wald-Wolfowitz.
ceder de una población binomial cuyo valor de p y q (don-
de q es la probabilidad contraria) son similares a los de la Prueba de Kolmogorov-Smirnov
población de donde se obtuvo la muestra. Se asume que: Para una muestra
1) Las observaciones son seleccionadas al azar, son inde-
pendientes y se obtienen de una sola muestra; 2) Los da- La prueba se usa para definir si el grado de ajuste de los
tos son de dos categorías distintas, que se les ha asignado datos a una distribución teórica: que puede ser con ten-
un valor de 1 y 0. Esto quiere decir que si la variable no es dencia a la normal, a la de Poisson o exponencial. La prue-
dicotómica se deben colapsar los datos en dos categorías ba Z de Kolmogorov-Smirnov (K-S), se computa a partir
mutuamente excluyentes; y, 3) Se debe de especificar la de la diferencia mayor (en valor absoluto) entre la distri-
probabilidad de ocurrencia de un evento en la población bución acumulada de una muestra (observada) y la distri-
dada. Esta proporción teórica puede venir de registros bución teórica. La bondad de ajuste de la muestra permite
públicos, censos o investigaciones previas. La prueba bino- suponer de manera razonable, que las observaciones pu-
mial está indicada cuando la variable a ser examinada es dieran corresponder a la distribución específica.
dicotómica, es especialmente útil en casos de tamaño de La contribución de Kolmogorov17 corresponde al pro-
muestra pequeños, que no se cumplen los requisitos de la blema relacionado con una sola muestra, mientras que la de
bondad de ajuste de la Ji cuadrada. Smirnov18 se ocupa de responder al problema respecto a
dos muestras, tratando de probar la hipótesis de igualdad
Pasos a seguir entre las poblaciones de origen de una con respecto a la de
Primero: Planteamiento de hipótesis estadísticas la otra. La prueba de K-S no precisa que las observaciones
Ho: p = po Las frecuencias observadas son iguales a sean agrupadas (como es el caso de la Ji cuadrada). Se usa
las frecuencias esperadas
edigraphic.com
Ha: p ≠ po Las frecuencias observadas difieren de las
en cualquier muestra de cualquier tamaño, mientras que la
Ji cuadrada requiere muestras con un tamaño mínimo. Esta
frecuencias esperadas prueba no se debe usar cuando los parámetros tienen que

95 Rev Mex Pediatr 2003; 70(2); 91-99


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

ser estimados a partir de la población y es útil, especialmen- derosa que la U de Mann-Whitney cuando se llenan to-
te cuando se conoce la estructura en que subyace la distri- das las asunciones, mientras que si los datos no se distri-
bución de la variable en estudio. Es más poderosa que la Ji buyen normalmente, el tamaño de muestra es pequeño,
cuadrada, especialmente cuando el tamaño de la muestra los grupos son de diferente tamaño, la U de Mann-Whit-
es pequeño y el nivel de medición de la variable es ordinal. ney es más poderosa, sobre todo cuando las colas de la
Se considera más poderosa que la Ji cuadrada y que la prue- distribución son grandes y hay la presencia de residuales.
ba binomial; requiere que la variable dependiente sea una Una alternativa no paramétrica que puede ser utilizada,
variable cuantitativa continua. sobre todo si las colas de la distribución no son similares
Alternativa. No hay opción paramétrica. Una alterna- es la prueba de la mediana.
tiva no paramétrica es la prueba de bondad de ajuste de La prueba Z de Kolmogorov-Smirnov está basada en
Ji cuadrada.12-16 la diferencia absoluta máxima entre la función de distri-
bución acumulada observada para ambas muestras.
PRUEBAS DE DOS MUESTRAS INDEPENDIENTES Cuando esta diferencia es significativamente grande, las
dos distribuciones son consideradas diferentes.
Las pruebas de dos muestras independientes comparan La prueba de las reacciones extremas de Moses20 asu-
dos grupos de casos con una variable. Hay disponibles me que la variable experimental afecta algunos sujetos
cuatro pruebas para ver si las dos muestras independien- en una dirección y otros sujetos en la dirección opuesta.
tes (grupos) vienen de la misma población y son la U de Se prueba las reacciones extremas comparadas a un gru-
Mann-Whitney,19 la Z de Kolmogorov-Smirnov, las reac- po de control. Esta prueba se enfoca en la distribución
ciones extremas de Moses20 y la prueba de rachas de del grupo de control y es una medida de cuantos valores
Wald-Wolfowitz.12-16 extremos del grupo experimental influencian la distribu-
La U de Mann-Whitney es la más popular de las prue- ción cuando se combinan con el grupo de control.
bas para el estudio de dos muestras independientes. Es La prueba de rachas de Wald-Wolfowitz es una alter-
equivalente a la prueba de suma de rangos de Wilcoxon nativa no paramétrica para contrastar si dos muestras
y a la prueba de dos grupos de Kruskal-Wallis. Es la alter- con datos independientes proceden de poblaciones con
nativa no paramétrica a la comparación de dos prome- la misma distribución. Combina y acomoda las observa-
dios independientes a través de la t de Student. Se utiliza ciones de ambos grupos.
cuando se desea efectuar la comparación de dos grupos Si las dos muestras son de la misma población, los dos
en quienes se les ha medido una variable cuantitativa grupos deben distribuirse al azar a lo largo de la clasifica-
continua que no tiene una distribución normal o cuando ción jerárquica. Si hay pocas rachas habla de que se tra-
la variable es de tipo cuantitativa discreta. Tiene tres tan de grupos diferentes mientras que, si hay muchas
asunciones: 1) La variable independiente es dicotómica y rachas no hay diferencias significativas en la distribución
la escala de medición de la variable dependiente es al de los dos grupos.
menos ordinal; 2) Los datos son de muestras aleatorias La prueba Z de Kolmogorov-Smirnov y la prueba de
de observaciones independientes de dos grupos inde- rachas de Wald-Wolfowitz son pruebas más generales
pendientes, por lo que no hay observaciones repetidas; que detectan diferencias en la localización y formas de
3) La distribución de la población de la variable depen- las distribuciones.
diente para los dos grupos independientes comparte una
forma similar no especificada, aunque con una posible PRUEBAS PARA DOS O MÁS MUESTRAS
diferencia en las medidas de tendencia central. Las ob- INDEPENDIENTES
servaciones de ambos grupos se combinan y acomodan,
con el rango promedio en el caso de pares. El número Las pruebas para muestras independientes comparan las
de pares debe ser pequeño en relación al número total variables de dos o más series de casos; permiten supo-
de observaciones. Si las poblaciones son idénticas en si- ner que las muestras provienen de la misma población.
tuación, los rangos deben mezclarse al azar entre las dos Las más conocidas son la de Kruskal-Wallis,21-23 la de la
muestras. Se calcula el número de veces que una cuenta mediana,24 y la de Jonckherrere-Terpstra.12-16
del grupo 1 precede una cuenta del grupo 2 y el número La prueba de Kruskal-Wallis o de H es una extensión
de veces que una cuenta del grupo 2 precede una cuen- de la de U de Mann-Whitney; de cierta manera es el
ta del grupo 1. La U de Mann-Whitney es el número más equivalente no paramétrico del análisis de varianza de
pequeño de estos dos números.
Alternativas. La alternativa paramétrica es la t de
edigraphic.com una vía y permite conocer si hay diferencias en las distri-
buciones de la variable en estudio en las poblaciones. Su
Student para muestras independientes, que es más po- aplicación asume: 1) Que los datos provienen de un gru-

Rev Mex Pediatr 2003; 70(2); 91-99 96


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

po aleatorio de observaciones; 2) Que la variable depen- y la prueba H de Kruskal-Wallis, las que generalmente se
diente es, al menos, ordinal; 3) Que la variable indepen- prefieren cuando se conoce el rango exacto de valores
diente es nominal, con más de dos niveles; 4) Que las de la variable dependiente, ya que se toma en cuenta el
observaciones son independientes dentro de cada grupo tamaño de las diferencias entre los resultados observa-
y entre los grupos; 5) Que no hay medidas repetidas o dos y la gran mediana.
categorías de respuestas múltiples; y, 5) que es similar la Cuando, a priori, hay un ordenamiento natural (ascen-
forma en que la distribución de la variable dependiente dente o descendente) de las poblaciones, la prueba de
dentro de cada uno de los grupos, excepto por la posible Jonckheere-Terpstra es más poderosa.
diferencia de las medidas de tendencia central en al me-
nos uno de estos grupos. Se utiliza cuando la variable in- PRUEBAS DE DOS MUESTRAS DEPENDIENTES
dependiente tiene más de dos grupos y la variable
dependiente es cuantitativa continua. Las pruebas para dos muestras dependientes compara
Alternativas. La alternativa paramétrica es el análisis en ellas las distribuciones de dos variables que se asume
de varianza de una vía, en la que se asume la normalidad están relacionadas. Para seleccionar la prueba es preciso
de la distribución dentro de cada nivel de la variable de- conocer el tipo de datos que se tienen. Si los datos son
pendiente y la igualdad de las varianzas entre los niveles continuos se usa la prueba del signo1,25 o la prueba de
de la variable independiente. Las alternativas no paramé- rangos signados de Wilcoxon,26 pero si los datos son bi-
tricas son la prueba de la mediana, la Ji cuadrada de Man- narios se usa la prueba de McNemar.27 La prueba del sig-
tel-Haenszel y la Ji cuadrada para varias muestras no1,2,12-16 es una prueba simple, versátil y fácil de aplicar;
independientes. puede ser usada para saber si una variable tiende a ser
La prueba de la mediana está indicada cuando la varia- mayor que otra. También es útil para probar la tendencia
ble independiente es categórica y la variable dependien- que siguen una serie de variables ordinales positivas o
te tiene, al menos, un nivel de medida de tipo ordinal, para una valoración rápida de un estudio exploratorio. La
aunque ésta habitualmente es cuantitativa continua, y se desventaja es que no toma en cuenta la magnitud de la
desea investigar diferencias entre dos o más grupos con diferencia entre dos variables pareadas: computa las di-
relación a su mediana, sea porque no cumplen las con- ferencias entre las dos variables para todos los casos y
diciones de normalidad para usar el promedio como medi- clasifica la diferencia como positiva, negativa o empate.
da de tendencia central o porque la variable es cuantitativa Si las dos variables tienen una distribución similar, el nú-
discreta. mero de diferencias positivas y negativas no diferirá sig-
Se define como mediana al valor que en una serie or- nificativamente.
denada de datos deja por debajo de ella a la mitad de los Alternativas. La alternativa paramétrica es la t de
valores y la otra mitad por arriba de ella. Responde a la Student pareada, aunque a la prueba del signo se consi-
cuestión de que si dos o más grupos proceden de pobla- dera una eficiencia de 95% al compararla con la t de Stu-
ciones que tienen distribuciones similares. Es especial- dent, por lo que esta prueba es particularmente útil
mente útil cuando los valores exactos de resultados cuando el tamaño de las muestras es pequeño o cuando
extremos son truncados por abajo o por arriba de cierto no se cumplen los requisitos que exige una prueba para-
punto de corte. También está indicada cuando no hay si- métrica, como son que las variables sean nominales o
metría en la forma de la U de Mann-Whitney. La prueba que las distribuciones estén sesgadas. Cuando las varia-
es directa, fácil de aplicar y es particularmente útil cuan- bles son, al menos, ordinales, una alternativa no paramé-
do no se conocen los valores exactos de todos los resul- trica es la prueba de rangos signados de Wilcoxon, que
tados, en especial en los valores extremos. La limitación permite una mejor valoración de las diferencias cuantita-
es que esta prueba considera únicamente dos posibilida- tivas entre los pares de observaciones.
des: por arriba o por debajo de la mediana, y no se toma Rangos signados de Wilcoxon1,2,12-16 es una prueba
en cuenta el tamaño de la diferencia entre los resultados flexible que se puede utilizar en distintas situaciones, con
observados respecto a la mediana, por lo que es menos, muestras de diferente tamaño y con pocas restricciones.
es de menor potencia que la U de Mann-Whitney y la H Lo único que se requiere es que la variable sea continua
de Kruskal-Wallis. y que sean observaciones pareadas, es decir, que sean
Alternativas. Hay dos alternativas paramétricas que sujetos de una misma muestra con medidas pre y pos-
son: la t de Student, cuando la variable independiente es prueba, o bien sujetos que hayan sido pareados bajo crite-
dicotómica y, cuando la variable independiente tiene
edigraphic.com
más de dos niveles, el análisis de varianza de una vía. Las
rios bien definidos. Contiene varias asunciones críticas:1)
Que los datos sean observaciones pareadas, de una
alternativas no paramétricas son la U de Mann-Whitney muestra seleccionada al azar u obtenida por pares, o

97 Rev Mex Pediatr 2003; 70(2); 91-99


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

bien mediante sujetos considerados como sus propios naria y considera una respuesta multinomial; prueba los
controles; 2) Que los datos que se van a analizar sean cambios en las respuestas que se obtiene y usa la distri-
continuos, o al menos ordinales, dentro y entre las ob- bución Ji cuadrada. Es útil para reconocer cambios de la
servaciones pareadas; y, 3) Que haya simetría en los re- respuesta debido a la intervención experimental en dise-
sultados de las diferencias con la mediana verdadera ños antes y después.
de la población. Alternativas. No hay alternativa paramétrica. Cuan-
Para efectuar esta prueba se calculan las diferencias do hay más de dos periodos de colección de datos (ej:
entre los pares de datos y se registran los valores absolu- preprueba, posprueba y seguimiento) se recomienda la
tos entre ellas. Luego, los valores absolutos de las dife- Q de Cochran y si los datos son continuos y ordenados
rencias entre las dos variables se ordenan del valor adecuadamente, la alternativa no paramétrica es la prue-
menor al mayor y para finalizar, a cada rango se le da un ba del signo o la de Wilcoxon.
signo positivo o negativo, dependiendo del signo de la
diferencia original. Los signos positivos y los negativos se PRUEBAS DE VARIAS MUESTRAS RELACIONADAS
suman separadamente y se obtienen los promedios. Los
pares que no tienen cambio alguno se retiran del análisis. Las pruebas para varias muestras relacionadas comparan
Se usa el valor de Z para probar la hipótesis nula de la no las distribuciones de dos o más variables. Hay tres prue-
diferencia entre los pares. Si la hipótesis nula es cierta, la bas disponibles para comparar las distribuciones de va-
suma de los rangos positivos debe ser similar a los rangos rias muestras relacionadas.
negativos. Como la prueba de los rangos signados de Prueba de Friedman. Es una extensión de la prueba
Wilcoxon incorpora más información acerca de los da- de Wilcoxon para incluir datos registrados en más de dos
tos, es más poderosa que la prueba del signo. periodos de tiempo o grupos de tres o más sujetos parea-
Alternativas. La alternativa paramétrica es la t de dos, con un sujeto de cada grupo que ha sido asignado alea-
Student para muestras pareadas, o relacionadas. Las al- toriamente a una de las tres o más condiciones.28,29 La
ternativas no paramétricas son la prueba del signo y la prueba examina los rangos de los datos generados en cada
prueba binomial. periodo de tiempo para determinar si las variables compar-
Prueba de McNemar. Es especialmente útil cuando ten la misma distribución continua de su origen. Es especial-
se tiene un diseño pre y posprueba, en el que el sujeto sir- mente útil cuando la variable dependiente es continua pero
ve como su propio control y la variable dependiente es di- su distribución se encuentra sesgada.
cotómica.27 Se usa cuando hay una situación en la que las Alternativas. La contraparte paramétrica es el análi-
medidas de cada sujeto se repiten, por lo que la respues- sis de varianza intrasujetos, cuando ésta es medida de
ta de cada uno de ellos se obtiene dos veces: una vez an- manera repetida. Se compara con la prueba de F del aná-
tes y la otra después de que ocurre un evento específico: lisis de varianza y se considera que tiene un poder del
examina la extensión del cambio de la variable dicotómica 64% cuando son dos series (k = 2), de 80% cuando k =
antes y después del evento. Si la frecuencia de la respues- 5 y llega a ser de 87% cuando k = 10.
ta en una dirección es mayor de lo esperado por el azar, Prueba W de Kendall. En cierta forma es una nor-
se rechaza la hipótesis nula (de que no hay cambio algu- malización de la estadística de Friedman.30 Se interpreta
no). Tiene cuatro presunciones críticas: 1) Que la variable como el coeficiente de concordancia, que es una medida
dicotómica que se va a medir tenga valores asignados para de acuerdo entre los rangos. Cada caso es una base o
cada nivel (ej: 0 y 1), con el mismo valor en los dos perio- rango, y cada variable se considera un artículo o persona
dos; 2) Que los datos representen frecuencias, no valores; a juzgar. Para cada variable se computa la suma de cada
3) Que las medidas dicotómicas sean observaciones pa- línea. Su valor final está comprendido entre 0 (ningún
readas, de la misma selección aleatoria de sujetos o de sus acuerdo) y 1 (acuerdo completo). Tiene las mismas indi-
pares; 4) Que los niveles de la variable dicotómica sean caciones que la prueba de Friedman, aunque su uso en
mutuamente excluyentes, lo que significa que un sujeto investigación ha sido, principalmente, para conocer la
sólo puede asignarse a un nivel de la variable dicotómica concordancia entre rangos, más que para probar que hay
que va a ser examinada en todo el tiempo. una diferencia entre las medianas.
Para efectuar la prueba lo primero es colocar los da- Q de Cochran. Esta prueba es idéntica a la prueba
tos en una tabla de 2 x 2, en la que numéricamente se de Friedman, pero se aplica cuando todas las respuestas
representen los cambios de cada individuo antes y des- son binarias.31-33 Es una extensión de la prueba de McNe-
pués de la intervención. Si los datos son categóricos se
usa la prueba de homogeneidad marginal; ésta es una
edigraphic.com mar ante la situación de k-muestras. La Q de Cochran
prueba la hipótesis de que varias variables dicotómicas
extensión de la prueba de McNemar de la respuesta bi- que están relacionadas entre sí, tienen el mismo prome-

Rev Mex Pediatr 2003; 70(2); 91-99 98


Gómez-Gómez M y cols. • Sinopsis de pruebas estadísticas no paramétricas

dio. En observaciones múltiples las variables son medidas 11. Pearson ES. The choice of statistical test illustrated on the inter-
en el mismo individuo o en individuos pareados. Tiene la pretation of data in a 2 x 2 table. Biometrika 1947; 34: 139-67.
12. Ferran-Aranaz M. SPSS para Windows. Análisis estadístico.
ventaja de examinar cambios en las variables categóricas. Madrid: Osborne McGraw-Hill, 2001.
Alternativas. No tiene equivalente paramétrico. Si 13. Armitage P, Berry G. Estadística para la investigación biomédica.
los datos son continuos se prefiere la prueba de Fried- 3ª ed. Madrid: Harcourt Brace, 1997: 424-43.
man, en especial cuando el tamaño de muestra es pe- 14. Visauta-Vinacua B. Análisis estadístico con SPSS para Windows.
Estadística básica. Madrid: McGraw-Hill, 1997: 238-74.
queño (< 16) y los datos son ordenados. 15. Álvarez-Cáceres R. Estadística multivariante y no paramétrica con
SPSS. Aplicación a las ciencias de la salud. Madrid: Díaz de San-
CONCLUSIONES tos, 1996.
16. Pérez-López C. Técnicas estadísticas y SPSS. Madrid: Prentice
Hall, 2001.
Cuando se usan variables cuantitativas continuas y la media 17. Kolmogorov AN. Sulla determinazione empirical di una legge di
aritmética y desviación estándar de las muestras tienden a distribuzione. Giornale Inst Ital Altuari 1933; 4: 83-91.
tener una distribución normal, con varianzas similares (ho- 18. Smirnov NV. Estimate of deviation between empirical distribu-
mogeneidad), y el tamaño de las muestras es suficiente (ma- tion functions in two independent samples. Bull Moscow Univer-
sity 1939; 2: 3-16.
yor a 30 casos) se deben utilizar las pruebas estadísticas 19. Mann HB, Whitney DR. On a test of whether one of two ran-
paramétricas. En caso de que no se cumplan estos requisi- dom variables is stochastically larger than the other. Ann Math
tos, y sobre todo cuando la normalidad de las distribuciones Stat 1947; 18: 50-60.
de la variable en estudio esté en duda y el tamaño de la 20. Moses LE. Nonparametrical statistics for psychological re-
search. Psychol Bull 1952; 49: 122-43.
muestra sea menor a once casos, el empleo de las pruebas 21. Kruskal WH, Wallis WA. Use of ranks in one-criterion variance
no paramétricas está indicado. analysis. J Am Stat Assoc 1952; 47: 583-621.
Cuando una o varias muestras es menor a 11 casos, la 22. Kruskal WH. A nonparametric test for the several sample prob-
potencia estadística de las pruebas paramétricas y no pa- lem. Ann Mat Stat 1941; 12:461-3.
23. Kruskal WH. Ordinal measures of association. J Am Stat Assoc
ramétricas es similar; a medida que aumenta el tamaño 1958; 1958; 53: 814-61.
de las muestras las pruebas paramétricas aumentan su 24. Reynaga-Obregón J, Gómez-Gómez M. Análisis estadístico en
potencia, por lo que las pruebas no paramétricas están ciencias de la salud. México: UNAM, 2002: 125-8.
indicadas cuando la muestra sea menor de once o bien 25. Clayton D, Hills M. Statistical models in epidemiology. Oxford:
Oxford University Press, 1996: 246-7.
cuando hay una muestra mayor pero no se cumplen los 26. Wilcoxon F. Individual comparison by ranking methods. Bi-
requisitos de aplicabilidad de las pruebas paramétricas. ometrika 1945; 1: 80-3.
27. McNemar Q. Psychological statistic. 4th ed. New York: Wiley,
Referencias 1969.
28. Friedman M. The use of ranks to avoid the assumption of nor-
mality implicit in the analysis of variance. J Am Stat Assoc 1937;
1. Daniel WW. Biostatistics. A foundation for analysis in the health 32: 675-701.
sciences. 7th ed. New York: John Wiley and Sons Inc, 1999: 658- 29. Friedman M. A comparison of alternative test of significance for
736. the problem of rankings. Ann Mat Stat 1940; 11: 86-92.
2. Gómez-Gómez M, Danglot-Banck C, Velásquez-Jones L. Bases 30. Kendall MG. Rank correlations methods. 2th ed. New York:
para la revisión crítica de artículos médicos. Rev Mex Pediatr Hafner, 1955.
2001; 69: 152-9. 31. Dawson-Saunders B, Trapp RG. Bioestadística médica. 3ª ed.
3. Stevens SS. On the theory of scales of measurement. Science México: Manual Moderno, 2002: 184-5.
1946; 103: 677-80. 32. Cochran WG. The χ2 test of goodness of fit. Ann Mat Stat 1952;
4. Reynaga-Obregón J. Estadística básica en ciencias de la salud. 23: 315-45.
México: DEMSA, 2001. 33. Cochran WG. Some methods for strengthening the common χ2
5. Norusis MJ. SPSS 10.0.1 for Windows. Chicago: SPSS Inc, 1999. tests. Biometrics 1954; 10: 417-51.
6. Pett MA. Nonparametric statistics for health care research. Thou-
sand Oaks, Cal: Sage Publications Inc, 1997.
7. Bradley JV. Distribution-free statistical tests. Englewood Cliffs, Correspondencia:
NJ: Prentice-Hall, 1968. Dr. Manuel Gómez Gómez
8. Moses LE. Non-parametric statistics for psychological research. Parque Zoquiapan 25,
Psychol Bull 1952; 49: 122-43. Col. del Parque, CP 53398,
9. Downie NM, Heath RW. Métodos estadísticos aplicados. 5ª ed. Naucalpan de Juárez,
México: Harla, 1986: 251-65. Estado de México
10. Siegel S, Castellan NJ. Estadística no paramétrica aplicada a las Teléfono: 55 76 56 06
ciencias de la conducta. 4ª ed. México: Editorial Trillas, 1995: Correo electrónico:
151-7. mangomez38@hotmail.com

edigraphic.com
99 Rev Mex Pediatr 2003; 70(2); 91-99
Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

formación continuada
CURSO DE INTRODUCCIÓN A LA INVESTIGACIÓN CLÍNICA
Capítulo 7: Estadística: Estadística Descriptiva y Estadística
Inferencial
T. Seoanea, J.L.R. Martína,b, E. Martín-Sáncheza, S. Lurueña-Segoviaa,c y F.J. Alonso Morenod,e
aÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo.
bUnidad de Investigación Aplicada. Hospital Nacional de Parapléjicos. Toledo.
cFENNSI Group. Fundación Hospital Nacional de Parapléjicos. Toledo.
dCentro de Salud Sillería. Toledo.
eResponsable de Investigación de Semergen.

La estadística estudia los métodos científicos para recoger, Statistics is the study of the scientific methods for collec-
organizar, resumir y analizar datos, permite obtener conclu- ting, organizing, summarizing, and analyzing data; it makes
siones válidas y tomar decisiones razonables basadas en el it possible to reach valid conclusions and make reasonable
análisis. decisions on the basis of the analysis.
La estadística es, por tanto, la ciencia que recoge, clasifica Statistics is, therefore, the science of gathering, classif-
y analiza la información que se presenta habitualmente me- ying, and analyzing information that is usually presented
diante datos agregados que permiten que las observaciones through aggregated data that enable observations to be quan-
puedan cuantificarse, medirse, estimarse y compararse utili- tified, measured, estimated, and compared using measure-
zando medidas de tendencia central, medidas de distribu- ments of central tendency, measurements of distribution,
ción, métodos gráficos, etc. La estadística aplicada trata so- graphical methods… Applied statistics deals with how and
bre cómo y cuándo utilizar los procedimientos matemáticos when to use the mathematical procedures (mathematical sta-
(estadística matemática) y cómo interpretar los resultados tistics) and how to interpret the results that are obtained
que se obtienen. using these procedures.
Así, la bioestadística es la rama de la estadística que en- Likewise, biostatistics is the branch of statistics that tea-
seña y ayuda a investigar en todas las áreas de las ciencias de ches and helps the investigator to carry out research in all of
la vida donde la variabilidad es la regla. Se divide en dos the different branches of the life sciences where variability is
grandes ramas, la bioestadística descriptiva y la bioestadísti- the rule. Biostatistics can be divided into two main areas: des-
ca analítica o inferencial. criptive biostatistics and analytical or inferential statistics.
La estadística descriptiva resume la información conteni- Descriptive statistics summarizes the information contai-
da en los datos recogidos y la estadística inferencial de- ned in the data collected and inferential statistics demons-
muestra asociaciones y permite hacer comparaciones entre trates associations and makes it possible to make compari-
características observadas. sons among the characteristics observed.

Palabras clave: estadística, bioestadística, variable, estadística Key words: statistics, biostatistics, variable, descriptive statistics,
descriptiva, inferencia estadística, contraste de hipótesis, regresión. statistical inference, hypothesis testing, regression.

INTRODUCCIÓN
La estadística se define como la ciencia matemática que se
refiere a la recopilación, estudio e interpretación de los da-
tos obtenidos en un estudio.
Correspondencia: J.L.R. Martín. Se aplica a una amplia variedad de disciplinas, entre las
Área de Investigación Clínica. que cabe destacar las ciencias de la salud; en particular, en
Fundación para la Investigación Sanitaria en Castilla-La Mancha
(FISCAM). Edificio Bulevar. el campo de la Atención Primaria es necesario conocer los
C/ Berna, n.o 2, local 0-2. 45003 Toledo. fundamentos de la estadística ya que la medicina es cada
Correo electrónico: jlrmartin@jccm.es
vez más cuantitativa, los resultados se utilizarán para la to-
Recibido el 30-07-07; aceptado para su publicación el 30-07-07. ma de decisiones pues se obtienen conclusiones correctas

466 SEMERGEN. 2007;33(9):466-71


Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

de procedimientos diagnósticos y de diversas pruebas. ción contenida en los datos reales, o bien utilizando re-
La bioestadística es la disciplina que trata del desarrollo presentaciones gráficas que son muy útiles, ya que pueden
y aplicación de la teoría y métodos estadísticos en aquellos aportar mucha información en un solo golpe de vista5,7.
fenómenos que surgen de las ciencias biomédicas1,2. Si la variable a estudio es una variable cualitativa utiliza-
Como hemos estudiado en el capítulo “Selección de la remos tablas de frecuencias, que consisten una representa-
muestra” de esta serie, para aplicar un análisis estadísti- ción estructurada de toda la información que se ha recogi-
co necesitamos recopilar información de cierta población do sobre dicha variable. En estas tablas se detalla cada uno
que se define como el conjunto homogéneo de elemen- de los valores diferentes en el conjunto de datos con el nú-
tos que reúne unas características determinadas objeto de mero de veces que aparece, la frecuencia absoluta. Se pue-
estudio. Por razones prácticas se estudia un subconjunto de completar añadiendo la frecuencia relativa que repre-
de la población denominado muestra, sobre el que reali- senta la frecuencia en porcentaje sobre el total de datos.
zamos las mediciones o el experimento para obtener con- Si describimos una variable cualitativa gráficamente de-
clusiones generalizables a la población. Los datos recogi- bemos utilizar un diagrama de barras en el que se repre-
dos se analizan estadísticamente siguiendo dos propósitos: sentan tantas barras como categorías tiene la variable, de
descripción e inferencia. forma que la altura de cada uno de los rectángulos es pro-
porcional a la frecuencia de casos en cada clase; o un dia-
TIPOS DE DATOS grama de sectores, en el que se divide un círculo en tantas
La naturaleza de las observaciones es importante a la hora porciones como clases tiene la variable, de forma que a ca-
de elegir el método estadístico más apropiado para el aná- da una de las clases le corresponde un arco de círculo pro-
lisis. La característica observada de cada individuo de la porcional a la frecuencia absoluta o relativa.
muestra se denomina variable, por ejemplo: el peso, la edad, Supongamos que hemos recogido de una muestra de
el nivel de colesterol en sangre, etc., y se pueden clasificar 100 individuos la variable “hábito tabáquico”, dicha varia-
en dos grupos según el tipo de valores que toman3-5: ble tiene tres categorías: “fumador, no fumador y ex fuma-
dor”. La tabla de frecuencias se puede observar en la tabla
1) Variables cualitativas: son variables que representan 1 y las figuras 1 y 2.
una cualidad, no pueden medirse numéricamente pero Las variables cuantitativas se describen mediante gráfi-
pueden clasificarse en una o varias categorías. A su vez las cos y medidas características.
variables cualitativas se dividen en ordinales y nominales, Las medidas características se clasifican en cuatro gru-
dependiendo de que esas categorías admitan cierto orden. pos:
Por ejemplo, el estado de un paciente (leve, moderado,
grave) es una variable cualitativa ordinal y la variable sexo 1) Medidas de tendencia central: nos indican el valor al-
(hombre, mujer) es una variable cualitativa nominal. rededor del cual se agrupan los datos, dentro de este tipo
2) Variables cuantitativas: son variables que toman va- de medidas distinguimos:
lores numéricos y que se dividen a su vez en dos catego- – Media: que se obtiene sumando los valores de la va-
rías: variables continuas, asociadas a procesos de medición riable divididos por el número total de datos.
como la edad, el peso, etc., y variables discretas, asociadas
n
a procesos de conteo, por ejemplo, número de hijos, de ca-
– x + x2 + ... + xn = ⌺
xi
sos de sida, etc. X= 1 n
i=1
n
Puede realizarse una transformación de una variable
cuantitativa pasándola a una escala ordinal, este proceso se – Mediana: es la observación que ocupa la posición cen-
denomina categorización de una variable. Partiendo de tral después de haber ordenado los datos, si el número de
una variable numérica creamos grupos de casos colapsán- casos es impar será el dato que ocupa la posición (n + 1)/2,
dolos en k categorías. Por ejemplo, supongamos que he- en el caso de que el número de observaciones sea par, la
mos recogido la variable edad de los individuos que for- mediana se obtiene calculando la media de los datos que
man nuestra muestra, a partir de esta variable podemos ocupan las posiciones n/2 y (n/2) + 1.
crear una nueva variable (edad categorizada) de la forma – Moda: es el valor o valores más frecuentes de la dis-
siguiente: categoría 1 = joven (menores de 25 años), cate- tribución.
goría 2 = mediana edad (individuos entre 26-59 años) y 2) Medidas de dispersión: cuantifican la variabilidad de
categoría 3 = mayor (individuos mayores de 60 años). la distribución, es decir, nos dan una idea de la dispersión
de los datos. Entre estas medidas distinguimos:
ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva es la parte de la estadística que Tabla 1. Distribución de frecuencias
sintetiza y resume la información contenida en un con-
junto de datos, por tanto, un análisis descriptivo consiste Frecuencia absoluta Frecuencia relativa

en clasificar, representar y resumir los datos2,3,6. La des- Simple Acumulada Simple Acumulada
cripción se puede hacer utilizando dos tipos de procedi- Fumador 45 45 0,45 0,45
mientos: mediante el cálculo de índices estadísticos que No fumador 27 72 0,27 0,72
son números que resumen de modo sencillo la informa- Ex fumador 28 100 0,28 1

SEMERGEN. 2007;33(9):466-71 467


Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

50
45 A B C

40

30 28
26
X
0 1 2 3 4 5 6
20
Figura 3. Asimetría. A = asimétrica por la derecha; B = función simétrica;
C = asimétrica por la izquierda.
10

0 A
Fumador No fumador Ex fumador
Fuma
B
Figura 1. Diagrama de barras.

Ex fumador
X 0 1 2 3 4 5 6

Figura 4. Curtosis. A = leptocúrtica; B = mesocúrtica; C = platocúrtica;

40

Fumador
30
Frecuencia

No fumador
20

Figura 2. Diagrama de sectores.


10

– Varianza: mide la dispersión de los datos alrededor del


valor medio. Cuanto mayor sea la varianza mayor es la va- 0
140 150 160 170 180 190 200
riabilidad y cuanto menor sea más homogénea será la dis-
tribución. Altura (cm)

1 n
S2 = n ⌺ (xi – x–) Figura 5. Histograma, representa la variable aleatoria altura de una
i=l muestra de 316 individuos.

– Desviación típica: que se define como la raíz cuadrada 4) Medidas de forma: describen dos aspectos de la dis-
de la varianza, informa sobre la dispersión de la distribu- tribución:
ción y se expresa en las mismas unidades que la variable. – Asimetría: se define el coeficiente de asimetría como
– Rango: es la diferencia entre el valor mayor y el valor el grado en que los datos se reparten por encima y por de-
menor de la distribución, por tanto, está muy influencia- bajo de la tendencia central (fig. 3).
do por los outliers. – Curtosis: indica el grado de apuntamiento de la dis-
3) Medidas de posición: entre este tipo de medidas dis- tribución en la zona central (fig. 4).
tinguimos: Para resumir una variable aleatoria numérica continua,
– Percentiles: el percentil de orden k es el valor de la va- como por ejemplo la edad, se puede utilizar el histograma,
riable que deja por debajo el k% de las observaciones. en el cual el rango de valores de la variable se divide en in-
– Cuartiles: dividen el conjunto de datos en cuatro gru- tervalos de igual amplitud, sobre cada intervalo se repre-
pos de igual tamaño, el Q1 o 1.er cuartil deja por debajo el senta un rectángulo de forma que su altura mantiene la
25% de los datos, el Q2 o 2.o cuartil es la mediana y el Q3 proporción entre las frecuencias (absolutas o relativas) y
o 3.er cuartil deja por debajo de sí el 75% de los datos. la longitud del intervalo (fig. 5).

468 SEMERGEN. 2007;33(9):466-71


Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

tica son la estimación y el contraste de hipótesis.


200
Para que un método de inferencia estadística proporcio-
ne buenos resultados debe basarse en una técnica mate-
190
mática (estadística) adecuada al problema planteado, ade-
más la muestra seleccionada debe ser representativa de la
180
población y de tamaño suficiente (tabla 2).
La estimación estadística es el conjunto de técnicas que
170
nos permitirán dar un valor aproximado de un parámetro
poblacional a partir de la información obtenida de la
160 muestra. Para realizar estimaciones utilizaremos ciertas
fórmulas que dependen de los valores obtenidos en la
150 muestra, se denominan estimadores. Un buen estimador
debe ser insesgado, lo que significa que la estimación
140 muestral debe coincidir con la poblacional; eficiente, es
Altura (cm)
decir, de mínima varianza; y suficiente, debe utilizar toda
Figura 6. Diagrama de cajas, representa la variable aleatoria altura de una la información contenida en la muestra.
muestra de 316 individuos. La estimación de un parámetro poblacional utilizando
un único valor se denomina estimación puntual; por ejem-
plo, para estimar la edad media poblacional utilizaremos la
200 edad media muestral, pero este tipo de estimación tiene
ciertos inconvenientes, ya que no podemos conocer cómo
190 de precisa es esta medida.
La estimación por intervalos de confianza nos permite
180 62 presentar una estimación acompañada de cierto margen
Altura (cm)

de error (con un límite superior y un límite inferior), por


170 tanto, un intervalo de confianza es simplemente un rango
de valores que contiene el parámetro poblacional con cier-
160 ta probabilidad.
Esta probabilidad se denomina nivel de confianza y se
150 denota por (1-␣), aunque habitualmente se expresa en
tanto por ciento. Los niveles de confianza que se utilizan
140 generalmente son del 95%, del 90% o del 99%, que se co-
Hombre Mujer rresponden con un nivel de significación, que es la proba-
Sexo bilidad de que la estimación falle, del 0,05, 0,1 y 0,01, res-
pectivamente.
Figura 7. Diagrama de cajas, representa la variable aleatoria altura de una
muestra de 316 individuos por sexo. Para calcular intervalos de confianza se debe utilizar el
error estándar, que es una medida de dispersión de la me-
dia muestral alrededor de la media poblacional. Se calcula
El diagrama de cajas es otra forma de describir gráfica- como el cociente entre la desviación típica y la raíz cua-
mente una variable de tipo numérico, este tipo de gráfico drada del número de observaciones (s/n).
utiliza los percentiles, de forma que la caja central con-
centra el 50% de los datos (sus límites se corresponden PRUEBAS ESTADÍSTICAS
con el 1.er y 3.er cuartil). La línea central representa la me- Las pruebas estadísticas8,9 forman parte de la teoría de de-
diana. Los “bigotes” de los extremos de las cajas encierran cisión, a partir de la información que extraemos de la
el 95% de los datos centrales (pueden coincidir en algunos muestra estimamos características generales de la pobla-
casos con los extremos de la distribución), se representan ción de referencia. Existen tres tipos de pruebas estadís-
los valores extremos, denominados outliers, por puntos y ticas:
por asteriscos. Una de las ventajas de este tipo de gráficos
es que podemos de forma visual detectar posibles errores 1) Pruebas de conformidad: en las que se comprueba si
en los datos y además nos permite comparar grupos de su- una estimación coincide con un valor teórico. Por ejem-
jetos (figs. 6 y 7). plo, queremos comprobar si la proporción de recurrencia
de una úlcera duodenal al tomar cierto fármaco es inferior
INFERENCIA ESTADÍSTICA al 10%.
La inferencia se define como el conjunto de métodos esta- 2) Pruebas de homogeneidad: comparan poblacional-
dísticos que permiten deducir cómo se distribuye la po- mente dos o más grupos; supongamos que nos interesa
blación e inferir las relaciones entre variables a partir de la comprobar si la proporción de recurrencia de la úlcera
información que proporciona la muestra recogida8. Por duodenal con un nuevo fármaco es igual a la proporción
tanto, los objetivos fundamentales de la inferencia estadís- de recurrencia en pacientes tratados con otro fármaco.

SEMERGEN. 2007;33(9):466-71 469


Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

Tabla 2. Principales técnicas estadísticas


Variable dependiente (Y)
Variable independiente (x) Cuantitativa
Cualitativa (nominal) Cualitativa (ordinal) Cuantitativa (discreta) Cuantitativa (normal)
(no normal)
Cualitativa (nominal) Comparación 2 proporciones/ Mann-Whitney/ t de Student/ Mann-Whitney/
Chi-cuadrado
Chi-cuadrado Druskall-Wallis ANOVA Druskall-Wallis
Cualitativa (ordinal) Chi-cuadrado
Cuantitativa (discreta)
Correlación/
Cuantitativa (normal) Regresión logística Correlación/Regresión lineal
Regresión Poisson
Cuantitativa (no normal)

3) Pruebas de relación: evalúan la relación entre varia- Cuando analizamos la muestra obtendremos la signifi-
bles. cación del contraste, que se representa con la letra p, es un
indicador de la discrepancia entre la hipótesis nula y los
Los contrastes de hipótesis o tests de hipótesis10 permi- datos muestrales, de forma que cuanto más se acerque a
ten comprobar si la información muestral concuerda con cero tenemos mayor evidencia en contra de la hipótesis
la hipótesis estadística formulada, nos permiten cuantificar nula (si p es menor que el nivel de significación rechaza-
hasta qué punto los resultados de un estudio particular de- remos H0).
penden de la variabilidad de la muestra. Debemos tener en cuenta que la significación estadísti-
La hipótesis que se contrasta se denomina hipótesis nu- ca depende de la magnitud de la diferencia que queremos
la y se denota por H0, se puede interpretar como la hipó- probar, cuanto mayor sea esta diferencia más sencillo será
tesis que normalmente sería aceptada mientras los datos demostrar que es significativa. Al mismo tiempo depende
no indiquen lo contrario. Rechazar la hipótesis nula supo- también del tamaño muestral, cuanto más grande sea el
ne asumir una hipótesis complementaria, la hipótesis al- número de observaciones más sencillo es detectar diferen-
ternativa (H1), como correcta. cias.
Para realizar un contraste de hipótesis debemos definir
la hipótesis nula y la alternativa y definir una medida, el MODELOS DE REGRESIÓN
estadístico de contraste, que permite cuantificar la magni- Los modelos de regresión estudian la relación cuantitati-
tud de la diferencia entre la información que proporciona va12 entre una variable de interés, que se denomina varia-
la muestra y la hipótesis H0. Se pueden cometer dos tipos ble respuesta o dependiente (Y), y un conjunto de varia-
de errores11: bles explicativas (X1,X2,…,Xk). Puede ocurrir que exista
una relación funcional, de forma que el conocimiento de
1) Error tipo I: rechazamos la hipótesis nula cuando es las variables explicativas determina el valor de la variable
cierta. dependiente, o, en cambio, que no exista ninguna rela-
2) Error tipo II: no rechazamos la hipótesis nula cuan- ción, lo que significa que conocer el valor de las variables
do es falsa. (X1,X2,...,Xk) no aporta ninguna información sobre la va-
riable Y. Lo habitual es que exista cierta relación entre ellas
En la práctica no es posible saber si estamos cometien- de manera que el hecho de conocer el valor de las varia-
do un error tipo I o un error tipo II, pero existen ciertas bles independientes nos permite predecir el valor de la va-
recomendaciones para disminuir dichos errores. Por riable respuesta. Existen tantos modelos como funciones
ejemplo, para disminuir el error tipo I deberíamos depu- matemáticas, los más utilizados son: el modelo de regre-
rar la base de datos para evitar posibles outliers o valores sión lineal, polinómico, logístico, de Poisson, etc.
extremos que puedan producir resultados significativos, Los modelos de regresión se utilizan con dos objetivos:
utilizar un nivel de significación pequeño y disponer de 1) Predicción: se pretende predecir la variable depen-
una teoría que guíe las pruebas. Para reducir el error tipo diente utilizando un conjunto de variables independien-
II es aconsejable incrementar el tamaño muestral, estimar tes.
la potencia estadística o incrementar el tamaño del efecto 2) Estimación: el interés se centra en apreciar la relación
a detectar. entre la variable respuesta y las variables explicativas.
Es necesario establecer a priori el nivel de significación Cuando utilizamos los modelos de regresión para la es-
(␣) que se define como la probabilidad de cometer un timación debemos tener en cuenta dos conceptos impor-
error tipo I, normalmente se elige un valor pequeño, el 5% tantes, la interacción y la confusión. Existe interacción
o el 1%. El valor del nivel de significación divide en dos cuando la asociación entre la variable respuesta y la varia-
regiones el conjunto de posibles valores del estadístico de ble independiente varía según los diferentes niveles de otra
contraste: variable. Y existe confusión cuando la asociación entre la
variable respuesta y la de exposición difiere significativa-
1) Zona de rechazo (con probabilidad ␣, bajo H0). mente si se considera, o no, una tercera variable, denomi-
2) Zona de aceptación (con probabilidad 1-␣, bajo H0). nada variable de confusión.

470 SEMERGEN. 2007;33(9):466-71


Seoane T et al. Capítulo 7: Estadística: Estadística Descriptiva y Estadística Inferencial

El modelo de regresión más sencillo es el Modelo de Re- 4. Dawson-Saunders B, Trapp RG. Bioestadística Médica. 2.ª ed. Mé-
xico: Editorial el Manual Moderno; 1996.
gresión Lineal13 que estudia la posible relación lineal entre
5. Altman DG, Bland JM. Statistics Notes: Presentation of numerical
la variable dependiente, que es una variable cuantitativa, y data. BMJ. 1996;312:572.
las variables independientes. 6. De la Horra J. Estadística aplicada. Díaz de Santos; 1995.
La metodología de la regresión lineal no se puede apli- 7. Singer PA, Feinstein AR. Graphical display of categorical data. J
Clin Epidemiol. 1993;46:231-6.
car cuando la variable respuesta es dicotómica, por ejem-
8. Wassertheil-Smoller S. Biostatistics and Epidemiology. A primer for
plo, presencia/ausencia de una enfermedad. En estos casos health professionals. 2nd ed. New York: Springer-Verlag; 1995.
el modelo de regresión que se debe utilizar es el Modelo 9. Altman DG. Preparing to analyse data. En: Practical statistics for
Logístico14. medical research. London: Chapman and Hall; 1991. p. 132-45.
10. Jekel JF, Elmore JG, Katz DL. Epidemiology Biostatistics and Pre-
ventive Medicine. Philadelphia: W.B. Saunders Company; 1996.
11. Daly LE, Bourke GJ. Interpretation and uses of medical statistics.
BIBLIOGRAFÍA 5th ed. Oxford: Blackwell science; 2000.
1. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la 12. Pita Fernández S, Rey Sierra T, Vila Alonso MT. Relaciones entre
salud. México: Ed. Uteha. Noriega Editores; 1995. variables cuantitativas (I). Cuadernos de Aten Primaria. 1997;4:
2. Martín Andrés A, Luna del Castillo J. Bioestadística para las cien- 141-5.
cias de la salud. 4.ª ed. Madrid: Ed. Norma; 1994. 13. Altman DA. Practical statistics for medical research. 1th ed. repr.
3. Cao R, Francisco M, Naya S, Presedo MA, Vázquez M, Vilar JA, Vi- 1997. London: Chapman & Hall; 1997.
lar JM. Introducción a la Estadística y sus aplicaciones. Ed. Pirámi- 14. Hosmer DW, Lemeshow S. Applied Logistic Regression, 2nd ed.
de; 2001. New York: Wiley; 2000.

SEMERGEN. 2007;33(9):466-71 471


Inv Ed Med 2013;2(8):217-224

www.elsevier.es

Metodología de investigación en educación médica

Cálculo del tamaño de la muestra en investigación en educación


médica
José Antonio García-García, Arturo Reding-Bernal, Juan Carlos López-Alvarenga
Departamento de Bioestadística y Bioinformática, Dirección de Investigación, Hospital General de México “Dr. Eduardo
Liceaga”, México D.F., México.

Recepción 7 de junio de 2013; aceptado 13 de agosto de 2013

PALABRAS CLAVE Resumen


Tamaño de muestra; Un aspecto importante en la metodología de la investigación, es el cálculo de la cantidad de
cálculo; error estadístico; participantes que deben incluirse en un estudio. El tamaño de muestra permite a los inves-
investigación en educación tigadores saber cuántos individuos son necesarios estudiar, para poder estimar un parámetro
médica; México. determinado con el grado de confianza deseado, o el número necesario para poder detectar
una determinada diferencia entre los grupos de estudio, suponiendo que existiese realmente.
El cálculo del tamaño de la muestra es una función matemática que expresa la relación entre
las variables, cantidad de participantes y poder estadístico.
La muestra de un estudio debe ser representativa de la población de interés. El objeti-
vo principal de seleccionarla es hacer inferencias estadísticas acerca de la población de la que
proviene. La selección debe ser probabilística.
Los factores estadísticos que determinan el tamaño de la muestra son: hipótesis, error alfa,
error beta, poder estadístico, variabilidad, pérdidas en el estudio y el tamaño del efecto.
Se revisan las fórmulas utilizadas para el cálculo del tamaño de la muestra en las situaciones
más frecuentes en investigación, así como la revisión de fórmulas para un cálculo más rápi-
do. Se incluyen ejemplos de investigación en educación médica. También se revisan aspectos
importantes como: tamaño de la muestra para estudios piloto, estrategias para disminuir el
número necesario de sujetos, y software para el cálculo del tamaño de muestra.

KEYWORDS Sample size calculation in medical education research


Sample size; calculation;
population; statistical Abstract
error; research in medical An important aspect in the research methodology, is the calculation of the number of par-
education; Mexico. ticipants that must be included in a study, since the sample size allows the researchers to

Correspondencia: José Antonio García García. Dr. Balmis N° 148, Colonia Doctores, Delegación Cuauhtémoc, C.P. 06726, México
D.F., México. Teléfonos: 5004 3842, 5004 3843. Conmutador: 2789 2000, ext. 1164. Correo electrónico: drjagarcia2@prodigy.net.mx

ISSN en trámite - see front matter © 2013 Facultad de Medicina Universidad Nacional Autónoma de México. Publicado por Elsevier México. Todos los derechos reservados.
218 García-García JA et al

know how many individuals it is necessary to study in order to estimate a parameter with the
desired degree of confidence, or the number needed in order to detect a certain difference
between the study groups, assuming that exist actually.
The calculation of the sample size is a mathematical function that expresses the relationship
between the variables, amount of participants and statistical power.
A sample from a study should be representative of the population of interest. The main goal
of selecting a sample is to make statistical inferences about the population from which comes
from. The selection must be probabilistic.
Statistical factors that determine the sample size are: assumptions, error alpha, beta error,
statistical power, and variability, losses in the study and size effect.
We review the formulas used for calculating the sample size in the most common situations
in research, as well as the revision of formulas for a faster calculation.
It´s included examples of research in medical education.
Also reviewed are important issues such as: sample size for pilot studies, strategies to reduce
the required number of subjects, and software for the sample size calculation.

Introducción necesariamente se acompaña del cambio de la otra con-


siderada en la ecuación. Permite una mejor aproximación
Un aspecto relevante en la metodología de la investiga- al número que se requiere, ajustando a su vez el poder
ción, es la estimación o cálculo de la cantidad de par- estadístico con otros parámetros.
ticipantes que deben incluirse en un estudio. La primera Se denota por: y = f(x)
reflexión que surge es ¿para qué sirve el cálculo del ta- donde:
maño de la muestra? Permite a los investigadores saber y = variable dependiente (atributo o característica
cuántos individuos son necesarios estudiar, para estimar cuyo cambio es el que interesa medir, también se le de-
un parámetro determinado con el grado de confianza de- nomina resultante o desenlace. En el cálculo del tamaño
seado o el número necesario para detectar una determi- de la muestra, es el número de participantes que se ne-
nada diferencia entre los grupos de estudio, suponiendo cesitan).
que existiese realmente. x = variable independiente (atributo o característica
La inclusión de un número excesivo de sujetos en- que explica o predice el cambio en la variable dependien-
carece el estudio en varios aspectos. Un estudio con un te. En el cálculo del tamaño de la muestra, un ejemplo es
tamaño insuficiente de la muestra estimará un parámetro el poder estadístico que se requiere y que el investigador
con poca precisión o será incapaz de detectar diferencias fija con antelación).
entre los grupos, conduciendo a conclusiones erróneas. f = función (es una colección de pares de valores or-
En este documento se revisan los aspectos sobresa- denados, que pertenecen a diferentes conjuntos. En el
lientes del tema, incluyendo los matemáticos utilizados cálculo del tamaño de la muestra, los conjuntos se pue-
para estimar el tamaño de la muestra. den ejemplificar con el poder estadístico y el número
muestral resultante).
Preámbulo f (x) = regla de correspondencia (expresa que para
cada elemento de un conjunto se relaciona solamente con
Groso modo, puede considerarse que el objetivo de una un elemento de otro conjunto En el cálculo del tamaño
investigación puede ser: de la muestra, para un elemento del poder estadístico se
1. Estimación de un parámetro. Se pretende hacer relaciona solamente con un número muestral).
inferencias a valores poblacionales (medias, pro- En la Figura 1 se ilustran dos ejemplos hipotéticos
porciones), a partir de los resultados en una mues- para la representación gráfica del concepto de función pa-
tra. Por ejemplo, el porcentaje de estudiantes de ra la estimación del tamaño de muestra. Se utilizaron
pregrado con obesidad o el de alumnos que son datos para modelos con diferencia de medias (gráfica
aceptados para hacer una residencia médica. izquierda) y para diferencia de promedios (gráfica dere-
2. Contraste de hipótesis. Aquí se tiene como pro- cha). La gráfica de la función es una línea, y sobre ella, los
pósito comparar si las medidas (medias, propor- seguidores del método tradicional solicitan el resultado
ciones) de las muestras son diferentes. Por ejem- de las fórmulas aritméticas empleadas para el cálculo,
plo, evaluar qué intervención educativa consigue que representa solamente un punto sobre la línea. Se uti-
un mayor porcentaje de éxitos.1,2 lizó el software Statistica® versión 8, para las estimacio-
nes y representación gráfica del tamaño muestral.3,4
El cálculo del tamaño de la muestra como una
función matemática Rigor en el cálculo del tamaño de muestra en
ciencias
El cálculo del tamaño de la muestra no es una simple ope-
ración aritmética que nos proporcione un valor. Es una fun- En las diferentes áreas de la investigación científica se
ción matemática, por lo tanto, el cambio de una variable, debe tener rigor metodológico tanto para la elaboración
Cálculo del tamaño de la muestra 219

Prueba t muestras independientes: cálculo del tamaño de muestra Comparación de 2 proporciones: cálculo del tamaño de muestra
Dos medias: prueba t, muestras independientes (H0: μ1 = μ2 Dos proporciones: prueba Z (H0: Pi1 = Pi2)
n vs. poder (alfa= 0.05) n vs. poder (alfa= 0.05)
350 50

Tamaño de la muestra requerido (n)


45
Tamaño de la muestra requerido (n)

300

40
250
35
200
30

150 * 25 *
100 20
0.6 0.7 0.8 0.9 1.0 0.70 0.75 0.80 0.85 0.90 0.95 1.00
Poder estadístico Poder estadístico

Figura 1. Representación gráfica de la función para el cálculo del tamaño de la muestra, tanto para comparar dos medias como dos pro-
porciones. En el eje de las ordenadas se muestra el número de integrantes de la muestra y en el eje de las abscisas el poder estadístico. La
función está representada por la línea, y el asterisco sobre ella representa el valor resultante de la fórmula matemática correspondiente,
obteniendo así el tamaño de la muestra para un poder estadístico del 80%, que es utilizado habitualmente.

del protocolo, como para el desarrollo de las diferentes población es la que se desea investigar y se le denomi-
fases de la investigación. En este orden de ideas, es exi- na población de interés, blanco, objeto o diana. Para que
gible la misma severidad para estimar el tamaño de la la extrapolación (inferencia estadística) tenga validez, la
muestra en investigación en educación médica, que en muestra debe ser representativa, y alude a que el estima-
otras áreas del conocimiento.5 Lo anterior aplica para la dor muestral de las variables de interés debe tener una
mayoría de los estudios contenidos en la brújula o compás distribución similar a las de la población de dónde pro-
de la investigación en educación médica.6 viene. Para cumplir este supuesto de representatividad
es deseable que la muestra sea probabilística (Figura 2).8
Abraham Flexner, en su trascendental documento, in-
¿En dónde se anota el desarrollo del cálculo
cluyó al 100% de la población diana que fueron todas las
del tamaño de la muestra? escuelas de medicina de Estados Unidos de Norteamérica
Los sitios en donde se desglosa este proceso son: el proto- y Canadá. La muestra fue igual en número a la población,
colo de la investigación, también aparece en las tesis de un hecho muy difícil de emular.9
Maestrías y Doctorados en Ciencias Médicas y de la Salud Un aspecto diferente de muestreo es el caso de los
y eventualmente en las de licenciatura. Pero no aparece estudios para determinar la eficacia y seguridad de algún
en los artículos publicados, se da como un valor entendido medicamento, comparado con los tratamientos estánda-
que se realizó con rigor metodológico. Lo que aparece en res o contra placebo. En ellos, el interés reside en con-
los artículos científicos es la muestra en el estudio, pero trastar hipótesis sobre una intervención (tratamiento o
no las variables y sus valores que se consideraron para la maniobra) que interesa al investigador. En este caso, el
estimación del número. muestreo suele ser a conveniencia.10
Este artículo se enfoca en el diseño y la determinación
del tamaño de la muestra para obtener representatividad
Aspectos básicos en el proceso de muestreo. o validez externa en las conclusiones.
De población a muestra y viceversa
Población (cantidad representada en las fórmulas como Muestras y proceso de aleatorización en los
N), es el conjunto total de elementos del que se puede
estudios
seleccionar la muestra y está conformado por elementos
denominados unidades de muestreo o unidades muestra- Una vez que los sujetos de estudio son seleccionados, se
les, con cierta ubicación en espacio y tiempo. Las uni- hace una aleatorización para asignar la intervención que
dades de muestreo pueden ser individuos, familias, univer- recibirá cada uno. En este caso es adecuado que la aleato-
sidades, grupos de alumnos, profesores, etc. Una muestra rización se haga por bloques. Si el investigador conoce de
(cantidad representada en las fórmulas como n), no es antemano la existencia de factores que modifican la va-
más que un subconjunto de la población que se obtiene riable dependiente, es recomendable hacer estratos para
por un proceso o estrategia de muestreo.4,7 controlar a la variable confusora, que es una variable pre-
El objetivo fundamental para seleccionar una muestra dictora del cambio en la variable dependiente, externa a
es hacer inferencias estadísticas (estimaciones de uno o la relación principal que se analiza pero simultáneamente
más parámetros acerca de una población de interés). Esta relacionada con la variable independiente. Cada estrato
220 García-García JA et al

6. Pérdidas en el seguimiento del estudio.


Población 7. Relevancia del tamaño del efecto y significancia
de interés
estadística.
Muestra de tipo
probabilística
1. Hipótesis
Extrapoblación
Inferencia estadística De acuerdo con el tipo de estudio de investigación, puede
ser necesario formular una o más hipótesis. Si se tra-
ta de un estudio tipo descriptivo, ésta no es necesaria. En
los estudios de tipo comparativo es necesario establecer-
Estimador θ∧ Parámetro Θ las. En ambos casos, es necesario contrastar las hipótesis
de la muestra de la población y determinar si se aceptan o se rechazan. Para ese con-
Tamaño de la Tamaño de la traste, las hipótesis toman el nombre de nula (H0) o al-
muestra = n población = N ternativa (H1). El investigador desea probar la hipótesis
Representatividad: alternativa, que significa rechazar la hipótesis nula. Al va-
distribución de frecuencias similar lor α (error tipo I) se le conoce como la probabilidad de
entre la muestra y la población
que se rechace H0 (se acepte H1) cuando H0 es cierta. Al
valor β se le conoce como la probabilidad de que se acep-
te H0 cuando es falsa (H1 es cierta) (Tabla 1).7,13
Figura 2. Interrelación entre población y muestra. La representa-
tividad de una muestra probabilística permite hacer inferencias El tipo de contraste de hipótesis puede ser unilate-
estadísticas a la población de interés. Modificado de López-Alva- ral (una cola) o bilateral (dos colas). Una hipótesis uni-
renga JC, et al.8 lateral especifica la dirección de la asociación (mayor o
menor) de las variables; en la bilateral se puede afirmar
la asociación entre las variables, pero no especifica la di-
se aleatoriza en forma independiente para lograr grupos rección. En el contraste bilateral el tamaño de muestra
balanceados en la intervención o tratamiento.11 es más grande, estos contrastes también poseen mayor
Recientemente se publicó un ensayo controlado y robustez y se prefieren a los de una cola. Cabe mencionar
aleatorizado en investigación en educación médica, en que el valor de Z de una distribución normal (distribución
donde la intervención o tratamiento fue un curso sobre en el que el valor de la media igual a 0 y desviación están-
medicina basada en evidencia de seis meses de duración, dar igual a 1) cambia dependiendo el tipo de contraste de
la muestra incluyó a los alumnos del quinto año de la li- hipótesis. En la Tabla 2 se muestran los valores frecuen-
cenciatura en medicina, los cuales fueron aleatorizados temente utilizados de la distribución normal para Zα/2 (2
en dos grupos balanceados; es decir, con el mismo nú- colas) o para Zβ (1 cola).2,14
mero de participantes. Como variables dependientes se
midieron las actitudes, conocimientos y habilidades auto- 2. Error tipo I o error α
reportadas, en ambos grupos.12
En un contraste de hipótesis, al valor α (error tipo I) se
le conoce como la probabilidad de que se rechace H0 (se
Factores para la determinación del tamaño acepte H1) cuando H0 es cierta. Es decir, P(aceptar H1 |
de la muestra H0 es cierta) = a. Al valor (1 – α)*100 se le conoce como
el nivel de confianza de la prueba. El valor de α varía
Los factores que condicionan el tamaño de muestra, son
dependiendo del nivel de confianza que se quiera de la
de orden logístico o estadístico. Entre los primeros se en-
prueba; el criterio más usado en la literatura biomédica
cuentran las limitantes financieras o la disponibilidad de
es aceptar un riesgo de a < 0.05.4,15
participantes. Los siguientes son los factores de orden es-
tadístico que se desglosarán a continuación:8
1. Hipótesis.
2. Error tipo I o error α. 3. Error tipo II o error β
3. Error tipo II o error β. A la probabilidad de que se acepte H0 cuando ésta es falsa
4. Poder estadístico. (H1 es cierta), se le conoce como error tipo II o error β,
5. Variabilidad. es decir: P(aceptar H0 | H1 es cierta) = b. El valor de β

Tabla 1. Interpretación de los posibles errores estadísticos en el contraste de hipótesis.

Realidad en la población
Existen diferencias (H0 falsa) No existen diferencias (H0 cierta)
Hay diferencia significativa
Correcto Error tipo I (α)
Resultado de la (se rechaza H0)
investigación No hay diferencia significativa
Error tipo II (β) Correcto
(se acepta H0)
Cálculo del tamaño de la muestra 221

Tabla 2. Valores frecuentemente utilizados de la distribución nor- 7. Relevancia del tamaño del efecto y signifi-
mal para Z.
cancia estadística
α Zα/2 (2 colas) β Zβ (1 cola) La magnitud de la diferencia del efecto que se desea de-
0.1 1.65 0.2 0.84 tectar entre los grupos evaluados, es la condicionante
más importante para el cálculo del tamaño de la muestra.
0.05 1.96 0.1 1.28
Con frecuencia, la obtención de una diferencia estadísti-
0.01 2.58 0.05 1.65 camente significativa (diferencia en los resultados al con-
trastar dos o más valores o grupos con una prueba esta-
dística, generalmente se fija un punto de corte para decir
que si hay diferencias entre los valores. Por convención,
tolerable de mayor aceptación en la comunidad científica lo más frecuente es aceptar la propuesta de Karl Pearson,
va de 0.1 a 0.2.4 que hay diferencias significativas cuando el valor de p es
≤0.05) no resulta relevante para el área en que se está
4. Poder estadístico investigación, práctica clínica, educación médica, etc. El
investigador debe determinar si la magnitud de esa dife-
Es la probabilidad de que un estudio de un determinado rencia es relevante para el área de interés, independien-
tamaño detecte como estadísticamente significativa una temente de que haya sido estadísticamente significativa.
diferencia que realmente existe. Se espera que cualquier diferencia de relevancia también
Se define como 1 - b. Es decir, P(aceptar H1 | H1 es sea estadísticamente significativa.10,18
cierta) = 1 - b Si en un estudio se han considerado los factores arri-
Su valor depende del error tipo II que se acepte. Si b ba descritos, pero no se ha anticipado que el resultado
= 0.2, se tendrá una potencia de 1 - b = 0.8. En términos sea relevante en educación médica, pierde utilidad. Para
porcentuales se dice que la prueba tiene una potencia ejemplificar: se realizó un estudio cuyo objetivo fue me-
del 80%, que es el mínimo aceptado en la literatura bio- dir el conocimiento en medicina familiar de dos muestras
médica. de estudiantes que tomaron clases con profesores distin-
Cuanto menores sean los riesgos calculados para los tos, y el instrumento de medición del nivel de conoci-
errores alfa y beta, mayor será el tamaño muestral re- miento fue un examen de opción múltiple de 100 ítems.
querido. Cuanto menor sea la variabilidad, menor será la Al momento de analizar estadísticamente los datos, se
muestra estimada. A menor diferencia que se desea de- encontraron diferencias entre ambos grupos (p<0.05),
tectar, mayor será el número de participantes.2,16 pero en el análisis se identificó que las diferencias fue-
ron solamente del valor de dos respuestas, por lo anterior,
se puede afirmar que hay diferencias estadísticamente
5. Variabilidad significativas, pero carece de relevancia para la toma de
Es la dispersión esperada de los datos. Se evalúa depen- decisiones educativas.
Al calcular el tamaño de la muestra se utilizan fór-
diendo de la variable de interés. Si éstas son numéricas
mulas matemáticas que consideran en forma simultánea
continuas (grupo de valores infinitos que incluyen deci-
varios de los siete factores estadísticos antes descritos,
males), el tamaño de muestra estará determinado por la
para la mayoría de ellos ya existen valores aceptados por
variable con el mayor coeficiente de variación (CV) [CV
— — — convención o incluso asignados de manera arbitraria; al
(Y) = (SY/Y)], donde SY es la desviación estándar y Y es
momento de sustituir valores en tales fórmulas nos en-
la media. Por otra parte, cuando las variables de interés
contramos que los rubros de variabilidad y tamaño del
son categóricas, por convención se recomienda utilizar la
efecto requieren revisión bibliográfica, estudios piloto o
estimación de la proporción que más se acerque a 0.5, ya
la opinión de expertos para asignar un valor apropiado.
que proporciona el mayor número muestral. Para deter-
minar la variabilidad se debe recurrir a la literatura pu-
blicada de la variable de interés, cuando el dato no está Tamaños de muestra de acuerdo a distintos
disponible se usarán datos de pruebas piloto y en última diseños de muestreo
instancia a estimaciones hechas por expertos.8,17
Para la determinación del tamaño de muestra, también
hay que considerar el tipo de diseño empleado en la inves-
6. Pérdidas en el seguimiento del estudio tigación. Existen diseños de tamaño fijo (los más usados
en estudios clínicos, epidemiológicos y en investigación
Durante la realización del estudio, puede haber pér- educativa) y de tamaño variable. En los de tamaño fijo, el
didas de participantes por diversas razones. El tamaño tamaño de muestra se fija desde el inicio de la investiga-
mínimo de muestra necesario para obtener resultados ción; en los estudios de tamaño variable, el número de su-
estadísticamente significativos está pensado, de acuerdo jetos se irá incrementando hasta obtener un tamaño pre-
con en el número de sujetos al final del estudio y no con determinado (diseño secuencial) o el diseño experimental
el inicial. Es recomendable adicionar al cálculo inicial, un que involucra un solo caso. En el resto del documento sólo
10% a 20% de participantes. Una forma sencilla de estimar se hace referencia a los diseños de tamaño fijo.2,4
el cálculo es: n(1/1-R), donde n representa el número de La mayoría de las fórmulas utilizadas para el cálculo
participantes sin pérdidas, y R es la proporción de pérdi- del tamaño de muestra, parten del supuesto de una distri-
das esperadas.2 bución normal de los valores de las variables en cuestión;
222 García-García JA et al

sin embargo, existen herramientas estadísticas para ana- grupo con una intervención alternativa, D=(Mc-Me), Mc es
lizar los datos cuando ese supuesto no se cumple. la media del primer grupo y Me es la media del segundo,
S2 es la varianza de ambas distribuciones, que se suponen
iguales, Zb es el valor del eje de las abscisas de la función
1. Cálculo del tamaño de muestra de una me- normal estándar en dónde se acumula la probabilidad de
dia (1-b). Esta fórmula para estimar nc = ne se emplea cuando
El intervalo de confianza para estimar la media pobla- se trata de un contraste de hipótesis bilateral; en caso de
cional a partir de una muestra es el siguiente: I C = y± , un contraste unilateral, se sustituirá Za/2 por Za.2,10
donde y es la media estimada a partir de la muestra,
s
n
4. Cálculo para el tamaño de muestra de la
) , y Z
2

=Z * , (y y
es el valor del eje de comparación de dos medias repetidas (parea-
i
2
s= 2
n i=1
n 1

las abscisas de la función normal estándar en dónde se das) en un solo grupo


2
acumula la probabilidad de (1-a). Cuando n es muy pe- La fórmula es: Z +Z *S 2 , donde d es el promedio
2
n =n =
Z t c e
d
2
queña, podría sustituirse por (n 1), 2 . Entonces
2
de las diferencias individuales entre los valores basales y
Z 2 2 * s2 posteriores, S2 es la varianza de ambas distribuciones, que
al despejar n se tiene n = 2
. En muestras finitas se suponen iguales. Za/2 es el valor del eje de las abscisas
de la función normal estándar, en donde se acumula la
donde la población es inferior a un millón, la fórmula para
probabilidad de (1-a) para un contraste de hipótesis bila-
el cálculo del tamaño de la muestra se suele multiplicar teral y Zb es el valor del eje de las abscisas de la función
n normal estándar, en donde se acumula la probabilidad de
por el factor de corrección por finitud 1 , quedando
N (1-b).19
Z 2 2 * s2 n
la estimación del tamaño de muestra n = * 1 .
2
N
5. Cálculo para el tamaño de muestra de la
El error de estimación o absoluto (d) se obtiene de una
comparación de dos medias repetidas en dos
muestra piloto o de estudios previos.4,8
grupos distintos de participantes
2. Cálculo para determinar el tamaño de Se utiliza cuando se quiere comparar el cambio entre una
medida basal y otra posterior de dos grupos distintos de su-
muestra de una proporción jetos. La fórmula para la estimación del tamaño de mues-
2
2* Z + Z *(1 )*S 2
El tamaño de muestra de una proporción se calcula co-mo tra de los grupos es la siguiente: n =n =
c e
,
|M M |2
de dc
2
Z * p(1 p) n p(1 p)
sigue: n= 2
1 , donde =Z * , se cono- donde Mdc es la diferencia entre los valores iniciales y los
2
N 2
n finales en el grupo de los controles y Mde es la diferencia
ce como “precisión” del muestreo o error de la estimación entre los valores iniciales y finales en el grupo con trata-
n miento.8,19
1 , es el factor de corrección por finitud de la po-
N
blación, p es la proporción estimada del parámetro po- 6. Cálculo para estimar el tamaño de muestra
de la diferencia de dos proporciones
blacional y Z 2 es el valor del eje de las abscisas de p (1 p1 ) + p2 (1 p2 ) 2
La fórmula es: nc = ne = 1 2
* ( Z 2 + Z ) , don-
( p1 p2 )
la función normal estándar, en donde se acumula la pro-
babilidad de (1-a). El error absoluto (d) se obtiene de una de p1 es la proporción del primer grupo y p2 es la pro-
porción del segundo grupo a comparar y (p1-p2) es la
muestra piloto o estudios previos. Si no puede determi-
diferencia de las proporciones entre ambos grupos,
narse esta proporción, se tomará a p= 0.5, porque este
Za/2 es el valor del eje de las abscisas de la función
valor garantizará el mayor tamaño de muestra. El nivel de
normal estándar en donde se acumula la probabili-
confianza (1-a)*100 que suele utilizarse en estas pruebas
dad de (1-a) para un contraste de hipótesis bilateral y
por lo general es del 95%. El intervalo de confianza para
Zb es el valor del eje de las abscisas de la función nor-
una proporción queda definido de la siguiente manera
mal estándar, en donde se acumula la probabilidad de
p (1 − p ) (1-b).2 Un ejemplo es el Reporte Nacional del Estatus
IC = p ± δ = p ± Zα 2 * .10,19
n de la Educación Médica en EUA.20

3. Cálculo para el tamaño de muestra de la 7. Cálculo para el tamaño de muestra de la


diferencia de dos medias independientes comparación de dos proporciones indepen-
2*S 2 2 dientes
La fórmula es: n =n = *Z *Z , donde nc es el ta-
c e 2 2
D Cuando se tiene una tabla de contingencia de 2 x 2 y las con-
maño de muestra para el grupo de referencia y ne es el del diciones se cumplen para aplicar una prueba ji cuadrada,
Cálculo del tamaño de la muestra 223

se puede utilizar esta aproximación para el cálculo del Conclusiones


tamaño de la muestra de la comparación de proporciones
independientes. La fórmula que Marragat y colaborado- La investigación educativa debe tener el mismo rigor me-
2 todológico que otras áreas científicas, incluido el cálculo
Z * 2* P *Q + Z * P *Q + P *Q
res proponen es: n =n = c c e e , donde del tamaño de la muestra. Hay que practicar una y otra
c e
(P
e
P )2
c
vez, es decir, ser activos, para poder ser competente en
P es la proporción media de la proporción de eventos de la conceptualización de cómo estimar la función mate-
interés del grupo control (c) y en el grupo en tratamiento mática del tamaño muestral. Al respecto, Abraham Flex-
(e), Qc=1-P, Pc es la proporción de eventos de interés en el ner escribió “la medicina moderna, como toda enseñanza
grupo control, Qc=1-Pc, Pe, es la proporción de eventos de científica, está caracterizada por la actividad. Las confe-
interés en el grupo expuesto o en tratamiento, Qe=1-Pe, y rencias y los libros no son sustitutos de las experiencias”.
(Pe-Pc) es la diferencia de las proporciones entre el grupo
control y la proporción del grupo de expuestos.8,19
Contribución de los autores
JAGG, generador de la propuesta, búsqueda, recupera-
8. Opción rápida y aceptable para el cálculo
ción y análisis de la información relacionada con el tema
del tamaño muestral y redacción del manuscrito.
Existe una fórmula simplificada para el cálculo del tama- ARB, aportación de ideas para la estructura del docu-
ño muestral para comparar dos medias, cuando se acepta mento, redacción del documento.
un error bilateral alfa del 5% y una potencia del 80%.2 JCLA, asesoría continua, aportó comentarios y revi-
Si se denomina diferencia estandarizada (DE) al cociente sión del manuscrito.
entre las diferencias de medias d y la desviación estándar Financiamiento
s, tenemos: DE = d/s, por lo que, una fórmula abreviada,
que sirve para estimar muy aproximadamente el tamaño Ninguno.
de la muestra, es:
n = 16/(DE)2 Conflicto de intereses
Cuando esta fórmula es utilizada para comparar dos
proporciones,2 la expresión es: Los autores declaran no tener ningún conflicto de inte-
n = 16pmqm/d2 reses.

Consideraciones especiales Presentaciones previas


1. Tamaño de muestra para estudios piloto Ninguna.
Se recomienda incluir entre 30 y 50 participantes, los cua-
les deben poseer los atributos que se desean medir en la Referencias
población objetivo.21
1. Argimon PJM, Jiménez VJ. Métodos de investigación clínica y
epidemiológica. 4ª edición. España: Elsevier; 2012. p. 140-158.
2. Estrategias para minimizar el número necesario 2. Martínez GMA, Sánchez VA, Faulín FJ. Bioestadística amigable.
de participantes 2ª edición. España: Díaz de Santos; 2006. p. 373-417.
Se basan en conseguir una población homogénea (desde 3. Consultado el 22 de marzo de 2013. http://www.statsoft.com/
textbook/power-analysis/
los criterios de selección), disminuir la variabilidad de las
4. Fox N, Hunn A, Mathers N. Sampling and sample size calculation.
medidas (aleatorizando, formando bloques) y aumentar la
The National Institutes for Health Research. USA: NIHR RDS EM/
frecuencia de aparición del fenómeno de interés, por lo YH; 2009. p. 12-24.
que deben aplicarse siempre que sea posible.2,17 5. Cook DA, Beckman TJ. Reflections on experimental re-
search in medical education. Adv Health Sci Edu Theory Pract
3. Software de utilidad 2010;15(3):455-464.
El uso de internet facilita obtener el tamaño de mues- 6. Ringsted C, Hodges B, Scherpbier A. “The research compass”: An
introduction to research in medical education: AMEE Guide No
tra empleando programas en línea. Los programas utili-
56. Med Teach 2011;33:695-709.
zan diferentes algoritmos matemáticos para efectuar el 7. Bennett JO, Briggs WL, Triola MF. Razonamiento estadístico. Mé-
cálculo, y aunque esencialmente utilizan los mismos ele- xico: Pearson Educación; 2011. p. 333-361.
mentos, puede haber ligeras diferencias en el número de 8. López-Alvarenga JC, Reding-Berrnal A. Cálculo del tamaño de
la muestra. la muestra: enfoque práctico de sus elementos necesarios. En:
Entre los programas más utilizados están EPIDAT®, García-García JA, Jiménez-Ponce F, Arnaud-Viñas MR (eds.).
G*Power® y Epi Info®,8 de acceso libre. Hojas de cálculo Introducción a la metodología de la investigación en ciencias
como Excel®2, también son de utilidad. Entre los software de la salud. México: McGraw-Hill Interamericana; 2011. p. 67-
76.
de paga destacan Stata®,16 SAS®,22 STATISTICA®3 y Sigma-
9. Consultado el 27 de febrero de 2013. http://www.carnegiefoun-
Plot®,23 por mencionar sólo algunos. Los dos últimos tie- dation.org/sites/default/files/elibrary/Carnegie_Flexner_Re-
nen la ventaja de poder graficar las funciones de estima- port.pdf (
ciones del tamaño de la muestra. 10. López-Alvarenga JC, Reding-Berrnal A, Pérez-Navarro M, et al.
Hay que usarlos críticamente, siendo necesario com- Cómo se puede estimar el tamaño de la muestra de un estudio.
prender bien los principios del cálculo. Dermatol Rev Mex 2010;54(6):375-379.
224 García-García JA et al

11. Box GE, Hunter JS, Hunter WG. Estadística para investigadores. 18. Sullivan GN, Feinn R. Using effect size - or why the p value is not
Diseño, innovación y descubrimiento. 2ª edición. España: Edito- enough. J Grad Med Educ 2012;4:279-282.
rial Reverté; 2008. p. 133-172. 19. Marrugat J, Vila J, Pavesi M, et al. Estimación del tamaño de
12. Sánchez-Mendiola M, Kieffer-Escobar LF, Marín-Beltrán S, et al. muestra en la investigación clínica y epidemiológica. Med Clin
Teaching of evidence-based medicine to medical students in 1998;111:267-276.
Mexico: a randomized controlled trial. BMC Med Educ 2012;12: 20. Sullivan AM, Lakoma MD, Block SD. The status of medical edu-
107. cation in end-of-life care. A National Report. J Gen Intern Med
13. Landero HR, González RMT. Estadística con SPSS y metodología 2003;18:685-695.
de la investigación. México: Trillas; 2007. p. 67-75. 21. Babbie E. Fundamentos de la investigación social. 3ª edición.
14. Cobo E, Muñoz P, González JA. Bioestadística para no estadísti- México: Thomson editores; 2000. p. 232-256.
cos. España: Elsevier; 2007. p. 212-228. 22. Consultado el 08 de mayo de 2013. http://www.sas.com/tech-
15. Elorza PTH. Estadística para las ciencias sociales, del compor- nologies/analytics/statistics/stat/index.html
tamiento y de la salud. 3ª edición. México: CENGAGE Learning; 23. Consultado el 02 de mayo de 2013. http://www.sigmaplot.com/
2008. p. 319-338. products/sigmaplot/sigmaplot-details.php#sa.
16. Acock AC. A gentle introduction to Stata. 3th edition. Texas: Stata
Press; 2012. p.170-177.
17. Hulley SB, Cummings SR, Browner WS, et al. Design clinical re-
search. 3th edition. Philadelphia, USA: Lippincott, Williams & Wi-
lkins; 2007. p. 65-69.
N
xi N
i =1
xi
1 Características de los datos i =1
N
( xi μ) 2 N
i =1
2
=
N

Elementos del universo


CARACTERÍSTICAS DE LOS DATOS
Los elementos del universo pueden ser personas, lugares o
cosas, ya sean individuos únicos o agrupados. Por ejemplo: los
Los datos con los cuales se realizan los trabajos estadísticos pacientes encamados son elementos que conforman parte del
varían entre individuos y se obtienen a partir de elementos universo definido como hospital, pero también el personal, el
que en conjunto conforman un universo. mobiliario y los diversos servicios que en él se prestan pueden
Con frecuencia dato e información se utilizan como sinó- ser elementos del mismo conjunto. Para individualizarlo, cada
nimos. Sin embargo, por información entendemos los datos elemento de la población se identifica con un número pro-
procesados de manera significativa para el receptor, con valor gresivo, que inicia en 1 y termina en N. Esta identificación de
real y perceptible para tomar decisiones presentes y futuras, cada sujeto se representa como un subíndice y se le conoce
los cuales se nos presentan en forma de indicadores. La infor- como valor “i” o valor i-ésimo.
mación así planteada se obtiene como resultado o producto
del proceso que se muestra en la figura 1-1.
Los datos no son útiles o significativos como tales, sino Variables
hasta que son procesados y convertidos en información. De
alguna manera, la información es el conocimiento derivado del Normalmente, el interés del investigador se dirige a las ca-
análisis de los datos. Ésta es la diferencia básica entre datos e racterísticas de los elementos que conforman el universo. A
información. Hay que hacer notar que la información obtenida dichas características se les designa como variables. Ejemplos
en un proceso puede servir como dato para otro proceso. de variables pueden ser: talla, peso, sexo, temperatura corpo-
ral, condición social y escolaridad. Si el valor de la variable no
puede predecirse con anticipación, se le denomina variable
Universo aleatoria y para representarla se utilizan letras mayúsculas
(X, Y, Z). Así pues, la variable aleatoria “edad” se puede
En estadística universo o población se definen como el con- representar con la letra X y las variables aleatorias “sexo” y
junto de valores por los cuales existe algún interés. El total del “escolaridad”, con Y y Z. Los valores individuales de una va-
universo o población se representa con la letra mayúscula N. riable aleatoria se representan con letras minúsculas (x, y, z) y
© Editorial El manual moderno Fotocopiar sin autorización es un delito.

Las poblaciones pueden definirse especificando una regla un subíndice i-ésimo que identifica el elemento del conjunto
(o reglas). Éstas pueden ser: características de individuos, lími- que posee la característica.
tes geográficos, grupos ya existentes, límites de tiempo, etc.
Por ejemplo: residentes de Guadalajara, asistentes a un paseo Ejemplo explicativo 1–1
escolar, derechohabientes del IMSS, enfermos de cólera.
Un investigador está interesado en los valores de hemoglo-
bina en sangre de los trabajadores de un taller dedicado al
mantenimiento de automóviles. Para ello, decide estudiar
a todos los trabajadores que laboran en el taller. Después
Datos de recabar los datos de interés, decide organizarlos de la
Datos PROCESO
manera que se presenta en el cuadro 1–1.
Información
De acuerdo con los datos reportados, el universo se
Datos compone de cinco trabajadores; por tanto, N = 5. En el
cuadro 1–1, el investigador representa la variable “sexo”
con la letra X, la variable “edad en años cumplidos” con la
Figura 1-1. Generación de información a partir de datos.
letra Y, y la variable “hemoglobina en sangre” con la letra

3
4 Bioestadística

Cuadro 1-1. Algunas características de trabajadores que laboran en un taller de automóviles


Nombre del trabajador Número progresivo Sexo Edad en años Hemoglobina en
que identifica al cumplidos sangre (mg/dL)
trabajador
i X Y Z
Miguel Domínguez 1 Masculino 45 12
Domitila Hernández 2 Femenino 23 13
Manuel Benítez 3 Masculino 32 11
Jesús Ortiz 4 Masculino 18 15
Sergio Martínez 5 Masculino 21 14

Z. Identifica a Miguel Domínguez con el valor i-ésimo 1, sificar los elementos en estudio. Cuando se trata de variables
“sexo” x1 = masculino, “edad en años cumplidos” y1 = 45 y cuantitativas la decisión suele ser sencilla, pero no cuando la
“hemoglobina en sangre (mg/dl)” z1 = 12. Para el caso de variable es cualitativa o cuando una variable cuantitativa se
Domitila Hernández, los valores x2, y2, z2 son femenino, 23 presenta agrupada. En cualquier caso, se espera que la escala
y 13, respectivamente. Lo mismo se hace con el resto de de la variable permita clasificar a todos los elementos, sin
los trabajadores hasta completar todos los elementos que excepción, y que cada elemento sea contado sólo una vez en
conforman el universo definido por el investigador. relación con esa variable: en otras palabras, la escala ha de
ser exhaustiva y excluyente.

Definición operativa
Tipos de variables
Todas las variables que se utilicen en cualquier trabajo de
estadística han de ser definidas con claridad, de tal manera Las variables se pueden clasificar en cualitativas y cuantitati-
que se eviten confusiones, se facilite la búsqueda y análisis de vas. Cuando sus características se expresan como categorías
los datos, y se garantice la comparabilidad de los resultados se dice que se trata de variables cualitativas, mientras que
con los obtenidos en otros estudios previos o posteriores. Esto cuando se expresan como valores se les identifica como va-
es particularmente importante cuando las variables pueden riables cuantitativas.
definirse de maneras diferentes.
1. Las variables cualitativas proporcionan datos nominales
Ejemplo explicativo 1–2 (en los que se tiene, o no se tiene, la característica de
interés) y datos ordinales (en los que la característica es
El sarampión es una enfermedad viral caracterizada por graduable).
síntomas prodrómicos (fiebre, conjuntivitis, coriza, tos y a) Una variable nominal es aquélla cuya característica se
manchas de Koplik en la mucosa bucal) que del tercer al define por un nombre y no implica ser más o menos
séptimo días presenta en cara erupción exantemática que que la característica definida por un nombre diferente.
se generaliza al resto del cuerpo y desaparece de 4 a 7 días Por ejemplo, “sexo” es una variable nominal, ya que
después. Durante el periodo de incubación, enfermedad ser “masculino” no significa ser más o menos que
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
y convalecencia, se presentan modificaciones inmunes “femenino”; la ocupación también es una variable
características del proceso morboso. El término “enfermo nominal, ya que ser “ingeniero” o “abogado” no sig-
de sarampión” puede definirse operativamente de diversas nifica ser más o menos que “médico”. Aquellas varia-
maneras, entre las que se pueden encontrar las siguientes: bles nominales que se conforman de dos categorías
• Pacientes con manchas de Koplik en mucosa bucal. (nacional, extranjero; con diarrea, sin diarrea, etc.) se
• Pacientes con exantema maculopapular de tres o más designan como dicotómicas.
días de duración, fiebre y cualquiera de las tres siguien- b) Las variables ordinales son aquéllas cuyas caracterís-
tes: tos, coriza o conjuntivitis. ticas pueden recibir algún orden subjetivo. Su carac-
• Pacientes con IgM específica para virus del sarampión. terística principal es que, al ser clasificadas de alguna
La selección de una de éstas como definición operativa de manera, se puede asumir que se es más o menos que
sarampión tiene implicaciones importantes en el desarrollo las otras, aunque se desconozca qué tanto más o qué
de la investigación. El equipo de trabajo tendrá que utilizar tanto menos. En relación con el dolor, por ejemplo, el
una de ellas, u otra que se adapte a sus necesidades, y preci- paciente puede decir que le duele “poco” o “mucho”
sarla de tal manera que quienes conozcan su trabajo sepan y quien lo interroga puede asumir con seguridad que
a qué se refiere con el término “enfermo de sarampión”. “mucho” significa más dolor que “poco”, aunque no se
podría saber qué tanto es “mucho” ni qué “distancia”
Una vez que la variable ha sido definida operativamente, se existe entre “poco” y “mucho”. Aun se podría asignar-
debe especificar la escala de valores que se utilizará para cla-
Características de los datos 5

le una graduación subjetiva más detallada y no por de esa temperatura. La edad en años cumplidos, por otra
eso dejaría de ser ordinal. Tal es el caso cuando se le parte, sí tiene un valor de 0 absoluto, porque nadie llega a
pide al paciente que ubique, entre el “0” y el “100”, tener menos de cero años de edad. La temperatura en grados
qué tanto dolor siente. En este caso, al igual que al Kelvin también tiene una escala de razón, porque no existe
clasificarlo como “mucho” o “poco”, se le asigna un una temperatura por debajo de 0° Kelvin. La distinción de
orden en el cual “25” significa más que “15” y menos estas dos escalas resulta importante para la interpretación de
que “35”, pero se desconoce qué tan grande es la una razón. Por ejemplo: supongamos un niño que pesaba 50
distancia entre “15” y “25” y no se puede asumir que kg y ahora tiene 60 kg. Podemos decir correctamente que el
sea la misma que existe entre “25” y “35”, ni que el aumento del peso fue de 20%. Por otra parte, si un líquido que
“15” en una persona corresponda al “15” en otra. Las tenía una temperatura de 50° C llega a los 60° C no podremos
variables ordinales, al igual que las nominales, también afirmar lo mismo, porque la escala de temperatura en grados
pueden dicotomizarse sin que cambie su escala de Celsius no tiene un cero absoluto.
medición. Por ejemplo, al definir el comportamiento
como “bueno” o “malo” se divide la variable en dos Ejemplo explicativo 1–3
categorías, en las cuales “bueno” representa algo más
deseable (o indeseable) que “malo”. Una investigadora estaba interesada en identificar algunas
2. Las variables cuantitativas también permiten diferenciar condiciones de la madre que pudieran relacionarse con el
entre los individuos, pero además señalan cuán gran- bajo peso de los niños al nacer. Para ello, decidió estudiar
des son las diferencias observadas. Las observaciones las variables que se muestran en el cuadro 1–2, en el cual
cuantitativas brindan datos discretos (en los que sólo se las variables se clasifican según su escala de medición.
admiten valores individuales en números enteros) y datos
continuos (en los cuales es posible un número infinito de Regularmente, la clasificación de las variables es una tarea
fracciones entre dos puntos de la escala). sencilla, pero en ocasiones genera algunas dificultades meno-
a) Se definen como variables discretas aquéllas cuyos res. Por ejemplo, el tiempo es una variable continua porque
valores en la escala están separados entre sí por una entre un instante y otro cualquiera existe una cantidad infinita
cantidad determinada, por ejemplo, el número de de divisiones, pero la edad (al menos como frecuentemente
consultas otorgadas por médico en un día o el conteo se registra) es una variable discreta: un niño que cumple 10
de linfocitos en sangre. A diferencia de las variables años sigue reportando la misma edad durante todo el año
ordinales, la “distancia” absoluta entre 5 y 7 consultas hasta su siguiente cumpleaños, fecha a partir de la cual em-
es la misma que entre 105 y 107 consultas, y también pezará a decir que tiene 11 años. Por otra parte, el número de
se puede saber qué tantas más son 100 consultas en moléculas de glucosa (o de cualquier otra sustancia) es una
relación con 10 consultas. Un rasgo distintivo de estas variable discreta, porque al dividirse la molécula deja de ser
variables es que la unidad no puede fraccionarse, por- glucosa, pero la concentración de glucosa en sangre es una
que pierde su naturaleza. Así, si se parte por la mitad variable continua, porque la dilución (mg/dl) está medida en
un paciente, éste deja de serlo para convertirse en dos una escala que tiene un número infinito de divisiones.
mitades de cadáver.
b) Las variables continuas son aquéllas en las cuales la
Cuadro 1-2. Algunas características de mujeres durante el
escala de medición se puede dividir en una cantidad embarazo
infinita de valores entre dos puntos cualquiera. Entre
éstas se encuentran las medidas de longitud, peso, Variable Escala
tiempo y volumen. Por ejemplo: entre 0 y 100 metros de medición
existe un número infinito de valores que pueden carac- · Edad de la madre (en años cumplidos) Discreta, de razón
© Editorial El manual moderno Fotocopiar sin autorización es un delito.

terizar al elemento en estudio, pero también es infinito · Talla de la madre (en centímetros) Continua, de razón
el número de valores que se encuentran entre 0 y 10
metros o entre 0 y 10 centímetros. Al igual que con las · Estado civil (soltera, casada, unión libre, Nominal
otro)
variables discretas, la “distancia” absoluta entre dos
puntos se mantiene a lo largo de la escala. Algunas · Escolaridad (menos de primaria, primaria, Ordinal
variables parecen no respetar la última característica; secundaria, preparatoria o más)
tal es el caso de las titulaciones que se reportan como · Temperatura (en grados Celsius) Continua, de inter-
1:1, 1:2, 1:4, 1:8, etc. Sin embargo, mediante una valo
transformación matemática (logarítmica para el caso) · Ocupación durante el embarazo (según la Nominal
se puede observar que sí se apegan a las características Clasificación Mexicana de Ocupaciones)
señaladas para las variables continuas.
· Exposición al humo de tabaco durante el Ordinal
embarazo (no, fumadora pasiva, fumado-
Las variables cuantitativas también pueden clasificarse según
ra activa)
tengan o no en su escala un valor de cero absoluto en variables
de intervalo (no tienen cero absoluto) y variables de razón · Hemoglobina en sangre (mg/dl) en la Continua, de razón
(sí lo tienen). Por ejemplo, la temperatura medida en grados primera consulta prenatal
centígrados tiene un valor de 0° C, pero éste es arbitrario y no · Número de consultas prenatales antes Discreta, de razón
es un valor absoluto porque existen otros valores por debajo del tercer trimestre del embarazo
6 Bioestadística

Ejercicios
1. En las variables que se presentan a continuación, Primero identifique la variable IMC con la letra W, la variable
indique de qué tipo de variable se trata mediante las Colesterol-HDL con la letra X, la variable glucosa en sangre
siguientes abreviaturas: N para una variable cualitativa con la letra Y, y la variable Fumador con la letra Z. Luego
nominal, O para una variable cualitativa ordinal, D para escriba cuáles son los valores individuales que representan
una variable cuantitativa discreta y C para una variable las siguientes referencias:
cuantitativa continua.
Referencia Valor Referencia Valor
Variable w1 ( ) y3 ( )
1. Concentración de triglicéridos en sangre (mg/dl) ( ) w2 ( ) y4 ( )
2. Diabetes (sí, no) ( ) w3 ( ) y5 ( )
3. Colesterol total (mg/dl) ( ) x2 ( ) z4 ( )
4. Creatinina (mol/L) ( ) x3 ( ) z5 ( )
5. Número de cigarrillos fumados el día anterior ( ) x4 ( ) z6 ( )
6. Índice de masa corporal (peso/talla2) ( )
7. Número de consultorios en la clínica ( )
8. Presión arterial diastólica (mm Hg) ( )
9. Intensidad del dolor (escala de 0 a 10) ( )
10. Opinión del servicio (bueno, regular, malo) ( )
11. Edad en años cumplidos ( )
12. Uso de drogas antihipertensivas (sí, no) ( )
13. Presencia de cefalea (sí, no) ( )
14. Sexo (masculino, femenino) ( )
15. Porcentaje de grasa corporal ( )
16. Depósito de agua (aljibe, balde, alberca, tina, otro) ( )

2. Observe el cuadro que se le presenta a continuación.


Los datos que contiene se refieren a las características
de seis pacientes.

Índice de
Identificación masa Glucosa
(número corporal Colesterol en Fuma-
progresivo) (IMC) HDL sangre dor

1 24 52 110 sí
2 27 50 95 no

© Editorial El manual moderno Fotocopiar sin autorización es un delito.


3 25 57 103 no
4 27 48 115 sí
5 26 49 100 no
6 29 56 120 no

REFERENCIAS
Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. Nunnally, J. C., & Bernstein, I. (1997). Psychometric Theory (3a. ed.).
1, 1a. ed.). Mérida, Venezuela: Universidad de los Andes. EUA: McGraw-Hill.
Variables
¿Qué es una variable?

Técnicamente una variable es una característica de


una población en estudio. Podemos hablar de variable
cuando nos referimos a lo que estamos midiendo en
nuestras investigaciones, esto va desde el tiempo hasta
medidas de peso, longitud, masa, volumen, velocidad,
etc. Por ejemplo, en un árbol se puede medir la altura
total, la altura del fuste, el diámetro a la atura de pecho
(DAP), el diámetro de la base, el área foliar, el diámetro de
la copa, crecimiento, densidad de la madera, incidencia
de plagas, entre otros, todos constituyen variables.

En el suelo, se pueden medir el pH, la temperatura, la


textura, la materia orgánica, la infiltración, la densidad
aparente, el contenido de nitrógeno, el contenido de
fósforo, los microorganismos, los macroinvertebrados,
entre otras; en el agua se puede medir el pH, la
temperatura, la turbidez, la profundidad, materia
suspendida, conductividad, materia orgánica, oxígeno
disuelto, los microorganismos, los macroinvertebrados,
los vertebrados; en una especie de animal se pueden
medir las edades, los pesos, las tallas, la sobrevivencia,
el número de crías, el comportamiento reproductivo, la
salud, la tasa de alimentación, la tasa de natalidad; y así
toda y cada una de esas características constituyen, por
separado, variables.

¿Cómo se clasifican?

Las variables se clasifican siguiendo una secuencia


jerárquica que inicia con los dos grupos generales: las
variables numéricas (también conocidas como variables
cuantitativas) y las variables categóricas (también
conocidas como cualitativas).

Las variables numéricas son aquellas que involucran


números, como su nombre lo indica. Entonces la altura
de un árbol es una variable numérica, porque el dato
que se toma de cada árbol con respecto a la altura será
un número. Ejemplo, el árbol de cedro tiene 5.3 metros
de altura. El “5.3” es un dato numérico. Las variables
categóricas no involucran número (aunque con un diseño
y procedimiento adecuado se pueden transformar en

12
variables numéricas), sino una característica no medible. Ejemplo, el color de un fruto
es verde cuando está inmaduro y amarillo cuando está maduro, así tenemos la variable
color que se puede describir no con una medida, sino con una característica (también
conocido como atributo), en este caso verde o amarillo.

A su vez, las variables numéricas y categóricas se subdividen en otras variables y su


nomenclatura y orden dependen de diferentes autores. En el cuadro 1, a continuación se
presenta la clasificación más común sobre variable y además se provee del significado
y de un ejemplo.

Cuadro 1. Clasificación de variables, se anexa un cuadro explicatorio y un ejemplo de


cada variable.

CUADRO 01
Clasificación de variables
Son variables formadas por datos que incluyen Por ejemplo la altura de un árbol, el diámetro a la
valores decimales. Entre un número y otro hay una altura del pecho del mismo árbol, la altura a nivel
Variables infinidad de decimales (1∞2), la palabra “continuo” del mar, la precipitación, la temperatura, el pH, la
Continuas representa que un valor no termina en un número pendiente del terreno, peso de un ave, densidad,
entero como “1” o “2”, sino que el valor continúa hacia entre otros, todos involucran valores numéricos
la cuenta decimal “1.345323” o “2.000038”. con decimales.

Variables Son variables formadas por datos que no incluyen Por ejemplo la cuenta del número de huevos en
Numéricas decimales, en este sentido son números enteros. El nido de aves, no puede aparecer 1.5 huevos en
término discreto alude a que el número no continúa un nido, sino 0, 1, 2, 3 o 4. Otros ejemplos son: el
Variables hacia la cuenta decimal o “tiene un límite”. Con el número de árboles en una parcela; número de
Discretas procedimiento adecuado, estas variables se madrigueras en un transecto; número de
transforman en variables continuas. Por ejemplo, al parásitos externos en un animal; número de
calcular la media entre los números discretos “1” y pétalos en una flor; número de frutos en un
“2”, el resultado es un número con decimal “1.5”. racimo, entre otros, todos tienen datos de
variables discretas.

La palabra “nominal” proviene de “nombre” e indica Iluminación de la copa de los árboles puede
números que representan nombres. Muchas veces en clasificarse como: 1 = bajo sombra; 2 =
lugar de usar el nombre de un dato categórico, se usa parcialmente iluminado y 3 = totalmente
Variables un número que es más adecuado para administrar en iluminado. La respuesta a una pregunta por
Categóricas bases de datos y es más rápido de usar en los parte de los encuestados puede ser 1 = positiva;
formularios de campo. En un estudio de 2 = negativa; 3 = indiferente. En
comportamiento de aves se puede designar al comportamiento, la búsqueda de alimento de un
Variables número 1 como un ave con comportamiento animal puede ser 1 = activa; 2 = pasiva; 3 = sin
Nominales agresivo, 2 como temeroso y 3 como indiferente. En reacción. Observar que los números son usados
este caso el número “1” solo representa al nombre como códigos de un nombre.
“comportamiento agresivo”. Notar que jamás puedo
hacer operaciones matemáticas con estos nombres,
por ejemplo si 1 representa verde, 2 amarillo y 3 rojo,
jamás puedo sumar estos tres datos y calcular una
media.

13
Las variables ordinales también son variables Los colores de edad de un ave se pueden
nominales, ya que se refieren a un número codificar como 1 = amarillo (cuando son
representando un nombre, con la diferencia que las pichones); 2 = marrón (cuando son juveniles); 3
variables ordinales, además, denotan un orden, de ahí = negro (cuando son adultos). Observar que el
su nombre “ordinales”. Los estratos del bosque se número denota el orden de incremento de edad
Variables pueden codificar como 1 = estrato herbáceo; 2 = del ave. La toposecuencia de una microcuenca
Ordinales estrato arbustivo; 3 = estrato arbóreo; 4 = árboles se puede clasificar como 1 = parte baja; 2 = parte
Variables
emergentes. Observar que el número no solo media; 3 = parte alta. Notar que el orden de los
Categóricas representa un nombre, sino un orden, ya que los números representa el orden de incremento de la
estratos se cuentan desde abajo hacia arriba, desde toposecuencia en la microcuenca.
las hierbas hasta los árboles emergentes o sea,
desde 1 hasta 4.

Son conocidas también como variables de doble Por ejemplo, el determinar si una enfermedad
estado y en sí son variables nominales que solo está “ausente” o “presente” en un número
tienen dos categorías o niveles, por ejemplo: determinado de plantas. El determinar si la
“ausente” versus “presente”; “si” versus “no”; “verde” sobrevivencia de animales liberados es “exitosa”
Variables versus “amarillo”; “juvenil” versus “adulto”; “alto” o “no exitosa” para cada uno. En estudio de
Dicotómicas versus “bajo”; “abundante” versus “raro”. dinámica de bosque se determina si el árbol esta
“muerto” o “vivo” después de cierto tiempo de un
muestreo preliminar. Notar que todas las
variables responden a dos estados
contrastantes.

Variables derivadas

En una base de datos, nos encontraremos con variables derivadas que resultan de
operaciones matemáticas o estadísticas que involucran una, dos o más de dos variables.
Por ejemplo, el cálculo de proporciones. Una proporción se calcula dividiendo el
valor de cada dato de una

CUADRO 02
variable entre el valor total,
generando una nueva
variable.
Ejemplo de variables derivadas
En el cuadro 2 se calcula la
Especies Número de individuos Proporción proporción de abundancia
para especies (de cualquier
Especie 1 4 0.15 grupo de organismos)
Especie 2 5 0.19 usando la variable discreta
Especie 3 7 0.26 “número de individuos”.
Especie 4 2 0.07 Como resultado se
obtiene la nueva variable
Especie 5 9 0.33
“proporción”.
Total 27 1

Cuadro 2. Ejemplo de variables derivadas. La variable derivada “proporción” se calculó


a partir de la variable discreta “número de individuos” para cada especie. La proporción
se calcula dividiendo cada valor de “número de individuos” por especie entre el valor
total. Por ejemplo, para la Especie 1 = 4 / 27 = 0.15; para la Especie 2 = 5 / 27 = 0.19; y así
sucesivamente.

14
De la misma forma, y con los debidos procedimientos se pueden derivar otras variables,
mediante cálculo de coeficientes, medidas de tendencia central, índices, entre otras.

La inclusión y exclusión de categorías en las variables

Es esencial entender la inclusión y exclusión de categorías en las variables con el


objetivo de diseñar una base de datos y optimizar el espacio dentro de la misma. De
igual forma, es necesario conocer este concepto para el análisis de la información
dentro de la base de datos.

Una variable categórica puede tener categorías incluyentes o excluyentes entre ellas
mismas. Por ejemplo, la variable “hábitat de preferencia” para animales silvestres tiene
tres categorías: bosques cerrados, bosques intervenidos y áreas abiertas.

Unas especies pueden ser clasificadas en la preferencia de hábitat de “bosque cerrado”,


otras pueden preferir “bosques intervenidos”, otras “áreas abiertas”. Sin embargo, hay
especies que prefieren dos o las tres categorías.

De tal forma que se pueden encontrar especies que prefieren bosques intervenidos y
áreas abiertas; bosques cerrados y bosques intervenidos; o las tres categorías. En este
caso se pueden incluir no solo una, sino dos o las tres categorías para un mismo registro
(especie), por lo que concluimos que es una variable con categorías incluyentes.

Por el contrario, en las variables con categorías excluyentes, solamente una categoría
mandatoriamente se puede incluir, porque la elección de una opción (categoría)
excluye a la otra.

Por ejemplo, la variable ausencia-presencia, en un estudio de enfermedades en


plantas, se pudieran tiene dos categorías: “ausente” y “presente”, de tal forma que la
enfermedad está ausente o está presente en una planta, pero no puede estar ausente
y presente a la vez en una misma planta.

La variable categórica “abundancia relativa” de una especie de animal o planta puede


categorizarse en “abundante”, “medianamente abundante” y “poco abundante”. Una
especie puede ser “abundante”, pero no puede ser “abundante” y “poco abundante”
a la vez en un mismo sitio. Se puede preguntar a personas encuestadas, si está de
acuerdo con algún plan de manejo, las opciones de repuesta (categorías) pueden ser
“sí”, “no” y “no seguro”. Responder a una de las categorías excluye a las otras, si se
responde “sí” las opciones “no” y “no seguro” se descartan. No se puede decir “sí” y “no”
a la vez, son categorías excluyentes.

¿Por qué conocer la clasificación de las variables para el diseño y administración de


bases de datos?

Conocer las variables es importante en el proceso de diseño, ya que se incluyen de


diferente forma a una base de datos, dependiendo del tipo y de la exclusión o inclusión
de las categorías en variables categóricas. La mayoría de los programas de cómputo
actualmente pueden identificar el tipo de variable ingresada a una tabla de datos, sin

15
embargo es recomendable conocer que los programas pueden confundir los números
usados en las variables categóricas como datos numéricos discretos, y es aquí donde
tenemos que abrir los ojos para no incurrir en errores. De igual forma, los análisis
matemáticos o estadísticos son diferentes en dependencia del tipo de variable, aunque
con el procedimiento adecuado los tipos de variables pueden ser intercambiables. Por
ejemplo, variables categóricas se pueden transformar en numéricas y las numéricas
en categóricas. Sin embargo, para objeto de este documento no se incluirán estos
procesos.

16
Villasís-Keever MA et al. Las variables de estudio

Resumen
Las variables en un estudio de investigación constituyen todo aquello que se mide, la información
que se colecta o los datos que se recaban con la finalidad de responder las preguntas de
investigación, las cuales se especifican en los objetivos. Su selección es esencial de los protocolo
de investigación. Este artículo tiene como propósito señalar los elementos que deben considerarse
en la sección de las variables. Para evitar ambigüedad, es necesario seleccionar sólo aquellas
que ayudarán a concretar los objetivos del estudio. Posteriormente debe definirse cómo serán
medidas para que los hallazgos puedan ser reproducidos; para ello es conveniente incluir las
definiciones conceptuales y operacionales. Desde el punto de vista metodológico, la clasificación
de las variables ayuda a entender cómo se ha conceptualizado la relación entre estas. Conforme
al diseño del estudio, se deberá señalar las variables independientes, dependientes, de confusión
y universales. Otro elemento indispensable para la planificación de los análisis estadísticos por
realizar es la escala de medición de las variables. Por ello, se debe especificar si las variables
corresponden a una de las siguientes cuatro: cualitativa nominal, cualitativa ordinal, cuantitativa
de intervalo o cuantitativa de razón. Finalmente, se deben detallar las unidades de medición de
cada variable.

Palabras clave: Mediciones, métodos y teorías; Protocolos; Estadística como asunto

Abreviaturas y siglas
IMC, índice de masa corporal

Introducción la asociación entre la ingesta de bebidas azucaradas


Las variables en un estudio de investigación son con el sobrepeso/obesidad”, en los objetivos especí-
todo aquello que medimos, la información que co- ficos el investigador debe ser más explícito respecto
lectamos, o bien, los datos que se recaban con la fi- a cómo se medirá o cuantificará la ingesta de be-
nalidad de responder las preguntas de investigación, bidas azucaradas: “medir la cantidad de azúcar de
las cuales habitualmente están especificadas en los acuerdo con la especificación de las bebidas que ya
objetivos. Al estar escribiendo el protocolo, en parti- la contienen (refrescos, jugos envasados, etcétera),
cular cuando se plantean los objetivos del estudio, se y cuando el azúcar se agrega a otras bebidas (café,
deben elegir las variables que se van a medir. Como tizanas, agua de frutas, etcétera)”. Con lo anterior, se
se ha mencionado en los artículos previos de esta pretende que el investigador describa los objetivos
serie, los objetivos deben escribirse claramente espe- en términos medibles.
cificándose la manera en que se pretende responder Después de mencionarlas en los objetivos, los
a las interrogantes, pero mencionándose también las autores deberán anotar detalladamente cada una
variables. Por ejemplo, si el objetivo general es “me- de las variables a medir en una sección específica
dir la ingesta de bebidas azucaradas” o “establecer dentro del protocolo. En este artículo describire-

304 Rev Alerg Mex. 2016;63(3):303-310 http://www.revistaalergia.mx


Villasís-Keever MA et al. Las variables de estudio

mos cada uno de los elementos que debe contener formularla en términos de hechos objetivamente ob-
el apartado de variables, dentro del protocolo de servables, suficientemente claros y explícitos para
investigación. evitar ambigüedades o interpretaciones diferentes.
Si es pertinente, especificar el método por el cual la
Definición de las variables o las mediciones serán obtenidas. Si se toma el mis-
Una vez que se han seleccionado las variables a es- mo ejemplo de la obesidad en adultos, la definición
tudiar, es necesario que dentro del apartado corres- operacional pudiera escribirse de esta forma: “IMC
pondiente se señale con claridad cómo serán medi- ≥ 30”, o bien, “circunferencia de cintura ≥ 88 cm
das. Lo anterior es porque cada variable puede tener para las mujeres y ≥ 102 cm para los hombres”. Si
representaciones similares; por ejemplo, la obesidad el estudio fuera en niños, entonces se podría utilizar:
puede ser evaluada de acuerdo con el peso para la “IMC ≥ percentil 95”.
edad, mediante el índice de masa corporal (IMC), la
cuantificación del perímetro de cintura, o el porcen- Definición de las enfermedades
taje de grasa corporal. Un punto a destacar es que en todo protocolo de
Todas estas formas pueden ser correctas; sin investigación es importante especificar la manera
embargo, es esencial considerar que al definir cada o los métodos para identificar que los pacientes tie-
variable los investigadores contribuyen a que el es- nen una enfermedad determinada, un estadio de la
tudio pueda ser replicado para obtener resultados enfermedad, una complicación o una comorbilidad,
similares, o para la aplicación de los hallazgos ob- lo cual es un aspecto diferente de la definición de
tenidos en pacientes con características semejantes. las variables. Si bien, como ya se comentó en un
También hay que tener en cuenta que puede tener artículo previo de esta serie, esta parte pudiera estar
implicaciones sobre la validez del estudio, ya que la mencionada en los criterios de selección (particu-
manera que se eligió para medir la(s) variable(s) tal larmente en criterios de inclusión y exclusión) de
vez no sea la más aceptada en el mundo. la población a estudiar, es común observar que los
Por lo anterior, en todo proyecto de investiga- investigadores incluyan las definiciones de la enfer-
ción es requisito fundamental que se definan cada medad en el apartado de las variables.
una de las variables a estudiar y se tomen en cuenta Se debe tener en cuenta que las condiciones de
dos aspectos principales: la definición conceptual los pacientes al momento del ingreso a un estudio
y la definición operacional. La primera se refiere a corresponden a una “constante”, lo cual no parece
cómo se concibe dicha variable; con frecuencia esta congruente con el concepto de “variable” donde el
definición corresponde al significado más parecido común denominador será que tendrá más de una
a lo descrito en un diccionario o en un libro de tex- opción de respuesta. Esta situación no es un error, al
to. Por ejemplo, la definición de obesidad que uno contrario, le confiere mayor validez al protocolo de
puede encontrar es diversa: “adiposidad”, “exceso investigación. En cualquier investigación es necesa-
de grasa en el organismo”, “acumulación anormal o rio detallar —según corresponda— los aspectos clí-
excesiva de grasa que puede ser perjudicial para la nicos, de laboratorio o de exámenes histopatológicos
salud”, o simplemente “sobrepeso”. Ante esta varia- de cómo se llegó a la conclusión de que dicho pa-
ción, el investigador deberá seleccionar aquella más ciente o sujeto en estudio (porque puede ser alguien
cercana a lo que desea medir. “sano”) cumple objetivamente con los criterios de
En contraste, la definición operacional (tam- selección.
bién llamada operativa o de trabajo) delimita la Por lo anterior, cuando sea conveniente, se reco-
manera en que realmente será medida una variable mienda que al escribir el protocolo de investigación
determinada. Para lograrlo, el investigador debe se agregue un apartado de “definición de enferme-

http://www.revistaalergia.mx Rev Alerg Mex. 2016;63(3):303-310 305


Villasís-Keever MA et al. Las variables de estudio

dad” para ser más explícitos en los métodos a seguir, En los estudios de pronóstico, donde el objetivo
incluyendo definición conceptual y operacional. principal es establecer cómo será la evolución de un
grupo de pacientes en un tiempo determinado, la
Clasificación de las variables desde el variable dependiente corresponderá a la evolución,
punto de vista metodológico es decir, si los pacientes vivieron, murieron, hubo
De acuerdo con el diseño de investigación seleccio- curación, complicación, recaída, o bien, cómo fue
nado para comprobar las hipótesis planteadas, las su calidad de vida, entre otras.
variables a medir deberán clasificarse desde el punto
de vista metodológico. Para fines prácticos, en este Variable independiente
artículo mencionamos que, en términos generales, En los estudios de investigación, la(s) variable(s)
existen cuatro tipos de variables: dependiente, inde- independiente(s) se deben considerar cuando se
pendiente, de confusión y universal. Sin embargo, pretende determinar la relación entre al menos dos
conviene señalar que no todos los estudios o diseños variables: la independiente y la dependiente. Así,
de investigación contienen las cuatro. en general, tendrán que estar incluidas en estudios
comparativos o analíticos, ya que los investigadores
Variable dependiente desean observar el efecto (positivo o negativo) de la
En todos los estudios de investigación clínica existe variable independiente sobre la dependiente.
la variable dependiente. Esta tiene sinónimos como La variable independiente también tiene si-
principal, de interés, de desenlace, de resultado o nónimos, como variable predictora o “que el in-
predicha. De acuerdo con el tipo de diseño señala- vestigador manipula”. A continuación se señalan
mos que en los estudios descriptivos —donde solo ejemplos de acuerdo con los diseños de estudio:
se pretende señalar las características de la pobla- en el ensayo clínico descrito arriba, la intervención
ción: edad, sexo, condición socioeconómica, tipo (disminución de ingesta de sal) corresponde a la
de enfermedad, gravedad, etcétera— todas las va- variable independiente. De esta forma se formarán
riables a medir se pueden considerar dentro de esta dos grupos: al primero o grupo experimental se le
categoría. darán indicaciones para que disminuya la ingesta
Ahora bien, si el diseño corresponde con un en- de sal, mientras que al segundo o grupo control, no
sayo clínico donde se investiga si una intervención habrá restricción de sal. Si después del estudio se
(o maniobra experimental) tiene alguna utilidad, comprueba que hubo mejor control de las cifras de
entonces el efecto corresponderá a la variable de- tensión arterial en el grupo experimental, entonces
pendiente; por ejemplo, al tratar de determinar la se concluirá que la disminución de la ingesta de sal
influencia de la disminución en la ingesta de sodio es benéfica.
sobre las cifras de la tensión arterial, los cambios en Para el caso de los estudios de causalidad, el
la tensión arterial sistólica y diastólica corresponden o los factores de riesgo corresponderá(n) a la(s)
a la(s) variable(s) dependiente(s). variable(s) independientes. En el ejemplo, el taba-
Por otro lado, cuando nos enfrentamos a la bús- quismo y el ejercicio son los posibles factores de
queda de factores de riesgo, o de causas para que riesgo asociados con una crisis asmática. Por su
ocurra una enfermedad o una complicación, la varia- parte, en los estudios de pronóstico existen ciertas
ble dependiente se considera el resultado. Ejemplo: características en el momento del diagnóstico que
si se quiere identificar que el tabaquismo o el ejer- pueden modificar la evolución de los pacientes.
cicio son factores de riesgo para cuadros de crisis Por ejemplo, en pacientes con cáncer la probabi-
asmática, entonces los pacientes con (o sin) crisis lidad de mortalidad es mayor cuando tienen una
asmática corresponden a la variable dependiente. mayor gravedad o extensión de la enfermedad, es

306 Rev Alerg Mex. 2016;63(3):303-310 http://www.revistaalergia.mx


Villasís-Keever MA et al. Las variables de estudio

decir, los pacientes con estadio I o II teóricamen- Variables universales


te tendrán un porcentaje menor de fallecer que En todo estudio de investigación se incluyen ciertas
aquellos en estadios III o IV. De esta forma, el condiciones de los pacientes o sujetos de estudio, las
estadio de la enfermedad corresponde a la variable cuales ayudan a disponer de un panorama general de
independiente. la población estudiada. A estas características se les
denomina variables universales o descriptoras. Este
Variable de confusión grupo de variables se deben contemplar en cualquier
En los estudios donde se pretende determinar la rela- investigación, es decir, tanto en estudios descriptivos
ción entre la variable independiente y la dependiente como comparativos.
es posible que los resultados no sean tan reales por- Este grupo incluye generalmente edad, sexo,
que existen factores o circunstancias del paciente nivel socioeconómico, escolaridad, lugar de resi-
que pueden modificar los resultados. Esos factores dencia, estado civil, religión, raza, entre otras. Sin
constituyen las variables de confusión. Para com- embargo, se debe tener en cuenta que algunas de es-
prender mejor este tipo de variables, tomaremos en tas variables pueden estar consideradas como inde-
cuenta los ejemplos que hemos descrito: pendientes; por ejemplo, cuando se pretende evaluar
En el caso del ensayo clínico, a pesar de deter- los factores de riesgo de infarto al miocardio, es muy
minar la existencia de un efecto benéfico sobre la conocido que los pacientes masculinos tienen mayor
tensión arterial secundaria a la disminución en la probabilidad de presentar esta condición. En este
ingesta de sal, es posible que estos resultados puedan último ejemplo, el sexo corresponde a una variable
ser distintos al incorporar las modificaciones en el independiente y no a una variable universal.
peso corporal durante el tiempo de duración del estu-
dio. En este sentido es posible que quienes tuvieron Escalas de medición de las variables
mejores cifras tensionales también hayan bajado de La forma de clasificar cada una de las variables se-
peso y viceversa, independientemente de la ingesta leccionadas de acuerdo con su escala de medición
de sal. Al hacer el análisis de la información, si se es fundamental para la sección de variables, lo cual
comprueba que el peso influye en el cambio de las es parte del proceso para establecer su definición.
cifras de tensión arterial, se establece que el peso es Cuando el investigador especifica esta característica
una variable de confusión. en cada variable, entonces estará en posibilidad de
En el ejemplo de estudio de causalidad, la planear su análisis estadístico, ya que de acuerdo
exposición a alérgenos constituye una variable de con la escala de medición existe una prueba esta-
confusión, es decir, aunque se comprobara que el dística diferente. Es importante mencionar que para
tabaquismo influye en los cuadros de crisis asmá- otros autores el concepto de escala de medición de
tica, es necesario medir dicha exposición porque variables significa lo mismo que “tipo de datos”, lo
es conocida también la asociación de alérgenos cual puede crear confusión con el “tipo de variable”
con la presencia de exacerbaciones. Por último, desde el punto de vista metodológico —como ya lo
en estudios de pronóstico también pueden existir describimos— por esta razón sugerimos utilizar el
variables de confusión; en casos de cáncer la pre- término escala de medición.
sencia de infecciones graves puede relacionarse Las escalas de medición disponibles en la actua-
directamente con la mortalidad, de esta forma lidad datan de 1946 y son cuatro: nominal, ordinal,
puede haber pacientes en estadio I o II que falle- de intervalo y de razón. Con el trascurso del tiempo
cen por este tipo de infecciones. En este sentido, algunas de ellas se han denominado de manera dis-
el desarrollo de infecciones graves constituye una tinta, pero son sinónimos. En general, las escalas
variable de confusión. nominal y ordinal se pueden agrupar en cualitativas,

http://www.revistaalergia.mx Rev Alerg Mex. 2016;63(3):303-310 307


Villasís-Keever MA et al. Las variables de estudio

mientras que las de intervalo y de razón en cuanti- fican en categorías. La característica esencial de las
tativas. variables nominales es que sus valores son similares
Los atributos que debe contener una escala de entre sí, dicho de otra manera, no siguen un orden, su
medición es que sea apropiada para el fenómeno magnitud es semejante y el listarlas de una forma u
en estudio y para la manera como está descrita en otra no modifica la relación entre ellas. Por ejemplo,
la definición operacional de la variable. También para el grupo sanguíneo, ninguno de los grupos (A,
debe ser suficientemente poderosa para responder B, O, o bien, Rh positivo o negativo) tiene mayor o
satisfactoriamente a los objetivos del estudio, es menor valor o peso.
decir, una variable es más sólida cuando su escala En las variables nominales también se pueden
es cuantitativa que cuando es cualitativa. Asimismo, distinguir dos grupos: las variables dicotómicas,
es preferible una variable ordinal a una nominal, o conocidas también como binarias, y las politómi-
bien, una de razón a una de intervalo; por supuesto, cas. Las variables dicotómicas tienen solo dos va-
todo depende de lo que se medirá. Por otro lado, las lores posibles o unidades: vivo/muerto, femenino/
categorías o unidades de medición deben ser mutua- masculino, enfermo/no enfermo. Mientras que las
mente excluyentes entre sí para que no se traslapen; variables nominales politómicas tienen tres o más
dichas categorías deben ser suficientes para el fenó- unidades: los nombres de las enfermedades, el lugar
meno a estudiar y claramente definidas. de residencia o el estado civil.
En general, siempre que sea posible, es más Las variables con escala de medición ordinal
conveniente la inclusión de variables cuantitativas, —a diferencia de las nominales— tienen unidades
debido no solamente a que los análisis estadísticos a o valores y siguen cierto orden, por ejemplo: deshi-
realizar serán más sólidos, sino que será posible ob- dratación leve, moderada y grave. Sin embargo, el
servar el fenómeno en estudio con mayor precisión orden solamente manifiesta que una es mayor que
o con diferentes perspectivas. Por ejemplo, cuando otra pero dicha cualidad no es tan precisa como para
se evalúa un tratamiento para la diabetes o un an- establecer con exactitud la diferencia entre una y
tihipertensivo, la disminución en los valores de la otra unidad, es decir, los intervalos entre ellas no son
hemoglobina glucosilada o en las cifras de la tensión equivalentes, pero su identificación como variable
arterial permitirá observar la magnitud del cambio ordinal indica dirección.
con el inicio del consumo del fármaco. Otros ejemplos en medicina son cuando se uti-
La variable continua contiene mayor informa- lizan cruces (+, ++, +++, ++++) para describir pro-
ción, y así será posible realizar un estudio con mayor teinuria en un examen de orina, o los estadios de las
poder y una muestra de menor tamaño, pero que ade- enfermedades (estadios I, II, III, IV). También son
más puede ser modificada a una escala “menor”, es considerados en este grupo el grado de escolaridad
decir, se puede convertir para disponer de otra manera y el nivel socioeconómico, o bien, es común utilizar
para analizar el estudio. De esta forma, las cifras de una escala como la de Likert, en la que existen varios
hemoglobina glucosilada o de tensión arterial pueden niveles de respuesta que pueden ir desde “totalmente
ser usadas para clasificar a los pacientes como con- en desacuerdo” a “totalmente de acuerdo”. Otros
trolados o no controlados. Así, se pasó de una escala ejemplos que vemos comúnmente son los cuestio-
cuantitativa a cualitativa, lo cual no es posible realizar narios estandarizados que se emplean para evaluar
de manera inversa (de una cualitativa a cuantitativa). la satisfacción o la calidad de vida.
Las variables con escala de medición nominal En el caso de las variables con escala de medición
(también conocidas como variables categóricas) son de intervalo son variables cuantitativas, que tienen
aquellos fenómenos que por su naturaleza no pueden características particulares. Estas tienen los siguien-
cuantificarse, o bien, que para su medición se clasi- tes sinónimos: discretas, discontinuas, intervalares o

308 Rev Alerg Mex. 2016;63(3):303-310 http://www.revistaalergia.mx


Villasís-Keever MA et al. Las variables de estudio

finitas. En este grupo, los intervalos en las diferentes se puede considerar que no tienen límites, de ahí que
categorías o unidades son iguales entre sí, pero la mag- se conozcan como infinitas; y, para fines prácticos, se
nitud del atributo no tiene la misma dimensión, por puede considerar que solo corresponden a peso (kilos,
ejemplo, al comparar una temperatura de 10° con una gramos, miligramos), distancia (metros, centímetros),
de 20°, no se puede decir que es “la mitad o el doble de volumen (litros, mililitros) y tiempo (horas, días, me-
calor”; tienen un número limitado de unidades (de ahí ses, años).
el concepto de finito); el cero tiene un valor arbitrario;
y pueden tener valor positivos y negativos. Ejemplos Categorías o unidades de medición
de estas variables son la temperatura, el IMC, el coefi- Finalmente, un elemento que deberá ser incluido en
ciente intelectual, los niveles económicos con valores el apartado de variables del protocolo, para ayudar a
muy claramente establecidos, el número de hijos, de ser más precisos en la forma como se va a medir cada
embarazos o de semanas de gestación. variable es la descripción detallada de las unidades o
Las variables de razón también tienen sinóni- categorías que se registrarán en la hoja de recolección
mos: cuantitativas continuas o infinitas. Las caracte- de datos o en la base de datos. Lo anterior debe corres-
rísticas de estas variables son las siguientes: el cero ponder, en general, con la escala de medición de las va-
corresponde a la ausencia de lo que se mide; tanto los riables. Como se mencionó, cada una de las opciones
intervalos como la magnitud son iguales entre cada de la variable debe estar especificada, y todas deben
unidad y confieren la posibilidad de dividirlas, con- ser suficientes y exhaustivas para que puedan ser cla-
servándose siempre equidistantes los intervalos (ki- sificados todos los sujetos de estudio. En el Cuadro 1
lómetros, metros, centímetros, milímetros, etcétera); se dan ejemplos de acuerdo con la escala de medición.

Cuadro 1. Ejemplos de variables en los protocolos, según la escala de medición

Nombre de la variable Unidades o categorías


Variables nominales
Sexo Masculino/ Femenino
Estado civil Soltero/casado/viudo/divorciado/concubino
Tipo de enfermedad subyacente Enfermedad renal/ diabetes mellitus/artritis reumatoide
Variables ordinales
Estado de nutrición Desnutrido/bien nutrido/sobrepeso/obesidad

Grado de desnutrición Primer/segundo/tercer grado


Estadio de la enfermedad neoplásica I/II/III/IV
Grado de satisfacción Muy insatisfecho/insatisfecho/ ni insatisfecho ni satisfecho/
satisfecho/muy satisfecho
Variables de intervalo
Días de hospitalización Número
Número de embarazos Número
Temperatura Grados Celsius
Ingreso mensual en pesos 0-5000/5.001-10 000/10 001-15 000/15 0001-20 000
Grasa corporal Porcentaje
Variables de razón
Edad al momento del diagnóstico Años cumplidos
Peso Kilogramos
Perímetro de cintura Centímetros
Cantidad de líquido de diálisis Mililitros

http://www.revistaalergia.mx Rev Alerg Mex. 2016;63(3):303-310 309


Villasís-Keever MA et al. Las variables de estudio

Variables simples o compuestas o base de datos el peso, la talla y el IMC, pero en


Un último aspecto a considerar al elaborar el aparta- el apartado de variables del protocolo solamente
do de variables, es la forma de recolección de datos se debe mencionar la obesidad, especificándose en
para disponer de la información necesaria y respon- la definición operacional la forma de clasificar a
der a la pregunta de investigación. En términos ge- cada paciente. El caso contrario es cuando se desea
nerales, la hoja de recolección de datos o la base de conocer la modificación del peso después de una
datos debe contener el valor “crudo” de la medición intervención para reducir la obesidad; entonces tanto
obtenida, sin embargo, este dato puede no corres- en el protocolo como en la base de datos debe estar
ponder a la variable en estudio. En otras palabras, el valor obtenido en kilogramos.
no todo lo que se registra es una variable, por lo que Sin embargo, también puede ser una combina-
en un momento dado el número de datos puede ser ción. En un estudio para comprobar la efectividad
mayor en la base de datos que la sección de variables de un diurético para la hipertensión arterial, a los
del protocolo. investigadores les interesa medir tanto las modifi-
Por ejemplo, para determinar que un sujeto en caciones en milímetros de mercurio de las cifras de
particular tiene o no obesidad (la escala de medición tensión arterial, como el número de pacientes que
es cualitativa dicotómica) se tiene como definición llegan a tener cifras de tensión arterial dentro de los
un IMC ≥ 30, entonces se requiere disponer de la valores normales. En este ejemplo, se tienen que
medición del peso (kilogramos) y la estatura (me- incluir ambos conceptos en el apartado de variables
tros). Por lo anterior, se debe registrar en la hoja y en la base de datos.

Bibliografía recomendada
1. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical
measurement. Lancet. 1986;1:307-310.
2. Bland JM, Altman DG. Comparing methods of measurement: why plotting difference against standard method
is misleading. Lancet. 1995;346:1085-1087.
3. Bland JM, Altman DG. Measuring agreement in method comparison studies. Stat Methods Med Res. 1999;8:135-
60.
4. Gaspar A, Miranda G, López E, Rodríguez K, Segura N. Estimación de la tasa de filtración glomerular en
adultos con inmunodeficiencia común variable tratados con inmunoglobulina intravenosa. ¿Qué fórmula
utilizar? Rev Alerg Mex. 2014;61:45-51.
5. López-Pérez P, Miranda-Novales G, Segura-Méndez NH, Del Rivero-Hernández L, Cambray-Gutiérrez C,
Chávez-García A. Estudio de la calidad de vida en pacientes adultos con inmunodeficiencia común variable
usando el cuestionario SF-36. Rev Alerg Mex. 2014;61:52-58.
6. De Muth JE. Preparing for the first meeting with a statistician. Am J Health Syst Pharm. 2008;65:2358-66. doi:
10.2146/ajhp070007
7. Abramson JH. Survey methods in community medicine. An introduction to epidemiological and evaluative
studies. Tercera edición. UK: Churchill Livingston; 1984.
8. Marateb HR, Mansourian M, Adibi P, Farina D. Manipulating measurement scales in medical statistical analysis
and data mining: A review of methodologies. J Res Med Sci. 2014;19(1):47-56.
9. Arias-Gómez J, Villasís-Keever MÁ, Miranda-Novales MG. El protocolo de investigación III: la población de
estudio. Rev Alerg Mex. 2016; 63(2):201-206.

310 Rev Alerg Mex. 2016;63(3):303-310 http://www.revistaalergia.mx


N
xi N
i =1
xi
4 Introducción a los programas i =1
N
de cómputo ( xi μ ) 2 N
i =1
2
=
N

“Había una vez” Así empiezan los cuentos. Pero ésta es herramienta muy útil en el análisis estadístico de los datos,
una historia que se vivió a partir de mediados del siglo XX. pero que no piensa ni actúa por sí sola. La computadora
Durante muchos años, el ejercicio de la estadística incluyó sigue instrucciones en lenguaje binario, y las cumple a una
el trabajo penoso de tabular datos durante horas antes de velocidad que no deja de ser impresionante. Si se le alimenta
realizar la primera operación, lo cual, por lo general, se ha- correctamente y las instrucciones que se le dan son las ade-
cía con la ayuda de una calculadora (pero también con los cuadas, los resultados serán sorprendentes. Pero si esto se
dedos). Este trabajo era tardado, cansado y, en ocasiones, hace incorrectamente, los resultados también serán sorpren-
aburrido. Además, los errores frecuentes obligaban a repetir dentes por la magnitud de los errores. Vale la pena insistir:
los conteos, o ¡a redondear los datos! Las ecuaciones esta- la computadora es una herramienta y en ningún momento
dísticas se limitaban al cálculo de proporciones y promedios, sustituye la labor del investigador en el análisis estadístico.
y las regresiones no pasaban de dos variables. Los cálculos Con la ayuda de la computadora, se agiliza la tabulación y
de probabilidad (p) en que se basaban las inferencias se también las operaciones, pero es el investigador quien tiene
apoyaban en las tablas de los anexos al final del libro, y sólo que decidir qué análisis es el más adecuado para sus datos, y
algunos pocos matemáticos expertos se atrevían a realizar es él quien tiene que interpretar los resultados. Si lo anterior
pruebas más avanzadas. La entrega de resultados siempre ha quedado claro, entonces ya se puede continuar con el tema
se retrasaba y con frecuencia quedaba poco tiempo para su de los programas de cómputo que pueden ser de gran ayuda
discusión. Y así reinó el caos durante años, hasta que un día en el análisis estadístico.
llegaron las computadoras; al principio las cosas no fueron Durante el análisis estadístico, el investigador tiene que
más fáciles. Las primeras computadoras, que eran equipos
realizar varias tareas:
muy grandes y costosos, estaban al cuidado de un grupo
selecto de iniciados: los programadores. Los humildes mor-
• Presentación de la propuesta o proyecto
tales sólo las podían ver a través de los grandes cristales que
• Búsqueda y registro de datos
las protegían del polvo y del calor. Fue en esa época, cuando
las computadoras podían “equivocarse”, que aparecieron los • Captura y transformación de datos
primeros programas de cómputo especialmente diseñados • Revisión de la captura
para el análisis estadístico, pero ese recurso estaba dedicado • Tabulación de datos
a cumplir funciones administrativas y todavía se encontraba • Cálculo de estadísticos
© Editorial El manual moderno Fotocopiar sin autorización es un delito.

alejado del investigador. Por tanto, la entrega de resultados • Interpretación de resultados


aún se retrasaba y con frecuencia tampoco había tiempo • Reporte final del trabajo
para su discusión. Pero luego sucedió lo que nadie esperaba:
las computadoras llegaron a los escritorios de las oficinas y Para realizar estas tareas, el investigador usa varios programas
a las mesas de las casas, y no sólo ellas, también llegaron los de cómputo. Algunos son exclusivos del trabajo estadístico,
programas de cómputo. Los programadores salieron de la otros son menos específicos. En términos generales, entre
vista y los propios investigadores podían hacer los análisis sin los programas de cómputo que se utilizan se incluyen los
necesidad de intermediarios, pero la entrega de resultados procesadores de texto, los administradores de bases de da-
sigue retrasándose y con frecuencia sigue sin haber tiempo tos, las hojas de cálculo, los programas para presentaciones
para la discusión. Sólo que ahora ya se han encontrado a las y los programas estadísticos. A esta lista también podríamos
culpables: las computadoras. Gracias al contacto con los hu- agregar algunas utilerías y páginas de la web que funcionan
manos, estos equipos han adquirido características propias como calculadoras estadísticas/epidemiológicas. El uso que se
de ellos: además de “equivocarse” también se entretienen hace de ellos difiere de muchas maneras, pero con frecuencia
“echando a perder” los archivos de datos. realizan tareas comunes. A continuación se harán comentarios
Hemos querido empezar este capítulo ironizando, porque sobre algunos programas de cómputo. Es necesario aclarar
es importante dejar bien claro que la computadora es una que no se trata de una revisión sistemática de los programas

15
16 Bioestadística

existentes, más bien se escribe sobre algunos que los autores menos versátil. Para capturar datos en una hoja de cálculo,
han tenido oportunidad de utilizar. se procede a identificar las columnas con las variables y los
renglones con los registros. En las celdas del primer renglón
se anotan los nombres de las variables y, a partir del segun-
do renglón, se capturan los datos que corresponden a cada
elemento del grupo. Por brevedad, en la captura suelen uti-
PROCESADORES DE TEXTO lizarse códigos y no etiquetas. Por ejemplo, en vez de escribir
“masculino” en la columna de sexo se puede anotar “1” y en
lugar de “femenino”, “2”. De esta manera se ahorra mucho
tiempo y se reduce el número de errores.
Estos programas son los más genéricos de todos los que
se utilizan. Básicamente sirven para escribir las propuestas
iniciales, reportes finales del trabajo y formas para captar
datos (cuestionarios, cédulas de captura). Algunos incluyen Ejemplo explicativo 4–1
utilerías capaces de elaborar cuadros y gráficos. Otros incluso Recuérdese el cuadro 1-1 en el que se presentaron los datos
permiten escribir fórmulas como las que se presentan en este de un grupo de trabajadores de un taller de automóviles. En
libro. Entre estos programas destaca Word para Windows. una hoja de cálculo, los mismos datos tendrían la presenta-
ción del cuadro 4-1, en el cual los renglones (identificados
con un número en la primera columna) y las columnas
(identificadas con letras mayúsculas en el primer renglón)
definen las referencias de cada celda. En el renglón 1 se
ADMINISTRADORES identifican las variables: “registro” en la columna “A”, “sexo”
DE BASES DE DATOS en la columna “B”, “edad” en la columna “C” y hemoglobina
con la etiqueta “Hb” en la columna “D”. Bajo la etiqueta
“registro” se anota el número i-ésimo que corresponde a
la captura, generalmente un número progresivo, en susti-
Cumplen una función muy importante durante el trabajo es- tución del nombre del sujeto o elemento del conjunto que
tadístico: ayudan a capturar datos en los archivos de cómputo se estudia. Bajo la etiqueta “sexo” el código “1” significa
en los que se almacenan. Además de generar la estructura de “varón”, mientras que el “2” se refiere a “mujer”. En las
la base y de permitir capturar los datos, estos programas tam- celdas debajo de “edad” y “Hb”, se anotan los valores que
bién permiten editar y transformar datos, así como generar corresponden a cada lectura.
nuevas variables y asignarles valores a partir de los existentes.
Pueden ayudar a generar pantallas de captura que faciliten el
trabajo de introducir datos, limitando así, el número de errores La verificación de datos puede realizarse de varias maneras.
que se pueden cometer. La verificación de la captura se puede En primer lugar, los datos en la pantalla se pueden comparar
realizar comparando los datos en pantalla con la forma en la con la forma en la cual se registraron los datos. Otro proce-
que se registraron. Si existe algún error, el programa permite dimiento más ventajoso por su facilidad es la utilización de
corregirlo. Si alguien cuenta con un poco de experiencia en filtros, a partir de los cuales se pueden ordenar los datos según
programación, también puede utilizar estos programas para diferentes criterios. Por ejemplo, si los datos del cuadro 4-1
tabular datos y realizar operaciones estadísticas, como el fueran muy extensos, entonces se podría pedir al programa
cálculo de proporciones, promedios y desviaciones estándar, que los ordenara según los valores anotados en la columna
o pruebas de chi-cuadrada y t de Student, por ejemplo. El del sexo. Si por algún motivo alguien hubiera anotado un tres
potencial de estos programas en el análisis estadístico es
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
en esa columna, se podría identificar al principio o al final de
enorme, pero la limitación más importante reside en que es ella después de ordenar los registros según un criterio ascen-
necesario conocer los programas con mucha profundidad y dente o descendente, respectivamente. Los filtros reconocen
saber programar. Entre los programas de esta categoría están todos los criterios o secuencias de datos capturados en cada
dBase, Fox y Access.

Cuadro 4-1. Representación de la captura de datos del


cuadro 1-1 en una hoja de cálculo
HOJAS DE CÁLCULO A B C D E
1 registro sexo edad Hb
2 1 1 45 12
Su estructura de celdas, construidas a partir de columnas y
renglones, además de las funciones que incluyen, las hace muy 3 2 2 23 13
útiles para el trabajo estadístico. Entre estos programas, los 4 3 1 32 11
más conocidos son Excel y Lotus. Su primera aplicación suele
5 4 1 18 15
ser la captura de datos; es mucho más sencilla que la que se
puede hacer en los administradores de bases de datos, pero 6 5 1 21 14
Introducción a los programas de cómputo 17

variable, lo cual permite identificar cualquier error de regis- moda, varianza, desviación estándar, coeficiente de corre-
tro, como el número tres capturado en la variable sexo del lación, intercepción y pendiente de la regresión lineal. Tam-
ejemplo anterior. Una tercera opción para verificar la captura bién pueden mostrar los valores de varias distribuciones de
incluye registrar dos veces los datos en la misma secuencia: probabilidad, como la normal, binomial, Poisson, t, F, 2, así
la primera en una hoja y la segunda en otra hoja del mismo como realizar las pruebas de chi-cuadrada, t de Student, F y
archivo. Para comparar las capturas, se utilizaría una tercera z. Varias funciones matemáticas y trigonométricas también
hoja que contraste las dos primeras y destaque las capturas están incluidas en las hojas de cálculo, y éstas son muy útiles
que no fueran iguales. cuando se desea redondear los resultados o transformar los
valores de las variables mediante logaritmos o antilogaritmos,
por ejemplo. Una función que puede ser de mucha utilidad
Ejemplo explicativo 4–2 está relacionada con la generación de números aleatorios.
Las hojas también pueden servir para simplificar el tra-
Supóngase que se han capturado los datos del ejemplo 4-1 bajo, de tal manera que, una vez que se ha introducido una
por duplicado, tal como se presentan en el cuadro 4–2. Si se fórmula, ya no sea necesario capturarla nuevamente, sólo
observa con detenimiento, se puede encontrar, en primer es necesario cambiar los valores que resulten de procesos
plano, la misma captura que en el cuadro 4–1. En segundo intermedios para actualizar el resultado, derivado de la fór-
plano, se aprecian los primeros dos renglones con los mis- mula, automáticamente.
mos datos excepto dos cambios: en las celdas B2 y C3 los
datos no son los mismos que en la primera hoja. En el tercer
plano, se muestra una hoja que identifica la diferencia de
valores y los señala con la palabra “ERROR”. Para que el Ejemplo explicativo 4–3
programa Excel muestre las diferencias de la captura en la Con frecuencia, el investigador tiene que hacer muchas
tercera hoja, se puede utilizar la función =SI() en cada una veces las mismas operaciones, pero con valores diferentes.
de las celdas de la tercera hoja (que es la que compara): en Por ejemplo, cuando se prepara un reporte final, podría
la celda A1 se escribe la fórmula =SI(Hoja1!A1<>Hoja2!A1 existir interés en presentar los resultados mediante dife-
;”ERROR”;” “), y luego se copia a todas las demás celdas rencias de proporciones con intervalos de confianza de
en la hoja de cálculo. Una vez que las capturas diferentes 95%. En la hoja de cálculo se pueden poner los valores y
han sido identificadas, se busca en las formas de captura las fórmulas necesarias una vez y, después, sólo modificar
cuál de las dos es la correcta para cambiarla en la hoja en los valores para que cambien los intervalos de confianza de
la cual se tiene el error. acuerdo con cada cuadro. En el cuadro 4–3 se representa
una hoja de cálculo mediante la cual es posible calcular los
intervalos de confianza. En las celdas de la columna B se
Las hojas de cálculo incluyen funciones que, a partir de un anotan las proporciones y el número de observaciones en
bloque de datos, permiten realizar varias operaciones, entre las muestras A y B, mientras que en la columna E se colocan
las que se encuentran los cálculos de la media, mediana, las ecuaciones para los resultados: la diferencia de propor-
ciones se obtendría mediante la fórmula (en Excel) =B1–B3
en la celda E1; el límite inferior del intervalo de confianza
se obtendría en la celda E3 mediante =E1–1.96*(B1*(1–B1)/
Cuadro 4-2. Representación de la captura de datos del B2+B3*(1–B3)/B4)^0,5; mientras que el límite superior se
cuadro 1-1, por duplicado, en hojas de cálculo tendría en la celda E4 con la fórmula =E1+1.96*(B1*(1–B1)/
A B C
B2+B3*(1–B3)/B4)^0,5. Estas fórmulas se presentan con
mayor detalle en el capítulo 16.
1 registro sexo edad
© Editorial El manual moderno Fotocopiar sin autorización es un delito.

2 ERROR
3 ERROR
Una vez que se tiene la hoja con los valores y las ecuaciones
en posición (cuadro 4-3), para el resto de los cálculos sólo es
A B C D
1 registro sexo edad hg
2 1 2 45 12 Cuadro 4-3. Presentación de proporciones e intervalos de
3 2 2 26 13 confianza de 95%
A B C D E A B C D E
1 registro sexo edad hg 1 Proporción A 0.5 Pa - Pb 0.2
2 1 1 45 12 2 n de A 150 IC 95%
3 2 2 23 13 3 Proporción B 0.3 límite inferior 0.095
4 3 1 32 11 4 n de B 175 límite superior 0.305
5 4 1 18 15 5
6 5 1 21 14 6
18 Bioestadística

necesario cambiar los valores de B1, B2, B3 y B4 para obtener su lugar en la mayoría de los grupos de trabajo que laboran
las diferencias de proporciones y los intervalos de confianza en el campo de la salud, entre los que sin duda es uno de los
de 95% que correspondan a los datos. programas más populares. Varias de sus características han
Las hojas de cálculo también son de gran ayuda para reali- contribuido a brindarle ese lugar privilegiado, entre las que
zar los gráficos necesarios en el análisis estadístico. La facilidad destaca su facilidad de manejo; pero ninguna le ha dado tan-
con la cual se puede realizar un gráfico en estos programas to impulso como el hecho de que el programa se distribuye
permite ensayar con varias formas diferentes hasta que se libremente y sin costo a través de Internet desde el CDC de
encuentre la que mejor presenta los resultados. Atlanta (www.cdc.gov) y otros sitios de la red. Esta gran difu-
Además de todas las facilidades que brindan las hojas de sión ha facilitado la traducción del programa y sus manuales
cálculo, también se debe mencionar la gran capacidad que al español, entre otros idiomas. Epi Info se desarrolló para
tienen para importar y exportar archivos generados en otros ejecutarse en dos plataformas diferentes: MSDOS y Windows.
formatos, lo cual los hace muy útiles cuando se trabaja en Originalmente fueron escritas en inglés, pero existen opciones
varias plataformas de datos. en español. La versión para MSDOS, que se ejecutaba bastante
Parecería que un programa de hoja de cálculo cubriría bien en Windows XP o anteriores, es Epi Info 6 y aún se puede
todas las necesidades para el trabajo. Sin embargo, la hoja descargar en http://huespedes.cica.es/huespedes/epiinfo/. La
de cálculo también tiene algunas limitaciones inherentes a primera versión para Windows se conoció como Epi Info 2000
su estructura en forma de hoja: es muy difícil tabular datos y se ejecuta bastante bien en Windows XP o posteriores. La
cuando existe interés en más de dos variables, y esto limita versión más reciente del programa es Epi Info 7 que se ejecuta,
el uso de las hojas de cálculo sólo a la realización de análisis de preferencia, en Windows 7. Las tres versiones en inglés se
muy elementales. pueden descargar de http://www.cdc.gov/epiinfo/.
Epi Info 7. El programa corre en ambiente Windows, y
es una gran ventaja, porque se maneja de manera semejante
a otros programas de este ambiente gráfico; así, si ya se co-
noce uno, todos los demás resultan familiares y más fáciles
de aprender. De manera general, la interfaz del Menú nos
muestra las utilerías que ofrece el programa: crear formas de
PROGRAMAS PARA PRESENTACIONES captura (Create Forms), capturar datos (Enter Data), analizar
datos (Analyze Data) y crear mapas (Create Maps). A estas
mismas opciones se puede llegar a través de “Tools” en el
Estos programas ayudan a elaborar la presentación de los menú que se encuentra en el borde superior de la ventana. En
datos, principalmente mediante proyecciones o carteles. el mismo menú superior se encuentra “StatCalc”; esta opción
Para hacerlo, generalmente se le concede preferencia al uso incluye una serie de calculadoras epidemiológicas y el enlace
de gráficos o cuadros. Entre estos programas se encuentran a la página web de OpenEpi.com que se describe líneas abajo.
Power Point y Harvard Graphics. El análisis de datos (en Analyze Data) se puede realizar
tanto en archivos propios de Epi Info 7, como archivos con
formatos de Access, Excel, SQL y ASCII.

PROGRAMAS ESTADÍSTICOS SPSS (Statistical Package


for Social Science)

© Editorial El manual moderno Fotocopiar sin autorización es un delito.


De todos los programas que se comentan en este capítulo, Este programa tiene una larga historia en el análisis estadísti-
éstos son los que más han revolucionado el trabajo en la es- co. Las primeras versiones se hicieron para correr en equipos
muy grandes, y fue uno de los primeros programas de esta-
tadística. Entre ellos existe una gran variedad de funciones y
dística disponibles en las computadoras personales. En la
costos. Los hay genéricos o especializados y también gratuitos
actualidad, el programa corre en varias plataformas, entre las
o muy caros. Es difícil decir cuál es el mejor, pero no cabe
que se encuentra Windows. En las primeras versiones de SPSS
duda de que se debe tener el que mejor se conozca y que
para PC, el usuario tenía que saber mucho de programación,
permita realizar los análisis estadísticos que se requieren para
porque cada comando se escribía en una pantalla negra en
el trabajo. La presentación que aquí se hace se concentra en la que no se veían ayudas. Ahora el ambiente gráfico facilita
tres programas: Epi Info, SPSS y R. el manejo a tal punto que el usuario puede aprender a uti-
lizarlo en horas (o en minutos si se tiene alguna experiencia
en otros programas de cómputo). Al entrar al programa se
Epi Info ve una pantalla cuadriculada muy semejante a una hoja de
cálculo. En esta pantalla se puede empezar a capturar datos
Este programa ha sido desarrollado y distribuido por el CDC de la misma manera como se señaló para las hojas de cálculo,
de Atlanta. En un principio se concibió como una herramienta con las mismas dificultades, pero sin la facilidad de poder
auxiliar de los epidemiólogos de campo para usarse en equi- realizar operaciones en las celdas. Los datos capturados de
pos portátiles de cómputo, pero con el tiempo ha encontrado esta forma pueden guardarse en un archivo de SPSS y después
Introducción a los programas de cómputo 19

pueden llamarse para continuar la captura o iniciar el análisis. R Commander (“Rcmdr”) es un paquete que funciona
El programa también permite leer bases de datos generadas como un programa de análisis estadístico dentro del programa
por otros programas, como Excel o Fox, por ejemplo. R. La ventaja de trabajar con R Commander radica en que éste
aporta todas las ventajas de R (p. ej., gráficos) por medio de
una interfaz mucho más amigable para el usuario, basada en
menús y ventanas de selección bajo el perfil de Windows.
R En este libro, se guiará al lector a través de los pasos básicos
necesarios para el análisis y creación de los modelos lineales
El programa R es un ambiente de programación para realizar generalizados en R Commander (capítulo 27). Los autores
gráficos y cálculos estadísticos. Su gran ventaja es que es un recomiendan el uso de R Commander para quienes comienzan
programa de acceso abierto y gratuito en constante actuali- a estudiar e implementar este tipo de análisis estadístico con
zación, el cual puede descargarse y encontrar temas de ayuda sus datos; sin embargo, los modelos generalizados pueden
en http://www.r-project.org/index.html. Es un proyecto de crearse directamente en la consola de R sin requerir ningún
colaboración en el cual los colaboradores donan códigos de paquete adicional, tal como se mencionará en el capítulo 27.
acceso libre, actualizan el programa y sus paquetes, corrigen Es importante señalar que la aplicabilidad de R Commander
errores de programación y documentan las distintas funciones no se limita a los modelos generalizados. Los lectores pueden
de R. Entre la variedad de cálculos estadísticos que pueden iniciarse en el lenguaje de R utilizando dicho paquete como
realizarse en R, se encuentran los análisis estadísticos clásicos, otra herramienta estadística (p. ej., análisis de varianza, aná-
modelación lineal y no lineal, análisis de series de tiempo, aná- lisis de regresión) precisa, accesible y de bajo costo.
lisis de clasificación y estadística multivariada, por mencionar
algunos. Las personas que conocen el lenguaje de programa-
ción pueden generar sus propios códigos para realizar cálculos Ejemplo explicativo 4–4
específicos (p. ej., simulaciones Monte Carlo). Otra ventaja
es la calidad del diseño de gráficos para su publicación. En R Una vez descargado de la red e instalado el programa R,
pueden importarse bases de datos guardadas en formato de es necesario instalar el paquete R Commander. Por sim-
texto (*.txt) o formato CVS (*.csv) con columnas delimitadas plicidad, lo anterior lo haremos por medio del programa
por comas o tabulaciones; también es posible importar y RStudio siguiendo los siguientes pasos:
utilizar los archivos creados en Excel (*.xls). 1. Instalar el programa R (en su versión más reciente).
La gran desventaja de este programa radica en que la con- 2. Instalar el programa RStudio.
sola de R trabaja con un lenguaje de programación y no cuenta 3. Al abrir RStudio, éste solicitará que se seleccione el
con los menús de selección a los que estamos habituados los “CRAN mirror”, servidor a partir del cual se instalarán
usuarios de la plataforma de Windows; es necesario conocer los componentes necesarios para la sesión de trabajo.
su lenguaje, basado en códigos de programación específicos, Seleccionar el que corresponda al país en el que se en-
para poder comenzar a utilizar la consola blanca. Otro de los cuentre. Es probable que, la primera vez que se utilice,
inconvenientes es que los códigos son extremadamente sensi- el programa solicite instalar ciertos paquetes automá-
bles a los errores tipográficos, por lo que una simple coma (,) ticamente.
fuera de lugar interrumpe el proceso del análisis generando 4. Una vez abierta la consola, buscar en la ventana derecha
mensajes de error. la pestaña “Packages”, la cual contiene la lista de los
Actualmente existen programas gratuitos que funcionan paquetes que utiliza R (figura 4-1). Una vez abierta esa
como editores de código R y que trabajan bajo la plataforma ventana, buscar en la lista R Commander. Al palomear
de Windows. Estos programas facilitan la escritura de los la casilla “Rcmdr”, el programa comenzará a instalarlo
comandos en un documento llamado “script”, el cual puede automáticamente; esto ocurrirá solamente la primera
© Editorial El manual moderno Fotocopiar sin autorización es un delito.

ser archivado como texto (*.txt) o código R (*.r) para un sub- vez que se utiliza el programa.
secuente uso y edición. Estos programas se vinculan con la 5. En las siguientes ocasiones en que se utilice RStudio, solo
consola de R, con lo cual al tiempo que se escribe el código será necesario seleccionar el paquete “Rcmdr” de la lista
se pueden enviar las instrucciones a R y observar los resul- de paquetes y el programa se encargará de cargarlo en
tados. Los autores de este libro recomiendan como editores la consola de R y abrirlo (figura 4-1).
de código los programas RStudio (http://www.rstudio.com/)
y Tinn-R (http://sourceforge.net/projects/tinn-r/), los cuales
tienen ventajas adicionales como la ventana para observar y
guardar los gráficos y las ventanas de fácil acceso a la insta-
lación de paquetes y a la búsqueda de temas de ayuda en R. OpenEpi
R Commander. La consola de R puede requerir paquetes
de comandos para realizar análisis específicos, los cuales de- OpenEpi es una página en la web que se puede consultar a
ben ser instalados en R antes de usarse. El paquete necesario través de un browser (en http://openepi.com/v37/Menu/
para realizar análisis estadísticos clásicos se instala automáti- OE_Menu.htm), pero que también se puede utilizar a nivel
camente al instalar el programa R (“stats”). El paquete ODBC local si previamente se descargó el programa en la computa-
Database Access (“RODBC”) debe ser instalado por el usuario dora. Está conformado por una serie de calculadoras epide-
si desea importar a R las bases de datos creadas en formato miológicas y con enlaces a muchas páginas especializadas en
Excel (*.xls). análisis estadístico y epidemiológico.
20 Bioestadística

Figura 4-1. Programa RStudio. A la izquierda se muestra la consola de R versión 2.14.0 (2011) y a la derecha, la ventana
“Packages” con la lista de los paquetes y la opción “Rcmdr” seleccionada.

mejores para transformar variables, pero no mejores que Epi


¿EL MEJOR PROGRAMA? Info para capturar o verificar datos. Las hojas de cálculo, como
Excel, son insustituibles cuando se trata de hacer operaciones;
los programas de presentaciones no tienen comparación cuan-
No existe. Cada programa tiene sus ventajas y sus aplicaciones. do se desea mostrar los datos en un evento científico; y los
Por ejemplo, SPSS tiene una gran cantidad de opciones para procesadores de texto son una verdadera bendición cuando se
el análisis estadístico, pero pocos lo han utilizado comple- describe el proyecto, se realiza el informe final o se escribe un

© Editorial El manual moderno Fotocopiar sin autorización es un delito.


tamente. Epi Info brinda menos posibilidades, pero incluye artículo en el que se dan a conocer los resultados de la inves-
opciones que no están presentes en SPSS; lo mismo ocurre con tigación. Así que no existe un “mejor programa”. En general,
el programa R, el cual, a través de su paquete R Commander, la mayoría son buenos, en particular los más reconocidos.
complementa los estadísticos de SPSS y facilita el análisis de Pero es preciso tener cuidado, porque podría existir un mal
los modelos generalizados. En opinión de los autores, los programa y su uso tendría consecuencias muy desagradables
administradores de bases de datos, como dBase o Fox, son para el trabajo y la interpretación de los resultados.

REFERENCIAS
R Development Core Team R. (2013). A language and environment
for statistical computing. Viena, Austria: R Foundation for Sta-
tistical Computing. Recuperado de http://www.R-project.org/.
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

METODOS DE RECOLECCION DE DATOS PARA UNA


INVESTIGACIÓN
Por Inga. Mariela Torres, mariela_torresurl@yahoo.com.mx
Inga. Karim Paz, kspaz@url.edu.gt
Integración: Ing. Federico G. Salazar, correo@fsalazar.bizland.com

RESUMEN
Una investigación es científicamente válida al estar sustentada en información verificable,
que responda lo que se pretende demostrar con la hipótesis formulada. Para ello, es
imprescindible realizar un proceso de recolección de datos en forma planificada y teniendo
claros objetivos sobre el nivel y profundidad de la información a recolectar. Se presenta en
este artículo una serie de criterios a considerar para diseñar la herramienta de recolección
de información, así como los métodos de recolección para lograr en una investigación
resultados confiables.

DESCRIPTORES
Estadística. Fuentes de error. Métodos de recolección de datos. Fuentes de Información.
Encuestas. Preparación de una Encuesta. Diseño de un cuestionario.

ABSTRACT
Success of a research, from scientific method point of view, should be sustained on
verifiable information, looking for answers formulated by hypothesis. On dealing that, it’s
necessary to develop a programmed information collecting process with clear goals and
level and deep to be accounted for. In this article, it’s presented a series of criteria to be
present when collecting information and the way a survey instrument should be design to
obtain credible results in research processes.

KEYWORDS
Statistics. Sampling methods. Error sources on sampling. Sources of statistical information.
Surveying. Surveys design.

URL_03_BAS01.doc 1 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

FUENTES DE INFORMACION

Unidades estadísticas y caracteres

Se llaman unidades estadísticas o individuos a los elementos componentes de la población


estudiada. La población puede ser un conjunto de personas humanas: el personal de una
empresa, los alumnos de un centro de enseñanza, los Habitantes de España el 26 de
Diciembre de 1996 o un conjunto de objetos, la producción de un taller, el parque
automovilístico español, conjunto de facturas de una empresa, etc. La población en una
investigación estadística debe ser definida con precisión.

Cada uno de los individuos de la población puede describirse según uno o varios
caracteres. Así, en el caso de los alumnos de un centro podríamos estudiar los caracteres:
sexo, edad, curso, asignaturas pendientes, media curso anterior, número de hermanos,
domicilio.

Los caracteres pueden ser numéricos en cuyo caso lo llamaremos variables (cuantitativas)
o no numéricos atributos (cualitativas)

Cada uno de los caracteres estudiados puede presentar dos o más modalidades. Las
modalidades son las diferentes situaciones posibles del carácter. Las modalidades de un
carácter deben ser al mismo tiempo incompatibles y exhaustivas. Es decir cada individuo de
la población puede adoptar una y sólo una modalidad del carácter.

Los caracteres más sencillos admiten dos modalidades (caracteres dicotómicos) por
ejemplo el sexo (Hombre, Mujer) una pieza satisface los requerimientos de calidad o no. El
número de modalidades de un carácter puede variar según la información que se quiera
recoger así por ejemplo el estado civil:

• Con dos modalidades: Soltero/a o Casado/a


• Con tres modalidades: Soltero/a , casado/a o divorciado/a
• Con cuatro modalidades: Soltero/a , casado/a o divorciado/a, viudo/a
• Con cinco modalidades: Soltero/a, casado/a o divorciado/a, viudo/a , no declarado.

Hay algunos caracteres que por su naturaleza el número de modalidades es muy grande, por
ejemplo la profesión. Es difícil determinar el número de modalidades que tiene dicho
carácter, por lo que es conveniente agruparlas en sistemas de categorías, de forma que cada
profesión quede encuadrada de manera inequívoca en una y en una sola de las citadas
categorías. Así en España se dividen en cuatro categorías principales: a) Agricultura, b)
Construcción, c) Industria y d) Servicios. Estas categorías a su vez se subdividen en otras
subcategorías, de forma que cualquier profesión quede englobada dentro de una única
categoría y dentro de esta en una única subcategoría.

El Sistema de categorías debe ser exhaustivo y mutuamente excluyente, para evitar que un
individuo pueda pertenecer a más de una categoría.

URL_03_BAS01.doc 2 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Fuentes de Información: Son todos aquellos medios de los cuales procede la información,
que satisfacen las necesidades de conocimiento de una situación o problema presentado,
que posteriormente será utilizado para lograr los objetivos esperados. De acuerdo a su
origen se clasifican en:
„ Fuentes primarias.
„ Fuentes secundarias.

Las fuentes primarias son aquellas en las que los datos provienen directamente de la
población o muestra de la población, mientras que las fuentes secundarias son aquellas que
parten de datos pre-elaborados, como pueden ser datos obtenidos de anuarios estadísticos,
de Internet, de medios de comunicación.

A su vez las Fuentes primarias pueden subdividirse en:


„ Observación directa.
„ Observación indirecta.

La observación directa es cuando el investigador toma directamente los datos de la


población, sin necesidad de cuestionarios, entrevistadores. Por ejemplo cuando un profesor
realiza un estudio estadístico sobre el rendimiento de sus alumnos.

La observación es indirecta cuando los datos no son obtenidos directamente por el


investigador, ya que precisa de un cuestionario, entrevistador u otros medios para obtener
los datos del estudio. Para lo que es preciso realizar una encuesta.

Las Fuentes Primarias para su recopilación se obtienen por medio de una investigación
directa al objeto de estudio, a través de métodos establecidos. Para reunir datos primarios,
lo ideal es recurrir a un plan que exige tomar varias decisiones: los métodos e instrumentos
de investigación, el plan de muestreo, y las técnicas para establecer contacto con el
público.
Tabla No. 1. Planeación de la recolección de información primaria
ENFOQUES DE METODOS DE INSTRUMENTOS DE
PLAN DE MUESTREO
INVESTIGACION CONTACTO INVESTIGACION
Observación Correo Unidad de Muestreo Cuestionario
Encuesta Teléfono Tamaño de la Muestra Instrumentos Mecánicos
Experimento Personal Método de Muestreo Instrumentos

Las Fuentes Secundarias para ser utilizadas deben ser analizadas bajo 4 preguntas básicas
que son:
• ¿Es pertinente? cuando la información se adapta a los objetivos
• ¿Es obsoleta? cuando ha perdido actualidad
• ¿Es Fidedigna cuando la veracidad de la fuente de origen no es cuestionada
• y ¿Es digna de Confianza? si la información ha sido obtenida con la metodología
adecuada y honestidad necesaria, con objetividad, naturaleza continuada y exactitud

La fase de recopilación de datos se considera que es la etapa de más alto costo, tanto en
recursos humanos como materiales, así como también de tiempo. Es la más susceptible de
error.
URL_03_BAS01.doc 3 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

METODOS DE RECOLECCION DE DATOS

Para la recolección de datos primarios en una investigación científica se procede


básicamente por observación, por encuestas o entrevistas a los sujetos de estudio y por
experimentación.

Encuesta: Constituye el término medio entre la observación y la experimentación. En ella


se pueden registrar situaciones que pueden ser observadas y en ausencia de poder recrear un
experimento se cuestiona a la persona participante sobre ello. Por ello, se dice que la
encuesta es un método descriptivo con el que se pueden detectar ideas, necesidades,
preferencias, hábitos de uso, etc.

La encuesta la define el Profesor García Fernando como “una investigación realizada sobre
una muestra de sujetos representativa de un colectivo más amplio, utilizando
procedimientos estandarizados de interrogación con el fin de obtener mediciones
cuantitativas de una gran variedad de características objetivas y subjetivas de la población”.
Aplicar una encuesta a una muestra representativa de la población es con el ánimo de
obtener resultados que luego puedan ser trasladados al conjunto de la población.

Entre las características fundamentales de una encuesta se destacan:


1.- La encuesta es una observación no directa de los hechos por medio de lo que
manifiestan los interesados.
2.- Es un método preparado para la investigación.
3.- Permite una aplicación masiva que mediante un sistema de muestreo pueda extenderse a
una nación entera.
4.- Hace posible que la investigación social llegue a los aspectos subjetivos de los
miembros de la sociedad.

Las encuestas surgen en Estados Unidos en las investigaciones de mercado y en los sondeos
de opinión ante las elecciones a la Casa Blanca. Hasta nuestros oídos llegan nombres como
Gallup o Crossley. En España es el CIS (Centro de Investigaciones Sociológicas)
dependiente de la Presidencia del Gobierno el organismo encargado de realizar dichos
sondeos de Opinión y todo tipo de investigaciones sociológicas.

Prácticamente todo fenómeno social puede ser estudiado a través de las encuestas. Cuatro
razones avalan esta afirmación:

1. Las encuestas son una de las escasas técnicas de que se dispone para el estudio de las
actitudes, valores, creencias y motivos. Hay estudios experimentales en que no se
conocen inicialmente las variables que intervienen y mediante la encuesta, bien por
cuestionarios o por entrevista hacen posible determinar las variables de estudio.
2. Las técnicas de encuesta se adaptan a todo tipo de información y a cualquier población.
3. Las encuestas permiten recuperar información sobre sucesos acontecidos a los
entrevistados.
4. Las encuestas permiten estandarizar los datos para un análisis posterior, obteniendo gran
cantidad de datos a un precio bajo y en un corto periodo de tiempo.

URL_03_BAS01.doc 4 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Las encuestas se pueden realizar sobre el total o una parte de la población. Exceptuando los
estudios que realiza el Instituto Nacional de Estadística INE en los Censos y que abarcan a
toda la población, diversos son los motivos que aconsejan tomar muestras.
„ Cuando la población es muy grande.
„ Por motivos económicos.
„ Por falta de personal adecuado.
„ Por motivo de calidad de los resultados.
„ Por mayor rapidez en recoger los datos y presentar los resultados.

Pasos más importantes para preparar una encuesta:

1. Definir el objeto de la encuesta, formulando con precisión los objetivos a conseguir,


desmenuzando el problema, eliminando lo superfluo y centrando el contenido de la
encuesta.
2. Formulación del cuestionario
3. Trabajo de campo, consistente en la obtención de los datos. Para ello será preciso
seleccionar a los entrevistadores, formarlos y distribuirles el trabajo a realizar de forma
homogénea.
4. Procesar codificar y tabular los resultados de la encuesta, que serán presentados en el
informe y para posteriores análisis.

Tipos de encuestas

Las encuestas las podemos clasificar atendiendo a diversos criterios.

Tabla No. 2. Clasificación de las encuestas


CRITERIO TIPO
Por la forma que adopta el cuestionario Unitaria o personal
Lista
Por proporción de la población Censo
encuestada Encuesta
Por la naturaleza de la investigación Sobre hechos
estadística Sobre opiniones
Atendiendo al sistema de recogida Por entrevista
Forma mixta:
Entregadas por correo, recogidas
por entrevistadores
Entregadas por entrevistadores,
recogidas por correo
Por correo
Por teléfono
Por el carácter de la investigación Estructurales
Coyunturales

En la encuesta no se tiene control directo sobre lo que se investiga, no se puede alterar,


simplemente se recopila y presenta. La encuesta se auxilia de dos instrumentos básicos: El
cuestionario y la Entrevista.

URL_03_BAS01.doc 5 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

1. Entrevista Personal: Es una conversión generalmente entre 2 personas, (uno el


entrevistador y otro el entrevistado). Las preguntas pueden ir registradas en una boleta
que se llama cuestionario o bien se puede auxiliar de una grabadora para registrar los
datos obtenidos. Cuando la entrevista y el cuestionario son utilizados en forma
personal se le denomina: Face to Face (cara a cara). Cuando se posee una estructura
fija de cuestionamientos o una secuencia de preguntas fijadas con anterioridad se
conoce como entrevista dirigida. Cuando el entrevistador hace participar en un tema
fijado anticipadamente, dejándole la iniciativa de la conversación y que toda su
narración sea espontánea se conoce como entrevista no dirigida. La ventaja que tiene
es que la gente generalmente responde cuando es confrontada en persona. El
entrevistador puede notar reacciones específicas y eliminar malos entendidos sobre
alguna pregunta hecha. Sus limitaciones a parte del costo, es el adiestramiento que
tenga el entrevistador. Este es el método más completo para adquirir información por
estar en contacto directo con la fuente.
2. Entrevista por Teléfono: Presenta las mismas características que la anterior con la
variante de que se hace por medio de un aparato telefónico. Tiene como desventaja
que la persona a entrevistarse puede negarse fácilmente, mentir con más facilidad.
Además no todos los hogares tienen teléfono. Son más económicas que las entrevistas
personales debido a la eliminación de gastos de transporte. La duración de las mismas
debe ser más corto pues las personas tienden a impacientarse por teléfono.
3. Cuestionario Autoaplicados o por Correo: Consiste en enviar la información con las
preguntas necesarias por correo o algún otro medio. Este debe estar bien construido
para facilitar la respuesta y la participación. Debe incluirse un sobre con el porte
pagado para facilitar el retorno de la boleta. Se produce ahorro por no requerir
entrevistadores, pero la tasa de respuesta baja. Tampoco se puede cerciorar que fue
respondido por la persona a la que iba dirigido.
4. Observación Directa: Es usada cuando se requieren encuestas que no requieren
mediciones en las personas. Además no existe una participación directa en el área en
donde se encuentra la información.
5. Vía electrónica: Modernamente se ha adoptado la facilidad de utilizar las Tecnologías
de la Información y Comunicación TIC a través del uso del Internet para enviar
encuestas y publicar cuestionarios que el entrevistado deberá llenar y remitir por la
misma vía.

Tabla No. 3. Ventajas y desventajas de los tres métodos de contacto más usuales
CORREO TELEFONO PERSONAL
Flexibilidad Pobre Bueno Excelente
Cantidad de Información que es posible reunir Bueno Regular Excelente
Control de los efectos del entrevistador Excelente Regular Pobre
Control de la muestra Regular Excelente Regular
Velocidad en la recolección de la información Pobre Excelente Bueno
Porcentaje de respuestas Pobre Bueno Bueno
Costo Bueno Regular Pobre

URL_03_BAS01.doc 6 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Los métodos de recolección comúnmente utilizados para obtener datos a través de


encuestas por muestreo son las entrevistas personales y las entrevistas por teléfono. Con
estos métodos y con entrevistadores adecuadamente adiestrados y reentrevistas planeadas,
se suele alcanzar tasas de respuesta superiores al 60% y 75%.

Tabla No. 4. Comparación entre distintas propiedades de las encuestas personal, telefónica y postal
PROPIEDADES PERSONAL TELEFÓNICA POSTAL
Libertad de expresión *** * -
Influencia entrevistador *** ** -
Complejidad *** ** *
Claridad * ** ***
Coste *** ** *
Tiempo *** ** *
Participación *** ** *
*** Muy elevado ** Elevado * Algo - Inexistente

Experimentación: Método el cual las variables pueden ser manipuladas en condiciones


que permiten la reunión de datos, conociendo los efectos de los estímulos recibidos y
creados para su apreciación. En el experimento existe un control directo sobre un factor de
los que se va analizar.

La experimentación exige seleccionar grupos pareados de sujetos, someterlos a


tratamientos distintos, controlar las variables y comprobar si las diferencias observadas son
significativas. La finalidad de la investigación experimental es descubrir las relaciones
causales, descartando para ello las explicaciones alternas de los resultados.

El método experimental suministra los datos más convincentes si se aplican los controles
adecuados. En la medida en que el diseño y la ejecución del experimento excluyan otras
hipótesis que expliquen los mismos resultados, el gerente de investigación y el de
mercadotecnia estarán seguros de la veracidad de las conclusiones.

PRINCIPALES PROBLEMAS EN LA RECOLECCION DE DATOS


- Con el método de encuesta se presentan dificultades como: difícil contactar a las
personas, ya que se tienen cuotas establecidas de acuerdo a las características
proporcionales de la población a investigar. El grado de dificultad se da cuando no se
encuentra la persona, hasta la negación, falta de cooperación o trabajo inconcluso del
entrevistado.
- Con los experimentos el grado de dificultad consiste en la creación de las condiciones
similares o iguales al medio ambiente en que se desarrolla el grupo experimental, el
investigador debe abstenerse de influir en estas condiciones aplicando un tratamiento
uniforme a cada elemento evaluado con una conducta objetiva.
- La observación presenta la desventaja de no ser un método veloz por lo que la
obtención de datos con lleva cierta cantidad de tiempo, ya que se debe contemplar el

URL_03_BAS01.doc 7 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

objeto de estudio en todas las fases para poder obtener la información de acuerdo al
estímulo ocasionado.

GUÍA PARA MINIMIZAR ERRORES DE NO MUESTREO

Reentrevistas: Preparar un plan cuidadoso de reentrevistas a un número fijo de elementos


muestreados, en diferentes días de la semana y a diferentes horas. Esto puede minimizar los
problemas de no respuesta. Una forma para llevarlo a cabo es mediante el muestreo
estratificado.

Recompensas e Incentivos: Se refiere a usar la táctica de ofrecer un premio para estimular


por la respuesta. Este premio puede ser un pago en efectivo para la persona que accede a
participar en el estudio, o en productos. Estos deben ser ofrecidos únicamente después de
que han sido seleccionados para la muestra mediante algún procedimiento objetivo. Debe
de utilizarse para muestras de grupos que tienen un interés particular en el problema que se
estudia.

Uso de Entrevistadores Adiestrados: La habilidad de un entrevistador está directamente


relacionada con la calidad y cantidad de información resultante de una encuesta, ya sea que
la entrevista se lleve por teléfono o en persona. Los buenos entrevistadores pueden hacer
preguntas de tal manera que se estimule a respuestas honestas y pueden notar la diferencia
entre quienes realmente desconocen la respuesta y aquellos que simplemente no desean
contestar.

Verificación de Datos: Los cuestionarios completados deben ser cuidadosamente


analizados por alguien diferente al entrevistador, para verificar si han sido llenados
correctamente.

Construcción del Cuestionario: Después de seleccionar la muestra, el componente más


importante de una encuesta bien estructurada, informativa y exacta es un cuestionario
diseñado apropiadamente.

DISEÑO DE UN CUESTIONARIO

El cuestionario es un conjunto de preguntas sobre los hechos o aspectos que interesan en


una investigación y que son contestadas por los encuestados. Se trata de un instrumento
fundamental para la obtención de datos.

Siendo el objetivo del diseño de una encuesta el minimizar los errores de no muestreo que
pueden ocurrir, en ese sentido, los cuestionarios deben reunir las siguientes características:
1. Operativos: Fáciles de manejar, utilizarse como instrumento de recolección de datos
previendo en su estructura la facilidad para el vaciado o salida de la información.
Fáciles de procesar y tabular.
URL_03_BAS01.doc 8 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

2. Fidedignos: Que sea confiable, que permita la recolección real de los objetivos y que
sean fáciles de ser depurados.
3. Válidos: Que sea conciso, claro, firme, consistente, que no se preste a ambigüedades.
Preguntas claras, breves, concretas y lógicas.

Para diseñar un cuestionario se deben considerar tres aspectos:

1. El tipo de Preguntas y el orden en que deben agruparse.


2. La formulación de las preguntas de acuerdo a los objetivos, redactándolas
gramaticalmente
3. La organización del material del cuestionario, poniéndose en el lugar del entrevistado

Tipo de Preguntas en un Cuestionario

1. Dicotómicas: Es la más sencilla y se utiliza como filtro. Sólo admite como respuesta:
Si o No.
2. Selección Múltiple: Permite elegir varias respuestas dentro de una serie de respuestas.
3. Abiertas: Deja en libertad al entrevistado de responder lo que considere conveniente.
4. Cerradas: En este el entrevistado solo puede elegir una respuesta de una serie de
respuestas.

Cuestionario Piloto: Es aquel que una vez estructurado y redactado se somete a las
pruebas necesarias en trabajo de campo, o simulación del mismo, con el objeto principal de
determinar su validez como instrumento de medición y su grado de adecuación al medio
ambiente o universo investigado.

Una vez realizada la prueba se harán las correcciones o cambios necesarios de manera que
se convierta en el instrumento ideal para la recolección de datos.

Las partes que debe incluir un cuestionario son:


a. Saludo (que incluya el por qué del cuestionario y la confidencialidad con la cual se
trabajarán los resultados obtenidos)
b. Título
c. Instrucciones para contestarlo
d. Agradecimiento

Para hacer un buen cuestionario la experiencia juega un papel importante ya que se


considera un “arte” la confección de un buen cuestionario.
Suele presentarse bajo dos formas.
„ Cuestionario individual: Es en el que el encuestado responde de manera
individual y sin que intervenga directamente el entrevistador.
„ Cuestionario Lista: El cuestionario es preguntado al encuestado por una
persona especialista en la investigación, que va anotando las respuestas en una
hoja con una serie de filas y columnas en las que va anotando las distintas
respuestas de cada uno de los entrevistados.
URL_03_BAS01.doc 9 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

El resultado de una encuesta depende en gran medida del cuestionario y de la forma de


presentarlo.

Figura No. 1. Diagrama esquemático de un cuestionario


LOGO
El presente estudio está siendo realizado por un grupo de estudiantes
de la URL. Por este medio queremos garantizar que todas sus
respuestas serán tratadas con la mayor confidencialidad posible.

CUESTIONARIO
INSTRUCCIONES: Marque con una equis en el recuadro su respuesta
seleccionada

Pregunta No. 1.

…Cuerpo de Preguntas

Muchas gracias por su tiempo!!!

Instrucciones para cumplimentar un cuestionario

El cuestionario es el documento en donde se van a recoger las características observadas


para cada una de las unidades estadísticas de la colectividad del estudio. De la calidad de
este documento depende, en muy amplia medida, el valor de la encuesta y el de sus
resultados.

Puede diferenciarse en tres campos:

„ Un primer campo para los datos de identificación, en la que se recogerán todos


aquellos datos que permitan identificar al individuo o elemento de la investigación
(pudiera ser una empresa). Nos permitirá agrupar las respuestas según sexo, edad,
tipo de empresa….
„ Un segundo campo para confeccionar o depurar y actualizar un directorio, que nos
permita, volver a contactar con el individuo o empresa, para posteriores encuestas…
„ Un tercer campo en el que se recoge la información propiamente dicha.

Normas generales para preparar un cuestionario

Las preguntas de un cuestionario deben formularse en un lenguaje claro, comprensible por


los encuestados, no incluyendo palabras demasiado técnicas que puedan hacer que el
encuestado se encuentre en «inferioridad» y se predisponga a contestar mal o incluso
negarse.

URL_03_BAS01.doc 10 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Es importante tener en cuenta los siguientes aspectos:


1. Que resulte cómodo a los encuestados, evitándoles consultar ficheros o buscar datos
que no se tengan a mano, ya que podrían producirse respuestas incorrectas o
inexactas.
2. Que las preguntas sean formuladas de forma precisa para evitar distintas
interpretaciones, no ejerciendo influencia en la respuesta.
3. Dejar poca iniciativa al encuestado, evitando en lo posible las preguntas que dejen
demasiada iniciativa a encuestado.

Reglas fundamentales:
1. Las preguntas han de ser pocas (no más de 30).
2. Las preguntas preferentemente cerradas y numéricas.
3. Redactar las preguntas con lenguaje sencillo.
4. Formular las preguntas de forma concreta y precisa.
5. Evitar usar palabras abstractas y ambiguas.
6. Preguntas cortas.
7. Las preguntas formularlas de manera neutral.
8. En las preguntas abiertas no dar ninguna opción alternativa.
9. No hacer preguntas que obliguen a hacer esfuerzos de memoria.
10. No hacer preguntas que obliguen a consultar archivos.
11. No hacer preguntas que obliguen a hacer cálculos numéricos complicados.
12. No hacer preguntas indiscretas.
13. Redactar las preguntas de forma personal y directa.
14. Redactar las preguntas para que se contesten de forma directa e inequívoca.
15. Que no levanten prejuicios en los encuestados.
16. Redactar las preguntas limitadas a una sola idea o referencia.
17. Evitar preguntas condicionantes con palabras que conlleven una carga emocional
grande.
18. Evitar estimular una respuesta condicionada. Es el caso se preguntas que presentan
varias respuestas alternativas y una de ellas va unida a un objetivo Tan altruista que
difícilmente puede uno negarse.

Como resumen podemos decir que en la preparación de un cuestionario hay que distinguir
entre la forma de preparar las preguntas y la forma de presentarlas.

„ Forma de preparar las preguntas, observando las siguientes normas:


„ Redacción correcta de las preguntas: evitando ambigüedad, palabras cuyo
significado no es de uso corriente, interpretaciones incorrectas.
„ Evitar preguntas tendenciosas, que puedan condicionar las respuestas.
„ Número de preguntas: un número excesivo provoca cansancio en el entrevistado.

„ Forma de presentar las preguntas:


„ De dos alternativas, de varias alternativas, de contestación libre.
„ Orden de las preguntas: se suele prestar más atención a las preguntas colocadas al
principio y final del cuestionario. Se seguirá un orden lógico, de acuerdo con la
importancia de los temas.

URL_03_BAS01.doc 11 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Tipos de preguntas

El cuestionario está formado por un conjunto de preguntas. Si éstas están formuladas


adecuadamente, el cuestionario será válido.

Las preguntas se deben hacer de tal forma que las respuestas que se ofrezcan reúnan dos
condiciones imprescindibles, el de ser excluyentes y exhaustivas para que el encuestado no
pueda elegir dos respuestas de la misma pregunta y al mismo tiempo el encuestado tenga
todas las posibilidades de respuesta.

Una primera clasificación de preguntas en cuanto a la contestación de los encuestados son:


„ Preguntas abiertas: aquellas en la que no se le presentan las respuestas al encuestado
dejando a éste libertad para que conteste según su criterio.
„ Preguntas cerradas: Aquellas que contienen la respuesta, pudiendo decidirse entre
aquellas que tienen sólo dos posibles respuestas SI/NO, sexo, o de elección múltiple.

Cuando el entrevistado responde con sus propias palabras diremos que es abierta, y cuando
responde con palabras del encuestador será cerrada.

¿Cómo se deben formular las preguntas, con respuesta abierta o cerrada?

El tipo de investigación marcará el tipo de pregunta, así si queremos clasificar al individuo,


deberemos formular preguntas cerradas, pero si queremos conocer los motivos de las
repuestas que presenten deberán ser abiertas.

Cuando al individuo se le pregunte sobre un tema de actualidad y conocido, es mejor la


pregunta cerrada y por el contrario cuando el tema está poco difundido es mejor la pregunta
abierta porque de lo contrario el encuestado seleccionará una respuesta al azar para no
quedar en “fuera de juego” aunque no sepa ni lo que diga.

Cuando la investigación es exploratoria, no se puede conocer de antemano las respuestas


que van a dar y es aconsejable la pregunta abierta.
Cuando se trata de estudios poco ambiciosos o en situaciones bien definidas la pregunta
aconsejada es la cerrada.

Las preguntas también las podemos clasificar en función de su contenido, destacando:

„ Preguntas de identificación: Edad, sexo, profesión, nacionalidad….


„ Preguntas de hechos: referidas a acontecimientos concretos ¿tiene Vd. coche?
„ Preguntas de acción: referidas a actividades de los encuestados. ¿Utilizó el avión el
año pasado?
„ Preguntas de información: Para conocer los conocimientos del encuestado. ¿Sabe lo
que es el SIDA?
„ Preguntas de intención: Para conocer la intención del encuestado. ¿Va a cambiar de
coche en los próximos 3 meses?
„ Preguntas de opinión: ¿Que harás cuando finalices tus estudios?
URL_03_BAS01.doc 12 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Otra clasificación de las preguntas es atendiendo a su función en el cuestionario,


destacando:
„ Preguntas filtro: Son aquellas que se realizan previamente a otras para eliminar a los
que no les afecte. ¿Vd. Fuma? ¿Rubio o Negro?
„ Preguntas trampa o de control: Para descubrir la intención con que se responde. Se
incluyen respuestas con lo que se pregunta para ver si el entrevistado cae en ellas.
„ Preguntas muelle, colchón o amortiguadoras: son preguntas sobre temas peligrosos o
inconvenientes, formuladas suavemente.
„ Preguntas en batería: Conjunto de preguntas encadenadas unas con otras
complementándose.
„ Preguntas embudo: Se empieza por cuestiones generales, hasta llegar a los puntos
más esenciales.

Distribución y recogida

Un factor importante en la realización de una encuesta es la fecha de su aplicación,


teniendo en cuenta las épocas de vacaciones para evitar que los encuestados estén ausentes
de sus domicilios.

Este proceso, como ya se citó anteriormente, se puede realizar de varias formas, sólo hay
que tener en cuenta que cuando se usa el correo, debemos facilitar franqueo y contar con
los tiempos de distribución. Por lo que daremos instrucciones sobre en que fecha deben
remitirlos.

LA ENTREVISTA

La entrevista es el instrumento más importante de la investigación, junto con la


construcción del cuestionario. En una entrevista además de obtener los resultados
subjetivos del encuestado acerca de las preguntas del cuestionario, se puede observar la
realidad circundante, anotando el encuestador además de las respuestas tal cual salen de la
boca del entrevistado, los aspectos que considere oportunos a lo largo de la entrevista.
La entrevista, a diferencia del cuestionario que se contesta por escrito por el encuestado,
tiene la particularidad de ser más concreta , pues las preguntas presentadas de forma
contundente por el encuestador, no dejan ambigüedades, es personal y no anónima, es
directa por que no deja al encuestado consultar las respuestas.

Es un método cómodo para obtener datos referentes a la población, facilitados por


individuos y que nos sirven para conocer la realidad social. Estos datos podrían observarse
directamente a través de la observación pero serían subjetivos de los investigadores,
resultando más costosa su obtención.

Las entrevistas pueden clasificarse atendiendo a su grado de estandarización en entrevistas


con cuestionario y sin cuestionario.

URL_03_BAS01.doc 13 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Cuando se quiere delimitar las primeras informaciones, sobre el objeto de la encuesta,


conviene una entrevista no estructurada, sin cuestionario, que permita al investigador
delimitar el problema a resolver.

La entrevista estandarizada realizada con cuestionario se realiza de forma oral, planteando


el entrevistador las preguntas y anotando las respuestas. Reduce la espontaneidad del
sujeto, pero aumenta la fiabilidad de los resultados, permitiendo comparar los resultados.

La entrevista frente al cuestionario individual, en la que el encuestado rellena el


cuestionario, tiene las siguientes ventajas:
„ La entrevista permite obtener una información más completa
„ La entrevista sed puede aplicar tanto a individuos alfabetos como analfabetos.
„ Se obtienen mayor número de respuestas de los encuestados que con los
cuestionarios.
„ Se recogen tanto las respuestas del encuestado como información complementaria del
entrevistador.
„ Mientras que un cuestionario recibido por correo puede ser olvidado o roto en el acto,
a una persona hay que recibirla y atenderla siendo más comprometido el no
responder.

Como desventaja presenta el que resulta cara, pues hay que tener personal preparado y esto
resulta caro.

Preparación y ejecución:

Es conveniente que los entrevistadores anuncien su visita, se identifiquen y expliquen el


motivo de la visita. Debe concertarse la cita en un momento en el que el entrevistado pueda
atenderle sin prisas y en un estado relajado.

La entrevista se realizará en un local que facilite el dialogo, alejado de fuentes de ruido, que
proporcione intimidad y asegure el anonimato de sus respuestas. El entrevistador ha de
mostrarse amable, educado y simpático explicar el motivo de la encuesta y destacar el
carácter confidencial y anónimo de la información. No dará impresión de interrogatorio, se
debe mantener el orden del cuestionario, no haciendo descansos entre las preguntas y
procurando que la entrevista se realice con rapidez. No debe contestar a preguntas que le
formule el encuestado sobre su opinión. Si se observa que el encuestado contesta mentiras
o bien tonterías, deberá hacerle ver que no está ahí para perder el tiempo, que es su trabajo
y si persiste lo mejor es dar por finalizada la entrevista.

Este tipo de trabajo es lo que se denomina “trabajo de campo” un investigador por si sólo
no puede llevar a cabo este trabajo, por lo que precisa de un equipo de entrevistadores que
deben poseer unas cualidades específicas:

„ Cualidades éticas: Que les impida rellenar ellos mismos los cuestionarios con
respuestas ficticias para acabar antes el trabajo. Al mismo tiempo que les impida
sugerir las respuestas a los indecisos para ganar tiempo. Además deberá tener
URL_03_BAS01.doc 14 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

paciencia cuando el entrevistado se explaye, saber aguantar con decoro los malos
modales de algún entrevistado o tener que volver repetidas veces a un mismo
domicilio. Debe ser pues una persona equilibrada.
„ Cualidades sociales: Debe ser una persona educada y correcta, no siendo extremado
en el vestir ni en su vocabulario, apartándose de las excentricidades de modo que no
desentone en ningún medio. Además no debe mostrar ningún asombro ante ninguna
respuesta que pueda dar el entrevistado.
„ Cualidades técnicas: En primer lugar conocer a fondo el método de la encuesta por
muestreo, para poder responder a las preguntas que la persona interrogada pueda
formularle. Conocer la técnica del interrogatorio, evitando la presencia de otras
personas, aclarando las preguntas que sean necesarias, saber descubrir las
contradicciones en que incurra el encuestado y por último debe conocer la materia
sobre la que versa la encuesta.

MANEJO DE LOS CUESTIONARIOS

Codificación. Una vez cumplimentados los cuestionarios, viene la fase de recuento de las
respuestas. Cuando estas son numéricas no hay ninguna dificultad, pero cuando las
preguntas han tenido una contestación no numérica, es preciso traducir estas respuestas a
números. Esto se conoce con el nombre de codificación.

La codificación ha de adaptarse al sistema técnico usado para la obtención de los resultados


de la encuesta. Cuando la tabulación sea manual le podremos asignar el número que
queramos a las respuestas, pero si se va a hacer por ordenador, entonces tendremos que
adoptar las instrucciones del técnico informático,

Por ejemplo:

¿Como ves el estado actual del Instituto?

Muy Bien …………….. 5


Bien …………….. 4
Regular …………….. 3
Mal …………….. 2
Muy Mal …………….. 1
No sabe/No contesta …………….. 0

Cuando las preguntas son abiertas el proceso que se sigue es anotar las respuestas dadas en
una serie de cuestionarios, analizar su contenido y anotar los términos o conceptos comunes
a varias respuestas. Cuando las respuestas se pueden incluir en los posibles grupos
establecidos, habremos conseguido cerrar las respuestas. Seguidamente se tabulará dicha
pregunta.

URL_03_BAS01.doc 15 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Figura No. 2. Ejemplo de cuestionario para que opiniones sobre las asignaturas de un curso

1. Curso en que estás matriculado: ________________


2. Edad:______________
3. Sexo: Hombre: Mujer:
4. Asignatura que más te gusta: _________________________
5. Asignatura que menos te gusta: _______________________
6. Asignatura que te resulta más sencilla: _______________________
7. Asignatura que te resulta más complicada: _______________________
8. Asignatura que quitarías:________________________
9. Asignatura que pondrías:________________________
10. ¿Eres partidario del actual horario, o preferirías un horario de 8:30 a 14:30 y venir un par de
tardes? Si NO
11. ¿Cuánto tiempo dedicas a estudiar?
„ Más de 3 horas diarias
„ Tres horas diarias
„ De 1 a 3 horas diarias
„ 1 hora o menos diaria
„ Cuando puedo
„ Sólo en época de exámenes

12. El nivel de enseñanza en tu clase es: Alto:


Bajo:
Medio:

13. En general, ¿cómo consideras la relación profesor-alumno?

„ Buena
„ Regular
„ Mala
„ No existe

14. ¿Cuál es la mayor dificultad que encuentras para llevar a buen término el curso?
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
________

URL_03_BAS01.doc 16 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

RESUMEN DE LA PLANEACION DE UNA ENCUESTA

1 Definición del problema y Establecimiento de Objetivos: De manera clara, concisa y


sencilla, de tal manera que sean entendidos por quienes trabajan en la encuesta. La
definición del problema debe coincidir con los objetivos de la investigación.

2 Selección de la Población Objetivo: Es decir, de donde se va a obtener la muestra.

3 Selección del Marco Muestral: Listar todas las unidades muestrales de la población
objetivo. El uso de marcos múltiples pueden hacer del muestreo más eficiente.

4 Selección del Diseño de Muestreo: incluyendo el número de elementos en la muestra.

5 Elección del Método de Medición: usualmente alguno de: entrevistas personales o por
teléfono, cuestionarios enviados u observación directa.

6 Elaboración o Preparación del Instrumento de Medición: si va a ser un cuestionario o


guía de entrevista, planear las preguntas de tal manera que se minimice la no respuesta y
el sesgo por respuesta incorrecta.

7 Selección y Adiestramiento de los Investigadores de Campo: que recolectarán los datos.


Deben saber qué mediciones hacer y cómo hacerlas.

8 Prueba Piloto: Con una pequeña muestra para probar los instrumentos de medición,
calificar a los entrevistadores y verificar el manejo de las operaciones de campo.

9 Organización del Trabajo de Campo: Planear en detalle el trabajo de campo


(entrevistadores y coordinadores).

10 Organización del Manejo de Datos: debe incluir los pasos para el proceso de datos,
desde el momento en que se hace una medición en el campo hasta que el análisis final ha
sido completado. Incluir un esquema de control de calidad para verificar la correlación
entre los datos procesados y los datos recolectados en el campo.

11 Análisis de los Datos: Especificar detalladamente los pasos de análisis que deben
ejecutarse.

12 Elaboración de Conclusiones.

URL_03_BAS01.doc 17 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

Figura No. 3. Etapas en un Proceso de Investigación Científica


Fuente: Cea D’ancona (1998)

URL_03_BAS01.doc 18 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

ANALISIS COMPARATIVO DE LOS MÉTODOS DE RECOLECCIÓN DE DATOS

A continuación se presenta un resumen las ventajas y desventajas de los distintos métodos


de recolección de datos por medio de encuesta: personal, telefónica o postal.

Ventajas e inconvenientes de la encuesta personal:

Ventajas Inconvenientes
► Elevado índice de respuestas. ► Es caro y lento.
► Facilidad de cooperación de las personas ► El entrevistador puede ejercer influencia y debe
entrevistadas debido a la presencia del estar entrenado a la vez que controlado.
entrevistador, a la vez que permite resolver ► Difícil acceso a ciertas poblaciones.
dudas.
► Permite evitar influencia de otras personas.
► Posibilita la realización de entrevistas largas.
► Pueden mostrarse materiales.
► Pueden obtenerse datos secundarios
(presencia, ambiente, etc.)

Ventajas e inconvenientes de la encuesta telefónica:

Ventajas Inconvenientes
► Económico con reservas ► Presenta problemas de muestreo pues excluye a
► Técnica muy rápida tanto contactando como las personas que no tienen teléfono
recogiendo la información ► Existe un nivel de no respuesta no asociado al
► Puede utilizarse como medio único, como muestreo por el hecho de marcar números
auxiliar o combinado con otras técnicas o telefónicos al azar. (desconfianza)
modalidades de encuesta ► No pueden exhibirse materiales
► Permite entrevistar a determinadas ► Brevedad de la entrevista
poblaciones (personas importantes, muy ► No es apropiado para tratar temas delicados ni
ocupadas, de zonas mal comunicadas, etc.) preguntas complejas
► Mejor inclinación a responder por teléfono ► No se evalúan datos secundarios (presencia,
► Se necesitan menos entrevistadores y la ambiente, etc.)
supervisión es adecuada

Ventajas e inconvenientes de la encuesta postal:

Ventajas Inconvenientes
► Económico ► Bajos índices de respuesta
► Se precisa escaso personal para realizar la ► Inconvenientes formales: pueden darse errores
encuesta por no comprender las preguntas; no se controla
► Accesibilidad el orden de las preguntas y el cuestionario ha de
► Flexibilidad de tiempo para el entrevistado ser corto
que ofrece mayor calidad a la información ► Impersonal
► Favorece el anonimato ► Pueden influir otras personas
► Poco útil para encuestas de respuesta inmediata
► Ciertos grupos quedan excluidos (analfabetos)

URL_03_BAS01.doc 19 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

CONCLUSIONES

La estadística provee las herramientas metodológicas para poder afirmar que los resultados
obtenidos en una investigación son válidos.

Sin embargo, la investigación pierde su validez si la información fuente está alterada,


incompleta o sesgada.

La etapa inicial de toma de datos y sistematización es fundamental para lograr un resultado


exitoso.

Es necesario conocer los tipos de fuente informática y las herramientas y recursos más
utilizados para recabar sistemáticamente los datos requeridos. Las opciones son varias y el
investigador deberá decidir entre las mismas a efecto de lograr los mejores resultados.

Los métodos de toma de muestras no podrán quedar fuera de la vista del investigador
experto o en sus inicios.

BIBLIOGRAFIA

• BENASSINI, MARCELA. Introducción a la Investigación de Mercados, un enfoque para


América Latina. Primera edición. Editorial Prentice Hall. México.

• CEA D’ANCONA, Mª A (1998). Metodología cuantitativa: Estrategias y Técnicas de


Investigación Social. Síntesis. Madrid

• LABARCA ALEXIS. Módulo 5. Cátedra de Métodos de Investigación, Departamento de


Formación Pedagógica, Facultad de Filosofía y
Educación, Universidad Metropolitana de Ciencias
de la Educación. Chile. En:
http://www.umce.cl/publicaciones

• RODAS, OLGER ET AL. Teoría básica del


muestreo. En:
http://www.monografias.com/trabajos11/tebas/tebas.
shtml

• ORTEGA E (1997): La dirección de Marketing.


ESIC. Madrid

• MARBÁN GALLEGO. VICENTE. Tema 5: La


Encuesta Estadística. Facultad de Ciencias
Económicas y Empresariales, Universidad de Alcalá.
Madrid. En:
http://www2.uah.es/vicente_marban/ASIGNATUR
AS/SOCIOLOGIA%20ECONOMICA/TEMA%205
/tema%205.pdf

URL_03_BAS01.doc 20 de 21
Facultad de Ingeniería - Universidad Rafael Landívar Boletín Electrónico No. 03

• SPIEGEL, MURRAY. (1988). Estadística. 2ª.


Edición. McGraw Hill. Madrid

• NORTES CHECA, ANDRÉS. Encuestas y


Precios. Editorial Síntesis.

• GALOT, G. Curso de Estadística descriptiva.


Editorial Paraninfo.

• BARBANCHO, ALFONSO G. Estadística


Elemental Moderna. Editorial Ariel.

• AYERBE GARCÍA, MIREN AINTZANE.


Apuntes. Instituto Nacional Estadística.

URL_03_BAS01.doc 21 de 21
Diseño de la base de datos
¿Qué es una base de datos?

Una base de datos es la más simple forma de almacenar


y organizar información en formato digital. Los avances
en la ciencia digital han permitido el almacenamiento de
datos que antes formaban parte de tonelada de papeles
almacenados en archivadoras y bodegas. Los análisis
matemáticos o estadísticos provenientes de pilas de
cientos de formatos de campo en físico (escritos en papel)
es simplemente una tarea tediosa e innecesaria.

Una base organizada y en formato digital permite, con algo


de experiencia, el proceso y análisis de la información en
cuestión de minutos o a veces días, en lugar de meses y
hasta años. El concepto de base de datos es muy utilizado
en informática y en la administración, pero también ha sido
ampliamente aplicado a todos los campos de la ciencia.

¿A qué se refiere diseñar la base de datos?

Diseñar una base de datos se refiere a determinar las


interrelaciones lógicas que existen entre las variables que
formarán una base de datos y a partir de ello estructurar la
“Una base organizada base de datos. Por ejemplo, supongamos que se pretende
y en formato digital realizar un estudio de diversidad florística en tres fincas,
permite, con algo de en cada parte de la toposecuencia de una microcuenca.
experiencia, el proceso y Y en cada finca se establecen tres parcelas. Observar la
análisis de la información figura 1 en donde se esquematiza la situación.
en cuestión de minutos o
a veces días, en lugar de Figura 1. Ilustración del diseño de muestreo de un estudio
meses y hasta años”. florístico que se utilizará como ejemplo para diseñar una
base de datos.

FIGURA 01
Parcelas Parte
El área en el contorno mayor es
la microcuenca, las partes en
que se divide la microcuenca
Alta (parte alta, parte media y parte
baja) están limitadas por las
Límite líneas horizontales. Las líneas
de las Parte delgadas dentro de los límites
Fincas Media de la microcuenca representan
el área de las fincas y las
figuras cuadradas dentro de
Parte dichas áreas, representan las
Baja parcelas.

17
La figura 1 nos ayuda a visualizar la lógica del muestreo y así diseñar la base de datos.
Notar que el diseño de muestreo sigue un orden jerárquico, dentro de las partes de
la microcuenca están las fincas, dentro de las fincas están las parcelas y dentro de las
parcelas se determinan las especies. La figura 2 ilustra el organigrama jerárquico de la
relación entre las variables.

Finca 1
Especie 1 Abundancia de la Especie 1
Parcela 1 Especie 2 Abundancia de la Especie 2
Parte Alta de la Microcuenca

Parcela 2 Especie 3 Abundancia de la Especie 3


Parcela 3
Especie 4 Abundancia de la Especie 4

Finca 2

Parcela 1

Parcela 2

Parcela 3

Finca 3

Parcela 1

Parcela 2
FIGURA 02
Parcela 3

Figura 2. Organigrama de la relación jerárquica entre las variables en un estudio de


diversidad florística hipotético. Observar la lógica de las relaciones: para la parte alta
de la microcuenca se muestrearon en tres fincas; en cada finca se establecieron tres
parcelas; en cada parcela se enlistaron las especies y se tomó el dato de abundancia
para cada una de esas especies. La misma relación se describe para la parte media
y baja de la microcuenca. En la ilustración no se representan las otras partes de la
jerarquía por cuestión de espacio. En el esquema, el ejemplo a nivel de especie solo
se esquematiza para la parcela 1 y se ejemplifican hasta 4 especies, con el fin de no
cargar la ilustración.

18
La relación jerárquica representada en la figura 2, facilita la visualización de la relación
de las variables en una base de datos, de tal forma que si trasladamos los datos de la
figura 2 a una hoja de cálculo o base de datos con formato filas y columnas, la relación
se vería como se representa en el cuadro 3.

Cuadro 3. La relación jerárquica de las variables presentada en la figura 2 se trasladó a


un formato de base de datos con filas y columnas. Véase que las columnas son cada
variable y las filas corresponden a cada especie con su correspondiente abundancia.
El cuadro solo extiende los registros de las variables especies y abundancia para la
primera parcela, con el fin de ahorrar espacio. Notar que las “Partes de la microcuenca”,
“Finca”, “Parcela” y “Especie” son variables categóricas y se establece un encabezado
para cada una de ellas. La variable “Abundancia”, tendría una connotación numérica,
que en estos momentos no es necesario especificar.

CUADRO 03
La relación jerárquica de las variables

Parte de la microcuenca Finca Parcela Especie Abundancia


Alta Finca 1 Parcela 1 Especie 1 Abundancia sp 1
Especie 2 Abundancia sp 2
Especie 3 Abundancia sp 3
Especie 4 Abundancia sp 4
Parcela 2
Parcela 3
Finca 2 Parcela 1
Parcela 2
Parcela 3
Finca 3 Parcela 1
Parcela 2
Parcela 3

El cuadro 3 representa la figura 2 en formato de base de datos. Los datos entonces


están dentro de una base de datos con filas y columnas, donde las columnas son las
variables. En este sentido, la base de datos quedó diseñada, solamente se necesitarán
repetir los registros categóricos para completar la base. En el cuadro 4 se presenta el
mismo cuadro 3, pero con las variables categóricas rellenadas para cada registro.

19
Cuadro 4. Este cuadro representa al cuadro 3 con las columnas rellenas donde
corresponde cada variable categórica. Las columnas de las variables “Especie” y
“Abundancia” no se rellenaron porque estas solo se presentan para la parcela 1, con el
fin de ahorrar espacio en la tabla para una mejor visualización.

CUADRO 04
Parte de la microcuenca Finca Parcela Especie Abundancia
Alta Finca 1 Parcela 1 Especie 1 Abundancia sp 1
Alta Finca 1 Parcela 1 Especie 2 Abundancia sp 2
Alta Finca 1 Parcela 1 Especie 3 Abundancia sp 3
Alta Finca 1 Parcela 1 Especie 4 Abundancia sp 4
Alta Finca 1 Parcela 2
Alta Finca 1 Parcela 3
Alta Finca 2 Parcela 1
Alta Finca 2 Parcela 2
Alta Finca 2 Parcela 3
Alta Finca 3 Parcela 1
Alta Finca 3 Parcela 2
Alta Finca 3 Parcela 3

sp = abreviación de especie.

El cuadro 4 representa una base de datos no solamente diseñada, sino que parcialmente
estructurada. A continuación, y ligado con este tema, se explica sobre la estructura de
una base de datos.

¿Cómo está estructurada una base de datos?

Una base de datos de manera estándar está formada por campos y registros. Los
campos son las columnas de una hoja de datos y representa a las variables tanto
categóricas como numéricas. Por lo general se le asigna un nombre a cada columna
que represente el tipo de información desplegada en ella. Los registros son las filas
de una hoja de datos y representan la información que entra a la base de datos. Por
ejemplo, asumamos una base de datos sencilla, formada por 4 campos y 10 registros
(Figura 3). Notar cuáles son los campos (columnas) y cuáles son los registros (filas) en
la representación.

20
FIGURA 03
Columna 1 Columna 2 Columna 3 Columna 4
A B C D
Fila 1 1 LOCALIDAD PUNTO USO HR (%)
Fila 2 2 Santa Teresa Punto 1 Pasto 45.8
Fila 3 3 Santa Teresa Punto 2 Bosque 60.5
Fila 4 4 Santa Teresa Punto 3 Agroforestal 85.6
Fila 5 5 La Trinidad Punto 1 Granos Básicos 67.2
Fila 6 6 La Trinidad Punto 2 Bosque 85.3
Fila 7 7 La Trinidad Punto 3 Pasto 91.4
Fila 8 8 Diriamba Punto 1 Granos Básicos 56.1
Fila 9 9 Diriamba Punto 2 Agroforestal 76.9
Fila 10 10 Diriamba Punto 3 Café y Sombra 87.4

HR (%) = Humedad Relativa en porcentaje.

Figura 3. Ilustración de una base de datos estándar estilo campos (columnas) y registro
(filas).

En la parte externa de la hoja de datos se etiquetaron el número de columnas y filas,


para tener una mejor visión de las mismas. Las letras y números con sombreo verde
no son parte de la base de datos, sino que son usados para localizar y nombrar cada
celda dentro de la base, estos están establecidos por defecto en las hojas de datos
de cualquier programa de cómputo; las letras definen las columnas y los números los
registros.

Una celda es uno de los cuadros que contiene información y es independiente del
resto. Por ejemplo, si tratamos de localizar en qué celda se encuentra el dato “Punto 3”
de “La Trinidad”, habría que determinar la letra de la columna y el número de fila en que
se encuentra. En este caso particular, se encuentra en la columna B y fila 7, por lo que
esa celda se llama B7. Notar que se tienen cuatro variables o sea cuatro campos, de
estos, las primeras tres son variables categóricas y la última es una variable numérica
de tipo continuo.

21
Analicemos la figura 3 y observemos varias cosas:

1. Observar que ninguna celda está vacía, todas tienen contenido. En el caso de la
localidad por ejemplo, el nombre de cada localidad se repite en todos las celdas
donde el nombre es el mismo. El nombre de “Santa Teresa” está contenido en tres
celdas: A2, A3 y A4, es necesario escribir el nombre en las tres celdas y no dejar celdas
sin información. Ello incurriría en errores cuando se utilice la base de datos.

2. Los nombres se repiten con exactamente las mismas letras. Por ejemplo, si se escribe
“Santa Teresa”, “santa Teresa” y “santa teresa”, al usar los datos, llamar información,
hacer reportes etc. posiblemente el programa reconocerá a las tres “Santa Teresas”
como palabras diferentes y por consiguiente, localidades diferentes. Los nombres
deben repetirse estrictamente con las mismas letras. Otro ejemplo es el que sucede
con estudiantes que tienen nombre científicos en sus bases, es típico que un mismo
nombre científico sea escrito de forma diferente y al final cuando se hacen filtros o
gráficos dinámicos, aparece ese nombre como diferentes nombres científicos derivados
del mismo. Por ejemplo, el nombre científico del pochote es: Bombacopsis quinata,
pero si en la base se escribe como Bombacopsis Quinata, bombacopsis quinata,
Bombcopsisquinata, Bombacopsis_quinata, Ombacopsis quinata, etc. los programas
reconocerán cada nombre científico errado como un nombre científico diferente, sin
saber que realmente se trata del mismo. Esto traería engorrosos momentos en el
análisis de datos.

3. Notar de una forma detallada que una base de datos profesional no tiene encabezados
largos, coloridos, con diferente tamaño de letra, diferentes formatos, ni incluyen
figuras, oraciones, frases, ni nada parecido. Las bases de datos tienen una sola línea de
encabezados (uno por columna) en la “fila 1”. Los encabezados se tienen que presentar
en negritas para que el programa reconozca que son encabezados. Además, no se
usan frases ni nombres largos. Una o dos palabras es suficiente y si el nombre es muy
largo se utilizan codificaciones. Los encabezados representan directamente el nombre
de las variables, generalmente de una forma codificada. Por ejemplo, en el campo 4
de la figura 3, se encuentra la variable “Humedad Relativa en porcentaje”; sin embargo,
ese nombre es muy largo para ser usado como encabezado de esa columna, de tal
forma que se codificó a modo de abreviación y se nombró la columna como “HR (%)”
en lugar de su nombre extendido.

Hay que notar que el significado de los códigos y abreviaciones tienen que explicitarse
y presentarlos de forma clara al lector.En el caso de la figura 3, se presentó el nombre
de la variable codificada posterior a la figura (HR (%)=Humedad Relativa en porcentaje).

Muchos programas estadísticos no reconocen el nombre de los encabezados


que tienen espacios como “HR (%)”, de tal forma que se suele usar el guion bajo en
lugar de los espacios, así el ejemplo anterior quedaría como “HR_(%)”, otra opción es
simplemente eliminando el espacio: “HR(%)”.

Estas tres observaciones son esenciales para estructurar cualquier base de datos, y
lo principal es que siguiendo estos consejos se logran elaborar bases de datos que

22
pueden ser compartibles a nivel nacional e internacional. Cualquier profesional que
trabaje con información biológica sabrá interpretar un diseño de muestreo, diseño de
experimento o tendrá una idea inmediata de lo que el estudiante de tesis quiere hacer,
solo con explorar la estructura de la base de datos.

¿Qué pasa con las variables categóricas incluyentes o excluyentes? (Ver explicación
en la página 15).

En una base de datos, las variables categóricas se establecen para cada registro en
dependencia de la presencia de categorías incluyentes o excluyentes. En la tabla 5 se
presentan dos variables, una incluyente llamada “Alimento” y otra excluyente llamada
“Veda”.

La variable “Alimento” tiene cinco categorías: “Granívoro”, “Nectarívoro”, “Insectívoro”,


“Frugívoro” y “Herbívoro”; la variable “Veda” tiene dos categorías: “Parcial” e “Indefinida”.
También tiene dos registros: “Especie 1” y “Especie 2”.

Cuadro 5. Ejemplo de cómo se extienden las variables con categorías incluyentes y


excluyentes en una base de datos.

CUADRO 05
Especies Granívoro Nectarívoro Insectívoro Frugívoro Herbívoro Veda
Especie 1 1 1 1 1 Parcial
Especie 2 1 1 Indefinida

En el cuadro 5 las categorías de la variable “Alimento” están extendidas en cada


columna, sin que aparezca el nombre de la variable. Notar que para la “Especie 1”
se han seleccionado varias categorías (con el número “1”). Si no lo hiciéramos de esa
forma, tendríamos que poner los cuatro nombres de las cuatro categorías en la que
está la “Especie 1” (granívoro, nectarívoro, frugívoro y herbívoro) en la misma celda, lo
cual sería inadecuado. Sin embargo, para la variable “Veda” no es necesario extender
sus dos categorías (parcial e indefinida), al ser excluyentes permite que haya un solo
nombre en la celda (o parcial o indefinida), lo cual ahorra el uso de otra columna. De
esta forma se tienen que arreglar las variables categóricas en dependencia de si sus
categorías son excluyentes o incluyentes.

23
Diplomado en Salud Pública
2. Metodología en Salud Pública

INTRODUCCIÓN AL MÉTODO CIENTÍFICO


Y SUS ETAPAS
Autor: Yolanda Castán

0.1. Concepto

Denominamos método al “modo ordenado de proceder para llegar a un resultado o


fin determinado, especialmente para descubrir la verdad y sistematizar los
conocimientos” (Diccionario Actual de la Lengua Española).

El método científico (del griego: -μετά = hacia, a lo largo- -οδός = camino-; y del
latín scientia = conocimiento; camino hacia el conocimiento) es un método de
investigación usado principalmente en la producción de conocimiento en las ciencias.

Existen varias definiciones referentes al método científico.

Según el Oxford English Dictionary, el método científico es: "un método o


procedimiento que ha caracterizado a la ciencia natural desde el siglo XVII, que
consiste en la observación sistemática, medición y experimentación, y la formulación,
análisis y modificación de las hipótesis."

El método científico sería el procedimiento mediante el cual podemos alcanzar un


conocimiento objetivo de la realidad, tratando de dar respuesta a las interrogantes
acerca del orden de la naturaleza.

Por tanto es un método ligado a la ciencia y al conocimiento científico.

El método científico caracteriza el conocimiento científico, “Donde no hay método


científico no hay ciencia” (Bunge, L. l981, p. 29). La ciencia es el resultado de
aplicar el método científico a problemas resolubles, por lo que la investigación
científica es la acción de aplicar el método científico y el método científico es un
proceso sistemático por medio del cual se obtiene el conocimiento científico
basándose en la observación y la experimentación.

Para que haya ciencia debe haber dos componentes, “un conjunto de conocimientos”
y “un método apropiado para su estudio: la observación”, y la observación ha de ser
sistemática y controlada.

El conocimiento científico es el producto que se obtiene mediante la aplicación del


método científico en la ciencia.

En el siguiente cuadro podemos ver las diferencias entre el conocimiento científico y


conocimiento común no científico.

Conocimiento científico Conocimiento común

 Predominantemente Objetivo  Subjetivo


 Responde al Cómo y Por qué  Da respuestas a Cómo
 Práctico y teórico  Práctico
 Preciso  Inexacto

00. Introducción al método científico y sus etapas 1-6


Diplomado en Salud Pública
2. Metodología en Salud Pública

Conocimiento científico Conocimiento común


 Lenguaje técnico  Lenguaje común
 Universal  No es válido de forma universal
 Basado en la comprobación  Se basa en la creencia o
 Según método científico experiencia
 Predictivo  Se adquiere al azar

Para ser científico, un método de investigación debe basarse en la empírica y en la


medición, sujeto a los principios específicos de las pruebas de razonamiento.

La llamada Rueda de Wallace es la representación circular del modelo y conocimiento


científico:

El método científico está basado en dos pilares, la reproducibilidad, es decir, la


capacidad de repetir un determinado experimento, en cualquier lugar y por cualquier
persona y la refutabilidad, toda proposición científica tiene que ser susceptible de
ser falsada o refutada (falsacionismo). Esto implica que si se diseñan experimentos,
y dan resultados distintos a los predichos, negarían la hipótesis puesta a prueba.

00. Introducción al método científico y sus etapas 2-6


Diplomado en Salud Pública
2. Metodología en Salud Pública

0.2. Objetivo del método científico

 Alcanzar el conocimiento cierto de los fenómenos y poder predecir otros.


 Descubrir la existencia de procesos objetivos y sus conexiones internas y
externas para generalizar y profundizar en los conocimientos así adquiridos
para demostrarlos con rigor racional y comprobarlos con el experimento y
técnicas de su aplicación.

0.3. Características del método científico

 Es un método teórico.
 Es sistemático: sentido de orden y disciplina que busca garantizar un nivel
aceptable de reproducibilidad y validez.
 Es a la vez inductivo y deductivo.
 Tiene una base empírica: emplea la observación directa para obtener los datos
objetivos necesarios que documentan el conocimiento obtenido.
 Emplea el examen crítico: el científico somete sus resultados a la prueba
empírica se halla sujeto a revisión y los resultados no son nunca definitivos.
 Es circular: interacción continua entre experiencia y teoría. La teoría alimenta
a la experiencia y ésta a la teoría y el objetivo es entrar en un proceso de
retroalimentación que permite la acumulación de conocimiento.
 Busca controlar los factores que no están directamente relacionados con las
variables en cuestión pero que pueden influir sobre ella.

Como características generales del método científico serían la sistematización y el


control (Zimmy y Towsend).
 Sistematización: aislar de forma intencional el fenómeno concreto y que es
objeto de la observación.
 Control: las condiciones bajo las que se realiza la observación han sido
previamente consideradas y delimitadas.

0.4. Presupuestos del método científico

Los presupuestos del método científico son principalmente tres:

 Orden: los fenómenos en la naturaleza ocurren dentro de un orden


 Determinismo: aceptamos que cada observación está determinada por un
acontecimiento anterior y así sucesivamente.
 Comprobabilidad: Cada interrogante en un proceso puede ser explicado y
comprobado.

Basándonos en estos presupuestos los requisitos del conocimiento científico serían:

 Empirismo: real y objetivo


 Repetibilidad: capacidad de ser confirmado al ser repetido
 Aceptabilidad: el investigador presupone la aceptación de lo publicado
anteriormente
 Publicidad: los descubrimientos deben darse a conocer

00. Introducción al método científico y sus etapas 3-6


Diplomado en Salud Pública
2. Metodología en Salud Pública

0.5. Técnicas del método científico:

Son los procedimientos que utiliza el método científico para el estudio.

Podemos citar los siguientes tipos de técnicas:

 Inductivo: razonamiento que conduce a partir de la observación de casos


particulares a conclusiones generales, siempre que la validez de las primeras.
Parte de enunciados particulares para generalizar. Generaliza inferencias a
partir de un conjunto de evidencias. No garantiza que la conclusión sea
verdadera aun partiendo de premisas verdaderas, si no que se llegan a
conclusiones con cierto grado de probabilidad.
La inferencia es de abajo a arriba.

Ej. de estructura de razonamiento deductivo

He visto un pájaro que vuela


He visto otro pájaro que también vuela…
Los pájaros vuelan

 Deductivo: razonamiento formal en el que la conclusión se obtiene por la


forma del juicio del que se parte. La derivación es forzosa. Se considera una
conclusión verdadera e imposible ser falsa si hemos admitido el juicio del que
se parte. Se asume que si las premisas son verdaderas la conclusión será
verdadera.
La inferencia es de arriba abajo.

Ej. de estructura de razonamiento deductivo

Los pájaros son aves


Los pájaros vuelan
Las aves vuelan

Según las premisas sean verdaderas o no, la conclusión asumida será


verdadera o falsa.

 Hipotético-Deductivo: único método con el que se puede obtener


información científica, aplicada a las ciencias formales (matemática, lógica)
Observación---hipótesis—experimentación—teorías
 Analítico: proceso cognoscitivo, que descompone un objeto en partes para
estudiarlas en forma aislada.
 Sintético: integra los componentes de un objeto de estudio, para
estudiarlos en su totalidad.
 Histórico comparativo
 Cuantitativo: usa la recolección de datos para probar la hipótesis, con base
en la medición numérica y análisis estadístico, para establecer patrones de
comportamiento y probar teorías
 Cualitativo: utiliza la recolección de datos, sin medición numérica, para
descubrir o afinar preguntas de investigación en el proceso de
interpretación

Se puede llegar al conocimiento de los fenómenos a través de la experiencia,


razonamiento e investigación, siendo vías complementarias.

00. Introducción al método científico y sus etapas 4-6


Diplomado en Salud Pública
2. Metodología en Salud Pública

El método científico suele describirse como un proceso en que los investigadores a


partir de sus observaciones hacen las inducciones y formulan hipótesis y, a partir
de éstas hacen deducciones y extraen las consecuencias lógicas; infieren las
consecuencias que habría si una relación hipotética es cierta. Si dichas
consecuencias son compatibles con el cuerpo organizado de conocimientos
aceptados, la siguiente etapa consiste en comprobarlas por la recopilación de
datos empíricos, las hipótesis se aceptan o rechazan en base a ellos.

0.6. Etapas del método científico

El método científico tiene una serie de etapas que han de seguirse, la designación de
las etapas varía según los autores, pero lo importante es transmitir el concepto de
que dicho método es un proceso sistemático de investigación que consta de
partes interdependientes.
Las etapas que integran el método científico son: 1) definición del problema, 2)
formulación de hipótesis (razonamiento deductivo), 3) recopilación y análisis de
datos, 4) confirmación o rechazo de hipótesis, 5) resultados, 6) conclusiones.

Los pasos a seguir o etapas han de cumplirse siempre:

1. Definición y planteamiento del problema: pregunta para la cual no


encontramos respuesta. Es necesario que sea resoluble y debe ser formulado
en términos adecuados.
2. Formulación de la hipótesis: la hipótesis exige una formulación más
elaborada con la aparición de las variables y la relación que esperamos
encontrar entre ellas. Es la “verdad provisional” o cómo se explica el problema
a la luz de lo que se sabe. Las hipótesis se pueden formular como objetivos o
resultados que se quieren conseguir. Para aceptar o rechazar la hipótesis (o
conseguir el objetivo) se elige un determinado diseño de estudio.
3. Recogida y análisis de datos: comprobación empírica tras recogida de
datos. Es la etapa más específica de cada técnica concreta del método
científico.
4. Confrontación de los datos con la hipótesis
5. Conclusiones y generalización de los resultados: Si los datos avalan la
hipótesis será confirmada. En caso contrario se concluirá que en las
circunstancias contempladas la hipótesis no ha sido confirmada y/o se volverá
a la segunda etapa proponiendo una nueva y coherente solución al problema.
6. Nuevas predicciones: esta etapa es añadida por algunos autores y hace
referencia a nuevos problemas que surgirían de los resultados obtenidos.

00. Introducción al método científico y sus etapas 5-6


Diplomado en Salud Pública
2. Metodología en Salud Pública

Descrito desde otro punto de vista, podemos decir que el método científico se inicia
con una fase de observación, donde el científico toma contacto con el fenómeno, se
sabe algo de él, pero lo induce a continuar buscando alguna respuesta sobre él.
Sigue una fase de planteamiento de la hipótesis que basada en el conocimiento
previo y en los datos que se recogerán, podría ser demostrada. Por último la fase
de comprobación, que depende de la generalidad y sistematicidad de la hipótesis.

RESUMEN

 El método científico es el estudio empírico controlado, crítico y sistemático de


hipótesis que intentan explicar presuntas relaciones entre varios fenómenos.

 Proceso objetivo, sistemático y controlado

 Etapas: 1) definición del problema, 2) formulación de hipótesis, 3) recogida y


análisis de datos, 4) confirmación o rechazo de hipótesis, 5) resultados, 6)
conclusiones

00. Introducción al método científico y sus etapas 6-6


04 Investigación cuantitativa y

Capítulo
cualitativa
David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

El presente capítulo titulado Investigación Cuantitativa y


Cualitativa, tiene la finalidad de dar a conocer la definición,
características, ventajas y desventajas, los tipos o modali-
dades, así como las técnicas que emplean estos dos enfo-
ques o paradigmas de la actividad investigativa. También se
expone una comparación de los procesos de investigación
cuantitativo y cualitativo, lo que permitió además identificar
las diferencias entre estas dos metodologías de estudio.

David Alan Neill: Licenciado en Ciencias, Biología, en The Evergreen State College. PhD, Biología
en Washington University. Docente, investigador y director del Departamento de Conservación
y Manejo de Vida Silvestre Flora-Fauna, Universidad Estatal Amazónica. Ha publicado artículos
en revistas indexadas, además de realizar investigaciones en botánica. davidneill53@gmail.com
César Quezada Abad: Ingeniero Acuicultor. Diplomado en Educación Superior. Máster en
Gerencia Empresarial. Doctor en Ciencias Administrativas. Docente de la Universidad Técnica
de Machala. Decano de la Facultad de Ciencias Agropecuarias. Rector de la Universidad Técnica
de Machala (2012-2017). Ha realizado publicaciones en libros y artículos en revistas indexadas.
cquezada@utmachala.edu.ec
Juana Juliana Arce Rodríguez: Licenciada en enfermería. Egresada de la maestría Seguridad
Industrial Salud Ocupacional y Relaciones Comunitarias. Docente en la Universidad Técnica de
Machala en la UACQS y en DNA. Miembro del Departamento de Seguridad en el Trabajo. Faci-
litadora de cursos en seguridad y atención a personas. Formadora de auxiliares de enfermería.
jarce@utmachala.edu.ec
Investigación cuantitativa y cualitativa 69

Investigación cuantitativa
El diseño de la investigación cuantitativa constituye el
método experimental común de la mayoría de las discipli-
nas científicas. El objetivo de una investigación cuantitativa
es adquirir conocimientos fundamentales y la elección del
modelo más adecuado que nos permita conocer la realidad
de una manera más imparcial, ya que se recogen y analizan
los datos a través de los conceptos y variables medibles.
La investigación cuantitativa es una forma estructurada de
recopilar y analizar datos obtenidos de distintas fuentes, lo
que implica el uso de herramientas informáticas, estadísti-
cas, y matemáticas para obtener resultados. Es concluyente
en su propósito ya que trata de cuantificar el problema y
entender qué tan generalizado está mediante la búsqueda
de resultados proyectables a una población mayor.
Todos los experimentos cuantitativos utilizan un formato
estándar, con algunas pequeñas diferencias inter-disciplina-
rias para generar una hipótesis que será probada o desmen-
tida. Esta hipótesis debe ser demostrable por medios mate-
máticos y estadísticos, constituyéndose en la base alrededor
de la cual se diseña todo el experimento.
En ocasiones, a estos experimentos se los denomina cien-
cia verdadera, ya que emplean medios matemáticos y esta-
dísticos tradicionales para medir los resultados de manera
concluyente.

Definición de investigación cuantitativa


La investigación cuantitativa, también llamada empíri-
co-analítico, racionalista o positivista es aquel que se basa en
los aspectos numéricos para investigar, analizar y comprobar
información y datos. Diversos autores han definido lo que es
la investigación cuantitativa, así tenemos:
Según Landeau (2007) y Cruz, Olivares, & González (2014)
la investigación cuantitativa pretende establecer el grado
de asociación o correlación entre variables, la generalización
y objetivación de los resultados por medio de una muestra
70 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

permite realizar inferencias causales a una población que


explican por qué sucede o no determinado hecho o fenó-
meno.
Para Guerrero & Guerrero (2014) “consiste en contrastar
hipótesis desde el punto de vista probabilístico y, en caso de
ser aceptadas y demostradas en circunstancias distintas, a
partir de ellas elaborar teorías generales” (p. 48).
Caballero (2014) señala que en las investigaciones cuanti-
tativas predomina la cantidad y su manejo estadístico mate-
mático y los informantes tienen un valor igual.
Este tipo de estudio está orientado a verificar o compro-
bar de manera deductiva las proposiciones planteadas en la
investigación, esto es mediante la construcción de hipótesis
en base a la relación de variables para posteriormente some-
terlas a medición logrando así su confirmación o refutación.

Características del paradigma cuantitativo


Las características de una investigación con enfoque cuali-
tativo son:
• Base epistemológica: Positivismo.
• Su énfasis: Medición objetiva, demostración de la causa-
lidad y la generalización de los resultados de la investiga-
ción.
• En relación a la recogida de información: Estructurada y
sistemática.
• Su análisis: Estadístico.
• El alcance de los resultados: Búsqueda cuantitativa de
leyes generales de la conducta.
De acuerdo a Aguilera & Blanco (1987) y Hernández, Fernán-
dez, & Baptista (2014) las caracterísitcas de la investigación
cualitativa son las siguientes:
• Búsqueda de la objetividad.
• El investigador está al margen de los datos.
Investigación cuantitativa y cualitativa 71

• Aboga por la aplicación de métodos experimentales


aleatorios, cuasi experimentales, y análisis estadísticos.
• La recolección de datos se lleva a cabo al utilizar proce-
dimientos estandarizados y aceptados por una comuni-
dad científica.
• Para analizar los datos se utiliza procedimientos estadís-
ticos.
• El investigador plantea un problema de estudio delimi-
tado y concreto, aunque en evolución.
• En el proceso se trata de tener el mayor control de las
variables y grupos experimentales, para disminuir la
incertidumbre y el error.

Ventajas y desventajas de la investigación cuantita-


tiva
La investigación cuantitativa es una excelente metodología
en la obtención de resultados, así como para probar o refutar
una hipótesis, cuya estructura y procedimiento de indaga-
ción es aplicable en muchos campos y disciplinas científicas.
Por medio de ella, es posible realizar análisis estadísticos
de los resultados, llegando a una respuesta abstractiva del
cual se desarrollan discusiones y publicaciones legítimas.
Los experimentos cuantitativos también filtran los factores
externos, si se diseñan adecuadamente, de esta manera
las derivaciones obtenidos pueden ser vistos como reales e
imparciales.
Adicionalmente, los estudios con un enfoque cuantita-
tivo son útiles para comprobar los resultados conseguidos
por una serie de experimentos cualitativos, llevando a una
respuesta final y reduciendo las direcciones posibles que la
investigación pueda tomar. En este contexto, el diseño de
investigación cuantitativa presenta como ventajas:
• El uso de este tipo de métodos permite la generalización.
• Se puede reunir información de un número relativa-
mente grande de participantes.
72 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

• Proporciona información numérica o de calificación para


la investigación.
• Revela números duros, que son útiles para tomar deci-
siones.
Por otro lado, esta forma de indagación de un problema
puede presentar ciertos obstáculos o desventajas, entre ellas
se puede mencionar:
• Muchos tipos de información son difíciles de obtener,
por ejemplo, información muy personal.
• La información obtenida puede estar incompleta.
• A menudo no hay información sobre factores contextua-
les que ayuden a interpretar los resultados de la investi-
gación o a explicar variaciones en el comportamiento de
los participantes.
• Los errores en el análisis pueden dar lugar a resultados
erróneos que no lograrán el impacto deseado.

Tipos de investigación cuantitativa


Para establecer una clasificación en las investigaciones cuan-
titativas, se toma en cuenta la posibilidad que tiene el inves-
tigador de controlar la variable independiente y otras situa-
ciones. Bajo estos parámetros según Hurtado & Toro (2007)
y Hernández, Fernández, & Baptista (2014), la investigación
cuantitativa puede ser: experimental, cuasi experimental y
no experimentales.

Investigación experimental
Aquí el investigador tiene el control de la variable indepen-
diente o variable estímulo, la cual puede hacer variar en
la forma que sea más apropiada a sus objetivos. De igual
manera, puede controlar la conformación de los grupos que
necesita para su estudio.
Para Salkind (1999) es aquella en la que los participantes
se asignan a grupos con base a algún criterio determinado,
siendo este es el entorno ideal para establecer vinculacio-
Investigación cuantitativa y cualitativa 73

nes si la posible causa produce algún efecto. De acuerdo a


(Gómez, 2006) se hace referencia al estudio en el que se
pueden manipular intencionalmente una o más variables
independientes, para analizar las consecuencias en la o las
variables dependientes, dentro de una situación de control.
En este sentido, el propósito aquí es investigar las relacio-
nes causa-efecto entre las condiciones manipuladas y los
resultados obtenidos.

Investigaciones cuasi experimentales


Son los diseños en los que existe el elemento o factor de
estudio, las variables y una hipótesis para contrastar, pero
no hay aleatorización de los sujetos en los grupos de trata-
miento y control; es decir, no se ha podido establecer el azar
en la formación de los grupos. “Los grupos a los que se hace
referencia son: el grupo experimental, que recibe el estímulo
o tratamiento; y el grupo control, el cual sólo sirve de compa-
ración ya que no recibe tratamiento” (Arias, 2012).
Por lo tanto, es un tipo de investigación comparte gran
parte de las características de un experimento, pero las com-
paraciones en la respuesta de los sujetos se realizan entre
grupos no equivalentes. Estos estudios son apropiados para
situaciones naturales, en las que no se puede controlar todas
las variables de importancia.

Investigaciones no experimentales
Las investigaciones no experimentales son aquellas en las
cuales el investigador no tiene el control sobre la variable
independiente, que es una de las características de las inves-
tigaciones experimentales y cuasi experimentales, como
tampoco conforma a los grupos del estudio. Behar (2008)
señala que en ellas el investigador observa los fenómenos tal
y como ocurren naturalmente, sin intervenir en su desarrollo.
En estas investigaciones, la variable independiente ya ha
ocurrido cuando el investigador hace el estudio.Por esta
característica, los estudios que se dan bajo estas circunstan-
cias son investigaciones ex post facto.
74 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

Técnicas de la investigación cuantitativa


Habitualmente las investigaciones cuantitativas se realizan
mediante encuestas, que consisten en una recolección siste-
mática de información a una muestra representativa de un
colectivo más amplio, por medio de un cuestionario pre-ela-
borado que contiene preguntas estandarizadas que intenta
medir la distribución de dicho colectivo a través de varias
características. La información recogida podrá emplearse en
análisis cuantitativos para identificar y conocer la magnitud
de los problemas que se suponen o se conocen en forma
parcial; también puede utilizarse para un análisis de correla-
ción para probar hipótesis descriptivas (Rojas, 2013). Se apli-
can cuando se pretende obtener resultados proyectables a
un determinado target.
Estas técnicas ayuda a responder con precisión pregun-
tas tales como “cuántos”, “quiénes”, “con qué frecuencia”,
“dónde”, o “cuándo”, y se orientan a obtener medidas numé-
ricas y objetivas de hechos, hábitos, comportamientos u opi-
niones.
Los cuestionarios deben ser cuidadosamente redactados,
de tal forma que no contengan preguntas ambiguas ni ses-
gadas, que las mismas sean fácilmente comprensibles por
cualquier integrante de la muestra, y que contemplen todos
los objetivos de la investigación, a fin de permitir su cuantifi-
cación y tratamiento estadístico.
Las técnicas de investigación cuantitativa (encuesta) bus-
can medir y graduar los fenómenos y su intensidad, además
persiguen la generalización de los resultados a todo un uni-
verso a partir de una muestra pequeña de este dentro de
unos márgenes de confianza y error previamente fijados.

Investigación cualitativa
Los estudios cualitativos constituyen un acercamiento meto-
dológico en la búsqueda del sentido de las acciones socia-
les, tomando en cuenta actitudes, aspectos culturales, per-
cepciones, relaciones y estimaciones.
Investigación cuantitativa y cualitativa 75

Su propósito es indagar e interpretar la calidad de las acti-


vidades, relaciones, asuntos, medios, materiales o instru-
mentos en una determinada situación o problema que se
desarrolla en el campo de las ciencias sociales. La misma
procura por alcanzar una descripción holística, dado que
el sujeto de estudio es considerado como totalidad y en su
totalidad.
Si queremos recopilar información utilizando un enfoque
cualitativo, debemos centrarnos en describir un fenómeno
de una manera profunda y comprensiva. Esto generalmente
se hace en entrevistas, observaciones o grupos focales.

Definición de investigación cualitativa


Para definir la investigación cualitativa se presenta a conti-
nuación los aportes de distintos autores:
La investigación cualitativa “abarca el estudio, uso y reco-
lección de una variedad de materiales empíricos –estudio de
caso, experiencia personal, historia de vida, entrevista, tex-
tos– que describen los momentos habituales y problemáti-
cos y los significados en la vida de los individuos” (Vasilachis,
2006, p. 25).
Este tipo de estudio “tiene una base epistemológica en la
hermenéutica y la fenomenología. Bajo estas perspectivas
los actores sociales no son meros objetos de estudio como
si fuesen cosas, sino que también significan, hablan, son
reflexivos” (Monje, 2011, p. 12).
Hernández, Fernández, & Baptista (2014) indica que “se
enfoca en comprender los fenómenos, explorándolos desde
la perspectiva de los participantes en un ambiente natural
y en relación con su contexto” (p. 358).
La investigación cualitativa se la concibe como una catego-
ría de diseños de investigación que permite recoger descrip-
ciones a través de la aplicación de técnicas e instrumentos
como observación y la entrevista, a fin de obtener informa-
ción en forma de narraciones, grabaciones, notas de campo,
registros escritos, transcripciones de audio y video, fotogra-
76 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

fías, entre otros… La investigación cualitativa está vinculada


principalmente con las ciencias sociales, pero también es
empleada para estudios políticos y de mercado.
Los estudios cualitativos se caracterizan por estar enfoca-
dos en los sujetos y sus conductas adoptadas, el proceso de
indagación es tipo inductivo, y el investigador está en cons-
tante interacción con los participantes y con los datos, para
de esta forma encontrar las respuestas centradas en la expe-
riencia social y cuál es su significado en la vida de las perso-
nas.

Características de la investigación cualitativa


Según Taylor & Bogdan (1987, p. 20) y Ballén, Pulido, & Zuñiga
(2007, p. 28) las características de la investigación cualitativa
son:
• Es inductiva. Su ruta metodológica se relaciona más con
el descubrimiento y el hallazgo, que con la comproba-
ción o la verificación.
• Es holística. El investigador ve el escenario y a las personas
en una perspectiva de totalidad; las personas, los escena-
rios o los grupos no son reducidos a variables, sino consi-
derados como un todo integral, que obedece a una lógica
propia de organización, funcionamiento y significación.
• Es interactivo y reflexiva. Los investigadores son sensibles
a los efectos que ellos mismos causan sobre las personas
que son objetos de estudio.
• Es naturalista y se centra es la lógica interna de la reali-
dad que analiza. Los investigadores cualitativos tratan de
comprender a las personas dentro del marco de referen-
cia de ellas mismas.
• No impone visiones previas. El investigador cualitativo
suspende o aparta temporalmente sus propias creen-
cias, perspectivas y predisposiciones.
• Es abierta. No excluye de la recolección y el análisis de
datos puntos de vista distintos. Para el investigador cuali-
Investigación cuantitativa y cualitativa 77

tativo todas las perspectivas son valiosas. En consecuen-


cia, todos los escenarios y personas son dignos de estu-
dio.
• Es humanista. El investigador cualitativo busca acceder
por distintos medios a lo personal y a la experiencia par-
ticular del modo en que la misma se percibe, se siente,
se piensa y se actúa por parte de quien la genera o la
vive.
• Es rigurosa de un modo distinto al de la investigación
cuantitativa. Los investigadores cualitativos buscan resol-
ver los problemas de validez y de confiabilidad por las
vías de la exhaustividad (análisis detallado y profundo) y
del consenso intersubjetivo.

Ventajas de la investigación cualitativa


• El uso de preguntas abiertas y entrevistas permite a los
investigadores entender detalles de las actitudes o com-
portamientos de las personas, saber cuáles son sus expe-
riencias y reconocer datos importantes que podrían no
aparecer cuando se encuestan con preguntas predefini-
das.
• Permite la identificación de fenómenos nuevos que pue-
den surgir al momento de estar llevando a cabo la inves-
tigación.
• Puede proporcionar una comprensión más profunda del
objeto de estudio.
• Proporciona información individual.
• Proporciona información verbal que a veces puede con-
vertirse en estadísticas.

Desventajas de la investigación cualitativa


• No se puede generalizar a la población.
• Constituye un reto en la aplicación de métodos estadís-
ticos.
78 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

• La calidad de la investigación depende en gran medida


de las habilidades individuales del investigador.
• Es difícil mantener rigor en el proceso.
• El volumen de datos obtenidos puede hacer que el aná-
lisis y la interpretación consuman mucho tiempo.
• La presencia del investigador durante la recopilación
de datos, puede afectar las respuestas de los sujetos de
estudio.

Modalidades de la investigación cualitativa


Entre las formas específicas de investigación cualitativa se
encuentran las siguientes:

Estudios fenomenológicos
Consiste en el estudio de los fenómenos sociales tomando
en cuenta la perspectiva de los propios actores sociales; es
decir, proporciona significados a una experiencia vivida. Para
Katayama (2014), “busca describir y analizar los conceptos
tal y como estos surgen y se dan en los propios actores
sociales. Ello supone buscar qué hay detrás de la conducta
y el aislar estos conceptos y categorías para a partir de ellos
dar sentido al actuar del sujeto” (p. 33)”.
Aquí el investigador requiere entender cómo un grupo
social experimenta un fenómeno. Su propósito es compren-
der el significado que le atribuyen los sujetos a un deter-
minado evento. La fenomenología está orientada recabar
datos de las personas que han experimentado el evento o
fenómeno objeto de estudio. Se caracteriza por:
• Se preocupa de los aspectos relacionados con la expe-
riencia o conciencia.
• Se enfatiza por los significados individuales y subjetivos
de la experiencia.
• Sus acciones están relacionadas con la intuición, el aná-
lisis, la descripción, la observación, exploración de la con-
ciencia y la interpretación de significados.
Investigación cuantitativa y cualitativa 79

• Es un estudio sistemático de la subjetividad.


• Sus principales técnicas de investigación son el rastreo
de fuentes etimológicas, las descripciones de vivencias
de la persona interrogada y la observación.

Etnografía
La investigación etnográfica busca describir e interpretar
a un grupo o sistema social, desde el ámbito de sus cos-
tumbres y cultura. De acuerdo a (Hernández, Fernández y
Baptista (2014) estos diseños “buscan describir, interpretar
y analizar ideas, creencias, significados, conocimientos y
prácticas presentes en tales sistemas. Incluso pueden ser
muy amplios y abarcar la historia, geografía y los subsiste-
mas socioeconómico, educativo, político y cultural” (p. 482).
Este tipo de investigación es utilizada en los estudios de
antropología. Tiene como objeto de estudio la descripción
detallada de situaciones y comportamientos observables
relativos a las experiencias culturales, construcción de valo-
res, actitudes, creencias y pensamientos de una población
específica. Los rasgos característicos de la investigación etno-
gráfica son:
• Su carácter holístico, ya que describe los fenómenos o
eventos de forma global en sus contextos naturales.
• Su condición naturalista, debido que se estudia a las per-
sonas en su entorno o hábitat natural.
• Se apoya de estrategias de tipo inductivo.
• Analiza los significados desde la perspectiva de los agen-
tes sociales.
• Tiene carácter reflexivo.
• El investigador etnógrafo evita realizar juicios de valor
sobre las observaciones realizadas.

Investigación Acción
Son aquellos estudios donde el investigador interviene o
participa junto al grupo social para contribuir a modificar la
80 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

realidad. Para Guerrero y Guerrero (2014), la investigación-ac-


ción:
“Se fundamenta en la motivación a que los afectados
o involucrados con el fenómeno participen en la inves-
tigación, para encontrar las causas y buscar soluciones;
la observación que haga el investigador en el campo
de las actuaciones de los participantes en sus lengua-
jes (orales y corporales) será vital en el desarrollo de la
investigación” (p. 9).
Aquí se busca obtener resultados fiables y útiles para el
mejoramiento de alguna problemática en una comunidad.
En consecuencia, no se evidencia neutralidad ni el investi-
gador, ni la investigación, ya que su finalidad es afrontar la
problemática de una determinada sociedad a partir de su
participación y recursos. Las características de la investiga-
ción-acción son:
• Son estudios relacionados con la transformación y
mejora de una realidad social.
• Trata sobre problemas prácticos y se desarrolla desde la
práctica.
• En el proceso investigativo se requiere de la colaboración
de las personas.
• Es una reflexión sistemática de la acción.
• La investigación-acción vincula el conocimiento y práctica.
• El proceso de investigación-acción se caracteriza como
una espiral de cambio.

Estudio de caso
El estudio de caso es un proceso investigativo que examina
en detalle un sistema definido (caso particular) a lo largo
del tiempo, para comprender en profundidad una realidad
específica de la sociedad. De acuerdo a Simons (2011), “el
estudio de caso es un estudio de lo singular, lo particular, lo
exclusivo” (p. 19). Entre las características de esta metodolo-
gía de investigación cualitativa tenemos:
Investigación cuantitativa y cualitativa 81

• Es particularista, es decir, se centra una determinada


situación o evento.
• El resultado final es una descripción detallada y com-
pleta del fenómeno objeto de estudio.
• Permite una comprensión clara y amplia de la realidad
objeto de estudio, pudiendo dar lugar al descubrimiento
de nuevos significados que provoquen un replantea-
miento del fenómeno.
• Se fundamenta en un razonamiento inductivo.

La investigación narrativo-biográfica
La investigación biográfica-narrativa tiene por objetivo mos-
trar el testimonio subjetivo de persona de especial relevan-
cia, del cual se recaba hechos, opiniones, valoraciones y
experiencias sobre su propia existencia. De acuerdo a Boza,
Méndez, y Monescillo (2010), “la investigación biográfi-
ca-narrativa, ha permitido investigar, conocer e interpre-
tar el mundo subjetivo, pasa a comprender las acciones
humanas, las experiencias y subjetividades que las identifi-
can y definen” (p. 26).
Este tipo de investigación puede presentarse en forma de
biografías, autobiografías, historias de vida o reconstruccio-
nes biográficas. Se caracteriza por:
• Ser descripciones de acontecimientos y experiencias
relevantes sobre la vida de una persona, contadas con
las propias palabras del protagonista o de sujetos muy
cercanos a él.
• Las habilidades del investigador deben fundamentase
en: observar, escuchar, comparar y escribir.
• Predomina la técnica de la entrevista, pudiendo incluir
fuentes de información como correspondencia, diarios per-
sonales, fotografías, registro de audio y video, entre otros.
• El proceso de investigación biográfica - narrativa incluye
los siguientes elementos: un narrador, un intérprete o
investigador y los textos que recogen lo narrado.
82 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

Análisis histórico
Implica una recogida sistemática y crítica de documentos
que describen sucesos pasados. Los historiadores describen
la trayectoria real de los fenómenos y acontecimientos ocu-
rridos en una etapa o períodos pasados.

Técnicas de la investigación cualitativa


Existen diversas técnicas cualitativas que pueden aplicarse,
algunas de las más significativas son:

Observación participante
La observación es una herramienta esencial en un proceso
investigativo con enfoque cualitativo. En esta observación,
se necesita una participación directa entre el observador y
el contexto en donde se desarrolla la investigación, a fin de
reflexionar cada suceso y comportamiento, por tanto, debe
mantenerse alerta para analizar y captar lo que ocurra en un
determinado momento (Gómez, 2012).
El investigador hace una inmersión en el contexto, se intro-
duce dentro del grupo de estudio y llega a formar parte de
él. Da descripciones de los acontecimientos, de las personas,
interacciones entre ellas. No se trata de observar por obser-
var; el objetivo es hacerlo para darle sentido a la información
que recopilamos al analizar comportamientos, actitudes y
acontecimientos.

Entrevista
Con esta técnica el investigador obtiene información sobre
el punto de vista y la experiencia de las personas o grupos.
Se define por lo general como un diálogo y puede ser de
diferentes clases: estructurada, semiestructurada, o incluso
informal.
Entrevista estructurada: se la realiza a partir de una guía
prediseñada que contiene las preguntas que serán plan-
teadas al entrevistado.
Investigación cuantitativa y cualitativa 83

Entrevista semiestructurada: Aun cuando existe una guía


de preguntas, el entrevistador puede efectuar otras inte-
rrogantes no contempladas al inicio.
Entrevista informal: aquí no se dispone de una guía de
preguntas elaboradas con antelación (Arias, 2012).

Grupos focales
Se refiere a discusiones minuciosamente diseñadas para obte-
ner información sobre una situación en concreto. Su objetivo
es promover la participación de los integrantes del grupo.
Las personas que lo componen tienen aspectos comunes,
lo que permite que se hable espontáneamente para cono-
cer un abanico de opiniones. Según Del Cid, Méndez, & San-
doval (2011) es recomendable para una mayor profundidad
en las intervenciones de los participantes, que el grupo no
pase de seis personas.
Los grupos focales se pueden utilizar antes, durante y des-
pués de un proyecto de investigación para obtener la per-
cepción y creencias que el grupo tiene sobre una determi-
nada temática.

Comparación de los procesos de investigación según


el paradigma cuantitativo y cualitativo
El asumir uno de los paradigmas descritos, se determina la
forma en que se desarrollará el proceso de investigación,
como se describe a continuación:
84 David Alan Neill; César Quezada Abad; Juana Arce Rodríguez

Tabla 1. Procesos de investigación según el paradigma cuantitativo y cua-


litativo

Proceso de investigación Proceso de investigación cualita-


cuantitativa tiva
Planteamiento del problema Planteamiento del problema
Desarrollo del marco teórico Argumentación teórica y antecedentes
investigativos.
Elaboración de hipótesis y defi-
Inmersión inicial en el campo
nición operacional de variables
Desarrollo de la investigación Concepción del diseño de estudio
Definición de la población y
Definición de informantes clave
muestra
Recolección de datos Recolección de datos
Análisis e interpretación de
Análisis e interpretación de resultados
resultados
Elaboración del reporte de
Elaboración del reporte de resultados
resultados

Elaboración: Los autores

De estas estructuras investigativas se puede establecer cier-


tas diferencias como por ejemplo en la investigación cuan-
titativa se requiere de la formulación de hipótesis y defini-
ción operacional de variables, lo que conlleva a la aplicación
de técnicas como la encuesta y los registros de observación
sistemáticos para el análisis de aspectos específicos de los
hechos o fenómenos.
En la investigación cualitativa es necesario efectuar una
inmersión inicial en el campo, debido a que aquí los méto-
dos de análisis son de tipo naturalista, dando mayor impor-
tancia al contexto y a las relaciones entre los elementos que
componen el fenómeno de estudio.
En los procesos de investigación cuantitativa la población
de estudio es grande, por ende, es necesario determinar una
muestra representativa, además para el análisis de datos se
emplean métodos estadísticos facilitando la comparación
de los datos para la generalización de resultados.
Investigación cuantitativa y cualitativa 85

En la investigación cualitativa para el estudio de los infor-


mantes clave se utiliza principalmente técnicas como la
entrevista, la observación participante y las conversaciones
de grupo. Por lo general la población de estudio es reducida.
En la investigación cuantitativa, la validez y fiabilidad de
los resultados están en función de las técnicas e instrumen-
tos que se empleen para medir y analizar los datos. En el
caso de la investigación cualitativa, la validez y fiabilidad de
los resultados están relacionados a la capacidad y rigor de
investigador para analizar e interpretar los datos que son de
carácter subjetivo.
82 J. VEIGA DE CABO, E. DE LA FUENTE DÍEZ, M. ZIMMERMANN VERDEJO

INTRODUCCIÓN ser Descriptivos o Analíticos, en función de los obje-


tivos que persigan y el diseño para alcanzarlos. En
Conceptualmente podemos definir la epidemio- los estudios descriptivos, el investigador se limita a
logía como la Ciencia del razonamiento y del méto- medir la presencia, características o distribución de
do usados en medicina y en otras ciencias, aplicadas un fenómeno dentro de la población de estudio como
a la descripción de los fenómenos de salud, a la si de un corte en el tiempo se tratara. En los estudios
explicación de su etiología y a la búsqueda de méto- analíticos, el investigador pretende relacionar cau-
do de intervención más eficaces. salmente algún factor de riesgo o agente causal con
un determinado efecto, es decir, pretende establecer
Los modelos de estudios que se aplican en epide- una relación causal entre dos fenómenos naturales.
miología son diferentes, en la medida en que tam-
bién lo son los objetivos que se persiguen. La En los estudios Experimentales, el investigador
observación (suministrada, por ejemplo, a partir de también trata de estudiar algún factor desconocido y
los sistemas de vigilancia que recogen información sus efectos en el tiempo, pero al contrario de lo que
continua sobre morbilidad, o aquella obtenida a par- ocurre en los estudios observacionales analíticos,
tir procedimientos más simples como las encuestas) que reproducen el fenómeno de forma natural, en los
es una actitud inicial que nos permitirá la detección estudios experimentales el investigador define cada
y descripción de los problemas de salud que apare- una de las características de los grupos, asignando a
cen en una comunidad. un grupo de estudio el tratamiento, tóxico, prueba
diagnóstica, factor de riesgo, o lo que se pretenda
Partiendo de esta base conceptual, podremos estudiar, y al grupo control el placebo o su equiva-
plantearnos una primera hipótesis. Posteriormente, y lente.
dependiendo del tipo de problema que tenemos que
investigar o del tiempo, o incluso del presupuesto Entre estos estudios se encuentran los denomina-
del que dispongamos, tendremos que elegir el tipo dos ensayos controlados, que son experimentos en
de estudio epidemiológico más apropiado para res- los que los sujetos son asignados de manera aleato-
ponder a nuestras preguntas. ria, a grupos, generalmente denominados "grupo de
estudio" y "grupo control", para recibir, o no recibir,
Antes de iniciar cualquier tipo de investigación, un procedimiento, maniobra o intervención, preven-
tenemos que tener muy claro cuales son nuestros tivos o terapéuticos, de carácter experimental.
objetivos, la población que queremos estudiar, las
variables que queremos recoger, los métodos para Los estudios experimentales, cuando éstos están
hacerlo, el tiempo que nos llevará cada fase de la bien diseñados y no existen fuentes de error o ses-
investigación, los medios técnicos y humanos que gos, son considerados los diseños más potentes para
necesitaremos, entre otros aspectos básicos. la comprobación de hipótesis causales.

En teoría toda investigación va asociada a una


verificación de una pregunta mediante la experimen-
tación. Sin embargo, en medicina, donde el objeto de
investigación es el ser humano, no es siempre posi-
ble la experimentación, por ello han proliferado y se
han consolidado otros tipos de diseño basados en la
observación. Este planteamiento nos lleva directa-
mente a la primera división entre los distintos tipos
de estudios que se pueden presentar: los estudios
experimentales y los estudios observacionales.

Los estudios observacionales pretenden descri-


bir un fenómeno dentro de una población de estudio
y conocer su distribución en la misma. En este tipo
de estudios, no existe ninguna intervención por parte
del investigador, el cual se limita a medir el fenóme- Este tipo de estudios son poco frecuentes en el
no y describirlo tal y como se encuentra presente en campo sanitario en el que nos solemos desenvolver,
la población de estudio. siendo más propios en el ámbito del a investigación
básica, investigación en laboratorios o ensayos clíni-
A su vez , los estudios observacionales pueden cos controlados, por poner algunos ejemplos, y

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


MODELOS DE ESTUDIOS EN INVESTIGACIÓN APLICADA 83

requieren una serie condicionantes de garantías éti- De esta forma, un estudio de tendencias de mor-
cas y autorización del comité de investigación, razo- talidad en un periodo determinado, hemos de consi-
nes por las que no serán objeto nuestro de estudio en derarlo como un estudio descriptivo, pues aunque
profundidad. describa el fenómeno y su evolución dentro de un
espacio temporal, el estudio se limita a la descrip-
ESTUDIOS OBSERVACIONALES ción del fenómeno dentro de unas coordenadas tem-
porales, pero sin establecer relación causal con
Dentro de los estudios observacionales, podría- ningún factor concomitante en el tiempo. En este
mos diferenciar dos tipos de estudios, según el obje- caso, el periodo de tiempo más o menos amplio en el
tivo que persigan, y por tanto, su diseño. Nos que se encuadre el estudio, se considera como si de
referimos a estudios Descriptivos y estudios Analíti- corte en el tiempo se tratase.
cos.
La característica principal que lo define como
1.- Estudios Descriptivos estudio observacional descriptivo y lo diferencia de
un estudio observacional analítico es que en este
En los estudios descriptivos, el investigador se último, su objetivo y su diseño se centran, como se
limita a medir la presencia, características o distri- ha mencionado, en buscar alguna relación causa-
bución de un fenómeno en una población en un efecto entre dos fenómenos que se relacionan a lo
momento de corte en el tiempo, tal sería el caso de largo del tiempo, como veremos después.
estudios que describen la presencia de un determina-
do factor ambiental, una determinada enfermedad, Algunos ejemplos que podemos citar de estudios
mortalidad en la población, etc., pero siempre referi- descriptivos, serían los estudios de incidencia, de
do a un momento concreto y sobre todo, limitándo- prevalencia, de evaluación de riesgos, de encuestas
se a describir uno o varios fenómenos sin intención poblacionales, por citar los más corrientes, y consti-
de establecer relaciones causales con otros factores. tuyen, en su mayor parte, el modelo de estudio más
Por tanto, la principal característica de los estudios frecuente con el que nos encontremos dentro de
descriptivos es que se limitan simplemente a “dibu- nuestro ámbito de actividad sanitaria, lo que no quita
jar” el fenómeno estudiado, sin pretender establecer que con relativa frecuencia podamos encontrarnos, o
ninguna relación causal en el tiempo con ningún otro nos interese diseñar algún otro tipo de estudios.
fenómeno, para lo que necesitaríamos recurrir a un
estudio analítico. En numerosas ocasiones, por ejemplo al realizar
una encuesta en la que se ha recogido gran cantidad
La primera finalidad de estos estudios, como de variables, el investigador, queda abrumado por el
bien indica su nombre, es describir la frecuencia y exceso de información. Así, en la fase de análisis a
las características más importantes de un problema veces olvida que se trata de un “dibujo” y comienza
de salud en una población. Su segunda función es a interpretar las asociaciones estadísticas entre una
proporcionar datos sobre los que basar hipótesis exposición o factor y un estado de salud, como si de
razonables. relaciones causa-efecto se tratase. En otras palabras,
una característica que define estos estudios es la
falta de secuencia temporal entre la medición de un
factor de riesgo y un hipotético efecto, por tanto, es
extremadamente complicado corroborar hipótesis
causales.

Esto se suele agravar dada la facilidad con que


actualmente pueden realizarse análisis estadísticos.
En general, y en los estudios descriptivos en particu-
lar, uno puede obtener cientos de asociaciones
“estadísticamente significativas” sin que esto, desde
el punto de vista científico, signifique nada en abso-
luto.

Otras veces, los investigadores noveles sucum-


ben ante una irresistible “corazonada” e incurren en
un error, también muy frecuente, denominado “fala-
cia ecológica”.

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


84 J. VEIGA DE CABO, E. DE LA FUENTE DÍEZ, M. ZIMMERMANN VERDEJO

Para entender la falacia ecológica vamos a recu- relacionados individualmente y se corresponden con
rrir a un ejemplo. Imaginemos que queremos estu- la misma población, por lo que debemos recurrir a
diar los accidentes laborales ocurridos durante el los estudios analíticos.
último año en una determinada empresa. Para ello
llevamos a cabo un estudio de incidencia de acci- 2.- Estudios Analíticos
dentes, es decir, un estudio descriptivo de la pato-
logía durante el tiempo de estudio, un año. Los estudios Analíticos se caracterizan porque
Supongamos que el resultado de nuestro estudio es pretenden “descubrir” una hipotética relación entre
que encontramos una elevada tasa de incidencia de algún factor de riesgo y un determinado efecto, es
accidentes, y de pronto se nos ocurre que detrás de decir, pretenden establecer una relación causal entre
esta alta tasa de accidentes pudiera esconderse un dos fenómenos naturales.
elevado nivel de estrés en los trabajadores.
En este tipo de estudios, es esencial entender que
A partir de ese momento decidimos ampliar para que prevalezca su condición de estudio obser-
nuestro estudio y le incorporamos un análisis de la vacional, han de cumplir la premisa de que el inves-
proporción de trabajadores que sufren un elevado tigador no establece ningún tipo de intervención en
nivel de estrés, y curiosamente, nos encontramos los grupos de estudio, los cuales se someten a las
que el porcentaje de trabajadores de la empresa con leyes naturales de evolución desde que interviene la
nivel de estrés alto muestra también cifras elevadas. causa hasta que se produce el hipotético efecto resul-
tante.
Nuestra intención podría ser asociar los hallazgos
y establecer relación entre ellos, por el hecho de que Los estudios analíticos requieren un diseño espe-
se encuentran presentes en la misma población, cial y más cuidadoso que los estudios descriptivos,
determinando una relación causal entre el elevado sobre todo en lo que se refiere a los sistemas de con-
nivel de estrés de los trabajadores y la alta propor- trol de sesgos y de factores de confusión, que de no
ción de accidentes detectados en la empresa, pero si establecerse desde su diseño inicial de forma correc-
así lo hiciéramos, estaríamos cometiendo un grave ta podrían invalidar los resultados del estudio.
error metodológico.
Si bien decíamos que los estudios descriptivos
La falacia ecológica se produce desde el momen- nos muestran una fotografía estática de un fenóme-
to en que, aún realizándose el estudio de los acci- no concreto, bien sea el factor de riesgo, como por
dentes y del estrés en una misma población cerrada, ejemplo un estudio de evaluación de riesgos, o del
se trata de dos estudios observacionales diferentes, efecto, como pudiera ser un estudio de incidencia o
aunque se encuentren solapados. Si utilizamos dos prevalencia, los estudios analíticos nos dan una
estudios descriptivos para sacar conclusiones con- visión dinámica del proceso salud-enfermedad y las
juntas de los resultados de cada uno de ellos, nunca posibles relaciones causales definidas en el tiempo
podemos estar seguros de que el subconjunto de desde que se hace presente el agente causal hasta que
población que se encuentra afectada por un elevado aparece la enfermedad, por lo que los estudios Analí-
nivel de estrés, se corresponda exactamente o inclu- ticos nos vendrían a ofrecer una visión dinámica
so aproximadamente, con el subconjunto de pobla- similar a una película en la que podemos relacionar
ción en la que detectamos los accidentes de trabajo. el desenlace con diferentes escenas previas de la
misma.
A veces, las observaciones epidemiológicas des-
criptivas proporcionan el primer aviso de los, hasta
el momento, riesgos desconocidos. Pero sin duda la
mayor virtud de los estudios descriptivos reside en
su utilidad en la planificación y en su potencial como
generadores de hipótesis (que deberán ser corrobo-
radas con estudios más potentes).

En resumen, siempre que pretendamos estudiar


una asociación causal, tendremos que recurrir a un
diseño que nos permita relacionar la causa y el efec-
to en cada uno de los individuos estudiados, con lo
que al menos, podemos tener la certeza de que la
hipotética causa y el supuesto efecto se encuentran

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


MODELOS DE ESTUDIOS EN INVESTIGACIÓN APLICADA 85

Traducido al marco conceptual del tipo de estu- cada grupo para analizar conjuntamente los resulta-
dio de que se trata, los estudios analíticos contarían dos en busca de posibles diferencias.
con un diseño que nos permitirá hacer el seguimien-
to dentro de un proceso evolutivo natural, desde la Volviendo a nuestro ejemplo del estudio sobre
aparición de los hipotéticos factores causales hasta accidentes de trabajo en una empresa y su posible
que culmine con la aparición del supuesto efecto, lo relación con la carga de estrés en los trabajadores, ya
que implica asentar unos criterios básicos. hemos desestimado abordarlo mediante un solapa-
miento de estudios descriptivos, como hemos visto.
En primer lugar, debemos tener claro que desde Parece más lógico si tomásemos a la población que
que actúa un determinado factor causal hasta que se ha sufrido accidentes laborales, y estudiásemos en
produce el efecto, en su caso, la enfermedad, siem- ellos su relación con el nivel de estrés que presenta-
pre transcurre un tiempo (tiempo de latencia), que en ban inmediatamente antes de que se produjera el
unos casos puede ser corto y en otros más o menos mismo. De esta forma estamos seguros de que el
largo, pero ambos fenómenos se encuentran relacio- nivel de estrés y el accidente se encuentran medidos
nados en el tiempo definido entre la presencia o apa- en el mismo subgrupo de trabajadores de la empresa
rición de cada uno de ellos. y evitaríamos el riesgo de incurrir en una falacia
ecológica.
Este concepto, además centrar la relación causal
como un proceso dinámico dentro de un espacio y Pero si diseñamos nuestro estudio sobre lo que
tiempo definidos, nos permite determinar otra carac- ocurre exclusivamente en la población de trabajado-
terística tan obvia como importante, la causa ha de res que han sufrido algún tipo de accidente laboral
preceder siempre en el tiempo al efecto. durante el último año y pretendemos relacionar las
dos variables desde el punto de vista causal, tendría-
El segundo lugar, la mayoría de los fenómenos mos certeza que nos encontramos midiendo la rela-
naturales, y por tanto, entendiendo la enfermedad ción entre la carga de estrés dentro del la población
como uno de ellos, se producen como resultado de la de trabajadores accidentaos, pero desconoceríamos
confluencia de varios factores causales y difícilmen- que relación que pudiéramos encontrar entre la carga
te en circunstancias normales podremos achacar a un de estrés y la población no accidentada.
único fenómeno que pueda ser el causante en exclu-
siva de la aparición un efecto. Así, debemos enten- Si planteamos el estudio de esta forma, podría-
der la dinámica salud-enfermedad como una mos encontrarnos con unos resultados que apoyasen
relación causa-efecto de características multicausa- nuestra hipótesis, tras observar que los trabajadores
les, en las que las diferentes causas que intervienen, accidentados presentaban una elevada carga de
se comportan todas ellas como “causas componen- estrés laboral, previo al accidente, pero ¿podríamos
tes” dentro de una cadena. Algunas de estas causa concluir que la causa de que se produzcan acciden-
pueden manifestarse con mayor o menos fuerza tes laborales es el estrés?, ¿estaríamos en condicio-
etiológica que otras y por tanto, unas se comportan nes de mantener esta tesis si estudiado el grupo de
con un mayor peso “determinante” que otras, inclu- trabajadores no accidentado encontrásemos que el
so alguna (o varias de ellas), podríamos considerar- nivel de estrés durante el mismo periodo fuera simi-
la como “causa necesaria”, siendo siempre lar al encontrado entre los trabajadores accidenta-
obligatoria su presencia dentro de la cadena para dos?, incluso, ¿a que conclusión podríamos llegar si
que aparezca el efecto. el nivel de estrés de la población no accidentada
fuera superior a la de los trabajadores accidentados?,
El tercer concepto a tener en cuenta, es que siem- ¿no podríamos estar en este caso ante una situación
pre que nos planteemos el objetivo de establecer una en la que el estrés podría comportarse como un
relación causal entre un determinado factor como supuesto factor protector frente al riesgo de sufrir
hipotético causante de un efecto determinado, no algún accidente de trabajo?.
podremos limitarnos a estudiar únicamente un grupo
de población en el que supuestamente se encuentren Lo que nos está ocurriendo con este tipo de
presentes los dos fenómenos del estudio (causa y diseño es que, aún siendo correcto para controlar la
efecto), tendremos que diseñar un tipo de estudio falacia ecológica, le falta un grupo control que nos
que contemple la posibilidad de comparar los resul- permita saber que está ocurriendo en la otra pobla-
tados de este grupo con otro que a modo de control, ción, la no accidentada, de forma que no podemos
incluya individuos que pudieran no presentar rela- asegurar de forma consistente la relación causal, no
ción con alguno de los factores estudiados (causa o porque no exista, que podría existir en base a los
efecto), realizando un seguimiento individual de resultados, sino porque no tenemos información

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


86 J. VEIGA DE CABO, E. DE LA FUENTE DÍEZ, M. ZIMMERMANN VERDEJO

suficiente para poder asegurar que realmente lo sea. La cohorte de los no expuestos, actuaría como
Hemos analizado lo que pasa en un sólo grupo de sistema control, de forma que de ser cierta la hipóte-
población, los trabajadores accidentados, pero des- sis, cabría esperar una baja tasa de afectados (o al
conocemos totalmente lo que ocurre en la población menos comparativamente inferior a la encontrada en
no accidentada en relación a la carga de estrés. En los expuestos).
definitiva, el simple hecho de no poder responder
estas preguntas con certeza nos sumerge en un mar En cierto modo, desde el momento en que esta-
de incertidumbres y nos impide alcanzar cualquier blecemos una cohorte control, nos encontraremos en
conclusión consistente. condiciones poder ofrecer unos resultados consisten-
tes con la hipótesis causal de trabajo. Esto es cierto,
Para solucionar este problema, deberíamos siempre que el diseño del estudio sea impecable, el
diseñar un estudio de forma que además de analizar grupo de expuestos y no expuestos no difieran en
la relación entre los trabajadores accidentados y su otras variables predictoras del desenlace y no haya-
exposición a el estrés previo, incluyamos el mismo mos introducido cualquier otra fuente de error en la
análisis un grupo que actúe como “control”, en este medición del efecto o en el seguimiento.
caso, compuesto por los trabajadores que no han
sufrido accidentes, y estudiemos en ellos también su 2.2.- Estudios de Casos y Controles
relación con nuestro hipotético agente causal, de
forma, que comparando posteriormente los resulta- En los estudios de casos y controles se elige un
dos en cada uno de los grupos (accidentados y no grupo de individuos que tienen una enfermedad
accidentados), tengamos información suficiente determinada (casos), y otro en el que está ausente.
como para comprobar, utilizando procedimientos Ambos grupos se comparan respecto a una exposi-
estadísticos adecuados, que la presencia del factor de ción que se sospecha que está relacionada con dicha
riesgo (estrés) se presenta de forma significativa- enfermedad. La función del grupo control es preci-
mente diferente entre los dos grupos de población samente estimar la proporción de exposición espera-
estudiados (accidentados y no accidentados). da en un grupo que no tiene la enfermedad.

Para ello podemos recurrir a dos modalidades de Lo estudios de Casos y Controles tiene en común
estudios analíticos: Estudios de Cohortes (habría que con los estudios de Cohortes que también se estable-
diferenciarlos de los estudios de corte, los cuales se cen dos poblaciones. La diferencia estriba en que, en
refieren en su mayor parte a estudios realizados en los estudios de Casos y Controles las poblaciones de
un determinado momento, o corte en el tiempo) y los estudio se establecen en función de la presencia o no
estudios de Casos y Controles. del efecto o enfermedad, es decir, el grupo de los
casos estaría compuesto por los individuos que pre-
2.1.- Estudios de Cohortes sentan la enfermedad o efecto estudio, y el grupo
Control por la población que no padece la enferme-
En este tipo de estudios se establecen dos cohor- dad.
tes, una se corresponde con la cohorte de estudio y
estará compuesta por la población expuesta al En este caso, el estudio no requiere de un segui-
hipotético factor de riesgo, y la otra, se comporta miento, sino que su enfoque es retrospectivo, “hacia
como cohorte control, compuesta por individuos que atrás”, para estudiar la relación, contacto o exposi-
no se encuentren expuestos al hipotético factor de ción previa de cada uno de los grupos (enfermos y
riesgo. Establecidas las cohortes, se realiza un segui- no enfermos) con uno o varios hipotéticos factores
miento en el tiempo de cada una de ellas (población de riesgo. Generalmente para la reconstrucción de la
expuesta y población no expuesta), estudiando el historia de exposición se recurre a encuestas, revi-
comportamiento de la cada una en cuanto a la apari- sión de historias clínicas, analíticas, exploraciones,
ción del efecto o enfermedad o desenlace (inciden- etc.
cia). También se les denomina prospectivos por que
van “hacia adelante” desde la exposición hasta un En definitiva, en un estudio de casos y controles
efecto. lo que se mide es si la frecuencia del factor de ries-
go entre nuestros casos enfermos es superior a la
De esta forma, de ser cierta nuestra hipótesis, observada en nuestros controles no enfermos.
cabría esperar en esta cohorte de expuestos una tasa
(incidencia) importante de afectados (o al menos Aunque el abordaje parece simple, se sorpren-
comparativamente superior a la encontrada en los no dería de las enormes dificultades asociadas a estos
expuestos). diseños. Así, a la hora de diseñar un estudio de casos

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


MODELOS DE ESTUDIOS EN INVESTIGACIÓN APLICADA 87

y controles, es muy recomendable ser especialmente 2.- Otras formas de clasificación de los estu-
cuidadoso para no incurrir en las numerosas fuentes dios
de error que amenazan la validez del estudio. Los
errores más frecuentes en estos estudios se cometen 2.1.- Estudios Longitudinales y Transversales
en el procedimiento de selección de los controles
(deben proceder de la misma población donde se han Además de la clasificación que hemos visto,
extraído los casos y ser lo más perecidos posible a existe también la posibilidad de clasificar los estu-
éstos, excepto en padecer o no la enfermedad) y dios desde el punto de vista de su dimensión espa-
durante la recogida de información para reconstruir cio-temporal. Así, los estudios Longitudinales se
la historia de exposición de ambos grupos. corresponderían con aquellos en los que se presenta
una temporalidad como base del mismo. Dentro de
En resumen, en los estudios de Cohortes se parte los estudios descriptivos, serían longitudinales los
desde la exposición al factor de riesgo para llegar a estudios de tendencias o aquellos que establecen un
la enfermedad y en los estudios de Casos y Contro- periodo de tiempo como base del estudio. Los estu-
les se parte de la enfermedad para intentar establecer dios transversales se corresponden con los estudios
una relación causal previa con el factor de riesgo. de corte en el tiempo.

Como es lógico, los estudios de Cohortes, al con- Los estudios analíticos se consideran longitudi-
tar con un diseño en el que, por lo general, se basa nales por definición, pues el criterio para que un
en el seguimiento de la evolución natural de la diná- estudio sea calificado como longitudinal, radica en
mica salud-enfermedad, suelen tratarse de estudios la base conceptual que subyace en el estudios, de
más fiables que los estudios de Casos y Controles, forma que en el caso de los estudios, tanto de Cohor-
pero a la vez suelen ser más costosos, no sólo por el tes como de Casos y Controles, la base del estudio se
tiempo necesario de dedicación al estudio durante el establece en el tiempo real o implícito establecido
seguimiento, sino también en lo que se refiere al entre el momento en que actúa un factor de riesgo o
resto de recursos. agente causal y el que se muestra patente el efecto o
enfermedad.
Por el contrario, los estudios de Casos y Contro-
les suelen ser más rápidos y económicos, aunque por 2.2.- Estudios Prospectivos y Retrospectivos
lo general, requieren especial cuidado en establecer
desde el diseño los mecanismos necesarios para el Este tipo de clasificación se establece en cuanto
control de sesgos y factores de confusión, que no es a la dimensión longitudinal de los estudios, por lo
objeto de este artículo. Por esta razón, se suelen que se pueden excluir directamente los estudios de
tomar dos tipos de medidas que ayudan a incremen- corte o transversales.
tar la fiabilidad de resultados, por una parte es habi-
tual establecer un sistema “apareado” de selección Los criterios de prospectivo o retrospectivo, se
de casos y controles. Esto supone seleccionar la refieren principalmente al planteamiento de la direc-
población de casos e ir estableciendo la población de ción en el tiempo del estudio, progresiva (hacia
controles lo más parecida a los casos excepto en la delante) o regresiva (hacia atrás) en el tiempo desde
condición que define al control, el “no padecer la el momento en que se inicia el estudio. En el caso de
enfermedad objeto de estudio”. los estudios descriptivos longitudinales, podemos
encontrar estudios prospectivos, cuando una vez
establecido el inicio del estudio se realiza un segui-
miento de la población en el tiempo, y lo conside-
raríamos retrospectivo (en la mayoría de los casos),
cuando analizamos una tendencia de cualquier fenó-
meno que haya acontecido en una población con
anterioridad al inicio del estudio.

Dentro de los estudios analíticos, los estudios de


Casos y Controles se considerarán retrospectivos,
pues el momento del inicio del estudio se establece
una vez se ha hecho presente el efecto o enfermedad,
y se retrocede en el tiempo para analizar exposicio-
nes previas al factor de riesgo o causas.

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008


88 J. VEIGA DE CABO, E. DE LA FUENTE DÍEZ, M. ZIMMERMANN VERDEJO

Conceptualmente, los estudios de Cohortes den considerarse retrospectivos aquellos estudios de


deberíamos considerarlos prospectivos, pues el cri- cohortes en los que la enfermedad objeto de estudio
terio principal que los define es su dirección desde la se haya producido tiempo antes del momento de ini-
exposición al factor de riesgo hacia la aparición de la ciación del estudio. Por ello a este último diseño
enfermedad, lo que ocurre siempre con carácter pos- “particular” se le denomina cohorte retrospectiva,
terior a al exposición. Ahora bien, si nos atenemos al cuyas peculiaridades merecerían ser ampliamente
criterio del momento en que se inicia el estudio, pue- comentadas en un artículo específico.

BIBLIOGRAFÍA

1. Ahlbom A, Novell S. Fundamentos de epidemio- 5. Hernberg S. Introducción a la epidemiología ocupa-


logía. Siglo XXI Editores. Madrid 1995. cional. 1ª edición. Ediciones Diaz de Santos. Madrid
1995.
2. Argimon Pallas JM, Jiménez Villa J. Métodos de
investigación. Mosby/Doyma. Barcelona 1994. 6. Jenicek M. Epidemiología: la lógica de la medicina
moderna. Barcelona: Masson; 1996.
3. Argimon Pallas JM. Métodos de investigación clí-
nica y epidemiológica. Elsevier España; 2004. 7. Rothman K.J. epidemiología Moderna. Ediciones
Díaz de Santos. Madrid 1987.
4. Hernández-Aguado I, Gil A, Delgado M y Bolumar
F. Manual de epidemiología y salud pública para licencia-
turas y diplomaturas en ciencias de la salud. Madrid:
Panamericana; 2005.

MEDICINA Y SEGURIDAD DEL TRABAJO Nº 210 - 1º TRIMESTRE - MARZO 2008

También podría gustarte