Bioestadistica PDF

FAYAD CAMEL V.
Profesor de Bioestadística – Escuela de Salud Pública – Universidad Central de Venezuela
ESTADÍSTICAS MÉDICAS
Y DE
SALUD PÚBLICA
IMPRESO EN LA UNIDAD ANDRES “VOISIN”

IMPRENTA DE LA UNIVERSIDAD
LA HABANA – CUBA
1968
CONTENIDO
CAPITULO PAGINA
PARTE I: METODOLOGÍA ESTADÍSTICA
I LA ESTADÍSTICA Y SUS RELACIONES CON EL
METODO CIENTÍFICO Y CON LA MEDICINA
1.1 CONCEPTO
1.2 EL METODO CIENTÍFICO
1.3 LA ESTADÍSTICA Y EL METODO CIENTÍFICO
1.4 LA ESTADÍSTICA Y LA MEDICINA
1.4.1.Usos en medicina individual
1.4.2.Usos en medicina colectiva
II LAS ETAPAS DEL METODO ESTADÍSTICO
LA ETAPA DE PLANIFICACIÓN
PLANIFICACIÓN DE LAS INVESTIGACIONES

MEDICAS
III 3.1.GENERALIDADES
3.2.PASOS DE LA PLANIFICACIÓN
3.3.PRIMER PASO: PLANTEAMIENTO DEL
PROBLEMA
3.3.1.Naturaleza e importancia del problema
estudiado
3.3.2.Determinación de objetivos
3.4.SEGUNDO PASO: BÚSQUEDA Y EVALUACIÓN
DE
LA INFORMACIÓN EXISTENTE
3.4.1.Evaluación de trabajos individuales
3.4.2.Evaluación global del material estudiado
3.5.TERCER PASO: FORMULACION DE
HIPÓTESIS
3.6.CUARTO PASO: VERIFICACIÓN DE LA
HIPÓTESIS
3.6.1.Diseño de la investigación
3.6.2.Ejecución de la investigación
3.7.QUINTO PASO: CONCLUSIONES Y
RECOMENDACIONES
LA ETAPA DE RECOLECCION DE LA
INFORMACIÓN
IV PASOS EN LA RECOLECCION DE LA
INFORMACIÓN
V LOS ERRORES EN LAS OBSERVACIONES
5.1.GENERALIDADES
5.2.ERRORES DEPENDIENTES DEL
OBSERVADOR
5.3.ERRORES DEPENDIENTES DEL METODO DE
OBSERVACIÓN
5.4.ERRORES DEPENDIENTES DE LOS
INDIVIDUOS
OBSERVADOS
5.5.RELACION ENTRE LAS DIVERSAS FUENTES
DE
ERROR
5.6.CONTROL DE ERRORES EN LAS
VI METODOS DE RECOLECCION DE LA
INFORMACIÓN
6.1.GENERALIDADES
6.1.1.Fuentes primarias de recolección
6.1.2.Fuentes secundarias de recolección
6.2.LA OBSERVACION
6.3.EL INTERROGATORIO
6.4.PRINCIPALES METODOS DE RECOLECCION
6.4.1.Encuestas y experimentos
6.4.2.Censo de población
6.4.3.Sistemas de registro
VII LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR
7.1.GENERALIDADES
7.2.UNIVERSOS Y MUESTRAS
7.3.VENTAJAS DEL EMPLEO DE MUESTRAS
7.4.DESVENTAJAS DEL EMPLEO DE MUESTRAS
7.5.CONDICIONES DE UNA BUENA MUESTRA
7.5.1.Cantidad de individuos en la muestra
7.5.2.Calidad de la muestra
7.5.3.Muestras representativas y muestras
seleccionadas
7.6.CLASES DE MUESTRAS
7.6.1.Muestras de conveniencia
7.6.2.Muestras probabilísticas
7.7.DEMOSTRACION PRACTICA
7.8.ELECCIÓN ENTRE MUESTRAS
PROBABILÍSTICAS Y
DE CONVENIENCIA
7.9.METODOS PARA LA OBTENCION DE UNA
MUESTRA PROBABILÍSTICA
7.10.DIFERENTES TIPOS DE MUESTRAS
PROBABILÍSTICAS
7.10.1.Muestras por azar simple
7.10.2.Muestras sistemáticas
7.10.3.Muestras estratificadas
7.10.4.Muestras de conglomerados
7.10.5.Muestras por procedimientos combinados
7.11.ANALISIS DE LOS RESULTADOS DE LAS
MUESTRAS
7.11.1.Valores del universo
7.11.2.Precisión de los resultados de la muestra
VIII DISEÑO DE LOS FORMULARIOS
8.1.GENERALIDADES
8.2.ELABORACION DE LOS FORMULARIOS
LA ETAPA DE ELABORACIÓN DE LA
INFORMACION
IX PASOS EN LA ELABORACION DE LA
INFORMACION
X REVISIÓN Y CORRECCION DE LA INFORMACION

RECOGIDA
XI CLASIFICACION Y COMPUTACION DE LOS

DATOS
25.5.INTERPRETACIÓN DE CHI
CUADRADO
25.6.PROBABILIDADES DADAS POR
EL CHI
CUADRADO
25.7.RELACIONES ENTTRE EL CHI
XXVI CUADRADO Y LA
CURVA NORMAL
COMPARACIONES ENRE LOS

PROMEDIOS ENTRE TRES O MAS
MUESTRAS INDEPENDIENTES
XXVII 26.1.INTRODUCCIÓN
26.2.PRUEBA DE KRUSHKAL-WALLIS
26.2.1.Calculo e interpretación
COMPARACIÓN ENTRE DOS

MUESTRAS NO INDEPENDIENTES
27.1.GENERALIDADES
27.2.COMPARACIÓN DE LOS
PROMEDIOS DE DOS
MUESTRAS NO
INDEPENDIENTES
27.2.1.Prueba de significación
incorrecta
27.2.2. Prueba de significación
correcta
27.3. COMPARACIÓN ENTRE LOS
PORCENTALES DE
XXVIII DOS MUESTRAS NO
INDEPENDIENTES
27.3.1. Comparación incorrecta
27.3.2.Comparación correcta
27.3.3.Prueba de Mc Nemar
AJUSTE DE TASAS
Introducción
La principal dificultad que se encuentra en la enseñanza de la Estadística a los estudiantes y

profesionales de la Medicina, es quizás, la resistencia mental que ellos oponen a una disciplina,
cuyo estudio considera que requiere profundos conocimientos matemáticos.
Este libro, el cual es simplemente un resumen de mis lecturas y de los conocimientos adquiridos
bajo la dirección de los profesores Dr. Shelly Hernández, John W. Ferlig y Leslic Kish, presenta la
Estadística desprovista de toda complicación matemática y el lector constatará, que un buen
conocimiento de las 4 operaciones elementales de la Aritmética, es absolutamente suficiente para
llegar a dominar las técnicas estadísticas de utilización más corriente por los médicos y
profesionales afines.
Con tal finalidad, se ha presentado de todo detalle técnico innecesario, procurando dar énfasis a la
Estadística como un método de raciocinio, pues se ha considerado, que es mucho más provechoso
conocer las posibilidades y limitaciones de una técnica, aún cuando no se tenga ninguna destreza
en su manejo, que dominar los más intricados secretos de su cálculo, cuando no se posee una
visión acertada de su aplicación.
El libro cubre el programa de Estadística seguido en el curso de Médicos Sanitaristas de la

Escuela de Salud Pública de la Universidad Central. Su primera parte, la Metodología Estadística,
constituye el material básico para los cursos de estudiante de Medicina y de Médicos Clínicos,
aunque, como es obvio, algunos aspectos se estiman con más detalles en unos cursos que en
otros.
Con propósitos prácticos, siempre teniendo en mente la comodidad del estudiante, tres detalles ya
utilizados en otros textos, se adoptaron en este libro:
a. La numeración de los cuadros y gráficos corresponde a la página en la cual se encuentran, con

lo cual el estudiante podrá localizarlos más fácilmente, cada vez que se hace referencia a ellos.
b. Con el fin de facilitar la verificación de los cálculos aritméticos – lo cual se considera
imprescindible en el aprendizaje de las técnicas expuestas-, la mayoría de los ejemplos son
teóricos, pero el lector observará que ellos corresponden siempre, a problemas reales del
campo de la medicina.
c. Un asterisco (*) delante de un capítulo, de una sección o de un párrafo cualquiera, indica que
se trata de material que ofrece cierta dificultad, lo cual amerita un estudio mucho más
cuidadosa.
Al terminan quiero agradecer al personal docente de la Escuela de Salud Pública y muy

particularmente a los doctores A. Llopis y P. Urdancia, sus valiosos consejos en la redacción de
algunos de los capítulos de este libro; a mis secretarios, los señores Iris de Piña e Irradia de López
y la señorita de Vannes Khan, su interés en mecanografiar este material y al señor Claricio
Cárdenas, su excelente labor en la ejecución del material gráfico incluido.
Especialmente grato me resulta finalmente, expresar mis agradecimientos a las autoridades

universitarios de la Universidad de Los Andes, sin cuya buena voluntad no hubiera sido posibles la
edición de este libro.
Caracas, noviembre de 1964.

PARTE I
METODOLOGÍA ESTADÍSTICA
CAPITULO I
LA ESTADÍSTICA Y SUS RELACIONES CON EL MÉTODO CIENTÍFICO Y CON

LA MEDICINA
1.1 Concepto.
La estadística deriva su nombre del hecho de haber sido aplicada primeramente a la recolección
de datos que permitieran la administración de los estados, pues con unos propósitos militares o
impositivos –lo cual constituía la primera preocupación administrativa de los antiguos imperios-, los
gobernantes necesitaban conocer cierta información referente al número y riquezas de sus
súbditos.
La palabra Estadística tiene hoy en día 2 significados diferentes. El término estadísticas, en plural
es sinónimo de datos numéricos mientras que la estadística, en singular, es el método utilizado en
el manejo de los datos anteriores, es decir el método de recolectar, elaborar, analizar e interpretar
datos numéricos.
A pesar de su concisión ésta definición nos permite entrever los vastos campos de acción de la
Estadística, pudiéndose decir que no hay prácticamente rama del saber humano en donde no
tenga utilización. Lo anterior no quiere decir que ella constituya el único mecanismo a través del
cual se puedan obtenerse nuevos conocimientos, o que el solo hecho de manejar una gran
cantidad de material numérico constituya un trabajo científico. La estadística, al menos la
Estadística práctica que será la única parte estudiada en este curso, más que una ciencia es
simplemente un método que enseña procedimientos lógicos de observación y análisis, necesarios
de tener en cuenta para aprovechar al máximo las experiencias de otras ciencias. En tal sentido
es un auxiliar irremplazable del método científico.
1.2. El Método Científico.
Tan variables como los motivos que dan origen a determinada investigación, son los
procedimientos que conducen a su realización. No hay en realidad reglas fijas que indiquen al
científico cual debe ser el punto de partida de su investigación o que limiten la escogencia de los
procedimientos que debe utilizar, pues en cualquier caso ellos varían de acuerdo a sus intereses e
inquietudes, a su preparación previa y a los recursos y presupuesto con que cuenta.
Bajo estas condiciones no puede hablarse del método científico como un camino único que
conduce al descubrimiento de la verdad y mucho menos como un esquema rígido e inmodificable
fuera del cual la investigación pierde su carácter científico. No obstante, es evidente que en las
ciencias médicas al igual que en los otros ramos de las ciencias naturales, los hechos surgen y
deben ser comprobados a través de la observación objetiva de los diferentes fenómenos.
Sin embargo la observación aislada de determinado fenómeno sería estéril si no pudiera resumirse
en una ley científica capaz de explicar racionalmente lo observado y a partir de la cual puedan
hacerse generalizaciones valederas. Antes de Fleming, numerosos bacteriólogos habían visto la
destrucción de sus cultivos en el laboratorio sin que tal observación fuera de ningún beneficio, pues
no se indagaron las causas que podrían explicarla con el fin de extraer nuevos conocimientos y
nuevas enseñanzas. Esa misma observación metodológicamente, analizada, condujo al científico
inglés al descubrimiento de la Penicilina.
De acuerdo a Bertrand Russel (31), las etapas del método científico pueden resumirse en los
siguientes tres pasos:
1. Exacta observación del fenómeno que se estudia.

2. Formulación de una hipótesis, mediante la cual pueden explicarse los hechos observados.
3. Verificación de la hipótesis mediante nuevas observaciones.
En la investigación real los pasos anteriores están tan íntimamente relacionados, que es imposible
pretender que todos los investigadores sigan siempre el anterior esquema de la misma secuencia
señalada. Se comprende por ejemplo que la formulación de una hipótesis previa es generalmente
necesaria para saber cuáles hechos se deben observar, y a su vez, la formulación racional de tales
hipótesis, requieren habitualmente ciertos conocimientos sobre el problema que se estudia. No es
difícil sin embargo encontrar numeroso ejemplo en la literatura médica que ilustran la manera como
los pasos anteriores se aplican en la investigación. Considérese al respecto, el descubrimiento del
bacilo tuberculoso:
Koch observó ciertas formas bacilares en los esputos de pacientes tuberculosos (primer paso), y
como hipótesis de trabajo atribuyó a ellas la causa de la enfermedad (segundo paso), lo cual
demostró más tarde, al comprobar que el bacilo se encontraba en los esputos de individuos
tuberculosos y nunca en los procedentes de individuos sin enfermedad (tercer paso).
No hay que creer que los pasos esbozados son privativos de las grandes investigaciones
solamente, pues no es difícil entrever como ellos se siguen rutinariamente, quizás
inconscientemente, aun en algo tan sencillo como la historia clínica de cualquier paciente. En
efecto, en todo diagnóstico:
a. Primero se recogen los datos sobre los antecedentes del enfermo, los cuales se complementan
por inspección, palpación, percusión o auscultación. Es decir, se hacen determinadas
observaciones.
b. En segundo lugar se hace el diagnóstico, el cual al principio es solamente un diagnóstico
provisional, es decir, una hipótesis de trabajo.
c. Finalmente se hará la verificación del diagnóstico, mediante nuevas observaciones, con la
ayuda del laboratorio y de otras técnicas especializadas, o en última instancia, observando los
resultados del tratamiento, los cuales serán favorables cuando el diagnóstico fue correcto.
1.3. La Estadística y el Método Científico.
La estadística cumple diferente papel en cada uno de los 3 pasos del método científico, siendo
especialmente importante en la observación de fenómenos y en la verificación de las hipótesis. En
la formulación de estas también tiene importancia aunque ello es un proceso en el cual intervienen
sobre todo la intuición y la imaginación de los investigadores.
a. La estadística interviene en el primer paso de la investigación científica ayudando a que las

observaciones fidedignas y exactas. Cada uno de los tres factores que intervienen en la
observación. –Observador, método de observación e individuo observado –pueden ser una
fuente de error que contribuya a que las observaciones sean incorrectas y como estas son el
punto de partida de la investigación, se requiere de un método que permita la medición y el
control de errores así determinados, con el fin de que las conclusiones tengan validez. Este
método no es otro que la Estadística, la cual nos enseña que parte de la variabilidad
registrada puede considerarse como real y que parte puede atribuirse a errores cometidos
durante el proceso de observación de los fenómenos.
b. En la verificación de las hipótesis también es importante la Estadística. Como la verificación de

las hipótesis se hace siempre mediante nuevas observaciones, es necesario resumir
adecuadamente los resultados de estas, pues la mente humana es incapaz de desentrañar la
verdad que se encuentra en una gran cantidad de datos si estos no han sido previamente
ordenados y clasificados. La Estadística al reducir a sencillas fórmulas numéricas el material
recogido y presentarlo y resumirlo en cuadros y gráficos, ayuda a este proceso de síntesis
mental, facilitando el análisis de los resultados.
c. Finalmente, aunque la formulación de las hipótesis es ante todo un proceso de imaginación e
intuición, la Estadística puede ayudar a ese proceso, pues al resumir convenientemente el
resultado de las observaciones, facilitando el razonamiento y pone de presente relaciones que
pueden concluir a la formulación de hipótesis racionales.
1.4 La Estadística y la Medicina.
Las consideraciones ya expuestas bastarían para explicar las relaciones existentes entre la
Estadística y la Medicina, la ciencia está caracterizada por los complejos y variables fenómenos
que estudia.
Para medico clínico, lo mismo que para el sanitarista, el método estadístico es un instrumento
invalorable a pesar de que a menudo se desconoce su gran utilidad. Al investigador médico que
trata de probar una hipótesis de trabajo o que pretende simplemente extraer ciertas deducciones
de las observaciones realizadas, la estadística le ayudara a decidir sobre el número de pacientes
que debe estudiar para que sus conclusiones tengan validez, a recoger adecuadamente los datos
pertinentes, a resumir y analizar convenientemente el material reunido y a presentar a otros el
fruto de sus investigaciones. El estudiante por su parte, solo podrá evaluar más objetivamente la
evidencia que otros investigadores le presentan, si es capaz de comprender el alcance y
limitaciones de los datos numéricos que han servido de base a las conclusiones de estudio, y esa
capacitación requiere un mínimo de conocimientos estadísticos.
1.4.1. Usos en Medicina Individual.
En el campo de la clínica, al diagnóstico de cualquier enfermedad solo es posible llegar mediante

la experiencia ganada a través del análisis estadístico de un conjunto de síntomas y signos
observados en muchos individuos. Si decimos por ejemplo, que el signo de Koplick es
patognomónico del Sarampión, es porque la clasificación estadística de las enfermedades, de
acuerdo a sus síntomas y signos, nos ha mostrado que el Koplick solo se presenta en el
sarampión y no en otra enfermedad.
Un pronóstico a su vez no es otra cosa que la aplicación que el cálculo de probabilidades a un

enfermo determinado. Si ante un paciente con fiebre Tifoidea predecimos que casi con seguridad
se salvara, lo hacemos con confianza, pues el estudio estadístico de innumerables enfermos
demuestra que la enfermedad cuando se trata correctamente, solo es fatal en aproximadamente un
30% de los casos.
Finalmente, todo nuevo tratamiento requiere su ensayo experimental que demuestre si es

realmente efectivo e inocuo. En tales ocasiones solo a través de la Estadística podemos analizar la
evidencia recogida y decidir si los efectos observados son debido a la casualidad y si pueden ser
lógicamente atribuidos al nuevo tratamiento.
1.4.2 Usos en Medicina Colectiva.
En el campo de la Salud Pública solo mediante procedimientos estadísticos podrá conocerse la

composición y principales características de la población que se va a servir, los cambios que
acontecen en ella, los riesgos a que está sometida y las necesidades que presenta.
La planificación de las actividades de Salud Pública, el control de los programas que se estén
desarrollando y la evaluación final de sus rendimientos y eficiencia solo podrá llevarse a cabo
mediante procedimientos estadísticos. En tal sentido, la estadística es tan imprescindible para el
trabajador de Salud Pública como lo es la contabilidad en las actividades de comercio e industria.
CAPITULO II
LAS ETAPAS DEL METODO ESTADISTICO
La aplicación de la Estadística a un problema determinado comprende las siguientes etapas:
1. Planificación del estudio.

2. Recolección de la información.
3. Elaboración de los datos recogidos.
4. Análisis e Interpretación.
En el presente curso, se estudiaran los puntos más importante de cada una de estas etapas y
aunque se pondrá más énfasis en la enseñanza de aquellas técnicas más necesarias al
investigador médico, se procurara ante todo familiarizar al alumno con los principios básico del
método estadístico.
Hay buenas razones que justifican este proceder. Las técnicas estadísticas son muy numerosas y
aquellas que son más apropiadas para determinados problemas pueden no ser convenientes para
otros. En cambio los principios generales de método estadístico son universales en su utilización,
no importa cuál sea la investigación que se realice o el ramo de conocimiento humano a que se
aplique. Parece mucho más conveniente por lo tanto, conocer las posibilidades y limitaciones de
una técnica aun cuando no se tenga ninguna destreza en su manejo, que dominar los más
intrincado secretos de su cálculo cuando no se tiene una visión acertada de su aplicación.
CAPITULO III
LA ETAPA DE PLANIFICACIÓN
PLANIFICACIÓN DE LAS INVESTIGACIONES MÉDICAS

3.1 Generalidades.
Aunque algunos de los más importantes descubrimientos científicos se ha debido a la casualidad

(Rayos X, Penicilina, etc.), puede decirse que por regla general todo nuevo conocimiento ha
surgido unas veces por la necesidad de encontrar solución práctica a determinado problema, y
otras por curiosidad científica, que impulsa al investigador a llenar lagunas existentes en nuestros
conocimientos o a explorar campos todavía no perfectamente conocidos.
En estos últimos casos, planificar en esencial no solo para calcular el tiempo que durara la
investigación, el personal que se requiere y el presupuesto necesario, sino con el fin de que la
investigación se realice con metas perfectamente definidas, evitando improvisaciones durante el
desarrollo de la misma, que en general introduce fuentes de error capaces de invalidar o
desmeritar el estudio.
Básicamente la etapa de planificación tiene por fin el estudio de los detalles concernientes a la
recolección elaboración y análisis de la información, sobre la base de la cual se describirán las
características de determinada población o se confirmara o negara determinada hipótesis de
trabajo. Es obvio sin embargo que ninguna planificación podrá hacerse adecuadamente si antes no
se ha definido claramente la naturaleza y objetivos de la investigación y si no se ha hecho una
conveniente evaluación de los conocimientos que sobre el problema se poseen y de las hipótesis
que se han formulado para explicarlo.
3.2 Pasos de la Planificación.
Los diferentes pasos que deben considerarse en la etapa de planificación, se comprenderán

fácilmente si se considera brevemente el procedimiento que se sigue habitualmente en cualquier
investigación.
Cuando intentamos realizar un estudio, comenzamos por hacer un planteamiento del problema en
el cual estamos interesados. Consideramos su naturaleza e importancia y a grandes rasgos
decidimos sobre los objetivos que perseguiremos en su realización.
Luego tratamos de documentarnos convenientemente sobre dicho problema, haciendo una

búsqueda y evaluación de la información existente, lo que nos llevara a su mejor conocimiento, nos
enseñara nuevas técnicas y complementara nuestra previa experiencia, pero a la vez nos pondrá
presente a un conjunto de fallas en nuestros conocimientos que conducirá a la formulación de
hipótesis que pueden explicarlas. El paso siguiente es lógicamente la verificación de las hipótesis
mediante la planificación y ejecución de la respectiva investigación, sobre la base de la cual
podremos formular una serie de Conclusiones y Recomendaciones.
Las anteriores consideraciones nos permiten esquematizar la planificación en los siguientes 5

pasos (45):
1. Planteamiento del Problema.

2. Búsqueda y Evaluación de la información existente.
3. Formulación de hipótesis.
4. Verificación de las Hipótesis.
5. Conclusiones y Recomendaciones.
El estudio de alguno de estos puntos no es en realidad un problema estadístico, pero se detallaran
a continuación, ya que su conocimiento y ordenada aplicación constituyen un método ideal de
trabajo para cualquier investigador.
3.3. Primer paso: Planteamiento del problema.
Al plantear el problema que se va a investigar, debe darse especial consideración a los siguientes
puntos:
a) Definición de la naturaleza e importancia del problema que se estudia.

b) Determinación del objetivo final y de los objetivos inmediatos de la investigación.
3.3.1. Naturaleza e Importancia del Problema.
Definir la naturaleza del problema que se estudia es explicar QUE vamos a estudiar. Es obvio que
será imposible la planificación de las etapas posteriores si antes no se ha determinado claramente
el problema que se trata de investigar. No basta por ejemplo, decir que se va estudiar la Fiebre
Tifoidea, pues probablemente ningún investigador este en capacidad de cubrir todos los aspectos
de esta enfermedad. Debe acentuarse explícitamente se vamos a evaluar una técnica diagnóstica,
un nuevo tratamiento o algunos de sus aspectos epidemiológicos.
Definir la importancia del problema es cuantificar su extensión y equivale a explicar POR QUE se
va a estudiar. Un investigador puede abocarse al estudio de un problema por razones éticas.
Estéticas o metafísicas, pero la mayoría de las veces, es el deseo utilitarista el que lo guía.
3.3.2. Determinación de Objetivos.
Determinar el objeto final, significa dilucidar las posibilidades de aplicación práctica de la

investigación, es decir, explicar PARA QUE se realice. De acuerdo a la finalidad de estudio, se
decidirá sobre los datos que deben investigarse y sobre la precisión con que deben recogerse y se
orientara el análisis en tal forma que se obtengan respuestas a las preguntas previamente
formuladas.
Determinar los objetivos inmediatos es explicar COMO se va a hacer la investigación, es decir,

señalar la estrategia que se utilizara en los procedimientos generales que se usara en el desarrollo
de la misma.
3.4. Segundo Paso: Búsqueda y evaluación de la información existente.
Antes de proceder el estudio, el investigador debe revisar, en cuanto sea posible, lo que al
respecto se haya hecho, con el fin de percatarse de lo que realmente se conoce sobre el y
familiarizarse con las técnicas de estudio más convenientes para su propósito, pues solo en esa
forma tendrá posibilidades de investigar con éxito lo que se propone.
No basta sin embargo, conocer todo sobre determinado tópico se haya escrito, sino que debe
hacerse una cuidadosa revisión de tales publicaciones.
Debe en primer lugar, hacerse una búsqueda tan completa como sea posible haciendo uso de
todos los medios bibliográficos al alcance.
Luego, el material disponible se clasificara para su lectura por tópicos y de acuerdo a la

investigación que se realice.
La evaluación tiene dos partes: a) Evaluación de los trabajos individuales y b) Evaluación conjunta
del material estudiado.
3.4.1. Evaluación de Trabajos Individuales.
Para la evaluación de los diferentes trabajos, no pueden darse reglas fijas, sobre todo que ella
depende en gran parte de la preparación de la persona que evalúa, pero quizás es de mucha
utilidad, tratar de dar respuestas a las siguientes preguntas propuestas por Donald Mainland (23).
¿QUIÉN hizo el estudio?

¿POR QUÉ lo hizo, o sea, ¿cuáles fueron sus propósitos y objetivos?
¿CUÁL fue el material estudiado?
¿DONDE se hizo el estudio?
¿CUANDO se hizo?
¿COMO fue realizado?
¿CUANTOS individuos estudiaron?
¿QUE conclusiones se obtuvieron?
Debe darse especial importancia, en primer lugar, a la manera como fueron recogidos los datos,
pues los procedimientos y métodos empleados en la recolección, servirán de guía para juzgar
sobre su precisión y limitaciones. En segundo lugar es preciso analizar cuidadosamente si las
conclusiones fueron legítimamente derivadas del material estudiado si fue correctamente la
interpretación de las asociaciones encontradas, pues hay muchos trabajos que a pesar de que
fueron cuidadosamente planificados y convenientemente realizados, han sido analizados
defectuosamente llegándose a conclusiones equivocadas.
3.4.2. Evaluación Global del material estudiado.
La anterior evaluación nos permitirá destacar como inadecuados muchos de los trabajos
evaluados, a la vez el de aceptar como correctas algunas conclusiones. Estas conclusiones deben
analizarse ahora en su conjunto para ver si son consistentes entre sí o si existen algunas que son
contradictorias. Justamente, la presencia de tales contradicciones revela tópicos que deben
investigarse y guía al investigador hacia la Formulación de hipótesis que deben verificarse,
mientras que conclusiones unánimes sobre el mismo problema, quizás nos lleven a abandonar o
modificar nuestro primitivo plan de trabajo ya que por lo general no vale la pena duplicar un trabajo
ya hecho.
3.5 Tercer paso: Formulación de la Hipótesis.
En toda investigación (salvo aquellas esencialmente descriptivas) implícita o explícita, se trata de

probar una hipótesis de trabajo. “La hipótesis es simplemente una explicación provisional de los
hechos, que se anticipa con el fin de constatar que es cierta”.
Ella permite centrar la observación sobre aquellos fenómenos que guardan relación con el
problema que se estudia evitando que muchos hechos importantes pasen inadvertidos o que el
investigador se pierda en un cúmulo de observaciones inconexas.
La escogencias de la hipótesis que va a verificarse dependerá de la síntesis del investigador, de

las necesidades existentes del personal y recursos con que cuenta, pero su formulación debe
hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerá de la
hipótesis que se trata de probar.
3.6 Cuarto paso: Verificación de la Hipótesis.
La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se

consideran dos aspectos: a) el diseño de la investigación y b) la ejecución de la misma.
3.6.1. Diseño de la Investigación.

Al diseñar la investigación se debe estudiar por adelantado cada una de sus diferentes etapas, es
decir, todos los detalles relacionados con la recolección, elaboración y análisis de los datos. Es
necesario determinar de antemano todo lo concerniente a las observaciones que se harán, al
número de individuos que se estudiará y el procedimiento a utilizar en su escogencia, investigando
cuidadosamente si existen factores éticos que pueden oponerse a la realización del estudio en la
forma proyectada. Se considerara la época en la que se hará el estudio, el tiempo que durara, los
gastos que determinara. Se hará la seleccio9n y entrenamiento del personal que va a colaborar y
si es el caso, se buscara el asesoramiento de un estadístico que aconseje sobre el diseño del
experimento proyectado.
Es necesario definir los términos que se usaran en la investigación, pues frecuentemente

aparentes resultados contradictorios sobre el mismo problema, se deben al uso de los mismos
términos, con significados diferentes. Así por ejemplo, la población urbana de Venezuela fue
respectivamente de un 30% y 54% según los censos de 1941 y 1950. Aun cuando el país tiende a
un urbanismo progresivo, parte de la diferencia anterior se debe al distinto significado que se ha
dado al termino urbano, pues en el primer censo se consideró como población urbana las
localidades de 2500 o más habitantes, y en el segundo, las localidades de 1000 o más habitantes,
es decir, que en todas las poblaciones entre 1000 y 2500 habitantes que no se consideraban como
urbanos en 1941, si se consideraron como tales en el censo de 1950.
Es importante sobre todo:
a. Definir la unidad que se observa, con el fin de incluir a la totalidad de los individuos que
presentan las características que se estudian y excluir a aquellos que no las presentan;
b. Definir lo que se va a observar para que todos los individuos sean uniformemente estudiados.
Así por ejemplo, si vamos a estudiar un número determinado de familias debe especificarse
claramente quienes deben considerarse formando parte de ellas. Para un estudio sanitario deben
incluirse todas las personas que vivan bajo un mismo techo aunque no tengan ningún parentesco,
pues todas ellas participan de las mismas condiciones sanitarias, las cuales modifican con su
presencia. En cambio para un estudio que tuviera por finalidad investigar la transmisión hereditaria
de cualquier característica biológica, la familia incluirá solamente a personas con lasos
consanguíneos, sin tomar en cuenta a los demás, aunque vivan bajo el mismo techo y aunque
haya de por medio cualquier otro tipo de vínculo familiares o legales.
Las definiciones que se adopten deben ser claras y precisas para evitar ambigüedades y con el fin
de facilitar las comparaciones entre los diversos investigadores, deben escogerse cuando existen
aquellas de aceptación universal.
Finalmente debe hacerse un balance entre los recursos que se tienen y los que se necesitan para
ejecutar la investigación conforme se ha planificado. Tal balance puede mostrar que los recursos
con que se cuestan son suficientes o que no lo son. En el primer caso podrá proseguirse con la
investigación pero en el segundo, habrá que decidirse por una de las siguientes alternativas 1)
Aumentar –cuando ello sea posible-la cantidad o el rendimiento de los recursos que se poseen
hasta el nivel necesario; 2) Planificar de nuevo la investigación de manera que pueda ejecutarse
con los recursos existentes y 3) Diferir la investigación hasta tanto se pueda conseguir los
recursos adicionales que se necesitan.
3.6.2. Ejecución de la Investigación.
La ejecución de la investigación es la: Recolección, Elaboración y análisis de la información

recogida, etapas que deben realizarse tal como han sido planeadas de antemano y cuyos detalles
serán motivos de estudio a lo largo de este curso.
3.7. Quinto paso: Conclusiones y Recomendaciones.
Ejecutado el estudio se considera si fue realizado conforme estaba planificado y con los resultados
a la vista se concluirá si la hipótesis han sido verificadas o no haciéndose las recomendaciones
pertinentes.
No es de esperarse que todas las veces se verifiquen las hipótesis, pero aun cuando ello no se
logre, el esfuerzo no ha sido en vano. En medicina experimental sobre todo, tan importante como
probar que un tratamiento es bueno, puede ser demostrar que una droga que sé venía aplicando
de rutina, no tiene ningún valor. Muchas drogas que por años se consideraron excelentes se han
abandonado luego por ineficaces o perjudiciales. Muchos males se hubieran evitado si antes de su
aplicación se hubiera exigido mayor evidencia sobre sus virtudes.
CAPITULO IV
LA ETAPA DE RECOLECCION DE LA INFORMACIÓN

PASOS EN LA RECOLECCION DE LA INFORMACIÓN
Esta etapa tan a menudo olvidada, tiene para el investigador mucha más importancia que cualquier
otra. Mientras que la elaboración y el resumen de los datos recogidos pueden ser delegados en un
componente técnico estadístico, la recolección de la información tiene que ser vigilada
constantemente por el propio investigador y realizada conforme a los planes previamente trazados.
Como ya se ha advertido, solo si la información ha sido recogida de la manera correcta, podrán
tener validez las conclusiones que de ella deriven. En el caso contrario, no se justifica siquiera el
empleo de las Estadística, ya que ninguna técnica podrá corregir los errores presentes en los datos
básicos recogidos.
La decisión sobre los datos que van a recogerse y sobre la precisión con la que deben ser
obtenidos depende primordialmente del propósito de la investigación y del material estudiado,
siendo conveniente limitarse a recoger tan solo0 aquella información que va a ser utilizada pues el
deseo de investigar muchos datos, en la esperanza de que algún día serán de utilidad, conspira
contra la correcta obtención de aquellos que son realmente esenciales.
Entre los principales puntos que deben considerarse al recoger la información y que serán motivo
de los próximos capítulos figuran:
a. Los errores que pueden cometerse en la recolección de los datos y la manera de controlarlos.
b. Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la
información.
c. Las condiciones que deben reunir los individuos que se estudian y los procedimientos más
convenientes para su elección.
d. El diseño de los formularios que servirán para registrar la información que se recoja.
CAPITULO V
LOS ERRORES EN LAS OBSERVACIONES

5.1 Generalidades.
Los integrantes de toda población, a la vez que poseen características que le son comunes
presentan algunas diferencias que sirven para individualizarlos. Es justamente por la existencia de
tales diferencias que se justifica el empleo de la Estadística, pues si todos los individuos de
determinada población fueran exactamente iguales, bastaría describir uno de ellos, para tener una
descripción acertada del conjunto.
A lado de esta variación real, inherente a los individuos que se estudian, hay que considerar una
variación sobreentendida o espuria que solo es en realidad, errores determinados por los factores
que intervienen en toda observación, es decir dependientes de:
1. El observador:
2. El método de observación, y
3. El objeto o individuo observado.
La presencia de tales errores determina por lo tanto que ninguna medición sea absolutamente
exacta. Esto debe tenerse en cuenta cuando se comparan dos o más observaciones, con el fin de
no dar mayor importancia a la existencia de pequeñas diferencias, las cuales pueden deberse
simplemente al proceso de medición utilizada. Así por ejemplo, si un paciente mostró en un primer
examen sanguíneo que tenía 4’000,000 de glóbulos rojos por milímetro cúbico y luego, tras un
tratamiento con drogas anti-anémicas, un segundo contare señala 4’200,000, debemos considerar
que parte de esta diferencia se debe a errores del análisis, antes de que podamos alegrarnos por
el éxito del tratamiento. Por lo tanto, solo en la medida en que tales errores pueden controlarse,
podrán conocerse la verdadera variabilidad que intentamos medir.
5.2 Errores dependientes del observador
El grado diferente de preparación o entrenamiento de los observadores, su estado físico, el exceso

de trabajo, las condiciones ambientales bajo las cuales trabajan, se reconocen como las
principales causas de error de las observaciones. Con el fin de ilustrar este tipo de error,
considérese la siguiente experiencia realizada hace algún tiempo en los Estados Unidos.
A un grupo de cinco expertos radiólogos se entregaron en dos oportunidades diferentes-separadas

una de otra por el lapso de dos meses-, las mismas 1256 radiografías de tórax, con el fin de
diagnosticar la existencia de tuberculosis pulmonar. Las radiografías, de tamaño estándar (14 x 17
pulgadas), fueron leídas separadamente por cada radiólogo con los siguientes resultados:
Cuadro 26
Resultados de la lectura de las mismas 1256 radiografías torácicas realizadas por

Los cinco radiólogos diferentes en dos oportunidades distintas.
Numero de Radiografías declaradas positivas

Observador
Primera Lectura Segunda Lectura
A 118 139
B 59 78
C 83 88
D 96 69
E 106 88
Fuente: Bikelo y colaboradores / A.M.A. Vol. 133 Pág.359 Febrero 1947.
Puede observarse en el cuadro que antecede, que en ninguna de las dos ocasiones las diferentes
observaciones coincidieron en él número de radiografías patológicas (variación Inter.-
observadoras) y que para un mismo observador las lecturas dadas como patológicas son
diferentes en las dos oportunidades (variación intra-observadores). Como en una y otra ocasión los
diversos investigadores estudiaron exactamente las mismas 1256 radiografías, debemos concluir
que tales discordancias no reflejan una variación real, sino simplemente, errores cometidos por
quienes hicieron la lectura del material radiográfico.
5.3 Errores dependientes del método de observación.
Todos los métodos de observación tienen errores más o menos importantes y de ahí la continua
preocupación científica de mejorarlos o cambiarlos por otros más convenientes.
Al estudiar las condiciones pulmonares de un paciente puede utilizarse la fluoroscopia y la

fluorofotografía de Abreu o la radiografía corriente de 14 x 17 pulgadas, pero la eficiencia de estos
métodos es muy diferente, como se observa en el siguiente cuadro:
Cuadro 27
Eficiencia de diversos métodos en él diagnóstico de la Tuberculosis Pulmonar
Método Eficiencia
Radioscopia 70%
Fluorofotografía de Abreu 90%
Radiografía estándar 95%
El cuadro muestra una marcada variación entre los diferentes métodos, siendo la radioscopia el
menos conveniente (variación Inter.-métodos). Se reconoce además, que para cada método en
particular hay una serie de factores que pueden conducir a falsear los resultados. Así por ejemplo,
una baja del voltaje de la corriente eléctrica o una pérdida de potencia de los líquidos reveladores
pueden dar radiografías de mala calidad que causan errores en su lectura (variación intra-
métodos).
5.4 Errores dependientes de los individuos observados.
Fuera de la variabilidad real que presentan los individuos que se observan, hay también una
variabilidad sobreañadida dependiente de ellos mismos, debido a las condiciones y al tiempo en
que se estudian.
La glicemia normal de varis individuos puede ser diferente por el solo hecho de que la sangre sea
tomada a intervalos diferentes después de la comida o porque algunos pacientes hayan ingerido
muchos hidrocarbonados y otros no (variación Inter.-individual).
Se comprende además, que para un mismo individuo, los factores acabados de mencionar harán
variar los resultados de una ocasión a otra (variación intra-individual).
5.5 Relaciones entre las diversas fuentes de error.
A pesar de la clara distinción que hemos hecho entre las anteriores fuentes de error, no debe
pensarse que ellos son completamente independientes. Si se recapacita sobre el ejemplo dado
para ilustrar los errores dependientes del observador, puede admitirse que ellos dependen en gran
parte del método de observación utilizado, pues no se escapa que mientras más perfecto sea éste,
menores serán los errores cometidos. Si el método fuera tan perfecto, que al colocar una
radiografía en una pantalla se encendiera una luz cuando existiera una lesión, sólo una persona
ciega o que estuviera distraída, fallaría en el diagnóstico.
De la misma manera, muchos de los errores dependientes de los individuos que se observan,
pueden atribuirse a condiciones relacionadas con el método de investigación y de ahí la necesidad
de estudiar a los diferentes individuos en condiciones tan similares como sea posible.
5.6 Control de errores en las observaciones.
Cualquiera que sea la causa de los errores anteriores, su control puede hacerse por reducción o
medición. Reducirlos primero hasta donde sea posible; medirlos luego, cuando ya no puedan
reducirse.
5.6.1. Reducción de los errores.
La reducción de los errores se logrará de acuerdo a las causas que los determinan. Aquellos
dependientes de los observadores, pueden reducirse aumentando la preparación y entrenamiento
de los observadores, vigilando sus condiciones físicas y poniéndolos en las más optimas
condiciones de trabajo. Para disminuir los errores causados por el método de observación, se
procurará seleccionar las mejores técnicas conocidas, estandarizar los métodos a emplear y
controlar constantemente el funcionamiento de los aparatos utilizados. Se procurará finalmente,
que los individuos estudiados se investiguen en las más favorables y similares circunstancias con
el fin de disminuir los errores que de ellos puedan depender.
5.6.2. Medición de los errores.
Al hablar de la medición de los errores, nos referiremos al progreso de la evaluación de las

diferentes técnicas y métodos de estudio.
Aunque algunos de los errores cometidos se deben a la técnica en sí, y otros a los observadores
que la utilizan, su separación es difícil y conviene considerarlos en conjunto. Cada investigador
debiera estimar los errores que comente en el trabajo habitual con las técnicas e instrumentos de
rutina y cada técnica debiera valorarse convenientemente, investigando los márgenes de error a
que pueda conducir su aplicación. Los procedimientos para tal evaluación ya implican un proceso
estadístico, cuyos fundamentos sólo se comprenderán en próximos capítulos, pero cuya utilidad
ilustran los siguientes ejemplos:
a. Si mediante todos los medios diagnósticos al alcance llegamos a la conclusión que en un

grupo de personas hay 100 enfermos con lesiones pulmonares de tuberculosis y si mediante la
radioscopia pulmonar descubrimos solamente 70, podremos concluir que la eficiencia de tal
método es alrededor del 70%. Por lo tanto, si al practicar una radioscopia declaramos que
determinado individuo no presenta tuberculosis pulmonar, es posible que una lesión mínima se nos
haya escapado, ya que el método no es efectivo en el 100% de los casos.
b. La mayoría de las veces, sin embargo, los errores que se comenten al realizar determinada
medición se hacen unas veces por exceso y otras por defecto. El siguiente sencillo experimento,
frecuentemente utilizado por los profesores de estadística, pone de presente la anterior afirmación.
Si se traza una línea en el tablero y se pide a un grupo de estudiantes que estimen a simple vista
su longitud, se constata que aproximadamente la mitad de los alumnos sobreestiman su valor,
mientras que la otra mitad da valores inferiores a las reales. Se constata además, que casi
invariablemente la verdadera longitud de la línea se encuentra aproximadamente a mitad del
intervalo determinado por el mayor y la menor de las estimaciones hechas.
Sobre la base de la anterior observación, no es difícil comprender que si un laboratorista quisiera

por ejemplo, conocer la precisión de los exámenes hematológicos que realiza, podría hacer
digamos, 20 preparaciones de una misma sangre y en cada una practicar el recuento de glóbulos
rojos. Si los resultados encontrados varían entre 4.600.000 y 5.000.000. En tal caso y volviendo al
ejemplo dado anteriormente, en el cual un paciente tenía originalmente 4.000.000 de glóbulos y
después de un tratamiento anti-anémico registraba 4.200.000, puede admitirse que la primera cifra
pudo ser 3.800.000 ó 4.200.000 y la segunda 4.000.000 ó 4.400.000, es decir, que no hay
evidencia definitiva a favor del mejoramiento del paciente.
CAPITULO VI
METODOS DE RECOLECCION DE LA INFORMACIÓN

6.1. Generalidades
Aunque en la mayoría de las investigaciones la información debe recogerse directamente de su

fuente de origen, en muchas ocasiones suelen aprovecharse los datos previamente recogidos por
otros individuos. En el primer caso se considera que la información ha sido recogida de fuentes
primarias y se habla de fuentes secundarias de recolección en el segundo caso.
6.1.1. Fuentes primarias de recolección.
Cuando la información no está registrada, habrá que recogerla directamente de su fuente de

origen, es decir, de los individuos en donde puede suceder el fenómeno o encontrarse la
característica en que estamos interesados. En tales ocasiones, sólo hay 2 procedimientos para
recolectar la información:
a. La observación.
b. El interrogatorio.
Aunque la observación y el interrogatorio son los 2 únicos procedimientos generales que permiten
recoger información a partir de su fuente de producción, ellos, aislada y conjuntamente, forman
1
parte de métodos especiales que luego se estudiarán ( )
Cuando la información que nos interesa se encuentra registrada, como corresponde tan solo,
buscarla y hacer buen uso de ella. A veces se halla publicada en textos o revistas y entonces es
fácil encontrarla en cualquier buena biblioteca. Si por el contrario no está publicada, su obtención
suele dificultarse a causa del carácter confidencial con que ha sido recogida, aunque resúmenes
adecuados son generalmente fáciles de conseguir.
De existir varias fuentes con la misma información, la escogencia una con preferencia a las otras
debe basarse en 2 criterios:
a. Calidad de la información, y;
b. Accesibilidad administrativa.
Aunque es obvio que entre diversas fuentes debe preferirse la de mejor calidad, muchas veces no
hay lugar a tal escogencia, pues por razones administrativas o de otra índole, puede suceder que
no se tenga acceso a alguna de ellas. Antes de conformarse con aprovechar la única disponible,
debe evaluarse adecuadamente el material suministrado para constatar si reúne las necesarias
condiciones de fidelidad y exactitud.
6.2. La Observación.
La observación directa de los diferentes fenómenos ha sido el método clásico de la investigación

científica y cuando es aplicable debiera ser el preferible, por ser el más objetivo. Sin embargo,
este método es caro, pues requiere personal altamente especializado y no es conveniente cuando
se estudian grandes masas humanas. Por otra parte, no puede aplicarse cuando se trata de
1
En un sentido general “observar significa ganar conocimientos por cualquiera de los órganos de los sentidos, y por lo
tanto, el interrogatorio sería simplemente uno de los procedimientos de realizar observaciones, no habiendo razón de
contrastar sus versiones y desventajas con las de la Observación, de la cual formaría parte. Los dos términos sin embargo
sugieren procedimientos perfectamente diferenciables, mientras que en el interrogatorio hay participación activa del
individuo que se estudia, en la Observación hay pasividad por parte de éste, a pesar de que en ciertas oportunidades se
provocan sus reacciones. Los próximos párrafos no dejan ninguna duda sobre el significado que se ha querido dar a estos
dos términos.
investigar las manifestaciones subjetivas de los individuos, su comportamiento pasado o sus
actitudes futuras. Si en el estudio de un paciente se desea averiguar si tiene buen apetito o
conocer qué enfermedad ha padecido anteriormente o a cuáles actividades se dedicará una vez
mejorado, en tales casos tendremos que recurrir al interrogatorio.
6.3. El Interrogatorio.
Las ventajas del interrogatorio no son otras que las limitaciones señaladas en la observación
directa, siendo por lo tanto el único método a emplear cuando se averigua el pasado, el futuro o las
manifestaciones subjetivas de los individuos. Tiene como desventajas, el apelar a la memoria y a la
buena fe de los interrogados y dar diferentes resultados según el tipo de preguntas y la manera
como son formuladas.
El que un paciente registre entre sus antecedentes, el haber padecido determinada enfermedad,
depende de que guarde memoria del tal acontecimiento y de que tenga voluntad de confesarlo,
sobre lo cual influye desde luego, la claridad con que se haga el interrogatorio.
Al interrogar a una persona, las preguntas que se le formulan deben ser concisas y claras, evitando
aquellas ambiguas o capciosas y las que presuponen un hecho o sugieren una respuesta.
Si se está interesado por ejemplo, en saber si un paciente consume vitaminas, lo lógico es

preguntarle primero si las toma o no y luego en caso afirmativo, averiguar la frecuencia con que lo
hace. Conformarse con preguntar si se toman vitaminas, no es suficiente, pues una respuesta
afirmativa puede decir que se toman diariamente o una vez por semana o sólo ocasionalmente.
Además siempre se procurará evitar aquellas preguntas que sugieren la respuesta. Si a una
madre se le pregunta con cierto énfasis: ¿Usted le da a su niño vitaminas, no es verdad?, sería
raro que ella respondiera que no.
El interrogatorio puede ser directo o indirecto.
El interrogatorio directo es aquel que se hace por medio de entrevistas y su ventaja principal es
que puede complementarse con la observación directa. A un paciente puede preguntársele si ha
tenido viruela y si contesta afirmativamente, puede constatarse su respuesta buscando las
cicatrices indelebles que deja la enfermedad. En encuestas sociales es posible que la
personalidad, clase social, la inflexión de la voz y la manera de preguntar del entrevistador, hagan
varia las posibles respuestas.
El interrogatorio indirecto habitualmente se hace mediante los cuestionarios postales. En general,

es un método más barato y rápido, aunque sólo es posible para preguntas sencillas. Como
inconveniente se señala el hecho de que generalmente es muy pequeño el número de personas
que envían contestación, especialmente en poblaciones con alto personaje de analfabetismo y en
tales casos, es posible que las personas que consten no representan a la totalidad de la población
que se quiere conocer:
6.4. Principales métodos de recolección.
La escogencia del método de recolección depende fundamentalmente del método de estudio, de la

naturaleza de la información y de la forma en que esta se recoja (ocasional, periódica o
continuamente). Entre estos métodos, cuyos detalles se verán posteriormente se escribirán a
continuación:
a. Las encuestas y los experimentos, como ejemplos de métodos utilizados cuando la información
se recoge ocasionalmente.
b. El método censal, como tipo de información recogida periódicamente
c. El sistema de registros, como tipo de información recogida continuamente.
6.4.1. Encuestas y experimentos
Generalmente se piensa que encuestas y experimentos difieren porque en las primeras la

información se recoge mediante el interrogatorio y en los segundos, mediante la observación.
La verdadera diferencia estriba sin embargo, en la naturaleza de los datos recogidos. En la
encuesta, los datos ya existen y solo es necesario recogerlos. En el experimento los datos no
existen y es necesario provocar su aparición.
Cuando una nueva droga se introduce o un nuevo tratamiento se recomienda, no hay al respecto
ninguna información registrada, simplemente porque no hay ninguna información existente. En
dichos casos, es necesario planificar un estudio con el fin de producir dicha información y luego
registrarla para subsiguientemente analizarla. En otras palabras, es necesario realizar un
EXPERIMENTO. En tales ocasiones la observación directa es el método habitual de recoger la
información, pero el interrogatorio puede ser también utilizado, como a menudo se hace en algunos
estudios de Sociología.
Hay otras ocasiones en que ya existe la información sobre la cual estamos interesados, pero no se
halla registrada. En dicho caso solo tenemos que buscarla y registrarla convenientemente para su
análisis posterior. Si queremos, por ejemplo, saber con que frecuencia se presentan quemaduras
en los trabajadores del petróleo o cual es el sueldo medio de los profesionales de la medicina,
nuestro trabajo consistirá solamente en buscar y registrar tal información. En dicho casos, la
técnica consiste en hacer una ENCUESTA en el grupo de personas en el que estamos
interesados. Tal encuesta puede hacerse por entrevistas personales o por medio de cuestionarios
postales, adoptando de acuerdo a los propósitos del estudio, uno cualquiera de los sistemas que
se describirán en el capítulo sobre Estadísticas de Morbilidad (Capitulo XXXII).
6.4.2. Censo de Población
El tipo de información recogida periódicamente en el Censo de Población. Venezuela, como casi

todos los países del mundo, se ha comprometido a efectuar un censo cada 10 años, habiéndose
efectuado el último el 26 de Febrero de 1961.
A menudo se cree que el Censo y la Encuesta difieren en cuanto a la población que cubren, pues
mientras que el primero se referiría a la totalidad del universo, la segunda solo estudiaría una
muestra de dicha población. Tal concepto es erróneo pues tanto el uno como la otra pueden cubrir
a toda la población o solo a un segmento de ella. La diferencia esencial radica en la naturaleza de
la información que se busca. En el Censo habitualmente se buscan datos generales de la
población. En la encuesta, por el contrario, se trata de lograr información sobre un tema concreto,
procurando profundizar en sus diferentes aspectos.
El censo cuyos detalles se estudiaran en el capítulo XXIX, puede compararse con una fotografía de
la nación en un momento determinado de su historia, siendo el medio mas seguro para conocer la
composición y principales características de las poblaciones humanas.
6.4.3. Sistemas de Registro
Mediante los registros se recoge la información continuamente, a medida que se va produciendo.

Los detalles por ellos suministrados son datos dinámicos, y de ahí que puedan que puedan
compararse con una cinta cinematográfica de la población, mediante el cual pueden compararse
los cambios que acontecen en ella.
Esta información se refiere unas veces a la totalidad de determinada población o país, como es el
caso del Registro Civil de Nacimientos y Defunciones, y otra a fenómenos que suceden en
determinada institución, como es el caso de las Historias Clínicas de los Hospitales. Los principios
generales sobre la organización de estos sistemas de registro, se estudiaran a propósito de las
Estadísticas Vitales.
CAPITULO VII
LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR

7.1 Generalidades.
Ya dijimos que cuando la información no está registrada, habrá que recogerla directamente de su
fuente de origen, es decir, de las personas en donde el fenómeno que nos interesa puede
acontecer. El problema que se presenta en tales ocasiones, es la acertada escogencia de las
personas que vamos a estudiar.
Este problema se presenta, porque muchas veces resulta imposible y otras impráctico estudiar la
totalidad de personas en donde puede encontrarse la característica en la que estamos interesados
y en tales casos, nuestro estudio tiene que limitarse a un grupo de dichos individuos, es decir, a
una muestra. No hay que olvidar, sin embargo, que aunque es la muestra la que observamos, es el
universo lo que queremos conocer, pues el estudio no tendría ninguna trascendencia sino
pudiéramos generalizar a la población los hechos observados en la muestra. Sin embargo, para
que esta generalización sea posible, los individuos integrantes de la muestra deben ser escogido
adecuadamente, y esto plantea una serie de dificultades que trataremos de estudiar en las
próximas páginas.
7.2. Universo (Población) y muestras.
Se entiende por universo o población la totalidad de individuos o elementos en los cuales puede
presentarse determinada característica susceptible de ser estudiada. Una muestra a su vez, es
una parte o grupo del universo. Así por ejemplo, si con el fin de conocer la estatura media de los
1500 alumnos de la Escuela de Medicina escogemos un grupo representativo de 200 de ellos, el
universo en estudio estará formado por la totalidad de los 1500 alumnos, y la muestra constara de
los 200 escogidos.
Las anteriores definiciones ameritan algunas explicaciones. En primer lugar, las unidades que se
estudian pueden ser personas, animales o cosas o pueden ser conglomerados de unidades, como
ser una familia, una colonia de parásitos o un bloque de viviendas. En segundo lugar, los términos
universo y muestra son conceptos relativos, pues un conjunto de individuos puede ser considerado
como un universo para ciertos estudios o como una muestra para otros. Así por ejemplo, los
alumnos de la Universidad Central constituyen una muestra con respecto a la totalidad de los
universitarios del país, pero constituyen el universo para dicha universidad en particular.
Los universos pueden ser finitos e infinitos. El universo se denomina finito, cuando está formado
por un número limitado de unidades, como ser el número de alumnos de la Universidad, de
médicos en Venezuela, etc. Se denomina infinito, cuando cuenta con un número limitado de
unidades. El número de estrellas en el ciclo, son universos infinitos que nunca podrían ser
cuantificados. En ocasiones, el universo que se estudia puede ser hipotético y entonces se le
considera como infinito. Así por ejemplo, si con el fin de ensayar una nueva droga contra la Fiebre
Tifoidea se la prueba en una muestra de 20 enfermos. El universo correspondiente, estará
constituido por todos los pacientes que actualmente tienen la enfermedad y por todas las personas
que alguna vez puedan adquirirla. Igualmente si a determinado individuo se le mide la tensión
arterial en tres oportunidades diferentes esas tres mediciones constituyen el universo de infinitas
mediciones que en dicho individuo pueden practicarse.
7.3. Ventajas del empleo de muestras.
Hay varias razones por las cuales el estudio de una muestra es preferible al de la totalidad del
universo.
Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de
universos infinitos o de universos limitados pero muy extensos, pues ningún investigador sería
capaz de tratarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales
el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba
la acción de ciertos casos en animales de experimentación.
Pero aun en el caso en que se quiera estudiar un universo perfectamente limitado, debemos
decidirnos por la muestra, pues su utilización tiene las siguientes ventajas:
1. Ahorra tiempo, dinero y trabajo

2. Permite una mayor exactitud en el estudio
El primer punto no necesita mayores comentarios. Si queremos estudiar cualquier característica de

los 20000 estudiantes de nuestra Universidad Central —digamos su metabolismo basal--- y para
ello tenemos una muestra de 2000 alumnos, el tiempo, el dinero y el trabajo serian
aproximadamente una décima parte del que se invertiría en el estudio de toda la población
estudiantil.
En efecto, como será menor el número de investigadores que intervienen en el estudio, será
mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente: como se necesitaran
menos instrumentos de investigación, estos podrán vigilarse y calibrarse más cuidadosamente, y
como serán menos los individuos a estudiar, será posible controlarlos más adecuadamente, de tal
manera que todos ellos estén en la más óptimas condiciones de estudio. Todo lo anterior
disminuirá los errores en las observaciones y por lo tanto, los resultados obtenidos tendrán mayor
exactitud.
7.4. Desventajas del empleo de muestras
Al lado de las ventajas señaladas, la única desventaja del uso de muestras, es el llamado error de
muestreo, el cual sumado a los 3 tipos de errores antes mencionados, podría invalidar nuestro
estudio.
Este error por muestreo es una consecuencia e la variabilidad de las poblaciones. Como los
individuos de toda la población son muy variables los diferentes grupos o muestras que podemos
formar con ellos difieran también unos de otros y como nosotros solamente estudiamos una
muestra para generalizar luego a toda la población, los resultados serán algo distintos según la
muestra que hayamos escogido. Esta diferencia por el valor dado por la muestra y el verdadero
valor del universo, constituye el error por muestreo, a condición desde luego, que en uno y otro
caso se utilicen idénticos métodos de estudio, pues en caso contrario, gran parte de dicha
diferencia pudiera ser debida a errores inherentes a los métodos empleados.
Con el fin de aclarar el anterior concepto, supongamos una población de 4 personas que tuvieran
respectivamente 5, 3, 2 y bolívares. El capital total de esta población es Bs. 20, o sea un promedio
de Bs. 5 por persona (20/4=5). Si no se conociera dicho promedio y para averiguarlo se tomara una
muestra de dos personas digamos las dos primeras (Bs. 5 y Bs. 3), concluiríamos a través de esta
pequeña muestra que el capital promedio de cada persona de la población es Bs. 4 cuando en
realidad vimos que era 5. Esa diferencia de 1 bolívar entre el valor de la muestra y el valor del
universo constituye el error por muestreo.
La presencia del error por muestreo parecía indicar que el estudiar una muestra en vez de la
totalidad del universo, es desfavorable y no ventajoso como hemos indicado. Sin embargo
conviene tener presente, en primer lugar, que el error por muestreo suele ser mucho menos
importante que los errores debidos al observador, al método de observación y a los individuos
estudiados, y en segundo lugar, que el error por muestreo puede medirse estadísticamente y en
cierto modo puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra.
Por lo tanto, como una muestra bien tomada permite el control de los errores debidos al
observador, al método de observación y a los individuos estudiados y, como por otra parte, el error
por muestreo puede medirse y disminuirse, se comprende fácilmente el por que hemos dicho que
los resultados a partir de una muestra, son mucho más exactos que aquellos obtenidos del estudio
de todo el universo.
7.5. Condiciones de una buena muestra.
Por lo dicho anteriormente, se deduce que no todas muestras contienen información acerca de la
población de donde proceden y por consiguiente, la muestra debe ser escogida de tal forma que la
información buscada se encuentre en ella.
Las condiciones que la muestra debe tener para que sea buena, es decir, para que rinda la mayor
utilidad posible, son dos. La muestra debe ser adecuada en:
a. cantidad, y
b. calidad.
7.5.1. Cantidad de individuos en la muestra
El que una muestra sea buena en cantidad, quiere decir que debe incluir un número óptimo y
mínimo de individuos. Hay fórmulas estadísticas que estudiaremos luego, mediante las cuales
podemos determinar el número de individuos que debemos incluir en cada investigación, pero
mientras tanto, las siguientes consideraciones ayudaran a aclarar este punto.
Supongamos una lista de alumnos de los cuales 15 sean hombres y una mujer. Si de esta lista
extraemos el nombre de un alumno y este es un hombre, a nadie se le ocurriría tomar esto como
evidencia para afirmar que todos los alumnos son del sexo masculino. Es evidente que en el
‘’mejor” de los casos, se necesitara extraer cuando menos dos nombres para poder afirmar que
hay hombres y mujeres en el curso, pero podría suceder que los 15 primeros nombres que
extraigamos sean de varones y en este caso extremo, sería necesario ver la totalidad de la lista
para indicar con absoluta seguridad cual es la composición verdadera del curso. De la misma
manera, si entre los 16 alumnos del curso hubiera 4 de cada una de las regiones geográficas del
país, sería imposible afirmar tal hecho, con una muestra que tuviera menos de 4 individuos.
Los ejemplos anteriores aunque aparentemente pueriles, permiten señalar que el número de
individuo que deben incluirse en la muestra, depende de 2 factores, a saber:
La frecuencia con la cual el fenómeno que se estudia se encuentra en el universo, pues es

evidente que si una enfermedad se presenta tan solo en el 1% de la población, habrá necesidad de
estudiar por lo menos 100 casos, para tener la posibilidad de hallar una persona enferma, mientras
que, si su frecuencia fuera del 50%, al menos teóricamente, de cada 2 personas que se estudien
se encontrara una enferma.
La variabilidad del universo que se estudias, pues se comprende que si todos los individuos que lo
forman fueran exactamente iguales, bastaría con estudiar uno solo para conocer todo el universo y
en el caso opuesto, en que todos los individuos fueran completamente diferentes, habría que
estudiarlos en su totalidad.
7.5.2. Calidad de la muestra
El que una muestra sea buena en CALIDAD, quiere decir que debe reflejar fielmente las
características del universo del cual procede y diferir de él, solo en el número de unidades
incluidas.
Los aspectos referentes a la calidad de la muestra, son más importantes que los referentes a su
cantidad y no debe pensarse que la calidad de la muestra depende de su cantidad. Si quisiéramos
estudiar las características del pueblo venezolano, y nos empeñáramos en estudiar solamente a
los habitantes de Caracas, aunque estudiáramos a todos ellos, nuestra muestra no seria todavía
representativa de toso el país.
7.5.3. Muestras representativas y muestras seleccionadas
Lo anterior quiere decir que si queremos generalizar que lo que es cierto en la muestra es cierto
también en todo el universo entonces la muestra debe ser perfectamente representativa de él. Si la
muestra no es representativa de su universo, se dice que es una muestra “seleccionada” y
generalmente no es conveniente trabajar con tales muestras. En el lenguaje corriente se llama
seleccionado algo que es excelente o de óptima calidad. En estadística por el contrario una
muestra seleccionada suele ser mala, ya que por definición, ella no representa su universo. No
quiere esto decir que una muestra seleccionada sea inútil significa tan solo, que es necesario
considerar ciertas limitaciones en las conclusiones que de ello se deriven. Por lo demás una
muestra seleccionada, que no es representativa para determinado problema puede ser
representativa para otro. Así por ejemplo, los estudiantes de la Facultad de Ingeniería forman una
mala muestra para un estudio que tuviera por fin, averiguar la proporción de hombres y mujeres en
la Universidad Central pues pocas mujeres eligen esta carrera, pero formarían una muestra
adecuada, si el problema fuera conocer el porcentaje de católicos en la Universidad, pues
aparentemente no hay ninguna relación entre los sentimientos religiosos y la elección de la carrera
que se estudia.
La selección puede ser voluntaria o involuntaria. En el primer paso el investigador conoce las
limitaciones del material que está estudiando y las conclusiones que deriven deben estar de
acuerdo con ellas. Un investigador, por ejemplo que estudia las variaciones del paso de un grupo
de escolares de 8 años, no podrá generalizar sus hallazgos a escolares de todas las edades sino
exclusivamente al grupo de edad investigado.
El segundo caso es más importante, porque como a menudo se agrupa dicha selección, se
pretenderá generalizar a toda una población conclusiones que no le corresponde. Generalmente
este error se comete por una de las tres causas siguientes:
a. Porque se toma la muestra de solo un sector del universo, creyendo equivocadamente, que
dicho sector constituye todo el universo.
b. Si se quisiera estudiar por ejemplo, el ingreso promedio del obrero venezolano y para ello se
obtuviera una muestra que incluyera solamente a trabajadores del Zulia, el promedio obtenido
no sería válido para toda Venezuela, pues se sabe perfectamente que los salarios en el Zulia
son muchos más altos que en el resto del país, a causa de las explotaciones petroleras. Una
muestra adecuada debería incluir trabajadoras delos diversos estados y territorios de la nación.
c. Como un segundo ejemplo, supongamos que se desea hacer un estudio para averiguar la
letalidad de la fiebre tifoidea, o sea la proporción de enfermos de fiebre tifoidea que fallecen.
Se sabe que la letalidad de la enfermedad varía en las diversas edades y depende del estado
nutritivo del paciente y del momento en que se inicia el tratamiento. Una buena muestra por lo
tanto, debe incluir pacientes de diversas edades, tanto desnutridos como bien nutridos en
diferentes etapas de la enfermedad. Si para dicho estudio se escogiera la muestra en el
Hospital Vargas de Caracas, tal muestro no nos revelaría la verdadera letalidad de la Fiebre
Tifoidea, pues como se sabe, a dicho Hospital solo asisten personas adultas, generalmente
pobres y desnutridos y en estado grave, pues los casos benignos permanecen en sus
domicilios. Las conclusiones derivadas de un estudio como el anterior, podrían generalizarse
solamente a enfermos de condiciones semejantes a los estudiados (adultos, desnutridos, etc.),
pero sería erróneo pretender aplicarlas a otras circunstancias.
d. Porque el método de escogencia de los individuos no es al azar, cual como veremos
enseguida es el único procedimiento que no garantiza una buena escogencia. Tal error se
comete siempre que se trabaja con muestras de conveniencia.
e. Porque una vez obtenida la muestra, existen circunstancias que nos impiden estudiar a, los
individuos escogidos. La muestra puede haber sido escogida de toda la población y por un
procedimiento al azar, con lo cual se elimina las dos causas de error acabadas de estudiar,
pero si no es posible recoger la información de las personas que deben estudiarse, ciertos
segmentos de la población no van a quedar representados, esto sucede por ejemplo, en
encuestas mediante cuestionarios postales, pues en general quienes contestan pueden ser
muy diferentes de quienes no lo hacen.
En Venezuela por ejemplo, una encuesta en tal forma seria contestada solamente por una clase
social relativamente alta, ya que los pobres son generalmente analfabetos.
7.6 Clases de muestras.
Hay dos clases de muestras:
a.- muestras de conveniencia

b.- muestras probabilísticas.
7.6.1. Muestras de conveniencia o propositivas
Entran en esta categoría todas aquellas muestras en las cuales los individuos se escogen sobre la
base de la opinión de un experto por considerarlos representantes típicos del universo que se
quiere conocer.
Si se deseara, por ejemplo, averiguar los porcentajes de hombres y mujeres en la Universidad, en

vez de obtener una muestra de las diferentes facultades que la integran, podríamos limitarnos al
estudio de un grupo de alumnos de aquella Facultad que nos parezca muy representativa con
relación al sexo de sus integrantes. Sin embargo la validez de los resultados obtenidos, dependerá
exclusivamente del acierto que hayamos tenido al seleccionar como típica dicha facultad.
Tal es la desventaja de este tipo de muestras: aun cuando sus resultados son bastantes
fidedignos, estamos en incapacidad de juzgar objetivamente sobre su posición. Hace falta pues un
mecanismo más objetivo de apreciación que ofrezca garantías de probabilidad y que a la vez nos
permita medir la exactitud de los valores encontrados. Esto se logra con las muestras
probabilísticas.
7.6.2. Muestras probabilísticas.
Son aquellas en que cada individuo de la población tiene una posibilidad perfectamente conocida
de ser incluido en la muestra. No es siquiera necesario que los diferentes individuos tengan una
posibilidad de pertenecer a la muestra, basta con que tengan cualquier posibilidad (diferente de
cero) de formar parte de ello y que la posibilidad sea conocida.
La elección de una muestra probabilística requiere dos condiciones fundamentales. En primer lugar
como acaba de mencionarse, es necesario que la probabilidad de elegir cada individuo sea
perfectamente conocida, pues si no lo es, no será posible calcular los errores que pueda
cometerse al hacer su escogencia. Así por ejemplo, muchas muestras de opinión pueden ser
representativas de su universo, pero por no llenar el anterior requisito, estamos en incapacidad de
juzgar objetivamente sobre su representatividad. En segundo lugar, es indispensable que los
individuos se elijan al azar, sin permitir la intervención de ningún factor que favorezca la elección
de unos en detrimento de los otros.
Elegir los individuos al “azar”, no quiere decir elegirlos sin ton ni son, a nuestra voluntad o a
voluntad de otros, quiere decir elegirlos por un método perfectamente estudiado en tal forma que la
voluntad no tenga ninguna participación en dicha elección, tal como se hace en el popular juego de
la lotería o bingo, en el cual la obtención de cualquier número es obra de la suerte. Veremos
enseguida, que solo para aquellos casos en los cuales el azar se utiliza como sistema de elección
de los individuos, ha sido posible determinar y valorar la variación que es dado esperar entre
diversas muestras.
7.7. Demostración práctica.
Antes de segur adelante, conviene recurrir a una de la cualquiera de las demostraciones Ya

clásicas, con el fin de entender la verdadera importancia del azar en la obtención de muestras.
Con el fin vamos a presentar los resultados de una de esas demostraciones obtenidas en el último
curso de médicos higienistas.
La demostración consistió en colocar 500 metras blancas y 500 negras en una caja y después de
mezclarlas cuidadosamente se pidió a los alumnos del curso que secaran, sin ver, muestras de 10
metras.
Cada vez que se extraía una muestra se anotaba él número de metras blancas obtenidas y luego
de retornar las 10 metras a la caja se mezclaban convenientemente antes de obtener otras
muestras. En esta forma se obtuvieron 150 muestras en total, las cuales se presentan en el
próximo cuadro, clasificadas de acuerdo al número de metras blancas.
Antes de comentar los resultados obtenidos, obsérvese que esta demostración no es tan teórica
como parece y que ella es equivalente a muchos problemas prácticos. La caja con 1000 metras
blancas y negras pudiera ser una población de 1000 habitantes, unos sanos y otros enfermos, de
la cual el un primer investigador obtuvo una muestra de 10 individuas con el fin de conocer el
porcentaje de enfermos, luego un segundo investigador hizo lo mismo y así sucesivamente hasta
que 150 personas distintas estudiaron dicha población.
El examen del cuadro 46 revela varios puntos:
a. Hay cierta variación en los resultados obtenidos con las muestras. No todas ellas arrojaron el
mismo resultado.
b. Como fueron los mismos observadores quienes por el mismo método estudiaron el mismo
universo de metras, hay que concluir que la causa de la variación observada fue al azar
c. A pesar del variación presente, puede observarse que no todos los resultados se presentan en
la misma frecuencia. La mayoría de los valores están muy cerca del verdadero valor de la
población estudiada (50%) y los valores muy diferentes al del universo, van siendo mucho más
raros, mientras mucho más se aparten de él. En realidad no hubo ninguna muestra en que no
apareciera por lo menos una metra blanca, o en la cual todas las metras fueran blancas, a
pesar de que en ocasiones puedan presentarse. Los resultados que con mayor frecuencia se
presentaron fueron aquellos vecinos a la verdadera composición del universo de 1000 metras y
de hecho. Hubo 36 muestras en las cuales el porcentaje de metras blancas fue de 50 %, valor
exactamente igual al del universo
d. Puede observarse igualmente que los resultados no son desordenados, sino que presentan
cierta simetría. En efecto, puede notarse que las frecuencias aumentan paulatinamente hasta
llegar a un máximo, para decrecer luego en la misma forma si se unen los vértices de las
barritas que señalan las frecuencias puede observarse que se forma una curva de campana.
Esta curva cuyas características se estudiaran mas tarde, se conoce con el nombre de Curva
de Gauss o Curva normal
Distribución de 150 muestras de 10 metras cada una, de acuerdo al número de metras
blancas obtenidas.
(Metras blancas en el universo: 50 %)
Cuadro 46
Número de muestras
Metras blancas por muestra
obtenidas
0 0
1 3
2 6
3 20
4 30
5 36
6 28
7 18
8 8
9 1
10 0
Total 150
Gráfico 46
40
30
Frecuencia
20
10
0
1 2 3 4 5 6 7 8 9 10 11
Metras blancas por muestra

El hecho de que los resultados dados por el azar sigan una Curva normal es importantísimo, pues
esta Curva es un modelo matemático perfectamente estudiado y por lo tanto, si el azar sigue une
Curva normal, las leyes matemáticas que se apliquen a esta, podrán ser a aquel. La utilidad de
esta conclusión solo será aparente en próximos capítulos, pero la demostración que se acaba de
hacer nos indica que aunque los resultados dados por el azar son muy variables, dicha variación
no es anárquica, sino perfectamente ordenada y perfectamente previsible, y de ahí la confianza
que debemos tener cuando usamos dicho método para escogencia de las muestras.
7.8. Elección entre muestras probabilísticas y de conveniencia
Como se ha visto, la diferencia entre muestras probabilísticas y muestras de conveniencia estriba

en que estas últimas la posibilidad de que un individuo sea incluido en la muestra es desconocida
como siendo imposible medir la exactitud de los resultados obtenidos.
A causa de esto, siempre que sea posible deben utilizarse muestras probabilísticas, a pesar de que
hay ocasiones- ilustradas en los siguientes ejemplos-en las cuales se precisa recurrir a muestras
de conveniencia.
a.- Muchas veces, por limitaciones nuestros recursos tenemos que estudiar un número de
individuos menor que el que fuera deseado y entonces la opinión de un experto puede ser
conveniente. Así por ejemplo, si al ensayar una nueva droga solo se tienen 5 o 6 dosis en vez de
escoger los individuos al azar, pueden seleccionarse solamente casos graves, ya que se presume
que la droga es efectiva en ella con mayor razón lo será en los casos benignos o corrientes de la
enfermedad. Igualmente, si se quiere conocer cualquier característica de una población a través
del estudio de unos pocos individuos se lograra una mayor exactitud, si se aprovecha de la
experiencia que se tiene, para estudiar tan solo a individuos que presenten en promedio la
característica que se investigue.
b.- Otras veces, no se puede obtener una lista completa de la población que se va a estudiar,
siendo por lo tanto imposible aplicar el azar. En tales casos, la selección de los individuos que se
estudian envuelve un proceso de opinión.
Finalmente, hay ocasiones en las cuales el principal interés está en localizar individuos con
determinadas características en una población muy numerosa, digamos los enfermos tuberculosos
de una comunidad en tales casos es preferible concentrarnos en el estudio de aquellos grupos en
los cuales la experiencia señala que hay posibilidades de encontrar a los individuos buscados.
7.9 Métodos para la obtención de una muestra probabilística.
Básicamente son dos los métodos para asegurar escogencia que una buena muestra:
a. El método de la lotería.
b. El método de los números al azar o aleatorio.
El método de la lotería: consiste en colocar en un recipiente fichas con los nombres de todos los
integrantes de la población que se va a estudiar y después de revolverlas bien, se extraerán tantas
fichas como individuos se quieren obtener. Se comprende que la población es muy numerosa este
procedimiento resulta poco práctico y por consiguiente, debe darse preferencia a la que
describiremos a continuación.
Las tablas de números al azar: son tablas con miles de números obtenidos con un procedimiento
como el de la lotería, es decir, por su procedimiento al azar. Algunas de ellas contienen hasta un
millón de dígitos y la que se inserta en la próxima página es solo un modelo obtenido en prácticas
de clase.
Aunque los números están agrupados de 5 x 5, tal distribución se hace simplemente con el fin de
facilitar la lectura, siendo indiferente que esta se realicen hacia abajo, hacia arriba, horizontal o
diagonalmente.
Para utilizar estas palabras se empieza por numerar a los individuos de la población desde el uno
en adelante y luego se extraerán tantos números como individuos vayan a incluirse en la muestra.
La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al azar la columna y la
fila de comienzo, para lo cual es suficiente colocar a siegas un dedo sobre el cuerpo de la tabla y
empezar en ese sitio la lectura.
Supongamos por ejemplo, que de una población de 5000 individuos previamente numerados del 1
al 5000 se desea extraer una muestra de 500. Como él número 5000 consta de 4 dígitos será
necesario utilizar 4 columnas de la tabla sin que tenga importancia cuales sean. Si mediante el
procedimiento mencionado sea decidido comenzar en la columna 7, fila 3, el primer individuo será
él número 01954, el segundo número será 4321. Luego aparecerán los números 9183 y 6956 los
cuales no se tomara en cuenta ya que la población solo consta de 5000 elementos y por lo tanto el
tercer individuo que se escogerá será el 139. Al terminar estas columnas se continuara en la parte
superior de la tabla con los números 2481, 2835, etc. (columnas 1 a 14) hasta que haya sido
obtenida la muestra de 500.
Cuadro 49
Tabla de números al azar
____________________________________________________________
Filas Columnas
____________________________________________________________
1-5 6-10 11-15 16-20 21-25
1 28596 75255 24813 25171 00935

2 95504 73814 28355 99264 20968
3 70426 01954 86694 53918 47721
4 25757 44321 02621 03392 19773
5 00076 39183 92696 62103 88027
6 05428 36956 09005 81983 53470

7 71540 80139 17632 61177 77333
8 66292 79184 81386 82260 29281
9 78168 15727 03388 16789 27661
10 68603 72198 93952 80082 56210
11 42641 60859 17445 45157 00820

12 25205 33559 52323 08309 53669
13 55563 62108 98633 31743 08345
14 11495 13819 86358 59582 87793
15 21729 72882 07456 22912 43280
16 68598 46869 37573 24965 75237

17 76384 54351 43621 64510 90654
18 17648 75770 89043 69826 94302
19 46105 03781 91384 80785 99901
20 81383 22762 60794 63630 30169
21 10395 09373 42604 35861 80689

22 35258 90303 15371 13264 28390
23 75014 35713 15138 81415 78187
24 20562 64270 51580 76136 74954
25 41987 61152 98447 93635 33871
26 15993 08117 66623 83885 12276

27 74230 97335 35355 21799 90234
28 57667 28151 44889 28879 50985
29 40917 21639 65973 30101 75678
30 70585 73790 74377 49114 53839
7.10 Diferentes tipos de muestras probabilísticas
En el terreno práctico, las nociones anteriores suelen combinarse con el fin de lograr mayor
precisión en el muestreo. Entre los numerosos modelos utilizados y que describiremos muy
brevemente están:
a. Muestras por azar simple

b. muestras sistemáticas
c. muestras estratificadas
d. muestras de conglomerados
e. muestras por procedimiento combinado o mixto.
Con el fin de señalar las diferencias, ventajas y desventajas de estos procedimientos, tomemos el
siguiente ejemplo teórico. Supongamos que en cada una de las 4 zonas geográficas del país hay
100 escuelas artesanales con 50 alumnos en cada escuela y que con el fin de estudiar
determinada característica, resolvemos extraer una muestra de 2000 alumnos.
Hay en total 400 escuelas con 20000 alumnos y la elección de los 2000 que vamos a estudiar
podrá hacerse por cualquiera de los siguientes procedimientos.
7.10.1. Muestra por azar simple
A partir de una lista con los nombres de los 20000 estudiantes del país se elegirán los 2000 que
deben estudiarse, por el método de la lotería o con la ayuda de una tabla de números al azar. El
procedimiento tiene tres inconvenientes:
1. Se necesita una lista detallada con todos los alumnos del país, lo cual no es fácil de obtener.
2. La muestra quedara tan dispersa, que probablemente haya necesidad de trasladarse a una
apartada región, para estudiar uno o dos alumnos.
3. No hay garantía de que las 4 regiones estén adecuadamente representadas en la muestra,
pues puede ser posible que mientras de una región se escojan 800 alumnos de otra se
obtengan solamente 100 o 200.
7.10.2. Muestras sistemáticas.
Como son 20000 alumnos de los cuales se estudiaran 2000, esto quiere decir que de cada 10 se
estudiara uno. Para obtener una muestra sistemática, nos procuraremos una lista de tolos alumnos
del país que numeraremos del 1 al 20000. Luego se escogerá al azar un número entre el 1 y el 10,
el cual indicara el primer alumno que se va estudiar y completaremos la muestra tomando de la
lista cada décimo niño. Si él número escogido fue 5, líos alumnos serán los correspondientes a los
números 5, 15, 25, 35, etc.
Cuando la lista está hecha al azar, este procedimiento es equivalente al descrito anteriormente y
presenta sus mismos inconvenientes. Pero dada la sencillez de su aplicación, suele utilizarse en
todos aquellos casos en los cuales existen ficheros o tarjeteros especiales con los nombres de
cada uno de los individuos de la población que se investiga. Así por ejemplo, si en los archivos de
un hospital hay 20000 historias clínicas numeradas del 1 al 20000 y se desea unas muestra de
1000 de ellas (una de cada 20), en vez de tomarnos la molestia de extraer 1000 números de tabla
de dígitos al azar será fácil obtener un número del 1 al 20, digamos el 10, el cual indica la primera
historia que se estudiara continuándose luego con cada 20 historias hasta completar las 1000
deseadas, o sea, que se escogerán las 10, 30, 50, 70, etc.
Sin embargo, si la lista no está hecha al azar, la utilización de muestras sistemáticas puede
conducir a serios errores. Considérese como ejemplo el siguiente caso extremo: 1000 parejas que
van a contraer matrimonio acuden a obtener el correspondiente certificado de salud, cuya copia es
archivada en el mismo orden que se examinaran las personas. Como por galantería la mujer
siempre se examinó de primero como los números impares corresponderán a historias de mujeres
y los pares a historias de hombres. En tales circunstancias, si quisiéramos extraer una muestra
sistemática del 10% de las historias con el fin de conocer por ejemplo, la edad promedio de los
contrayentes y comenzamos digamos en él número 3, todas las historias corresponderían a
mujeres (3, 13, 23, etc.).
7.10.3. Muestras Estratificadas
En este sistema la población se divide primero en “estratos” y luego en cada uno de los estratos
escogen al azar los que compondrán la muestra.
Nuestro ejemplo hipotético, las cuatro zonas del país las consideraremos estratos diferentes de
cada uno de los cuales escogeremos los individuos para completar los 2000 de la muestra. La
escogencia se da con el método de la lotería o mediante una tabla de números al sustrayendo
sucesivamente 500 alumnos de cada uno de las zonas.
Esta al igual que los métodos anteriores requieren una lista detallada de todo los alumnos y a
pesar de que la muestra puede ser demasiado dispersa hay garantía de que las 4 zonas estarán
adecuadamente representadas.
La estratificación es un procedimiento mediante el cual se utiliza la competencia que se tiene sobre

el problema que se estudia, con el fin de dar mayor exactitud a los resultados. Así por ejemplo es
que en promedio los días de hospitalización de los servicios de maternidad, pediatría, cirugía y
medicina general son muy diferentes unos de otros, pues mientras que en la maternidad una
parturienta dura por término medio 3 días, en cirugía esta cifra se acerca a 10 días. Este
conocimiento puede utilizarse en el muestreo construyendo una muestra separada de cada uno de
los 4 servicios y esperando luego sus resultados con lo cual hay 2 ventajas sobre el muestreo por
azar simple: a) Se obtiene información separada para cada uno de los servicios. b) Se evita el
riesgo que determinado momento quede inadecuadamente representado, pues de no hacerse la
estratificación, puede darse el caso que la mayoría de la historias prolongan el servicio de
maternidad, en el cual la hospitalización es menor y la muestra nos haría concluir erróneamente
que el tiempo de permanencia en el hospital es menor de lo que en realidad es.
7.10.4. Muestras de Conglomerados
En este procedimiento, en lugar de escoger a los individuos que van ha estudiarse. Se escogerá
grupos o conglomerados de individuos.
Como cada escuela tiene 50 alumnos, al escoger 40 escuelas tendremos los 2000 alumnos que
queremos estudiar.
En las muestras de conglomerado no se necesita tener una lista detallada de los alumnos pues
basta con numerar las 400 escuelas del país para escoger las que se estudiaran. Por otra parte se
evita la dispersión, pues aunque haya que estudiar una escuela en un pueblo lejano, al
trasladarnos allí lo haremos, no por uno o dos alumnos sino por 50 lo cual se traduce en un ahorro
de tiempo dinero y esfuerzos.
El único inconveniente pudiera ser que las zonas no nos quedaran adecuadamente representadas.
Además, las muestras de conglomerados no suelen dar resultados tan precisos como las
obtenidas con las estratificadas. Mientras que en estas debe procurarse que cada uno de los
estratos sea tan homogéneo como sea posible, en aquellas se obtendrán mayor precisión mientras
más heterogéneos sean los individuos que conformen el conglomerado, pues en tal caso, cada
conglomerado viene a ser como una población en miniatura.
7.10.5. Muestras por procedimiento combinado
Como las muestras de conglomerados evitan la necesidad de tener una lista detallada de la
totalidad del universo que se estudia evita la dispersión de la muestra y como a su vez la s
muestras estratificadas aseguran la representatividad de los diferentes sectores de la población se
comprende que una combinación elimina los 3 grandes inconvenientes del muestreo por azar
simple.
En nuestro ejemplo, una muestra estratificada de conglomerados se obtendría escogiendo

separadamente 10 escuelas de cada una de las zonas del país (4x10x50=2000 alumnos).
Habitualmente una vez que se escogen los conglomerados no se estudia la totalidad de las
unidades que los forman sino que se escogen al azar algunas de estas unidades. En nuestro
ejemplo note que para elegir los 2000 alumnos, cualquiera de las siguientes combinaciones será
posible:
Alumnos estudiados Total de alumnos

Tipo de combinación Número de escuela
por escuela estudiados
A 400 5 2000
B 200 10 2000
C 100 20 2000
D 50 40 2000
E 40 50 2000
E y A se escogen 5 alumnos de cada escuela pero 100 por ciento de alumnos están representados
en una muestra. En E solo se escogen 40 alumnos, pero el 100 % de sus alumnos deben ser
estudiados.
Cualquier combinación de las anteriores podría ser escogida, pero con miras a una mayor
precisión, esta aumentara mientras mayor sea el número de escuelas que se estudien
(combinación A mejor que B esta mejor que C y así sucesivamente). Nótese sin embargo, que
mientras más escuelas se estudien más dispersa quedara la muestra y en la combinación A sería
necesario tener una lista de toda la población, con lo que se pierden las dos grandes ventajas de
las muestras de conglomerados.
7.11. Análisis del resultado de la muestra
Una vez obtenida la muestra y convenientemente resumidos los hallazgos, el paso siguiente es la
generalización de los resultados de esta población de la cual procede. Dicha generalización exige
2 requisitos, A) estimar los valores del universo y b) juzgar sobre la posición de tales valores.
7.11.1 Valores del universo
La estimación de los valores del universo depende del tipo de muestra que se haya utilizado.
Cuando se trata de una muestra por azar simple o de una muestra sistemática, los resultados
observados de ella pueden aplicarse directamente al universo. Si en el anterior ejemplo de los
escolares encontramos que el 40% de los escolares de Venezuela son mujeres.
Cuando la muestra es estratificada o de conglomerados, se resumirán rimero los resultados de

cada estrato o conglomerado, y luego se estimara el valor global de todo el universo lo cual
requiere la utilización de los llamados promedios ponderados, cuyo cálculo se estudiara en la
sección 16.8.
El caso de las muestras por procedimiento combinado es más complicado siendo aconsejable el
asesoramiento de un técnico estadístico.
7.11.2 Precisión de los resultados de la muestra
Si en la muestra estudiada se encontró que el 40% de los escolares son mujeres, podemos aplicar
tal porcentaje de la totalidad de la población escolar de Venezuela, aunque se entiende desde
luego, que dicha cifra es tan solo una aproximación. Cabe preguntarse cuán exacta es tal
aproximación.
Este problema será dilucidado en próximos capítulos y tratado especialmente en el capítulo XIX,
pero mientras tanto, téngase presente que siempre que siempre que se hacen generalizaciones a
partir de una muestra, se corre el riesgo de que los valores dados por ella no correspondan
exactamente a los del universo. Sin embargo, aunque tal riesgo no puede eliminarse por cualquier
procedimiento, puede reducirse convenientemente y estimarse con bastante exactitud a partir de
los propios resultados de la muestra, a condición de que sea una muestra probabilística y que su
tamaño sea adecuado.
CAPITULO VIII
DISEÑO DE FORMULARIOS
8.1 Generalidades
Cuando se hace un estudio, se recogerá tal cantidad de datos que será imposible confiarlos a la
memoria. En tales caso, habrá necesidad de registrarlos en formularios adecuados como paso
previo para su resumen y análisis.
Bajo la denominación genérica de “formularios” se incluye toda forma impresa destinada a la

recolección de datos, tal como las historias clínicas, las fichas epidemiológicas o tarjetas
especiales que a la vez permiten recoger los datos, sirven para su computación.
Los formularios deben ser planeados cuidadosamente, en tal forma que sean realmente útiles y
que faciliten y no dificulten la obtención de los datos. Ellos deben ayudar a recoger la información
de manera completa y eficiente, permitiendo uniformidad en las diferentes observaciones y
evitando la recolección de datos inútiles o irrelevantes al estudio.
El formulario debe permitir recoger dos tipos de datos:
a. Datos administrativos o de identificación.

b. Datos sobre el problema que se estudia
Los primeros ayudaran a identificar las unidades en observación e incluyen el nombre de a

persona, su edad, sexo, residencia y fecha de estudio. A través de ello puede medirse el
rendimiento del personal y la distribución de algunas características en el tiempo y en el espacio.
En cuanto a los segundos deben tener un propósito perfectamente definido y ser pertinentes al
estudio.
8.2. Elaboración del formulario
Antes de elaborar el formulario debe considerarse el propósito para el cual será utilizado y las
circunstancias bajo las cuales se recogerá la información. Lo primero tiene importancia para decidir
sobre los datos que en última instancia se recogerán y lo segundo, para la adopción del tamaño,
forma y material más conveniente.
Aunque es imposible dar reglas fijas para la correcta elaboración de un formulario, los siguientes
puntos serán de utilidad:
1. Decidir sobre los datos que recogerán. Un formulario muy extenso, conspira con la exacta
recolección de los datos y de allí que solo deban recogerse aquellos útiles y pertinentes al
estudio. En esta decisión es conveniente:
a. Hacer una lista de todos los datos de acuerdo a la finalidad del estudio.
b. Considerar cuales datos son “factibles” de recoger de manera fidedigna y exacta. Averiguar si
una persona es o no adicta a la s drogas heroicas, es una información deseable de recoger,
pero generalmente no vale la pena investigarla, pues es raro que las personas Ester
dispuestas a suministrarla.
c. Limitar los datos aquellos “prácticos” de recoger. Así por ejemplo hay ciertas reacciones
serológicas mucho más específicas que el VDRL para el diagnóstico de la Sífilis, pero siendo
más complicadas posiblemente se prefiera no utilizarlas.
d. Limitar la información aquella que se usará. Generalmente se recogen muchos datos pensando
que algunos que hoy parecen sin importancia, posiblemente en el futuro sean de utilidad. Tal
actitud es justificada, solo cuando se tiene la seguridad de que esta investigación adicional
entorpecerá la recolección de los datos verdaderamente esenciales.
2. Decidir sobre el orden en que se asentarán los datos en el formulario. La distribución debe
hacerse en manera lógica y ordenada y así por ejemplo, datos sobre la ocupación, vivienda,
educación y otros referentes a las condiciones económicas y sociales no deben ser
separados.
3. En general la parte superior del formulario debe reservarse para datos clarificativos y de
identificación (nombre, dirección, área geográfica, etc.) y no ocuparla, como suele hacerse, con
el nombre de la oficina que hace el estudio.
4. Considerar cómo se hacen las preguntas.-Esto tiene mucha más importancia en los formularios
utilizados en ciertas encuestas sociológicas que en el caso de las historia clínicas o formularios
afines empleados por el médico.
5. En todos los casos en que ciertas preguntas deben ser formuladas, se procurará un lenguaje
simple, sin ambigüedades y como hemos señalado, se evitarán las preguntas insinuantes,
poco explicitas o insuficientemente específicas.
6. Planear como se anotarán las respuestas. No es infrecuente el hecho que para anotar ciertas
respuestas más o menos extensas, apenas se deja espacio para una o dos palabras, lo cual,
como es lógico, impide recoger la información de manera completa. El espacio que se deje
debe ser adecuado para las respuestas que se espere siempre que sea posible se adoptará el
sistema que exija el esfuerzo menor. Obsérvese como la misma información del sexo puede
consignarse de tres manera diferentes, aunque la segunda parece mucho más conveniente.
a. ¿Sexo?...............
Hombre
b. Sexo
Mujer
SI
c. ¿Hombre?
NO
7. Determinar Las características del formulario. Con respecto a este punto vale la pena
considerar:
QUIÉN ¿Recogerá la información?

DE QUIÉN ¿Será recogida?
DONDE Y CUANDO ¿Se registrará?
CÓMO ¿Se procesarán los datos?
De acuerdo a las anteriores preguntas, se deducirá sobre las formas, tamaño, material, color,
etc. de los formularios.
a) Forma y tamaño: Aunque una sola página facilita considerablemente su manejo a forma y
tamaño dependerá de la cantidad y extensión de los detalles que se van a recoger y de si el
formulario se usará directamente o no para las computaciones.
b) Material: Depende del empleo que se le dará al formulario, mientras que formularios que se
van a usar justifican un material de óptima calidad, otros que solo se utilizaran una vez, como
las órdenes para los exámenes de laboratorio, podrán ser hechos de papel corriente.
c) Colores: Cuando en una misma dependencia se utilizan varios formularios, suele ser
conveniente usar diferentes colores para distinguirlos fácilmente así por ejemplo, el Ministerio
de Sanidad usa el color blanco para consulta de lactantes, rozado para escolares, amarillo
para la consulta de prenatales, etc.
d) Probar la operatividad del formulario. Antes de que el formulario sea impreso de forma
definitiva, es conveniente probarlo en el terreno mediante un estudio piloto, para darse cuenta
de las fallas que aun puedan presentar y hacer las correcciones necesarias. Muchas veces,
solo después de múltiples experiencias puede llegarse a la adopción de un formulario
definitivo. La historia clínica por ejemplo a pasado por tres diferente etapas, antes de que se
empleara la forma que hoy se utiliza. Al principio era una simple hoja en blanco, en donde el
médico anotaba los hallazgos de su examen, lo cual tenía como inconveniente, la falta de
uniformidad de las observaciones haciendo imposible la comparación entre un grupo de
pacientes y otro. Después se transformó en una lista interminable de preguntas, de la cual el
médico no podría apartarse. Como se ha señalado, era un atentado contra la personalidad del
médico y del paciente. Hoy en día, en la historia clínica, a manera de recordatorio para el
médico, se señalan las grandes bases de datos que deben investigarse, pero se deja en
libertad al profesional para investigarlos en la forma y en detalle que juzgue conveniente.
8. Redactar las instrucciones necesarias. Estas pueden imprimirse en el mismo formulario cuando
no son muy extensas o en hojas aparte en caso contrario.
CAPITULO IX
LA ETAPA DE ELABORACIÓN DE LA INFORMACIÓN
PASOS EN LA ELABORACIÓN DE LA INFORMACIÓN
Una vez recogida la información, es necesario revisarla cuidadosamente y luego resumirla y

presentarla convenientemente, antes de que sea posible analizarla.
Así por ejemplo, los datos referentes al peso de un grupo de 30 individuos, tal como aparecen a
continuación, no revelan fácilmente ninguna característica del grupo:
En cambio, los mismos datos ya elaborados, presentados en la forma que sigue, permite
formarse juicio bastante exacto, sobre el conjunto de personas estudiadas:
73 69 72 67 63 62
66 68 52 61 68 64
52 55 63 60 58 54
63 62 56 58 51 59
64 61 64 57 56 56
Cuadro 61
Individuos de acuerdo a su peso
Peso en kilos Número de personas

50-54 4
55-59 8
60-64 12
65-69 4
70-74 2
TOTAL 30
Al resumir los datos en tal forma, algunos detalles sobre las variaciones individuales se han
perdido, pero las características generales del grupo se han conservado y son mas aparentes.
En la etapa de elaboración se consideran los tres pasos siguientes, cuyos detalles se estudiaran
en los próximos capítulos:
1. Revisión y Corrección de la información recogida.

2. Clasificación y Computación de los datos.
3. Presentación mediante Cuadros y Gráficos.
CAPITULO X
REVISIÓN Y CORRECCION DE LA INFORMACIÓN RECOGIDA

Es necesario revisar cada uno de los formularios recogidos, como fin de ver si los datos han sido
registrados de manera completa y fidedigna, ya que las conclusiones que del estudio se deriven
nunca podrán ser más exactas que los datos en los cuales se basan.
Hay que ver ante todo si el formulario está completo o si existen omisiones, es decir, ver si todos
los datos que debieron investigarse se encuentran asentados.
Hay que fijarse luego si dichos datos son correctos. No siempre será posible decidir sobre la
corrección o no de un dato, pero frecuentemente la existencia de otra información en el formulario
y cierto conocimiento de la materia que se estudia, ayudara al respecto. Así por ejemplo, una
persona nacida en 1950 puede aparecer como de 40 años, lo cual a todas luces es imposible, o un
niño de 5 años aparecer con un peso de 50 Kilos, lo cual, indudablemente, es una equivocación.
Cuando tales inexactitudes se comprueban, será necesario hacer las correcciones pertinentes
cuando ello sea posible, u omitir de las computaciones finales los formularios incompletos e
incorrectos. En este último caso se corre el riesgo de invalidar el estudio, pues generalmente se
trabaja con muestras y la eliminación de unos cuantos individuos puede viciar los resultados. Una
adecuado planificación de la investigación y una cuidadosa recolección de la información, serán la
manera lógica de precaverse contra tales eventualidades.
CAPITULO XI
CLASIFICACION Y COMPUTACIÓN DE DATOS

La computación consiste simplemente en contar cuántos individuos presentan o no alguna
característica especial o averiguar en qué forma se distribuyen de acuerdo a determinada escala
de clasificación.
Antes de que se haga cualquier computación, es necesario por lo tanto, haber decidido de
antemano el criterio bajo el cual serán clasificadas las personas estudiadas, pues un grupo de
individuos podrá clasificarse de muchas maneras diferentes, según la finalidad que se persigue: de
acuerdo al sexo, la raza, la edad, etc.
11.1 Escalas de clasificación
Como la presentación de los datos estadísticos y su análisis posterior depende en gran parte de la
manera como están clasificados, algunas consideraciones al respecto son convenientes.
11.1.1 Condiciones de una buena escala
Cualquiera que sea la escala que se escoja, debe reunir, entre otras, dos condiciones básicas:
1. Debe ser exhaustiva;

2. Las clases o subdivisiones de que consta deben ser mutuamente excluyentes.
El que la escala sea exhaustiva significa que debe permitir la clasificación de cualquier individuo
que se estudia. Una escala que dividiera las razas solamente en Blanca y Negra sería incompleta,
ya que no permitiría la inclusión de personas de otros grupos raciales.
El que las clases sean mutuamente excluyentes quiere decir, que no debe dejar dudas sobre
donde incluir a cada una de las unidades en estudio.
Grupos de Edad
Escala Escala
Incorrecta Correcta
0-5 0-4
5-10 5-9
10-15 10-14
15-20 15-19
etc. etc.
Una escala como la de la izquierda es incorrecta, porque es ambigua y en un momento dado no se

sabría donde incluir a un niño que tuviera exactamente 5 o 10 años de edad. La escala de la
derecha evita tal confusión y es preferida por su sencillez y exactitud.
11.1.2. Diferentes tipos de escala
Al estudiar a un individuo, podemos contentarnos con investigar simplemente si presenta o no

determinada cualidad o atributo, o podemos, cuando ello sea posible, tratar de medir cuánto o qué
cantidad posee de alguna particular característica.
La anterior noción permite distinguir dos clases de escalas:

1. cualitativas, y
2. cuantitativas
11.1.2.1 Escalas (Variables) cualitativas. Las escalas cualitativas solo permiten distribuir a los
individuos de acuerdo a ciertas características que le son comunes y por medio de las cuales
pueden distinguirse de otros individuos que no las poseen. Al clasificar a un grupo de personas por
sexo, raza, estado civil, región de donde proceden, enfermedad que padecen, etc., se está usando
una escala cualitativa.
Las escalas cualitativas pueden ser:
a. Nominales: presenta modalidades no numéricas que no admiten un criterio de orden. Por

ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado
y viudo. A su vez, éstas se clasifican en binarias o dicotómicas (cuando tienen dos categorías
ej. sexo) y Policotómicas (cuando tienen más de dos categorías ej. estado civil)
b. Ordinales: presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La
nota en un examen: suspenso, aprobado, notable, sobresaliente.
c. 11.1.2.2. Escalas cuantitativas. Las escalas cuantitativas son mas precisas, porque a más de
permitir la diferenciación entre unos individuos y otros, señalan cuan grandes son las
diferencias observadas. La determinación del peso, la estatura, edad, pulso o tensión arterial
de una persona, o la división de las familias por el número de hijos de que constan o de
acuerdo a sus ingresos se hace mediante el uso de una escala cuantitativa.
Las escalas cuantitativas se dividen en:
a. Continuas
b. Discontinuas
Una escala cuantitativa se denomina continua cuando cualquier valor intermedio entre 2 íntegros
es posible. La edad de una persona por ejemplo, puede ser 40 años, o 40 años y 10 meses, o aún
podría expresarse como 40 años, 10 meses, 5 horas, 15 minutos, etc. De la misma manera el peso
de un hombre puede ser 60 Kilos, pero si se tuviera una balanza de precisión quizá podría
anotarse como 60 kilos, 300 gramos, 20 centigramos, etc.
Una escala se llama discontinua cuando solo admite valores de números enteros. Las familias
clasificadas según el número de hijos o los escolares por el número de dientes cariados que
tengan, son ejemplos de escalas discontinuas, porque una familia podrá tener 1,2.... 15 hijos; o un
escolar 1,2... 20 caries, pero ningún valor fraccionado tendrá significado.
La distinción entre escalas continuas y discontinuas es útil aunque su diferenciación en ocasiones

no tiene razón de ser. El número de glóbulos rojos por persona es un ejemplo de escala
discontinua, ya que no puede haber valores fraccionados, pero la discontinuidad es tan poco
aparente, que tal escala se trata como si fue continua. En realidad, nadie podría señalar si una
persona tiene 4.999.999 glóbulos rojos o exactamente 5.000.000.
11.1.3. Clasificación de los Datos
Se comprende fácilmente que los individuos que se estudian pueden clasificarse según una escala
única o de acuerdo a dos o más escalas a la vez. Teniendo en cuenta esta noción, los datos
estadísticos podrán clasificarse en los tres tipos que a continuación se describen:
11.1.3.1. Distribuciones de Frecuencias. En un grupo de personas podemos averiguar primero

cuantos hombres y cuantas mujeres hay, o investigar después, como se reparten de acuerdo a su
raza. En uno y otro caso se está usando una única escala cada vez.
Individuos por Sexo Individuos por Raza
Hombres 45 Blancos 80
Mujeres 55 Negros 20
Total 100 Total 100
Datos como los anteriores, en donde un grupo de individuos se clasifica de acuerdo a una única
escala, sean su edad, peso, raza o estatura, reciben el nombre de Distribuciones de Frecuencia.
11.1.3.2. Datos de Asociación. Sin embargo, si se deseara saber cuántos hombres son de raza
blanca o cuantas de las personas negras son del sexo femenino, los datos presentados
anteriormente no permitirían responder tales preguntas. Para poder responderlas, las personas
deben clasificarse simultáneamente, de acuerdo a las dos escalas:
Cuadro 67
Individuos por Sexo y Raza
Raza
Sexo Total
B N
Hombres 36 9 45
Mujeres 44 11 55
Total 80 20 100
Note que el cuadro anterior resume los dos primeros, pero a partir de aquellos no puede elaborarse
este último. Para su elaboración se requiere una nueva computación de datos.
Casos como el anterior, en donde los individuos se clasifican simultáneamente de acuerdo a dos
escalas, como ser raza y sexo, o edad y sexo, estatura y edad, etc., constituyen los llamados Datos
de Asociación.
11.1.3.3. Series Cronológicas. Finalmente algunas veces la escala que se emplea es el tiempo,
para mostrar la evolución de un fenómeno en relación a él. Tales series ilustradas a continuación,
reciben el nombre de Series Cronológicas.
Cuadro 68
Mortalidad por Tuberculosis – Caracas, 1952 – 1955
Año Número de Defunciones

1952 459
1953 325
1954 270
1955 252
11.1.4. Subdivisiones o clases de la escala.
Aunque las subdivisiones o clases de la escala suelen escogerse arbitrariamente, tal escogencia
debe reunir ciertas condiciones.
11.1.4.1. Formación de las clases. Solo deben incluirse en una misma clase datos más o menos
homogéneos. Si por ejemplo, de 100 casos de una enfermedad se presentan:
10 casos en menores de 1 año

12 casos en niños de 1 año
8 casos en niños de 2 años, etc. etc.
Es posible formar un solo grupo que incluya:
Menores de 3 años: 30 casos
Pues el número de casos es más o menos constante en cada año de edad (alrededor de 10 =
30/3)
En cambio sí en el mismo ejemplo tuviéramos:

22 casos en menores de 1 año
7 casos en niños de un 1 año, y
1 caso en niños de 2 años
__
30 casos
No convendría formar una sola clase, pues es evidente que hay una gran diferencia entre una y
otro.
11.1.4.2. Número de clases. Si las clases son muy numerosas habría tantos detalles, que
relaciones importantes pueden pasar inadvertidas. Si hay por el contrario muy pocas clases,
importantes diferencias entre los individuos estudiados se pasarán por alto.
El número de clases debe ser tal, que se evite el detalle innecesario, pero que no conduzca a la
pérdida de más información de la que puede ser convenientemente ignorada. Al estudiar los
habitantes de una población, grupos quinquenales de edad son perfectamente adecuados, pero
ellos serían inconvenientes para clasificar los alumnos de una escuela, dado que en ésta, la
variabilidad es muy poca.
En todo caso, es preferible utilizar más clases que las necesarias, que utilizar menos de las que se
necesitan, pues si las clases resultan muy numerosas, podrán unirse varias de ella a voluntad y en
cambio será imposible subdividir una clase ya constituida, a menos que se hagan todas las
computaciones nuevamente. Por lo general, 8 a 15 clases suelen ser adecuadas.
11.1.4.3. Límites de la Clase. Ya se ha señalado que con el fin de evitar ambigüedades, las clases
se señalan como 50 – 54, 55 – 59 y no 50 – 55, 55 – 60, etc.
Sin embargo los verdaderos límites de esas clases son algo diferentes de los anotados. Si
estudiamos el peso de un grupo de personas y lo mismo es cierto siempre que el dato se
aproxime al dígito más cercano, cualquier individuo que pese algo más de 49.5 kilos o algo menos
de 50.5 kilos será registrado como peso de 50 kilogramos. Igualmente, un individuo que se registre
con 54 kilos pero en realidad entre 53.5 y 54.5.
Lo anterior debe tenerse presente, para poder determinar la amplitud y punto medio de cada clase,
pero antes de ocuparnos de estos aspectos hay que advertir que en el caso de la edad, la
determinación de los verdaderos límites es algo distinta. Como la edad no se aproxima al
cumpleaños más próximo, sino que se registra como años cumplidos, un individuo de 50 años
puede tener cualquier edad entre 50 y 50,999 años, o sea, prácticamente entre 50 y 51 años.
11.1.4.4. Amplitud de la Clase. Se entiende por amplitud de la clase, la diferencia que hay entre el
máximo y el mínimo valor observados en dicha clase. Para su determinación deben tenerse en
cuenta los verdaderos límites de la clase, tal como se explicó anteriormente. Por lo tanto, si la clase
fuera 50-54 kilos, su amplitud no sería 4, pues como sus límites verdaderos son 49.5 y 54.5 kilos la
amplitud sería: 54.5 – 49.5 = 5
De la misma manera, si se tratara de una escala de edades, como los límites son 50 y 54.999 la
amplitud sería nuevamente 5.
Aunque generalmente es recomendable que todas las clases tengan la misma amplitud, pues con
ello se facilitan muchos cálculos y en algunos problemas tal disposición no es posible, ya que
deben fijarse de acuerdo a los datos que se estudian y al método que se ha resuelto utilizar.
11.1.4.5. Punto medio de la clase. Se obtiene tomando los verdaderos límites de la clase. Note por
consiguiente si la escala fuera 50-54 años, los limites verdaderos serían 50 y prácticamente 55
años y el punto medio de la ecuación.
50 + 5
= 52.5
2
En cambio de una escala de peso, los limites verdaderos serian 49.5 y 54.5 Kilos, y el punto medio
de la clase 104/2 = 52 kilos.
11.2. Métodos de Computación.
Hay varios métodos de computación y la escogencia de uno influencia a los demás, depende del
número de individuos que hay y de la complejidad del análisis que se intenta y de los recursos
económicos con los que se cuenta.
A continuación se tratara sobre los siguientes 5 métodos:
1. Método de las listas

2. Método de los palotes
3. Tarjetas simples
4. Tarjetas con perforaciones marginales
5. Tarjetas tipo Hollerith.
11.2.1. Métodos de las listas
Frecuentemente los resultados de un estudio se resumen en una larga lista, en la cual se destina
una línea para anotar las características correspondientes a cada individuo. En tales casos, la
computación se concentrara a buscar cuales individuos presentan determinada característica y a
contarlos mentalmente marcándolos con un signo convencional (v) o (x), con el fin de facilitar la
verificación al final.
Cuadro 71
Lista de defunciones y características a ser tabuladas
Nombre
Estado Atención Causa de
del Sexo Edad Residencia Nacionalidad
Civil Medica Defunción
paciente
A.P. M 15 Soltero Urbana Extranjero SI TBC
B.D. F 25 Casada Rural Venezolana SI Eclampsia
H.O. F 30 Casada Urbana Venezolana SI Neumonía
T.P. M 56 Casado Rural Venezolana SI Diabetes
P.H. M 48 Casado Rural Venezolana NO Accidente
C.C. M 30 Casado Urbana Venezolana SI Neumonía
S.Q. M 27 Casado Urbana Venezolana SI Accidente
E.G. F 25 Soltera Urbana Venezolana SI TBC
I.P. F 23 Casada Urbana Venezolana SI Eclampsia
P.V. M 39 Casado Urbana Venezolana SI Diabetes
Como se comprende, el método solo es utilizable cuando son pocas las unidades que se estudian
y siempre que no se pretenda clasificarlas por más de dos escalas a la vez. En el presente
ejemplo, sería muy fácil contar cuantos individuos eran hombres o mujeres, o cuantos murieron por
Tuberculosis o Neumonía, pero el trabajo sería interminable si quisiéramos hacer computaciones
combinadas, con el fin de averiguar por ejemplo: cuantas mujeres extranjeras, menores de 30 años
y que residían en el campo, murieron por determinada enfermedad.
11.2.2. Método de los palotes
Consiste en poner en una hoja de trabajo un palote (/) por cada unidad que se cuenta, destacando
cada quinta unidad con el fin de facilitar la computación final.
Las computaciones pueden hacerse a partir de los formularios originales en los cuales se recogió
la información, o a partir de una lista como la anterior que la resuma.
11.2.4 .Tarjetas con perforaciones marginales
Prácticamente estas tarjetas pueden usarse en cualquier estudio que se haga y sólo cuando el
número de casos es excesivo, digamos más de 5000, sería ventajoso utilizar las tarjetas tipo
Hollerith, que lo describiremos. Con ellas el trabajo es rápido, relativamente dinámico y los errores
en la computación se reducen al mínimo.
11.2.4.1. Descripción.
Son tarjetas de tamaño variable. Con una serie de orificios en sus bordes, a cada uno de los cuales
se le asigna la representación de una de las características que se estudian.
Los datos que van a inscribirse en la tarjeta, puede encontrarse en los formularios especiales o
pueden recogerse directamente en ella, caso en el cual se anotarán en su parte central. A veces,
cuando se hacen encuestas sencillas, en vez de escribir los datos, pueden asentarse directamente
en las tarjetas perforadas, marcando con tinta los orificios correspondientes que luego deban ser
desmarginados. Observe que esto se ha hecho en la tarjeta que se reproduce en el gráfico 75.
11.2.4.2. Inscripción de los datos.
Para facilitar la exposición volveremos al ejemplo anterior sobre la mortalidad de un grupo de

personas en los cuales se investigaron los datos que enseguida aparecen, súper simplificados con
propósito docente.
Datos
Información buscada Número de datos
investigados
Edad Lactantes pre-escolares escolares o adultos 4
Sexo Masculino o femenino 2
Estado Civil Soltero casado viudo o divorciado 4
Residencia Urbana o rural 2
Nacionalidad Venezolana o extranjera 2
Atención Médica Recibió o no-atención médica 2
Causas de muerte Según los 17 grupos de la clasificación internaciona 17
TOTAL 33
GRAFICO 75
Tarjeta con perforaciones marginales utilizadas con los datos ilustrados en el texto
(Nota: Loa orificios correspondientes a la edad, sexo, estado civil, ya han sido “abiertos”, mientras que los que indican
residencia, nacionalidad, etc. Solamente están señalados. La tarjeta indica que se trata de un adulto hombre casado con
residencia rural, extranjero, etc.)
Se podrá notar que como se investigaron en total 33 diferentes datos, al asignar un orificio a cada
uno, la tarjeta en su forma más simple tendrá que constar de 33 perforaciones aunque luego
veremos que algunas simplificaciones son posibles.
11.2.4.3. Utilización.
A cada individuo se destinará una tarjeta distinta y la inscripción de los datos se hará mediante un
“saca bocado”, con lo cual se destroza el orificio correspondiente, cortando la lengüeta que lo
separa del borde.
Debe tenerse cuidado de abrir convenientemente los orificios, pues de lo contrario, la tarjeta puede
engancharse en las vecinas y noquear en un momento dado.
11.2.4.4. Computaciones.
Al introducir un punzón por cualquier orificio de un bloque de tarjetas y levantarlo ligeramente,

aquellas tarjetas en los cuales se han desmarginado el tal orificio, caerán en la mesa, mientras que
en el punzón quedarán aquellas con los orificios intactos.
Si en el ejemplo que nos sirve de ilustración, quisiéramos clasificar a los individuos según el sexo y
el estado civil, procederíamos de la siguiente manera:
1.- Se toma el bloque de tarjetas, se acomoda convenientemente y se pasa el punzón por el

orificio que representa el sexo masculino. Al levantar el punzón, caerá a la mesa las tarjetas con
orificios ensanchados, es decir, las del sexo masculino, mientras que las del sexo femenino
quedarán sostenidas en el punzón. Las tarjetas, por consiguiente, han quedado divididas en dos
bloques: en uno están los hombres y en otro las mujeres.
2.- Tomando el primer bloque ( digamos el de hombres), se pasará el punzón por los orificios que
representan el estado civil: primero por el “solteros” y luego sucesivamente por los “casados”,
“viudos” y “divorciados”, con lo cual el grupo de hombres quedarán divididos según su estado civil,
restando solamente contar y anotar cuántas personas hay en estas categorías.
3.- El paso anterior se repetirá con el bloque de las tarjetas de las mujeres, con lo cual se habrá
terminado la computación deseada.
Si hubiéramos querido hacer las computaciones de acuerdo a tres variables a la vez, para
averiguar por ejemplo, cuántas defunciones ocurrieron entre mujeres casadas extranjeras o entre
hombres solteros venezolanos, bastaría con dividir en dos partes cada uno de los bloques de
tarjetas obtenidas anteriormente aprovechando el procedimiento acabado de discutir.
11.2.4.5 .Codificación
Al utilizar las tarjetas perforadas pueden recurrirse a ciertas simplificaciones, gracias a los cuales
no habrá necesidad de utilizar un orificio diferente para cada dato que se inscriba. Para ello, antes
de asentar los datos en las tarjetas, se hará una transformación previa, conocida como
codificación.
La codificación es simplemente una “clave”, mediante la cual cada dato se designa por un número.
Así por ejemplo, si se estudia las diferentes causas de mortalidad, se puede convenir la
tuberculosis es la enfermedad Nº 1; el cáncer la Nº 2, etc. De igual manera, si se estudian los 23
Estados y Territorios de la nación, puede designarse al distrito federal con el número 1 al estado
Anzoátegui con el 2 y así sucesivamente.
Con los datos así codificados, solo se necesitarán 4 orificios para inscribir hasta 10 características.
Efectivamente, bastan solamente 4 dígitos (1, 2, 4 y 7) para representar cualquier número hasta el
9, pues para señalar el 6 se tomarán los números 4 y 2: para señalar el 9, se tomarán el 7 y 2:
para indicar el cero, se dejarán todos los orificios intactos.
7 4 2 1 7 4 2 1
Decenas unidades
Si los mismos 4 básicos dígitos se repiten de nuevo haciéndolos presentar las decenas, entonces
8 orificios serán suficientes y para representar hasta 100 características (del 00 al 99).
11.2.5. Tarjetas tipo Hollerith
De las tarjetas que utilizan el procedimiento inventado por Hollerith, las más conocidas son las
mundialmente famosas tarjetas IBM, cuyo uso requiere complicadas maquinarias electrónicas, por
ello indicaremos solamente sus características, a pesar que es el sistema de computación más
perfecto que se conoce.
La utilización de moderadas unidades electrónicas permite clasificar varios miles de tarjetas por
minuto y de ahí que el sistema sea irremplazable en las grandes compañías y en los servicios
nacionales de estadística, que manejan millones de datos.
11.2.5.1. Descripción. La tarjeta IBM es una cartulina de material especial, que consta de 80
columnas, cada una con 10 filas numeradas del 0 al 9 (véase modelo anexo).
Aunque a primera vista la tarjeta solo permite escribir datos que den un máximo de 800
computaciones (80 columnas por 10 filas), la verdad es que una sola tarjeta puede recibir datos
que representen millones de combinaciones.
11.2.5.2. Requerimientos para su utilización. Para utilizar estas tarjetas es impredecible codificar
los datos previamente, de acuerdo a los principios ya señalados. Como cada columna tiene 10
filas, cualquier característica que no tenga más de 10 subdivisiones, podrá inscribirse en una sola
columna. Con 2 columnas se podrán inscribirse hasta 100 datos; con 3 columnas hasta 1.000, etc.
Esta codificación explica porque dijimos antes que en la tarjeta podrían asentarse millones de
combinaciones, pues como se desprenden de lo dicho, una característica que tuviera 100.000 (¡)
subdivisiones, solo necesita 5 columnas.
11.2.5.3. Inscripción de los datos. La inscripción de los datos en la tarjeta se realiza haciendo
pequeñas perforaciones rectangulares en los espacios que le corresponde, según el código
adoptado. Dichas perforaciones se hacen eléctricamente con una máquina especial que tiene un
teclado como una máquina de calculador.
La computación de las tarjetas se hace en otras máquinas especiales, que no solo las encuentran
y las separan de los grupos deseados, sino que llegan hasta totalizar e imprimir los resultados.
GRAFICO 79
Tarjeta I.B.M.
CAPITULO XII
CUADROS ESTADÍSTICOS
12.1. Características generales.
La finalidad de los cuadros estadísticos es presentar en forma resumida e inteligible determinando

material numérico.
Aunque la disposición del cuadro variará de acuerdo a los datos que intenten resumir, hay algunos
principios comunes que deben tener en cuenta.
En todo cuadro debe considerarse:
1. El título.
2. El cuadro propiamente dicho.
3. Las notas explicativas.
12.1.1. Título.
Como los resultados deben entenderse fácilmente. Sin necesidad de recurrir al texto que
acompañan, el título debe reunir las condiciones.
a. Ser completo: un título que sea completo, debe indicar claramente cuál es el contenido del
cuadro. En otras palabras, debe responder a las preguntas:
¿QUE? ¿COMO? ¿DONDE? ¿CUANDO?
QUE: se estudia, o sea, cual es el universo que se investiga.

COMO: se estudia, es decir, de acuerdo a cuales características se clasifican los individuos
investigadores.
DONDE: o a que se refiere los datos
CUANDO: o sea la época a que se refiere el estudio.
b. Lo más conciso posible: el titulo debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión. Observe como el primero de los dos títulos siguientes es
completo, pero le falta brevedad y no añade nada nuevo al segundo de ellos.
Titulo no recomendable:
“Cuadro de muestra la descripción de las defunciones habidas en el hospital Vargas de Caracas,

durante el año de 1960, clasificadas de acuerdo con la edad de los fallecidos”.
Titulo correcto:
“Defunciones por edad y sexo, Hospital Vargas. Caracas. 1960”.
12.1.2. Cuadro propiamente dicho.
Sucintamente, el cuerpo del cuadro consta de un conjunto de casillas o celdas, dispuestas en

columnas y filas.
En la primera columna y la primera fila tiene una finalidad diferente a las restantes, porque en ellas
irán las diferentes subdivisiones de la clasificación que se adopte, a los encabezamientos que se
indiquen a que se refieren los datos numéricos escritos.
La primera fila, es la de los ENCABEZAMIENTOS, los cuales indican a que se refieren los datos
que van inscritos en las celdas subyacentes. Ellos al igual que las últimas, deben ser breves, pero
suficientemente explícitos. Así por ejemplo, en vez de poner simplemente EDAD, es preferible
poner “Edad en Años “o“ Edad en Meses “ según el caso. Igualmente, en vez de poner tan solo
“TASAS“ debe indicarse: “Tasa de Mortalidad por 1.000“,”Tasas de Mortalidad por 100.000“, etc.
La primera columna conocida como “COLUMNA MATRIZ“ se destina a asentar las diferentes
clases de la escala de clasificación utilizada. Cuando las observaciones se clasifican de acuerdo a
una única escala, digamos edad, las subdivisiones de esta, deben ir en esta columna (véanse
cuadros 83 y 84). Cuando dichas observaciones se clasifican simultáneamente de acuerdo a dos
escalas, digamos edad y sexo, cualquiera de estas dos características podrá ir en columna o
matriz, según veremos luego (véase cuadro 86).
12.1.3. Notas Explicativas
Con el fin de que no haya duda sobre el contenido del cuadro, este se acompaña a veces de notas
explicativas, que pueden ir en la parte superior o inferior. Convencionalmente, las notas colocadas
en la parte superior afectan todo el contenido del cuadro, mientras que aquellas que se colocan en
la parte inferior, sólo se refieren a las cifras de determinadas celdas o de una fila o columna en
particular.
Lo cual se indicará con un pequeño número o letra (1) (a).
Estas notas, repetimos, sólo se utilizan en ocasiones aunque en trabajos que no son originales,
siempre deben ponerse al pie del cuadro, la fuente de donde se obtuvieron los datos, no son sólo
por reconocimiento de sus autores, sino para que el lector en un momento dado, pueda consultar
el trabajo original, de donde dichas cifras proceden.
12.2 Diferentes clases de cuadros.
De acuerdo a su finalidad los cuadros estadísticos pueden dividirse en dos categorías:
a. Cuadros de propósito general.

b. Cuadros de propósito especial.
Los primeros, los cuales sirven de base para la construcción de los segundos, son cuadros
extensos, de resumen, frecuentemente destinado a presentar material básico a otros
investigadores y de ahí que cuando se publican se acompañan de extensas notas explicativas y de
cuidadosa mención de los procedimientos y métodos utilizados en la recolección de los datos.
Los segundos, son cuadros generalmente elaborados con propósitos analíticos. Habitualmente se
intercalan en la presentación de trabajos y monografías originales y están destinados a mostrar
determinadas relaciones sobre las cuales el autor quiere llamar la atención y que constituyen el
núcleo de las conclusiones que de la investigación se derivan. Ellos serán los únicos a que
haremos referencia en los próximos párrafos.
Los cuadros más sencillos, son aquellos en que los individuos se agrupan de acuerdo a una escala
única de clasificación. Cuando se clasifican simultáneamente en dos, tres o más escalas, son
desde luego más complejos; aunque los mismos principios generales ya vistos son aplicables.
12.2.1. Presentación tabular de las Distribuciones de Frecuencia
Si los individuos se clasifican de acuerdo a una única escala; el cuadro podrá hacerse como el que
aparece a continuación:
Cuadro 83
Defunciones por accidentes, por grupos de edad. Venezuela, 1961

(Se excluyen 16 defunciones cuya edad se desconoce)
Años de edad Número de defunciones

0-4 501
5-14 453
15-24 605
5-44 931
45-64 499
65-84 218
TOTAL 3207
Columna matriz
Fuente: Anuario de Epidemiología y Estadística Vital.
En cuadros de este tipo, se acostumbra poner una columna más con la distribución porcentual de
los casos, lo cual facilita grandemente las comparaciones:
Cuadro 84
Defunciones por accidentes, por causas. Venezuela, 1961
Causas Número de defunciones Porcentajes

Accidentes de transporte 1377 42,7
Sumersión accidental 438 13,6
Caídas accidentales 343 10,6
Envenenamientos 101 3,1
Otros accidentes 964 30,0
TOTAL 3223 100,0
Fuente: la misma del cuadro anterior.
Obsérvese que aunque los dos cuadros anteriores se refieren a los mismos datos, los dos totales
no son iguales, pues como indica la nota del primero, allí se excluyeron 16 defunciones de edad
desconocida.
12.2.2. Presentación tabular de las series cronológicas
Cuando la escala de clasificación es el tiempo, mostrando como varía un fenómeno en relación a

él (series cronológicas) la elaboración del cuadro es muy semejante al cuadro anterior.
Sin embargo, como tales cuadros sólo pretenden mostrar la variación de un fenómeno de una
época a otra, en ellos se emite los totales y lógicamente, al no existir estos, será imposible el
cálculo de la respectiva columna de porcentajes.
No obstante, si el cuadro se refiere a lo ocurrido en una población cuyo número de habitantes ha

variado a través de los años, es conveniente colocar una última columna que señale el número de
veces que ocurrió el fenómeno estudiado por cada 1000, 10000 o 100000 habitantes. En otras
palabras: las cifras absolutas se deben acompañar de los coeficientes o tasas respectivas, con lo
cual se facilitará la comparación de los datos.
Cuadro 85
Defunciones por accidentes y tasas por 100.000 habitantes.
Venezuela, 1957-1961
Años Número de defunciones defunciones por 100000 habitantes

1957 2872 43,3
1958 3255 47,3
1959 3390 47,6
1960 3217 43,7
1961 3223 42,4
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela 1957-1961.
12.2.3 Presentación Tabular de los Datos de Asociación
Si los individuos se clasifican simultáneamente de acuerdo a dos escalas, por ejemplo: edad y
sexo (Datos de Asociación), una escala irá en la vertical y otra la horizontal. El que una u otra
vayan en la horizontal o en la vertical no cambia el significado del cuadro. Sin embargo, es
conveniente poner en la vertical, aquella escala que presente más subdivisiones, ya que el ojo
humano compara más fácilmente, números dispuestos de arriba abajo, que arreglados unos al
lado de otros, en filas horizontales.
Observe que como hay dos escalas la tabla debe tener dos totales. Estos suelen ponerse en la
última columna y en la última fila, pero si se prefiere puede colocarse en la primera columna y en la
primera fila.
Téngase en cuenta también, que es posible presentar en el mismo cuadro tanto las cifras
absolutas como los porcentajes o tasas correspondientes. Debe evitarse sin embargo que el
cuadro quede con demasiadas columnas, pues en tal caso su interpretación se hará difícil. En tales
ocasiones, es preferible presentar la información en 2 o más cuadros distintos.
Cuadro 86
Defunciones por sexo y grupos de edad
Venezuela, 1961
(Se excluyen 12 hombres y 4 mujeres cuya edad se desconoce)
Sexo
Años de edad Ambos sexos
Hombres Mujeres
0-4 275 226 501
May-14 288 165 453
15-24 519 86 605
25-44 835 96 931
45-64 400 99 499
65-84 115 103 218
Total 2432 775 3207
Si los individuos se clasifican al mismo tiempo de acuerdo a tres escalas, como edad, sexo y
causa del accidente, el cuadro aparecerá de la manera ilustrada en la próxima página.
Queremos advertir, que aunque por dificultades técnicas, los encabezamientos de algunos cuadros
del siguiente texto, fueron colocados verticalmente, es preferible sin embargo, por razones
estéticas y para facilitar la lectura, disponerlos de forma horizontal.
Como observación final, recuérdese la importancia de numerar las diferentes columnas del cuadro
cuando son muy numerosas, especialmente si han de hacerse referencia a ellas en el texto (verse
cuadro 87)
Cuadro 87
Defunciones por accidentes, por sexo, edad y causa externa que los produjo
Venezuela, 1961
(Se excluyen 16 casos, cuya edad se desconoce)
Sexo y edad Causas del accidente
C
d
u
n
a
s
e
e
a
s
a
s
c
o
a
s
r
l
Hombres 1140 344 241 58 649 2132
15 años 170 110 45 32 206 563
15-44 712 191 101 20 330 1354
45 y más 258 43 95 6 113 515
Mujeres 228 92 101 43 311 775

15 años 102 59 18 34 181 321
15-44 74 28 9 9 62 182
45 y más 52 5 74 3 68 202
Ambos sexos 1368 436 342 101 960 3207

15 años 272 169 63 63 387 954
15-44 786 219 110 29 392 1536
45 y más 310 48 169 9 181 717
Fuente: la misma del cuadro anterior
12.3 Errores en la presentación tabular
Entre los errores que se cometen al elaborar un cuadro estadístico, deben evitarse especialmente
los siguientes:
a) Disposición incorrecta de los datos. Contrástese el cuadro anterior que es correcto con el
que aparece a continuación, el cual ilustra generalmente un error cometido por los principiantes. El
error consiste en que no se clasifica a cada individuo de acuerdo a tres escalas. En realidad son
dos cuadros diferentes colocados el uno al lado del otro.
Cuadro 88
Cuadro incorrecto que intenta presentar los datos del cuadro anterior
Sexo Causas del accidente

Edades (años) M F Total T S C C Otras Total
15 563 391 954 272 169 63 63 387 954
15-44 1354 182 1536 786 219 110 29 392 1536
45 y más 515 202 717 310 48 169 9 181 717
Total 2432 775 3207 1368 436 342 101 960 3207
Por ejemplo, él no indica cuantos hombres o mujeres murieron en cada grupo de edad a causa de
caídas accidentales, lo cual si puede ser determinado en el cuadro anterior.
b. Títulos y encabezamientos incompletos o inadecuados. El cuadro debe comprenderse
fácilmente, sin necesidad de recurrir al texto que lo acompaña, lo cual será imposible si los títulos y
encabezamientos son incompletos o insuficientemente claros.
c. Cuadros que muestran solamente porcentajes. Por lo general, los cuadros no deben
mostrar solamente porcentajes sin indicar las cifras de donde proceden, pues un porcentaje del
50% puede indicar 1 caso en 2, 10 en 20, 100 en 200, etc. Y como es obvio mientras menor sea el
número de casos, menor valor tendrá el porcentaje.
d. Cuadros sobre cargados. Cuadros que intentan mostrar muchos datos a la vez, resultan
confusos e inadecuados. En tales casos es recomendable realizar varios cuadros separados.
Cuadros sobrecargados. Cuadros que intentan mostrar muchos datos a la vez, resultan confusos e
inadecuados. En tales casos es recomendable realizar varios cuadros separados.
12.4 Manera de leer un cuadro estadístico.
La lectura de un cuadro estadístico no debe de hacerse de forma desordenada. Existen ciertas

reglas resumidas por W. Allen Wallis y Harry V. Robert, en su libro “Statics: A new Approach” las
cuales trataremos de ilustrar en el siguiente cuadro, en el cual se resumen algunos de los
resultados de una encuesta de morbilidad, realizada en la urbanización “23 de Enero” de Caracas.
Las viviendas de esta urbanización comprenden 2 tipos: por una parte “bloques de apartamentos”
de hasta 15 pisos de altura, y por otra parte “ranchos” en los cuales las condiciones sanitarias son
desastrosas.
Aun cuando la encuesta incluyó 22168 personas de todas las edades, solo nos referimos a un
grupo de adultos.
Cuadro 89
Porcentajes de enfermos por grupos de edad y sexo de la población adulta de los bloques y
ranchos de la urbanización 23 de enero. Caracas, 1960.
(Resultado de una muestra de 10983 personas mayores de 15 años. Como enfermo se consideró
a toda persona que manifestó sufrir de alguna dolencia).
Bloques Ranchos Total

Niños de Hombres Mujeres Hombres Mujeres Hombres Mujeres Total
Total (4) Total (7)
edad (1) (2) (3) (5) (6) (8) (9) (10)
15-24 11.3 15.3 13.6 15.8 48.8 17.5 42.0 15.8 44.4
25-34 13.3 22.4 17.9 15.9 26.3 20.6 13.7 22.9 18.3
35-44 19.6 27.2 23.4 18.8 30.9 24.9 19.5 27.8 23.6
45-54 24.3 40.4 33.9 18.5 42.3 29.9 22.9 40.8 33.1
55 y + 35.5 51.1 46.7 37.7 43.6 41.2 36.1 49.9 ¿?
Total 15.3 24.1 20.1 18.1 27.4 22.8 15.8 24.6 ¿?
Fuente: basada en J. D. Maldonado y M. Pizzi “una encuesta de mortalidad en el sector oeste de la urbanización 23 de
Enero. “Revista venezolana de sanidad y asistencia social. Vol. XXVI N. 1 marzo de 1960.
Los pasos a seguir son los siguientes:
1.- Leer cuidadosamente el título
La lectura del título es necesaria con el fin de entender perfectamente a que se refiere el cuadro.
En el caso presente, el título indica claramente que el cuadro se refiere a los adultos enfermos
encontrados en la ciudadela 23 de Enero de caracas, distribuidos de acuerdo a su edad, sexo y
tipo de vivienda. Nos indicará también que los datos se expresan en forma de porcentajes. Tales
hallazgos suelen presentarse en formas de las tasas que indican el número de enfermos cada
1000 o 100000 habitantes, pero aquí hemos preferido los porcentajes puesto que este es un
término de más fácil comprensión para cualquier lector no familiarizado con los términos
estadísticos.
2.- Leer las notas explicativas
Las notas explicativas que acompañan al cuadro, permiten a que esté consultando su mejor
comprensión. En nuestro ejemplo, vemos en primer lugar que no se estudian todos los habitantes
de la urbanización sino solamente una muestra de 11000. Esto es importante pues ya sabemos
que los resultados obtenidos están sometidos al error por muestreo. Aunque solo en próximos
capítulos se aprenderá a medir este error, ya sabemos, no obstante, que su magnitud es pequeña
cuando la muestra es suficientemente grande y de ahí la importancia que se nos haya aclarado
que fueron 10983 las personas estudiadas.
En segundo lugar la nota indica que el estudio se trata de persona mayores a 15 años, con lo cual
se nos disipa cualquier duda que pudiéramos tener sobre a quienes se los consideró como adultos.
Finalmente se especifica que como “enfermo” debe entenderse a cualquier persona que
manifestase tener alguna dolencia. De nuevo, esta es una aclaración importantísima, por que el
hecho de catalogar a un individuo como sano o enfermo, depende en gran parte de la persona que
decide. Este será un punto que se discutirá posteriormente, pero debe señalarse desde ahora que
cuando es el mismo paciente quien decide si se encuentra o no enfermo, se introduce una
apreciable fuente de error, ya que frecuentemente tal decisión se presta para notables
arbitrariedades.
3.- Averiguar las unidades de medida utilizadas.
El encabezamiento de la primera columna explica que se trata de años de edad y no de meses y

días. Quizás en el caso frecuente tal aclaración está demás, pero en otras ocasiones es necesario
tener muy en cuenta este detalle.
El título nos indica que no se están utilizando porcentajes, es decir que para cada grupo la cifra
indica el número de personas enfermas por cada 100 entrevistados. Note por consiguiente, que las
columnas y filas de totales no son la suma de porcentajes parciales, ni el promedio aritmético
corrientemente utilizado. Son en realidad promedios, pero promedios ponderados que después se
aprenderán a calcular.
4.- Fijarse en el promedio o porcentaje general del grupo.
El cuadro muestra que el 20,5 % de las personas entrevistadas, es decir 1 de cada 5 personas,
manifestó sentir alguna dolencia.
Esta cifra es desde luego extremadamente elevada, pero como señalan los autores del trabajo, no
deben de olvidarse que de este tipo de encuestas algunos tipos tienden a magnificar sus dolencias
con el objeto de recibir atención médica.
5.- Relacionar el promedio general del grupo con cada una de las variables que se estudian.
Las variables presentadas en el cuadro anterior son: edad, tipo de residencia y sexo, y ellas deben
de analizarse separadamente.
a. Edad: si nos fijamos en la última columna del cuadro, vemos que la morbilidad asciende
constantemente, al ascender la edad de las personas estudiadas. En realidad el porcentaje de
enfermos mayores de 55 años es tres veces mayor al del grupo de 15-24 años (45,7 versus 14,1%)
b. Sexo: Fijándonos en las últimas cifras de la penúltima y antepenúltima columnas-las de los
hombres y mujeres en la población total-. Vemos que la morbilidad es mucho mayor en las
hembras que en los varones (24,6% y 15,8% respectivamente).
Este hallazgo deberá de ser analizado posteriormente con mayor profundidad, pues como ya
sabemos la morbilidad es mayor en las personas ancianas que en las jóvenes, si el grupo de
mujeres tuviera más ancianas que el de los hombres, esto explicará por qué la morbilidad es mayor
en ellas.
Tipo de residencia: Con el fin de comparar la morbilidad en los bloques con la de los ranchos, se
examinará las cifras al final de las columnas (4) y (7). Su examen revela que mientras que en los
bloques el 20,1% de la población estaba enferma, en los ranchos las cifras ascendieron al 22.8%
una diferencia del 2,7%. Aparentemente tal diferencia es mucho menor de la que era dado
esperar, pues ya habíamos mencionado que las viviendas de los ranchos presentan condiciones
higiénicas deplorables. Sin embargo, lo mismo que para el caso del sexo, tal diferencia amerita un
examen más detallado pues como ya hemos encontrado una relación entre la morbilidad y la
edad, tal diferencia podría explicarnos por qué la diferencia entre los bloques y los ranchos no son
mayores, pues si en los bloques hubiera habido más ancianos que en los ranchos, su morbilidad
se presentaría mucho más alta por este simple hecho. Hay desde luego procedimientos
estadísticos que permiten mejorar tal comparación (ver tasas ajustadas), pero por el momento
seguiremos nuestro análisis prescindiendo de ellos.
Antes de proseguir el análisis podemos resumir nuestros hallazgos hasta el presente, diciendo que
la morbilidad es mayor en los viejos que en los jóvenes, en las hembras que en los varones, que
en los ranchos que en los bloques.
6. Relacionar entre sí los promedios o porcentajes de las variables que se estudian.
Esto es necesario pues como hemos mencionado, puede haber alguna interacción entre ellas, que
causen las diferencias observadas.
a. Edad: Comparando las columnas de totales para la población de los Bloques y la de los
Ranchos (columnas 4 y 7) se observa que el aumento de la morbilidad con la edad aparece en
ambos lugares. Sin embargo, puede notarse, que hasta los 45 años, los porcentajes son mayores
en los Ranchos, pero después de esta edad, se hacen superiores en los Bloques.
Si examinamos ahora la influencia de la edad con respecto a los sexos, para lo cual veremos las
cifras de la penúltima y antepenúltima columnas, se constata que el aumento de la morbilidad con
la edad es constante. Pero también observaremos que dicho aumento es algo menor para los
varones que para las hembras, pues mientras en los primeros la diferencia entre el grupo de 15 -
24 años y el de mayores de 55 años es de 24,1% (36,1%-12,0%) para las segundas es de 34,1%
(49,9%-15,8%)
Si se quiere examinar lo anterior con más detenimiento, pueden compararse separadamente,

primero los hombres de los dos tipos de viviendas y luego las mujeres. Al hacer esta comparación,
puede apreciarse que tanto para los bloques como para los ranchos, la edad parece jugar mayor
papel en las hembras que en los varones y que para cada edad los porcentajes de aquellas, son
sistemáticamente superiores a los de éstos.
En conclusión, los cambios en la morbilidad relacionados con la edad, son más importantes en las
hembras que en los varones. Para cada grupo particular de edad la morbilidad es superior en las
mujeres que en los hombres, ya vivan en los bloques o en los ranchos.
b. Sexo: Comparando los totales para los dos sexos, separadamente para los bloques y para
los ranchos (columna 2 versus 3 y 5 versus 6), concluimos que la influencia del sexo es
prácticamente igual en ambos tipos de residencia (8,8 y 9,3 respectivamente), con una morbilidad
mayor en las mujeres, conclusión que viene a confirmar nuestros hallazgos anteriores.
c. Tipo de residencia: Si comparamos el total para los hombres de los Bloques con el de los
Ranchos y luego hacemos lo mismo con las mujeres (columnas 2 versus 5 y 3 versus 6),
concluimos como anteriormente, que la influencia del sexo es prácticamente semejante en los
bloques y ranchos (2,8% para los hombres y 3,3% para las mujeres).
7. Buscar irregularidades en los datos.
En el cuadro presente hay dos irregularidades que ameritan una investigación mas profunda. Los
varones de 45-54 años de los ranchos presentan una morbilidad algo menor que los del grupo 35-
44 años y las mujeres del grupo 55 y más años de los ranchos, prácticamente tienen la misma
morbilidad que las del grupo 45-54 años. Tales no parecen consistentes con los restantes del
cuadro, aunque al consultar los datos originales de la encuesta nos damos cuenta que dichos
porcentajes se basan en 92 y 78 personas respectivamente y por lo tanto podemos considerarlo
como fluctuaciones debidas al tamaño relativamente pequeño de la muestra entrevistada
8. Conclusiones Finales.
En conclusión, la lectura del cuadro anterior nos revela:
a. La morbilidad es mayor mientras mayor es la edad de las personas.
b. La morbilidad es mayor en los ranchos que en los bloques y en las mujeres que en los
varones.
c. La influencia del sexo es semejante en los bloques y ranchos y por lo tanto, las diferencias
observadas en los dos tipos de vivienda, no pueden ser atribuidas a distinta composición de los
pobladores con respecto a los sexos.
d. La relación entre la edad y la morbilidad es más acentuada en las hembras que en los varones
y por lo tanto la mayor morbilidad de aquellas pudiera ser debida a una composición estaría
diferente. Sin embargo, este factor puede ser descartado, pues como vimos en el punto 6 las
diferencias entre hombres y mujeres se mantienen para cada edad en particular.
e. La relación entre la edad y la morbilidad es más acentuada en ranchos hasta los 45 años, pero
sucede a la inversa a partir de esta época. Aparentemente la mayor morbilidad de los ranchos
puede deberse en parte a una composición estaría diferente, y para despejar esta duda abría
necesidad de recurrir a las llamadas tasas ajustadas (ver Estadísticas de Mortalidad)
f. Irregularidades de los datos en la población masculina de los ranchos, en el grupo de 45-54

años y en las mujeres mayores de 55 años pueden atribuirse a fluctuaciones causadas por el
escaso número de personas examinadas en tale s grupos.
CAPITULO XII
GRAFICOS
13.1 Características Generales.
Los gráficos dan una idea mucho más sintética que los cuadros estadísticos. Unas veces su
finalidad es simplemente tratar de mostrar a otras personas la evolución de determinado
fenómeno, pues mientras que la interpretación de un cuadro estadístico requiere ciertos
conocimientos, cualquiera puede comprender fácilmente que una línea ascendente traduce un
aumento del fenómeno estudiado y que una línea descendente significa una disminución. Otras
veces la finalidad del gráfico es ayudar al análisis de la información, poniendo de presente o
aclarando ciertas relaciones poco aparentes en el material tabulado.
Al igual que en los cuadros estadísticos, en los gráficos se considera:
a. El título
b. El gráfico propiamente dicho.
c. Las notas explicativas.
Sobre el título y las notas explicativas no es necesario insistir, pues todo lo que se dijo a propósito
de los Cuadros, es valedero para los gráficos.
13.1.1 Escalas del gráfico y errores en su empleo.
Dejando a un lado contadas excepciones que se señalarán a su debido tiempo, la mayoría de los
gráficos presenta forma rectangular y se inscriben en las llamadas “coordenadas rectangulares”,
que son aquellas formadas por la intercepción de dos líneas en ángulo recto.
De estas dos líneas la horizontal o “abscisa” se destinará para las diferentes clases de la escala
que se utiliza y la vertical u “ordenada”, para anotar la frecuencia o número de veces que se
observa el fenómeno estudiado.
A propósito de estas escalas es necesario recordar los siguientes principios:
a. Las dos escalas deben ser de la misma longitud o algo mayor la horizontal que la vertical. En
general, salvo ocasiones se señalarán oportunamente, las dos escalas deben guardar una
proporción entre 1 a 1 y 1 a 2, es decir, que si la ordenada mide 10 cm. la abscisa debe medir
entre 10 y 20. Esta exigencia se hace con el fin de no distorsionar el fenómeno que se estudia.
b. Nótese en los tres primeros diagramas del gráfico 97 - los cuales representan el mismo
fenómeno - , que cuando se exagera la escala vertical (diagrama A), se tiene la impresión de
un descenso irreal y cuando se exagera la escala horizontal (diagrama B) parece que el
fenómeno estudiado no ha variado. Una impresión correcta se obtiene en cambio, cuando se
observa el diagrama C, en el cual hay un buen equilibrio en la longitud de las dos escalas.
c. De igual manera, para evitar la incorrecta apreciación de los hechos, las escalas deben
comenzar en 0 (cero), pero sin embargo cuando los valores que se representan son muy
elevados y con pequeñas fluctuaciones debe “partirse” el gráfico (diagrama E), para evitar
diagramas como el D, poco vistoso y sin mayor utilidad, pues es difícil formarse juicio sobre
las variaciones que se quieren representar. Ya veremos que en algunos diagramas tal
partición de la escala no es aconsejable.
d. Cada escala debe ser rotulada de tal manera que se comprenda fácilmente que representa:
edad en años o en meses, kilos o libras de peso, etc.
e. Como el gráfico de ninguna manera da una idea matemáticamente exacta de las fluctuaciones
estudiadas – para ello están los cuadros con los datos originales-, las escalas no deben tener
demasiadas subdivisiones. Aquellas que se utilicen deben ser por lo general, números
redondos.
Gráfico 97
Ilustración de los errores más comunes en la elaboración de los gráficos
Principales gráficos
Los principales gráficos se pueden apreciar en el siguiente esquema:

* DIAGRAMA DE BARRAS:
- SIMPLES
- DOBLES
GRAFICOS A - COMPUESTAS
CUALITATIVAS
UTILIZAR
* DIAGRAMA DE SECTORES
* PICTOGRAMAS
TIPO DE
DISCONTINUAS
VARIABLES
O DISCRETAS
CUANTITAITVAS
* HISTOGRAMA
* POLIGONO DE FRECUENCIAS
* DIAGRAMA DE FRECUENCIAS
GRAFICOS A ACUMULADAS (OJIVA)
CONTINUAS
UTILIZAR
* DIAGRAMAS DE PUNTOS (XY o DE
DISPERSION)
* DIAGRAMA SEMILOGARITMICO
* DIAGRAMA DE CAJAS.
De acuerdo a lo señalado, pueden por consiguiente distribuirse dos clases de gráficos: aquellos
destinados a mostrar las variaciones de determinado fenómeno y aquellos utilizados con fines
analíticos, los primeros aunque muy demostrativos no son siempre los de mayor utilidad para el
investigador.
Dada la extraordinaria diversidad de gráficos existentes (2) solo nos referiremos a los más
generalmente utilizados. Estudiaremos sucesivamente:
1. Diagrama de barras y sus diferentes modalidades

2. Diagrama de sectores
3. Histograma
4. Polígono de frecuencias
5. Diagrama de frecuencias acumuladas
6. Diagrama semilogarítmico
7. Diagrama de puntos
8. Diagrama de cajas y bigotes.
13.2.1 Diagrama de barras y sus diferentes modalidades
Es aquel en el cual el fenómeno que se estudia queda representado por una serie de rectángulos o
barras, las cuales pueden dibujarse horizontal o verticalmente. Las barras deben ser de la misma
anchura y el espacio que los separa no debe ser mayor que el espesor de ellas mismas.
Dos detalles deben tenerse en cuenta cuando se utiliza este diagrama:
Si los datos representados no están en alguna secuencia que debe conservarse, deben ordenarse
de tal manera que las barras queden de mayor a menor, con lo cual se mejora la estética del
gráfico y se captan mejor las variaciones que se estudian.
Si se quieren representar por ejemplo, las variaciones mensuales de un fenómeno durante
determinado año, los meses deben colocarse ordenadamente de enero a diciembre cualesquiera
que sean las cifras correspondientes, pues sería ilógico que por razones estéticas se empezara por
marzo, seguido de noviembre, julio, etc. En cambio en el gráfico 101 las barras han sido
correctamente ordenadas de mayor a menor, pues es indiferente que un tipo de vacunación se
mencione de primero o de último.
(Note que en el diagrama de barras los rectángulos están separados y en el Histograma van unidos)
(Note la escala vertical en el diagrama lineal, dos números consecutivos siempre están a igual
distancia, pero no así en el semilogarítmico)
La escala de la frecuencia debe comenzar siempre en O:
Debe interrumpirse, pues de lo contrario la visualización del fenómeno será errada. Observe dicho
error en el gráfico adjunto en el cual se representa dos enfermedades de la cual se conocieron 450
casos respectivamente.
Gráfico 100
Correcta e incorrecta manera de numerar la escala de un diagrama de barras.

13.2.1.1. Diafragma de barras sencillas: Se utiliza para las distribuciones de frecuencias en escala
cualitativa y cuantitativa discontinua. Puede utilizarse también para series cronológicas, cuando
son pocos los valores que se quieren representar; especialmente cuando corresponde a
observaciones periódicas, como ser la población de Venezuela en los censos de 1936, 1941,1950
y 1961. Para elaborar el diagrama se necesita tan solo dibujar las barras de tal manera, que en
altura este en proporción con las cantidades que representan en el gráfico 101
Vacunaciones practicadas en la primera zona epidemiológica del Estado Lara en 1961
Tipo de vacunación Personas

Antivariólica 16202
Doble 5239
Triple 15584
Antipolio 22591
Antifica 873
BCG 7752
Total 68241
Gráfico 101
Personas inoculadas
BCG
Antifica
Antipolio
Triple
Doble
Antivariólica
0 5000 10000 15000 20000 25000
13.2.1.2. Diagrama de barras dobles. Esta diagrama, (gráfico cuya idea puede hacerse extensiva
para barras triples y cuádruples que se emplea para representar datos de asociación cuyas dos
barras sean cualitativas (defunciones por sexo y causa, etc.). También se emplea cuando se quiere
comparar dos distribuciones de referencias con relación al tiempo.
Gráfico 101 a.
Distribución por tipo de instrucción y sexo.
13.2.1.3. Diagrama de barras compuestas. Las aplicaciones de este diagrama, el cual se

esquematiza a continuación (gráfico 102) son muy semejantes a las del gráfico anterior, sobre el
cual no tiene ninguna ventaja. Note sin embargo, que aunque los gráficos 101 no representan los
mismos datos del cuadro 101 a, la comparación que tienen es algo diferente. En el gráfico 103 se
intenta señalar para la causa de accidente la contribución de cada uno de los sexos.
En el gráfico 102 se desea enfatizar la proporción en que intervienen las diferentes causas en la
mortalidad de cada sexo.
Gráfico 102
Defunciones por accidentes, por causa y sexo.- Venezuela, 1961

Cuadro 103
Defunciones por accidente por causa y sexos.- Venezuela 1961
Gráfico 103
13.2.2. Diagrama de sectores.
Este diagrama, el cual es uno de los más frecuentes empleados se utiliza con fines comparativos,
cuando se quiere mostrar los diversos componentes de una serie y con tal propósito a menudo se
emplea el lugar de diagrama de barras sencillas, a pesar de que no tiene ninguna ventaja sobre el.
En el pueden representarse cifras absolutas o porcentajes. Como círculo tiene 360º, la manera
más fácil de elaborarlo es expresar los datos que se estudian en forma de porcentajes, pues en tal
caso, el 1% corresponde al 3,6º del círculo.
13.2.2.1. Elaboración. En el cuadro 104 se presenta las muertes por diversos tipos de leucemias y
aleucemias ocurridas en Venezuela. Como para representar cada 1% se necesitan 3,6º del círculo,
los porcentajes se multiplicaran por 3,6 con el fin de averiguar cuántos corresponde a cada uno de
los sectores, por ejemplo, el sector que representa la leucemia tendrá (15,2% x 3,6% = 55º) y el
que representa la leucemia linfática tendrá 49º (13,6% x 3,6%= 49º)
Cuadro 104
Defunciones por diversos tipos de Leucemia y Aleucemias. Venezuela 1961

Gráfico Nº 104
Defunciones por Leucemia y Aleucemia por formas clínicas

Venezuela 1961
Hechos los cálculos anteriores se inscribirán con un transporte sobre los correspondientes sectores
sombreándolos diferentemente para distinguirlos entre sí. Para indicar que representa cada sector,
puede usarse cualquiera de los procedimientos ilustrados en el gráfico 105.
13.2.3. Histograma.
En el histograma el fenómeno que se estudia queda representado por una serie de rectángulos
semejantes a los diagramas de barras. Sin embargo, las barras del histograma siempre se colocan
verticalmente y deben ir unas al lado de las otras, sin que haya ningún espacio que las separe.
Este gráfico se utiliza para representar distribuciones de frecuencia en escala cuantitativa continua,
como ser la distribución de un grupo de individuos de acuerdo a su edad, peso, estatura, etc.
13.2.3.1. Elaboración. Para elaborar el histograma véase gráfico 109. Deben seguirse los pasos
que a continuación se detallan, los cuales se encuentran esquematizados en el cuadro 107.
1. Antes de trazar el sistema de coordenadas, los datos originales deben ser transformados en tal
forma, que para cada clase se obtengan el número de casos promedio por unidad de la escala
para ello se buscara primero la amplitud de cada clase y se dividirá la frecuencia
correspondiente por dicha amplitud. Observen el ejemplo que la primera clase tiene amplitud
de 5 y como esa clase había 501 defunciones, al dividir 501 por 5, nos dará en promedio hubo
100 defunciones por cada año (omitiendo la fracción decimal).
Igualmente para el grupo (5-14 años), la amplitud de la clase en 10 y dividiendo por 10 las 453
defunciones observadas, se obtendrán que en promedio se presentaron 45 por cada año de la
vida.
Cuadro 107
Defunciones por accidentes, por grupos de edad.- Venezuela, 1961

(Datos que ilustran los pasos necesarios para la elaboración del histograma ilustrado en el gráfico
109)
Para entender la razón por la cual deben obtenerse estos promedios piénsese en una enfermedad
que afectará por igual a todas las personas, sin distingos de edades y que en determinada
colectividad hubiera producido 10 enfermos en cada uno de los años de la vida.
Si los pacientes se agruparan por edades, lógicamente aquellos grupos que comprendan más años
de edad mostraran más pacientes, dando la impresión de que la enfermedad tiene preferencia por
esas edades, cuando en realidad se ha visto que tal preferencia no existe. Por lo demás, sino se
obtuvieran los promedio, bastaría cambiar los grupos de edad para hacer variar la aparente
preferencia de la edad.
Observe la mencionada falacia, cuando los mismos 300 casos presentan, utilizando agrupaciones
diferentes.
Cuadro 108
2. Trazar el sistema de coordenadas
3. Enumerar las escalas. La ordenada debe comenzar en cero (O), pero como las frecuencias
que se utilizaran para la elaboración del histograma, son los promedios acabados de obtener,
el límite máximo de dicha ordenada estará dado por el máximo promedio obtenido. Observe en
nuestro ejemplo, que aunque se observaron 931 muertes en el grupo 25-44 años, la ordenada
solo se numera hasta 100 ó 120, ya que el máximo promedio obtenido fue 100.
Con respecto a la abscisa, no ha de olvidarse que l comienzo de una clase corresponde

exactamente a la terminación de la clase que le precede. Note en el ejemplo que sirve de
ilustración que el final de la primera clase 5, que es a su vez el comienzo de la segunda.
Igualmente la segunda clase termina en 15 que es el comienzo de la tercera. Por lo tanto al

numerar la escala, deben colocarse solamente las cifras que indican el principio de cada clase.
Además debe evitarse un error común de los principiantes, que consiste en destinar igual
longitud de la escala a clases que tienen igual actitud.
En el ejemplo adjunto la primera clase comprende 5 años, la segunda y la tercera 10 y las

restantes 20 años y por lo tanto si para la primera clase se dejan 5 milímetros para la segunda
y la tercera se dejaran 10 y para las restantes 20.
4. La inscripción de los rectángulos debe hacerse teniendo en cuenta que la altura de cada uno
es dada por la frecuencia que aparece en los datos originales, sino por los promedios
obtenidos en el paso número uno. En nuestro ejemplo el histograma hecho con los datos
originales no es correcto, como puede verse en el gráfico 109.
Gráfico 109
Defunciones por accidentes, por grupos de edad.- Venezuela 1961
5. Un último detalle que se debe tener en cuenta es el siguiente: como la frecuencia en cada
clase se ha dividido por la amplitud de clase para obtener el numero promedio de muertes por
año de edad, en la escala vertical no debe ponerse simplemente “Defunciones”, sino que es
necesario especificar las defunciones por año tal como hemos hecho en el grafico
correspondiente
13.2.3.2 Caso especial de histograma. Según se recordara la relación entre varios números no se
altera si se dividen por la misma cifra. Así por ejemplo, si en la progresión: 40 :20: 10:, cuya razón
2, se divide cada termino por 10, se obtiene la nueva progresión 4: 2:1, en el cual la razón sigue
siendo 2, ósea, en ambas progresiones cada número es la mitad del que le precede.
40 . ___ .___ . ___ . ___. . ___ . ___ . ___ . ___ . 4
20 . ___ . ___ . . ___ . ___ . 2
10 .___ . . ___ . 1
Este recordatorio permite comprender que cuando las clases de una serie tiene la misma amplitud
(digamos 10), los rectángulos del histograma que representa dichas cifras guardara la misma
proporcionalidad, sea que se escriban los datos originales, o los promedios que resulten de dividir
la frecuencia de cada clase por su amplitud.
Por consiguiente en aquellas ocasiones en que todas las clases de una serie tiene la misma
amplitud, el histograma puede hacerse inscribiendo directamente las frecuencias dadas sin
necesidad de obtener los promedios de casos por unidad de las escala pues exceptuando la
graduación de la ordenada, los gráficos serán iguales obténgase o no los promedios mencionados
En el ejemplo siguiente nótese que los histogramas elaborados con los datos originales de la
segunda columna del cuadro 108 y con los promedios de las clases son exactamente iguales, pero
que la numeración de la ordenada es diferente, pues en el último caso la escala es de 1/10 de la
primera, pues como en cada grupo decenal se obtienen el promedio por año de edad, se han
representado “defunciones por año de edad “
Grafico 110
Defunciones por accidentes, por grupos de edad. Venezuela. 1961.
nº de muertes
800
600
400
200
0
0 10 20 30 40 50 60 70 80 90
años de edad
Fuente: Datos de cuadro 108.
Todos los detalles mencionados a propósito del histograma son aplicables a la construcción del
polígono de frecuencias y por lo tanto lo mismo que en aquel, es necesario obtener el número
promedio de observaciones por año de edad cuando las clases son desiguales en amplitud.
La diferencia entre estos dos diagramas estriba en que el polígono de frecuencia no se usa
rectángulos, sino una serie de puntos que se colocan a la altura que ocuparían los rectángulos del
histograma y en la parte media de cada clase. Luego para dar la idea de continuidad dichos
puntos se reúnen para un trazo continuo.
Por regla general el histograma debe preferirse al polígono de frecuencias. Este debe destinarse a
aquellos casos a los que se debe destinar más de una serie en el mismo gráfico, con fines
comparativos. Si por ejemplo se quisiese comparar la distribución etaria de las defunciones por
accidentes para los dos sexos no se lograrían ninguna claridad con la superposición de dos
histogramas uno para cada sexo. La representación se hará correctamente en un polígono de
frecuencias, inscribiendo sucesivamente los datos para hombres y mujeres.
Gráfico 112
Comparación entre el histograma y el polígono de frecuencias
Fuente: Datos de cuadro 107.
Y, utilizando un trazado diferente para cada serie de datos cuyo significado se aclarara al lado
De el gráfico (gráfico 103) (datos que ilustran la elaboración de un polígono de frecuencias)
Amplitud de Defunciones por año

Edades Sexo clase de edad
Hombres Mujeres Hombres Mujeres
0-4 275 226 5 55 45

5 > 14 288 165 10 29 17
15-24 519 86 10 52 9
25-44 835 96 20 42 5
45-64 400 99 20 20 5
65-84 115 103 20 6 5
Total 2432 775
Fuente: Anuario de epidemiología y estadística vital. Venezuela.

Gráfico 113
900
800
700
600
500
Hombres
400
Mujeres
300
200
100
0
0-4 5 > 14 15-24 25-44 45-64 65-84
13.2.4.1 Detalle adicional. Un gráfico todo semejante al polígono de frecuencias para la

representación de las vías cronológicas sin embargo debe tenerse en cuenta un detalle
adicional para su correcta elaboración
Gráfico 114
1950 1951 1952 1950 1951 1952
AÑOS AÑOS
Si ven los esquemas adjuntos se observará que las subdivisiones del tiempo (años, meses, días,
etc.) pueden colocarse entre dos ordenadas opuestas inmediatamente debajo de ellas
En el primer caso el año comienza en una ordenada y termina en la siguiente, es decir, que para
su representación se dispone de todo el espacio comprendido entre dos ordenadas. En tales
ocasiones, la inscripción del punto que representa determinada frecuencia, se hará generalmente
en la mitad de dicho espacio, salvo el caso de que se quiera descartar que la cifra corresponda al
total para un periodo especifico. Si por el contrario, los años se han puesto debajo de las
ordenadas los puntos correspondientes se inscribirán sobre ellas.
13.2.5 Diagrama de frecuencias acumuladas. Este diagrama se utiliza para representar

distribuciones de frecuencia en escala cuantitativa con fines analíticos o para resumir ciertas series
cronológicas cuando se tiene interés, no tanto en las fluctuaciones de un lapso a otro, sino en el
efecto acumulado a través del tiempo.
Antes de indicar la elaboración del diagrama obsérvese los datos presentados en el siguiente
cuadro. Las dos primeras columnas del cuadro muestran las muertes accidentales en el país en
1961 por grupos decenales de edad. Sumando sucesivamente las defunciones ocurridas, en los
diversos decenios se obtienen las cifras de la columna (3) que indican el número de defunciones
ocurridas a determinada edad. Así por ejemplo, hubo 748 en el grupo “0-9 años” y por lo tanto,
todas ellas fueron en menores de 10 años.
Como luego aparecen 457 en el grupo de “10 a 19años” al sumar esta cifra a la anterior 748 + 457
= 1205), se tiene 1205 defunciones ocurrieron en personas menores de 20 años. Igualmente hubo
1847 en menores de 30 años, ósea, las 748 menores de 10 años + las 457 del grupo de 10- 19, y
las 642 que el grupo de 20 a 29. Si se desea puede dividirse estas frecuencias acumuladas por la
frecuencia general del grupo, y multiplicar * 100 para obtener los porcentajes acumulados que
aparecen en la columna.
Cuadro 115
Defunciones por accidentes. Frecuencias acumuladas por grupos de edad. Venezuela, 1961.
Frecuencias acumuladas
Edad en años Número de defunciones
Número Porcentajes
1 2 3 4
0- 9 748 748 23.3
10 > 19 457 1203 37.6
20-29 642 1817 57.6
30-39 466 2313 72.1
40-49 340 2653 82.7
50-59 244 2891 90.2
60-69 156 3050 95.1
70-79 76 3126 97.5
80-89 81 3207 100
Total 3207
Fuente: Anuario de epidemiología y estadística vital, Venezuela.
Grafico 116
Defunciones por accidentes, frecuencias acumuladas por grupos de edad, Venezuela, 1961.
3500
3000
2500
2000
1500
1000
500
0
1 0- 9 10 > 19 20-29 30-39 40-49 50-59 60-69 70-79 80-89
Fuente: Datos del cuadro 115.
13.2.5.1 Elaboración. La elaboración del diagrama de frecuencias acumuladas se resume en los
siguientes pasos:
1. Obtener las frecuencias acumuladas tal como se acaba de indicar.
2. Trazar el sistema de coordenadas y numerar las escalas. En la abscisa, se ponen intervalos de

clase, en la misma forma indicada en el histograma.
3. La ordenada debe comenzar en cero y llegar hasta la cifra que corresponda al total del grupo.
4. Generalmente es preferible utilizar una doble escala como se ha hecho en el grafico 116 en el
cual la escala vertical derecha muestra los porcentajes acumuladas (0% - 100%) y la izquierda
el número de defunciones acumulada.
5. Inscribir las frecuencias acumuladas. Cada frecuencia queda representada por un punto, el
cual debe colocarse al final del espacio destinado a la respectiva clase, para indicar el número
de casos que hubo por debajo de dicho valor. Así por ejemplo, como aparecen 748
defunciones en el grupo “0-9 años” el punto debe ir encima del valor de la abscisa
correspondiente a 10 años, significando que 748 defunciones ocurrieron en menores de 10
años. Igualmente, como hubo 1205 en menores de 20 años, el punto estará colocando encima
del valor “ 20 años” de la abscisa
6. Unir los puntos inscritos, con una línea continua, para facilitar la lectura del gráfico.
7. El grafico de frecuencias acumuladas permite responder fácilmente preguntas como las

siguientes:
a. ¿Cuántas defunciones hubo en menores de determinada edad?
b. Por ejemplo, para averiguar las muertes ocurridas en menores de 35 años, se levanta una
vertical a esta edad hasta la curva del diagrama y se proyecta en la escala vertical
izquierda, lo cual nos indica que por debajo de esa ocurrieron aproximadamente 2100
defunciones.
c. De las defunciones totales. ¿que porcentaje ocurrió por debajo de determinada edad?
d. Para el ejemplo anterior, se levanta una vertical hasta la curva y se proyecta en la escala de
los porcentajes obteniéndose que aproximadamente el 65% de las defunciones fueron en
menores de 35 años.
e. ¿Por debajo de que edad ocurrió determinado porcentaje de las defunciones?
f. Por ejemplo, si se desea saber antes de que edad ocurrió el 50% de las muertes, se traza
una horizontal desde esta cifra hasta la curva del diagrama y bajando luego una vertical
hasta la abscisa, vemos que el 50% ocurre antes de los 26 años (Q) . En la misma forma
podemos ver que el 25% de las defunciones ocurre antes de los 11 años (Q1) y el 75%
antes de los 43 años (Q3). Desde luego, son valores aproximados y más adelante se
estudiarán métodos matemáticos más exactos.
13.2.6. Diagrama Semilogarítmico.
Es aquel cuya escala vertical tiene una escala logarítmica, mientras que la horizontal presenta una
graduación aritmética como la utilizada en todos los gráficos vistos anteriormente.
Con fines recordatorios, puede decirse que un logaritmo no es otra cosa que el número que indica
cuantos ceros siguen a la unidad. Así por ejemplo, 100 tiene dos ceros y por siguiente su
logaritmo es 2, el número 1000 tiene tres ceros y su logaritmo es 3. Siendo 2 el logaritmo de 100
y 3 el logaritmo de 1000, cualquier número comprendido entre los anteriores, digamos 300, tendrá
un logaritmo entre 2 y 3, es decir, que su logaritmo será 2 más alguna fracción.
De lo anterior se deriva que los logaritmos 2, 3, 4, etc., representan números que están en
progresión geométrica: 100, 1000, 10000, etc. Por consiguiente cuando se utiliza la escala
logarítmica, aquellos números que representan una misma proporción, como ser: 1 y 2 o 3 y 6 ò
100 y 200 etc., quedaran en el gráfico separadas por una misma distancia, lo cual no sucede en la
escala aritmética corriente. Esto puede apreciarse en el esquema de la próxima página.
La escala consta de uno o varios ciclos exactamente iguales, de tal manera que si el primero
representa los números del 1 al 10, el segundo representara los números del 10 al 100 y así
sucesivamente. Note por consiguiente que la escala logarítmica, nunca empieza en cero. Su
comienzo puede ser 0,1; 1 ò 10 ò 100 de acuerdo a los datos que se representan.
En el comercio se consigue ya timbrado, papel de 1, 2 o más ciclos pero en ocasiones se desea

hacer el gráfico más grande o más pequeño de lo que el papel timbrado lo permite. Para ello,
utilizando el papel comercial, puede agrandarse o empequeñecerse la escala mediante
procedimiento esquematizado en el gráfico 120.
13.2.6.1. Utilización del diagrama semilogarítmico. El papel semilogarítmico tiene, entre otros,
los siguientes usos:
a. Si se quieren representar en el mismo gráfico dos series cuyas cantidades son muy diferentes
unas de otras, como ser las variaciones en él número de glóbulos rojos y de glóbulos blancos, o los
casos y muertes de ciertas enfermedades, la escala aritmética no lo permitirá, como lo demuestra
el siguiente ejemplo:
GRAFICO 120
PROCEDIMIENTOS PARA OBTENER CICLOS LOGARÍTMICOS MÁS PEQUEÑOS (A) O MÁS
GRANDES (B)
CUADRO 121
CASOS Y DEFUNCIONES POR TOSFERINA. ÁREA DE NOTIFICACIÓN ORGANIZADA

VENEZUELA, 1956 – 1960
Años Casos Defunciones
1956 2.824 79
1957 1.420 76
1958 938 43
1959 4.476 118
1960 6.764 101
Fuente: Anuario de Epidemiología y Estadística Vital Venezuela 1961
Al utilizar una escala aritmética para representar estos datos se caería en una de las dos
alternativas siguientes:
1. Si la escala presenta subdivisiones en 1000, las variaciones de los casos se apreciarían

correctamente, pero como las defunciones presentan muchas pequeñas variaciones con
referencia a ellos, quedarían prácticamente representadas por una línea recta, lo cual no
permitiría apreciar los cambios en la mortalidad habida en el lapso. (Véase el grafico 122B).
2. Si para subsanar el anterior inconveniente se hicieran subdivisiones de 10 en 10, entonces el

grafico tendría que tener varios metros de altura, para que permitiera inscribir los miles de
casos presentados.
Gráfico 122 A
DIAGRAMA SEMILOGARITMICO
Frecuencias
7.000
5.000
CASOS
2.000
1.000
500
200
100 DEFUNCIONES
50
20
10
1956 1957 1958 1959 1960

AÑOS
Gráfico 122 B
USO INADECUADO DE LA ESCALA ARITMÉTICA

(No se aprecian las variaciones anuales en el número de defunciones)
7.000
6.000
5.000
4.000
3.000
CASOS
2.000
1.000
DEFUNCIONES
1.956 - AÑOS - 1.960

Fuente: Datos del cuadro 121
La representación correcta de los datos anteriores puede hacerse fácilmente utilizando el papel
semilogarítmico. En el grafico 122 A la vez que se apreciaran las variaciones en él número de
casos, se apreciaran también las ocurridas en las defunciones.
3. Muchas veces se tiene interés en comparar, no los cambios absolutos que presentan 2 o
más series, sino los cambios relativos y en tales ocasiones, el papel Semilogarítmico es el
adecuado. Considere por ejemplo, los siguientes datos:
CUADRO 123
MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS
Tasas por 100.000 habitantes
Año Tuberculosis Bilharziosis

1953 87.0 1.9
1954 74.0 1.5
1955 57.0 1.2
1956 45.0 1.0
1967 43.0 0.7
Fuente: Anuario de Epidemiología y Estadística Vital de Venezuela. 1961
Note que de 1953 a 1957, la Bilharziosis descendió en más del 60% y la Tuberculosis solamente
en un 50%. Esto se aprecia correctamente en el diagrama Semilogarítmico pero en diagrama de
escala aritmética aparece que la Tuberculosis hubiera descendido mucho más que la Bilharziosis
GRÁFICO 124
MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS.

SEMILOGARITMICO ARITMÉTICO
Tasas por 100.000 habitantes Tasas por 100.000 habitantes
3.0 90
Tuberculosis
Tuberculosis
2.0 60
30
1.0 Bilharziosis
Bilharziosis
0.1 0
1953 1954 1955 1956 1957 1953 1954 1955 1956 1956
AÑOS AÑOS
Fuente: Datos del Cuadro 123
13.2.7. Diagrama de Correlación
Este gráfico se utiliza para aquellos casos en los cuales a cada individuo que se estudia se le
toman dos medidas diferentes, es decir, cuando cada individuo se clasifica al mismo tiempo en
relación a 2 escalas cuantitativas como ser peso y estatura, edad y peso, etc.
En el gráfico cada individuo queda representado por un punto según la forma como estos puntos
se agrupen, se podrá juzgar sobre el grado de asociación entre las dos variables, lo cual se
estudiará en detalle posteriormente.
13.2.7.1Elaboración. Para elaborar el diagrama de Correlación, se procederá así:
1. Trazar el sistema de coordenadas. En este gráfico las dos escalas deben ocupar la misma
longitud, es decir, si la ordenada mide 15cms; la abscisa también debe medir 15cms.
2. Numerar las escalas. No es necesario como en otros gráficos, que las escalas comiencen en 0.
La numeración puede comenzar con el valor menor observado en los datos o con el número
redondo inmediatamente inferior y terminará con el máximo valor observado o con el número
redondo inmediatamente superior.
3. Como cada individuo va a ser representado por un punto, éste se colocará en la intercepción de
2 líneas imaginarias que pasen por los correspondientes valores.
Ejemplo: Con el fin de constatar si realmente los estudiantes que obtienen las mejores
calificaciones en sus ejercicios son quienes presentan los mejores exámenes finales, un
grupo de 20 estudiantes de estadística ha sido clasificado de acuerdo a las notas previas
obtenidas en los ejercicios y a los resultados del examen final.
El gráfico 126 representa los mencionados datos. Observe que en el diagrama se ha destacado el
o
valor correspondiente al individuo N 7, para mostrar cómo deben colocarse los puntos. Dicho
valor corresponde a un estudiante que tenía una nota previa de 11 puntos y obtuvo 10 en el
examen final.
Detalles sobre la interpretación de los gráficos de correlación y sobre las asociaciones

encontradas, serán dados al estudiar el Análisis de la Información recogida.
NOTAS PREVIAS DEL EXAMEN FINAL DE 20 ESTUDIANTES

DE METODOLOGÍA ESTADÍSTICA.
ALUMNOS NOTA PREVIA NOTA FINAL

1 15 13
2 13 12
3 16 18
4 14 16
5 20 18
6 17 18
7 11 10
8 15 16
9 18 18
10 12 11
11 19 17
12 16 16
13 10 9
14 11 13
15 18 15
16 10 8
17 15 15
18 16 17
19 14 13
20 13 14
Gráfico 126
25
20
15
NOTA PREVIA
10 NOTA FINAL
0
0 5 10 15 20 25
13.2.8. Diagrama de Cajas – Bigotes
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o verticalmente.
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el
recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se
posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que
el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que
tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la
caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato
o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Ejemplo distribución de edades:
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de
un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31 4 29 23 41 40 33 24 34 40
1. Ordenar los datos
2. Para calcular los parámetros estadístico, lo primero es ordenar la distribución
3. 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
4. Cálculo de cuartiles
5. Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1 = (24 + 25) / 2 = 24,5
6. Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la

variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:
Med.= Q2 = (33 + 34)/ 2 =33,5
7. Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15.
Q2=(39 + 39) / 2 = 39
8. Dibujar la caja y los bigotes
El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la

caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).
9. Información del diagrama
Podemos obtener abundante información de una distribución a partir de estas representaciones.

Veamos alguna:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades
comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más
jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en

14,5 años.
CAPITULO XIV
EL ANÁLISIS DE LA INFORMACIÓN:
LOS ESTUDIOS DESCRIPTIVOS
FACTORES QUE DETERMINAN EL METODO DE ANÁLISIS
14.1. Generalidades:
El análisis de todo estudio, debe comenzar con una evaluación global de la información disponible
y de la manera como fue recogida.
Conviene examinar si los planes se cumplieron a cabalidad y si los datos se recogieron en la forma
prevista y sólo una vez que se está seguro de la fidelidad de la información, podrá iniciarse el
análisis estadístico propiamente dicho.
Las técnicas de análisis estadístico son muy numerosas, y la escogencia depende, entre otros
factores de:
1. El propósito del estudio.

2. El tipo de información recogida.
3. La escala de clasificación utilizada.
4. El número de individuos estudiados.
En capítulos anteriores, ya se consideraron algunos aspectos referentes al tipo de información

recogida (distribuciones de frecuencia, datos de asociación y series cronológicas) y a la escala de
clasificación utilizada (cualitativa y cuantitativa). Consideramos ahora, la importancia que para el
análisis tiene el propósito del estudio, y el número de observaciones estudiadas (series agrupadas
o no agrupadas).
14.2 Estudios descriptivos y estudios comparativos.
De acuerdo a su propósito, los estudios se clasifican en:
- Descriptivos, y
- Comparativos.
En los estudios descriptivos interesa sobre todo, resumir adecuadamente la información y al mismo
tiempo destacar las características importantes del grupo que se estudia. En los estudios
comparativos interesa primordialmente averiguar si hay o no diferencias entre los dos o más
grupos que se estudian y si dichas diferencias existen, hallar razones valederas que puedan
explicarlas.
Es de advertir que esta tajante diferenciación entre estudio; descriptivos y comparativos, es más
bien aparente. En primer lugar, todo estudio comparativo debe comenzar con una descripción de
los hallazgos encontrados, pues solamente después que estos han sido resumidos
convenientemente, podrá hacerse con provecho las comparaciones deseadas. En segundo lugar,
no debe olvidarse que en muchos estudios descriptivos la finalidad última es hacer ciertas
generalizaciones a partir de los resultados observados, pues aunque por razones prácticas el
investigador solo estudia una muestra de la población en que está interesado, su deseo es llegar al
conocimiento de dicha población a través de los resultados de la muestra. Tal proceso de
inducción exige técnicas, distintas a las utilizadas en la simple descripción de los datos, las cuales
tienen mucho en común, con aquellas que se emplean en los estudios comparativos.
A pesar de las salvedades anteriores, con propósitos docentes se estudiarán separadamente las
técnicas estadísticas que se emplean los estudios descriptivos y aquellas que se utilizan en las
comparaciones de grupo, pues el perfecto conocimiento de las primeras, es imprescindible para
poder estudiar las segundas.
14.3 Número de individuos estudiados
Trátese de un estudio descriptivo o comparativo, la escogencia de las técnicas de análisis que se

utilizarán, depende del número de individuos en los cuales se basa la investigación.
Cuando el número de individuos observados es poco numeroso, los valores correspondientes se

pondrán uno al lado del otro sin que haya necesidad de agruparlos en diferentes categorías. Se
tienen entonces las llamadas series no agrupadas.
Cuando por el contrario, el estudio incluye una cantidad apreciable de individuos, ningún análisis
podrá hacerse si no se clasifican previamente en un determinado número de grupos o clases, tal
como señalamos en el capítulo noveno. Tales datos así presentados reciben el nombre de series
agrupadas.
Las técnicas estadísticas de análisis serán distintas según se traten de series agrupadas o de
series no agrupadas, siendo un poco más laboriosas las primeras
14.4 Técnicas de análisis de los estudios descriptivos.
Las técnicas utilizadas en el resumen de los estudios descriptivos pueden esquematizarse en la

forma siguiente:
14.4.1 .Distribuciones de Frecuencias
Las distribuciones de frecuencia en escala cualitativa se resumen por frecuencias relativas (tasas,
porcentajes, etc.) Si la escala es cuantitativa, pueden resumirse en la misma forma, pero
generalmente se resumen mediante las llamadas tendencias centrales (promedio, mediana, modo)
y medidas de dispersión (desviación, desvíos, percentiles, etc.)
14.4.2. Datos de Asociación
Si las dos escalas son cualitativas, se resumirán en frecuencias negativas. Si una es cualitativa y la
otra cuantitativa, podrá escogerse, de acuerdo con la finalidad del estudio, cualquiera de las
medidas hasta ahora mencionadas y si ambas escalas son cuantitativas se emplearan el
Coeficiente de Correlación o el Coeficiente de Regresión.
14.4.3. Series cronológicas
Se resumen por medio de las tendencias calculadas, cambios porcentuales y técnicas de

regresión.
CAPITULO XV
DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUALITATIVA
Razones, proporciones, porcentajes y tasas

15.1. Presentación tabular.
Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la
primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el
número de individuos observados. Generalmente el cuadro se acompaña de una primera columna,
en la cual se ponen los porcentajes respectivos.
(Ver cuadro 84)
15.2. Presentación gráfica
Pueden utilizarse el diagnóstico de barras o de sectores, pero la escala tiene muchas

subdivisiones, siempre debe preferirse el número. En ellos pueden respetarse los números
absolutos o los porcentajes respectivos. El grafico quedará igual en ambos casos, cuando
solamente la numeración de la escala utilizada. (Ver gráfico 101 y 105)
15.3. Análisis: frecuencias relativas.
El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general
de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices,
porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo.
Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia
que comprender su utilización y aplicaciones.
La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más
fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comprobación de diversos resultados.
El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor
para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada
localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben
proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario
relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio
en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella
deben haber más o menos 5 veces más defunciones.
15.3.1. Razones y Proporciones.
Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:
Hombres 297
Mujeres 99
Total 396
Aunque es evidente el predominio de los hombres, la intensidad de esa relación se apreciará

mejor, al dividir el número de hombres por el de mujeres, con lo cual podemos decir, que hay 3
hombres por cada mujer en dicho grupo (297/99=3).
Puede también dividirse el número de hombres por la totalidad de personas en el grupo (297/396 =
¾ = 75%), con lo cual se evidencia fácilmente, que cada 4 estudiantes, tres son de sexo
masculino, es decir, que hay 3 hombres por cada mujer en dicho grupo de estudiantes.
En el primer caso se ha relacionado el número de individuos en la categoría con el número de

individuos la otra. En el segundo caso se ha relacionado el número de observaciones de una
categoría, con el total general del grupo. La primera de tales frecuencias se denomina una “razón”;
la segunda se llama una “proporción” cuando la serie que se estudia consta solamente de dos
categorías hombres y mujeres o enfermos y sanos - puede usarse según las referencias una razón
o una proporción -. Si la serie consta de tres o más categorías, no hay una manera única de
calcular una razón en tales casos es preferible utilizar las proporciones.
15.3.2. Porcentajes.
Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes,
basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el
resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 =
75%) y el 25% mujeres: (99/396) x 100 = 25%.
El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente
2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a
100.
Note que si se tienen los 2 siguiente grupos de personas:
Hombres 297 Hombres 255

Mujeres 99 Mujeres 85
Total 396 Total 340
El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los
dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de
su cálculo.
En segundo lugar, a través de los porcentajes se puede resumir la probabilidad de la ocurrencia de

un hecho. En la ilustración anterior por ejemplo, hay un 75% de probabilidad de que una persona
sea de sexo masculino (297/396) y un 25% de que sea de sexo femenino (99/396)
15.3.3. Tasas
En toda la población es importante conocer su composición y los cambios que acontecen en ella.
Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten
analizar completamente la información disponible. Supóngase que en la población de San Pedro
los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:
Cuadro 133
Accidentes automovilísticos según sexo de los conductores.
San Pedro, 1961
Sexo de los conductores Frecuencia Porcentajes

Hombres 400 80%
Mujeres 100 20%
Total 500 100%
La información anterior es desde luego útil. Los porcentajes calculados señalan, entre otras cosa,
que al ocurrir un accidente hay un 80% de probabilidad que sea un hombre quien conduce, lo cual
facilitará ciertas decisiones administrativas. Así por ejemplo, si se está planeando construir un
hospital para atender conductores heridos o una cárcel para detenerlos, los porcentajes nos
indican que aproximadamente un 80% de las camas hospitalarias o de las celdas carcelarias
deben ser para hombres.
Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres
tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean
más cuidadosas al manejar.
Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de
que acontezca determinado fenómeno debe relacionarse con la población en la cual puede
acontecer. Tales relaciones reciben el nombre general de tasas.
Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió
determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente
dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el
fenómeno descrito en el numerador:
Número de veces que ocurrió determinado fenómeno

n
x 10
Población en la cual ocurrió el fenómeno
Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será
menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000,
10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en
1960 fue de 9 por 1000 que recordar que es 0.009.
Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera.
Entre ellas, tienen importancia en Medicina:
1. Las tasas de mortalidad: las cuales expresan el riesgo de morir.

2. Las tasas de morbilidad: que expresan el riesgo de adquirir determinadas enfermedades.
3. Las tasas de natalidad: que miden el crecimiento de las poblaciones.
4. Las tasas de letalidad: que indican cuan graves son las enfermedades.
Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de
sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas
veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas
en particular.
Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas
crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se
denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas
por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica
como se quiera, desde que se disponga de los datos básicos necesarios.
Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo,
para que el denominador sea correcto.
Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y
de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de
habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población
especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues
se considera, que dicha población es intermedia entre la de principios y final de año.
15.3.3.1. Principales Tasas.
Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el
cálculo de las más comúnmente empleadas:
Defunciones por todas las causas

y en todas las edades ocurridas
en determinada región durante
determinado año.
Tasa Cruda de Mortalidad: x 1000
Población de la mencionada región
para el 1° de Julio del año
que se estudia
Ejemplo: La población de Venezuela para el 1-7-64 se estimó en 7.600.000 habitantes y

en dicho año ocurrieron en el país un total de 55.466 defunciones. La tasa cruda de mortalidad fue
por lo tanto:
55.466 x 1.000
= 7.3 por 1.000 habitantes
7.600.000
Total de nacimientos vivos habidos

en determinada región
durante determinado año
Tasa Cruda de Natalidad = x 1.000
Población de la mencionada región
para el 1° de Julio del año
que se estudia
En 1961 se registraron en Venezuela 340.433 nacimientos vivos, y la población se estimó en

7.600.000 habitantes. Su tasa cruda de natalidad fue por consiguiente:
340.433 x 1.000
= 44,7 por 1.000 habitantes
7.600.000
Tasa Cruda de Morbilidad: Habitualmente no se calcula, ya que salvo el caso de

encuestas especiales, es imposible conocer la morbilidad total de una
región.
Defunciones por determinada causa habidas en

determinada región durante el año en estudio
Tasa de Mortalidad x 100.000
Específica por causa:
Población de la mencionada región para el 1°
de Julio del año respectivo
Ejemplo: Durante 1961 ocurrieron en Venezuela 1.312 defunciones por Tuberculosis.

Como la población del país dicho año se estimó en 7.600.000 habitantes, la tasa de mortalidad
específica por Tuberculosis fue:
1.312 x 100.000
= 17,3 por 100.000 habitantes
7.600.000
Defunciones por todas las causas en

determinado grupo de edad
Tasas de Mortalidad x 1.000
específica por edades: Población del correspondiente grupo de
edad para el 1° de Julio del año estudiado
Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en 3.400.000
habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas
menores de 15 años. La tasa de mortalidad en menores de 15 años fue:
26.303 x 1.000
= 7,7 por 1.000
3.400.000
Defunciones habidas por determinada causa

en determinado grupo de edad
Tasa de Mortalidad x 100.000
Específica por causa
y por edades: Población del correspondiente grupo de edad
para el 1° de Julio del año de estudio.
Ejemplo: En 1961 ocurrieron en Venezuela 140 defunciones por Tuberculosis en el grupo de

menores de 15 años. Como la población estimada para esas edades, fue de 3.400.000 habitantes,
la tasa de mortalidad específica por Tuberculosis para menores de 15 años fue:
140 x 100.000
= 4,1 por 100.000
3.400.000
Número de enfermos por determinada causa

conocidos en determinada región durante el año
Tasa de Morbilidad x 100.000
Específica por causa: Población de la región para el 1° de Julio del
año en estudio
Ejemplo: En 1961 se conocieron en Venezuela 8.242 casos de Tuberculosis Pulmonar. Como la

población del país era de 7.600.000 la tasa de morbilidad por Tuberculosis fue:
8.242 x 100.000
= 108,4 por 100.000
7.600.000
Defunciones por determinada causa

Tasa de Letalidad: x 100
Casos conocidos de la enfermedad en
el mismo año y en la misma región
Ejemplo: En 1961 se conocieron en el país 861 casos de Fiebre Tifoidea, de los cuales fallecieron
26. La tasa de letalidad para la Fiebre Tifoidea fue por lo tanto:
26 × 100 = 3.0%
861
Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no
puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos
se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna.
La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han
cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de
niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos
censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos
ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad
infantil se calcula mediante la fórmula siguiente:
Tasa de Mortalidad Infantil = Defunciones de niños menores de un año x 1.000

Nacimientos vivos
Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de
1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de
mortalidad infantil fue:
18.137 x 1.000 = 53.2 por 1.000 nacimientos vivos

340.433
Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año.
b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable
directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas
parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos,
quedando la tasa:
Tasa Mortalidad Materna: Defunciones Maternas × 1.000

Nacimientos Vivos
Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo,
parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad
materna fue:
378 x 1.000 = 1.1 por 1.000 nacimientos vivos.

340.433
CAPITULO XVI
DISTRIBUCIONES DE FRECUENCIAS
EN ESCALA CUANTITATIVA
Los cuadros que sirven para representar estos datos son en lo semejantes a los utilizados en otras
distribuciones de frecuencias (cuadro 83).
16.2. Presentación gráfica.
Cuando la escala es continua, la representación gráfica se hace en polígonos de frecuencia y

preferentemente en histogramas (ver gráfico 109). En los raros casos en los cuales la escala es
discontinua, debe utilizarse el diagrama de barras.
16.3. Análisis.
Lo mismo que las series anteriores, las distribuciones de frecuencias en escala cuantitativa pueden
analizarse mediante porcentajes, pero generalmente el análisis se efectúa mediante las llamadas
constantes centrales y de dispersión. Las primeras (promedio aritmético, mediana y modo) señalan
aquellas cifras alrededor de las cuales está la mayoría de las observaciones y las segundas
(desviación estándar, percentiles, etc.)
Señalan la manera como se distribuyen las observaciones con respecto a los anteriores valores
centrales.
El que se prefiera analizar una serie mediante porcentajes o mediante medidas centrales y de
dispersión depende de la finalidad que se persigue en el estudio. La información dada por unos y
otras es diferente y en ocasiones suelen utilizarse al mismo tiempo los dos tipos de medida.
16.4. Análisis mediante frecuencias relativas.
Distribuciones de frecuencias en escala cuantitativa, pueden analizarse para ciertos propósitos

mediante porcentajes y porcentajes acumulados.
Cuadro 141
Escolares de acuerdo a su peso
Peso en Kilos No. de Escolares Porcentajes Porcentaje acumulado

20-24 4 8.0 8.0
25-29 8 16.0 24.0
30-34 9 18.0 42.0
35-39 10 20.0 62.0
40-44 7 14.0 76.0
45-49 6 12.0 88.0
50-54 6 12.0 100.0
Total 50 100.0
Fuente: Datos hipotéticos para ilustración
En muchas ocasiones como esta, el promedio puede ocultar diferencias importantes entre los
individuos que se estudian, mientras que el simple análisis de los porcentajes puede ser mucho
más ilustrativo. Supongamos por ejemplo, que el peso promedio normal para niños de la edad
estudiada hubiera sido fijado en 35 kilos.
El promedio para este grupo de 50 escolares, calculado por el método que luego se estudiará es
exactamente 37 kilos, el cual nos lleva simplemente a formarnos la impresión de que el grupo
estudiado, presenta un estado nutritivo normal. Sin embargo, el análisis de los porcentajes nos
muestra claramente que el 8% de los niños pesa entre los 24 kilos y que el 42% pesa menos de 35
kilos, o sea, que debido a nuestro patrón de normalidad, casi la mitad de estos escolares estarían
desnutridos.
16.5. Constantes centrales en series no agrupadas.
� ) (µ para el caso de la muestra)

16.5.1. Promedio aritmético ( 𝑋
El promedio aritmético es la cifra que se obtiene al dividir la suma de todos los valores observados
por el número de observaciones y se tienen 5 niños cuyos respectivos pesos son:
7, 4, 9, 6, y 4 kilos
El promedio aritmético se obtendrá sumando las cifras anteriores y dividiendo por 5 que es el
número de niños:
� =7+4+9+6+4
𝑋 = 30 = 6 kilos
5 5
Es decir, los niños pesan en total 30 kilos, y si todos ellos pesarán igual, esto es, si no existiera
variación, el peso de cada uno sería de 6 kilos.
16.5.2. La Mediana (M)
La mediana es aquella observación que divide la serie en 2 partes iguales, en tal forma, que la
mitad de las observaciones son iguales o menores que dicho valor y la otra mitad, iguales o
mayores que él.
Para calcular la mediana, es necesario ordenar las observaciones de menor a mayor o viceversa.
Por lo tanto, en el ejemplo anterior, la mediana no es 9, pues ordenando los datos de menor a
mayor, se obtendría:
4, 4, 6, 7, 9
y la mediana será 6, a cada lado de la cual quedan 2 observaciones.
Si en vez de un número impar de observaciones tuviéramos las 6 siguientes:
4, 5, 7, 8, 9, 10
se ve que no hay en realidad ninguna observación que “ocupe la mitad”, pues el límite estaría entre
el 7 y el 8. En dichos casos, para obtener la mediana, se promediarán los 2 valores centrales, en
este caso, los correspondientes a la 3ª y 4ª observaciones, es decir:
7 ÷ 8 = 7 1/2
2
16.5.3. El Modo (M)
El modo, o valor de moda, es aquel que se observa con mayor frecuencia. En el primer ejemplo, en
que los pesos eran:
7, 4, 9, 6, 4 kilos
El modo es 4, pues éste es el valor que se observa con mayor frecuencia.
Obsérvese que si los valores fueran 7, 4, 8, 3, y 5, no hay en realidad ningún valor que se observe
más frecuentemente que los otros. Lo mismo sucede si los valores fueran:
2, 2, 4, 4, 6, y 6
16.6. Constantes centrales en series agrupadas.
16.6.1. Promedio Aritmético
Para calcular el promedio, se asume que cada uno de los individuos en determinada clase tiene un
valor igual al punto medio de la clase. En el ejemplo que sigue, se ve que el punto medio de la
primera clase es 22 (recuérdese sección II ), lo cual significa que cada uno de los 4 individuos de
esa clase pesa 22 kilos y por lo tanto, los 4 pesarán en conjunto 88 kilos (22 × 4). Igualmente, el
punto medio de la segunda clase es 27, o sea que cada individuo de los 8 que hay, pesa 27 kilos y
por lo tanto, los 8 pesarán en total 216 kilos (27 × 8 = 216). Bastará entonces sumar estos
productos para saber cuántos kilos pesa la totalidad de los individuos estudiados y dividir esta
suma por el número de observaciones para encontrar el punto medio.
En las 2 primeras columnas del siguiente cuadro aparecen los datos sobre el peso de 50
escolares y en las restantes, los cálculos necesarios para obtener el promedio, los cuales se
resumen a continuación.
Cuadro 144
(Cálculo del Promedio)
Peso en kilos No de Individuos fi Punto medio de la clase xi Peso total de cada clase fi xi
(1) (2) (3) (4)
20-24 4 22 88
25-29 8 27 216
30-34 9 32 288
35-39 10 37 370
40-44 7 42 294
45-49 6 47 282
50-54 6 52 312
Total 50 1.850
Aproximado a la unidad completa
Promedio: 1.850 = 37.0 kilos

50
Los pasos seguidos en el cálculo anterior son los siguientes:
1. Averiguar el punto medio de cada clase (Columna 3).
2. Multiplicar el punto medio de cada clase por los individuos en ella (Columna 4) y sumar estos
productos.
3. Obtener el promedio dividiendo la suma anterior por el número de individuos estudiados.
16.6.2. Mediana
Para calcular la mediana se considera que los individuos de cada clase se encuentran
uniformemente repartidos en ella. Así por ejemplo, en la clase 35-39, cuyos verdaderos límites son
34.5 y 39.5 kilos y cuya amplitud es 5, hay 10 individuos, o sea, que existe una diferencia de peso
entre uno y otro igual a 0.5 kilos (5 /10 ÷ 0.5).
Es como si el intervalo de la clase 34.5 a 39.5 en la cual hay 10 personas, se divide en 10

subintervalos de 0.5 de amplitud, en medio de cada uno de los cuales se encuentra un individuo.
Como en la primera clase hay 4 personas, esto quiere decir que allí están los individuos del 1 al 4 y
por consiguiente, como en la segunda clase hay 8, allí estarán los individuos del 5 al 12 y así
sucesivamente.
La colocación de los 10 individuos de la clase 34.5-39.5 (individuos 22-31) se hará como lo

muestra el siguiente esquema:
Colocación de los individuos
Con estas explicaciones podemos ilustrar el cálculo de la mediana tomando el mismo ejemplo
utilizado en el cálculo del promedio en series agrupadas.
Cuadro 146
(Cálculo de la mediana)
Peso en kilos Intervalos verdaderos No. de escolares Frecuencias acumuladas

(1) (2) (3) (4)
20-24 19.5-24.5 4 4
25-29 24.5-29.5 8 12
30-34 29.5-34.5 9 21
35-39 34.5-39.5 10 31
40-44 39.5-44.5 7 38
45-49 44.5-49.5 6 44
50-54 49.5-54.5 6 50
Total 50
Los pasos son los siguientes:
1. Escribir los verdaderos límites de cada clase. Esto no es esencial, pero es conveniente para el
principiante.
2. Obtener a frecuencia acumulada de las observaciones por el procedimiento conocido (columna

4).
3. Averiguar cuál observación es la mediana, para lo cual:
4. Observación mediana n = 50 = 25
2
5. Como la mediana es la observación número 25 y como hay 21 por debajo de 34.5 kilos (véase
columna 4), se necesitan 4 observaciones más (25 – 21 = 4) de las 10 que hay en la siguiente
clase. Puesto que se considera que dichas observaciones están a igual distancia una de otra,
se tomará 4/10 de la amplitud de esta clase y se añadirá a 34.5 que es su comienzo, con el fin
de obtener la mediana:
Mediana = 34.5 + (4/10 x 5) = 34.5 + 2.0 = 36.5 kilos
El lector observará que como se trata de un número par de observaciones (50), el valor de la
mediana correspondería al promedio de las observaciones 25 y 26 y no a la observación número
25. Un atento examen del esquema anterior muestra que el individuo 25 tiene un peso de 36.25 y
el individuo número 26 un peso de 36.75. El semipromedio de estos valores que sería la mediana
es de 36.5 kilos. Si para facilidades de cálculo se asume que el primer individuo de esta clase (el
número 22) está en el punto 35, en vez de estar en el punto 34.7, que es su verdadera colocación,
lo estamos desplazando ½ subintervalo hacia la derecha.
Para compensar este desplazamiento, en vez de formar el valor medio entre las observaciones 25
y 26 se tomará el valor de la número 25, como se ha hecho en la fórmula anterior, con lo cual
obtenemos el verdadero valor investigado.
a
16.7. Escogencia entre el promedio, la mediana y el modo ( )
De las tres constantes anteriores, el promedio aritmético puede ser más frecuentemente utilizado,
quizás por la facilidad de su computación a pesar de que en muchas ocasiones la mediana o el
modo resultan de mayor interés.
a. El promedio aritmético como medida de resumen tiene la ventaja de tomar en cuenta la

totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ella pero
a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de
valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede
decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a
cualquier otra constante de resumen.
b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian haya
alguno muy diferente de los otros. Su valor extremo afectará el promedio por ejemplo, el
tiempo de hospitalización de 5 niños con gastroenteritis fuera respectivamente:
2, 3, 4, 6 y 30 días
El último valor, debido tal vez a alguna complicación de la enfermedad, hace aparecer la
permanencia en el hospital mucho más larga de lo que generalmente es. El promedio:
2 + 3 + 4 + 6 + 30 45
= = 9 días
5 5
Es engañoso, pero en cambio la mediana, que es 4 días, tiene la ventaja de no tomar en cuenta los
valores anormales extremos, dando una impresión más acorde de lo usual. Observe que si la
última observación fuera 300 en vez de 30, el promedio ascendería a 63 días, pero la mediana
continuaría siendo 4.
(a) Además del promedio aritmético ocasionalmente se utiliza el promedio geométrico y armónico cuya
enseñanza se omite por constatarlo de escaso interés, pero cuyo cálculo se ilustra en el Apéndice.
Note que cuando dichos valores extremos no existen, el valor del promedio y de la mediana
concuerda bastante bien y se hacen exactamente iguales si la serie es simétrica. Por ejemplo, si
se tiene:
3, 5, 7, 9, 11
El promedio es 7 y la mediana también es 7.
Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio.
Tal sucede en aquellas series en las cuales la primera o la última clase no tienen límites precisos.
Si en el ejemplo de los 50 escolares dado anteriormente, la primera clase hubiera sido “menos de
25 kilos“ o la última figurara como “50 kilos y más” se comprende que habría sido imposible
calcular el promedio, a no ser que se fijaran arbitrariamente los límites de las mencionas clases.
Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre el promedio aritmético,
pues su valor depende solamente del número de términos, sin tomar en cuenta los valores
(∂)
numéricos de estos .
c. El modo finalmente, es la constante que se emplea cuando el interés se centra en conocer

el valor que se presenta más frecuentemente. Tal sucede cuando se trata de determinar
el periodo de incubación de una enfermedad o su duración habitual, casos en los cuales el
promedio y la mediana pueden no ser convenientes a causa de sus defectos señalados.
16.8. Promedios ponderados.
Hay ocasiones en que se quiere expresar en una sola cifra, los resultados de varios grupos de
individuos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el
caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En
dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los
promedios parciales, sino que es necesario tener en cuenta el número de observadores en que se
basa cada promedio. Tal promedio recibe el nombre de Promedio Ponderado.
Supongamos un grupo de 4 mujeres y otro de 6 hombres, cuyos pesos fueron los siguientes:
Mujeres: 46, 48, 52 y 54 Promedio = 50 Kilos

Hombres: 55, 38, 59, 60,61 y 67 promedio = 60 Kilos
50 + 60
El promedio general para estas 10 personas no es = 55kg
2
El promedio correcto se obtiene ponderando cada promedio parcial por el número de personas que
incluye. Como 50 fue el promedio para las 4 mujeres, el grupo de mujeres peso en total 200 kilos
(4x 50) e igualmente los hombres pesaron en total 3360 kilos (6x60). Por consiguiente, las 10
personas pesaron 560 kilos en conjunto (200 + 360) y el verdadero promedio será: 560 ÷ 10 = 56
kilos.
En resumen si tenemos los promedios etc., calculado respectivamente en n1 , n2 , n3 observaciones

el promedio correcto será
n1 x1 + n2 x 2 + n3 x 3
Promedio Ponderado =
n1 + n2 + n3
(∂)
En la Sección 32.10 se estudiará la aplicación de la Mediana en el cálculo del Índice Endémico
es decir, basta multiplicar cada promedio parcial por el número correspondiente de personas
estudiadas, sumar luego estos productos y dividir por el número total de personas en los varios
grupos.
De la misma manera se procederá para promediar los porcentajes de varios grupos de individuos.
Si los porcentajes de mujeres en 3 escuelas diferentes fueran:
Escuela N° de alumnos Porcentaje de mujeres

A 48 50,00
B 60 70,00
C 30 40,00
El porcentaje global de mujeres, para las 3 escuelas, no sería:
50 + 70 + 40 160
= = 53,3%
3 3
El porcentaje verdadero sería:
(50% × 48) + (70% × 60) + (40% × 30) 7.800

= 56,5%
48 + 60 + 30 138
16.9. Medidas de dispersión.
16.9.1 Importancia de las medidas de dispersión.
Supongamos que se tiene tres grupos de pacientes de 7 individuos cada uno y como ejemplo
ilustrativo supóngase además que el primer grupo sufre de Gastroenteritis, el segundo de
Bronquitis y el tercero de Amigdalitis.
Si la permanencia hospitalaria de cada paciente fuera la que aparece a continuación:
Enfermedades Días de hospitalización de los Pacientes

Gastroenteritis 1, 3, 5, 7, 9, 11, 13
Bronquitis 1, 2, 3, 7, 11, 12, 13
Amigdalitis 1, 5, 6, 7, 8, 9, 13
Sería fácil constatar los siguientes puntos:
a. Cada serie tiene el mismo número de observaciones, es decir 7 pacientes

b. En los 3 casos la amplitud de la serie es la misma: de 1 a 13 días.
c. Las 3 series tienen el mismo promedio, o sea 7 días.
d. Las 3 series tienen la misma mediana, o sea 7 días.
e. En cada serie el promedio y la mediana coinciden exactamente.
No obstante las similitudes señaladas, las 3 series son muy distintas, pues como puede apreciarse
en el grafico siguiente:
a. En el caso de la Gastroenteritis, los 7 pacientes se distribuyen uniformemente en el lapso de 1

a 13 días
b. En el caso de la Bronquitis, los pacientes se agrupan en los extremos de dicho lapso (1 – 2 – 3
y 11 – 12 - 13).
c. En el caso de la Amigdalitis, se agrupan hacia el centro ( 5 – 6 – 7 – 8 – 9 )
Grafico 151
Días de hospitalización de 3 grupos de pacientes
DIAS DE HOSPITALIZACION
ENFERMEDADES
GASTROENTERITIS
BRONQUITIS
AMIGDALITIS
Las anteriores anotaciones señalan que cuando se tienen un grupo de observaciones no basta
conocer cuál es su promedio o su mediana, sino que además, es necesario tener una medida que
indique claramente cómo se distribuyen las observaciones alrededor de ese promedio o esa
mediana.
(∂)
Con tal fin se utilizan la llamada Desviación Estándar y el Intervalo Intercuartilar. Debe tenerse
en cuenta que cuando se busca el promedio aritmético, se debe calcular la Desviación Estándar y
es el Intervalo Intercuartilar, pues este último se utiliza solamente para medir la dispersión
alrededor de la mediana. Es decir: con el promedio se utiliza la desviación estándar y con la
mediana, el intervalo intercuartilar.
16.9.2 Cálculo de la Desviación Estándar en series no agrupadas
Como ilustración tonemos el ejemplo de la Bronquitis, dado anteriormente, es decir, los días de
hospitalización de 7 pacientes que fueron:
1, 2, 3, 7, 11, 12, 13
Para el cálculo, se dispondrán los datos convenientes, tal como aparecen en el siguiente cuadro:
(∂)
La Desviación estándar D. E. suele representarse con la letra griega sigma minúscula ( σ ) y a veces se
coloca su valor después del signo ± que sigue al promedio ( x = 10 ± 2 indica que la D. E. = 2) Como
ambos procedimientos se utilizan también para indicar el valor del Error Estándar que estudiaremos luego,
con el fin de evitar confusiones, utilizaremos D. E. y E. E. respectivamente, al referirnos a estas constantes.
Cuadro 153
Días de hospitalización en 7 pacientes con Bronquitis (Cálculo de la Desviación

Estándar)
Días de Desviaciones (valor de cada Desviaciones al
Pacientes 2
hospitalización observación menos promedio) cuadrado (d )
1 2 3 4
Primero 1 1-7 =-6 36
Segundo 2 2 - 7 = -5 25
Tercero 3 3-7=-4 16
Cuarto 7 7-7=-0 0
Quinto 11 11 - 7 = + 4 16
Sexto 12 12 - 7 = + 5 25
Séptimo 13 13 - 7 = + 6 36
Total 49 158
49
Promedio = = 7 días
7
Desviación Estándar =
∑d 2
=
154
= 22 = 4,7 días (∂)
n 7
1. Averiguar el promedio: 49/ 7= 7

2. Buscar la diferencia que hay entre cada observación y el promedio (columna 3). Así por ejemplo:
el primer paciente solamente estuvo 1 día hospitalizado es decir, 6 días menos que el promedio y
en cambio el ultimo paciente estuvo 13 días, o sea, 6 días más que el promedio. Nótese que es
necesario poner el signo (-) o (+) para distinguir, entre quienes están por debajo o por encima del
promedio (desde luego el signo (+) no hay necesidad de ponerlo). La suma de esta columna debe
ser igual cero (0).
3. Como la suma de la columna (3) será siempre igual a cero (0), no se podrá saber cuál es en
promedio la desviación del grupo de observaciones. Para obviar este inconveniente se eleva al
cuadrado cada desviación de la columna (4). la cual se totaliza luego.
4. El total de la columna ( 4) se dividirá por el número de observaciones que en nuestro ejemplo es 7,

o sea 154/7=22. Esto quiere decir que en promedio cada paciente difiere en 22 unidades
cuadradas del promedio general del grupo.
5. Como cada desviación la habíamos elevado al cuadrado y no tiene ningún significado hablar de
días cuadrados o de kilos cuadrados, con el fin de volver a las unidades primitivas se extraerá la
raíz cuadrada al anterior valor y dicha cantidad será la desviación estándar. En este ejemplo
D. E. = 22 = 4,7 días
(∂)
cuando se calcula la Desviación Estándar d un pequeño grupo de individuos. Es más exacto
dividir por (n - 1) que por (n), pero en grupos más o menos grandes, digamos más de 30
individuos, tal refinamiento no en necesario. Aunque es evidente que en el presente ejemplo la
división debe hacerse por 6 y no por 7, los cálculos tratan de ilustrar el caso general y no el caso
particular a que hemos hecho referencia.
16.9.3 Desviación Estándar en series agrupadas
Los diferentes pasos que deben seguirse para el cálculo de la Desviación Estándar y explicaremos
en seguida, aparecen resumidos en el siguiente cuadro, cuyas primeras cuatro columnas se
utilizan para calcular el promedio, conforme ya se ha estudiado.
Cuadro 155

(Cálculo de la Desviación Estándar)
Desviaciones
Número de Punto Desviaciones
Producto Desviaciones por número
Peso. Kg. individuos medio de al cuadrado
X1*f1 (d) 2 de individuos
(f1) clase (X1) (d )
(f1*d)(2*6)
1 2 3 4 5 6 7
20 -24 4 22 88 -15 225 900
25 - 29 8 27 216 -10 100 800
30 - 34 9 32 288 -5 25 225
35 - 39 10 37 370 0 0 0
40 - 44 7 42 294 +5 25 175
45 - 49 6 47 282 +10 100 600
50 - 54 6 52 312 +15 225 1350
Total 50 1850 4057
1850
Promedio = = 37,0
50
4,050
Desviación Estándar = = 81 = 9.0 kilos
50
Los pasos son los siguientes:
1. Calcular el promedio por la técnica conocida para lo cual se utiliza las 4 primeras columnas del
cuadro.
2. Buscar la diferencia entre el promedio, y cada uno de los puntos medios de las clases (columna 5).
Estas cifras indican en cuantos difiere cada observación del promedio general del grupo.
3. Elevar al cuadrado las anteriores diferencias (columna 6).
4. Multiplicar reglón a reglón, las cifras de las columnas (2) y (6). Esto es necesario, pues las
diferencias de la columna 6 se refiere a un solo individuo y por lo tanto, si en la primera clase hay 4
individuos y cada uno difiere 225 unidades cuadradas de su promedio, los 4 individuos diferirán en
900 unidades ( 4 x 225 ).
5. Sumar los productos de la columna (7), para saber la diferencia global entre todos los individuos y su
promedio.
6. Dividir la suma anterior por el número de individuos estudiados
7. ( en nuestro caso n = 50 ).
(∂)
8. Extraer la raíz cuadrada. Este último valor será la Desviación Estándar
(∂)
una fórmula que suele ahorrar trabajo es la siguiente:
D. E. =
∑fd 1 1
2
=
4.050
= 9 kilos
n 50
16.9.4 Utilización de la Desviación Estándar
Hemos dicho que la Desviación Estándar indica en que formas se distribuye las observaciones
alrededor del valor central representado por el promedio.
Su utilidad se debe a que ella, junto con el promedio, ayuda a determinar los limites dentro de los
cuales se encuentran las observaciones que se estudian, en tal forma, que basta conocer el
promedio y la D. E. para reproducir toda la información contenida en los datos originales, salvo,
desde luego, pequeñas variaciones. Esta interpretación se basa en las propiedades de la Curva
Normal.
16.9.5. La Curva Normal
La curva normal es una curva en forma de campana, perfectamente simétrica, de tal manera, que
una perpendicular que pase por el vértice la divide en 2 mitades exactamente iguales. Dicha
perpendicular representa el promedio aritmético (véase gráfico 158).
Puede observarse que en cada mitad, la curva es primero cóncava hacia arriba, y luego cóncava
hacia abajo, habiéndose dado el nombre de “punto de inflexión” a aquel en el cual la curva cambia
de dirección.
Hay por consiguiente, 2 puntos de inflexión, uno izquierdo y otro derecho. La distancia que separa
a cada punto de inflexión de la línea central que representa el promedio, constituye una desviación
estándar, aunque teóricamente, la curva nunca toca la horizontal para propósitos prácticos, puede
considerarse que la totalidad de al área se encuentra comprendida entre 2 líneas verticales
situadas a 3 D. E. a cada lado del promedio.
Los matemáticos han demostrado que aproximadamente un 68% del área de todo el área de la
curva se encuentra comprendida entre las 2 verticales que pasan por los puntos de inflexión, lo
cual equivale a decir que el 68% del área se encuentra entre el promedio más una desviación
estándar y el promedio menos una desviación estándar.
Igualmente se ha visto que entre el promedio más menos 2, D. E. se encuentra aproximadamente
el 95% del área de la curva y que prácticamente el 100% del área se encuentra entre el promedio
(∂)
más menos 3 D. E.
D. E. =
∑fx 2
1 1
−x
2
n
O sea: multiplicar cada una de las cifras de la columna (4) por el respectivo punto medio de la clase; sumar estos productos
y dividir por el número de observaciones. Restar al resultado anterior el cuadrado del promedio y extraer la raíz cuadrada.
(esta fórmula fue utilizada para e cálculo de la D. E. que aparea al final dela Pág. 199). Un método más abreviado se ilustra
en el apéndice.
(∂)
Exactamente un 95% del área de la curva se encuentra entre el x ± 1,96 D. E. y un 99% entre x ± 2,58 D. E.
Para fácil memorización dichas cifras se forman habitualmente como 2 y 2.8 D. E. Igual aproximación se utiliza en las
diversas aplicaciones del error estándar que se verán posteriormente.
GRAFICO 158
Curva Normal que muestra los porcentajes de su área total comprendidos entre diversos
múltiplos de la desviación estándar.
En resumen, y usando una notación matemática:
x ± 1 D. E. Incluye aproximadamente el 68.27% del área de la curva

x ± 2 D. E. Incluye aproximadamente el 95.45 % del área de la curva
x ± 3 D. E. Incluye aproximadamente el 99.73 % del área de la curva
Lo anterior es importante por dos razones principales. En primer lugar, porque ya señalamos que
los resultados dados por el azar siguen una curva normal –punto que discutimos nuevamente en
próximo capítulo- y en segundo lugar, porque se ha visto que casi todas las constantes fisiológicas
de los individuos (peso, estatura, presión arterial, etc.). Y en general las diferentes características
de la población, se distribuyen formando una curva normal.
Y se quiere decir que las propiedades de la curva normal pueden servirse a cualquier
característica que tengan una distribución normal y así por ejemplo, si la edad promedio de los
individuos es 30 años y la D. E. = 3 años, entonces:
• Aproximadamente el 68% de los individuos tienen entre 27 y 33 años ( x ±1 D.E = 30 = 1 x 3 )

• Aproximadamente el 95% de los individuos tienen entre 24 y 36 años ( x ± 2 D.E = 30 = 2 x 3 )
• Prácticamente todos los individuos tienen entre 21 y 39 años ( x + 3 D.E = 30 = 3 x 3 ).
• Si el promedio hubiera sido 30 años, pero D. E. = 1 año, entonces:
• Aproximadamente el 68% de los individuos tienen de 29 a 31 años.
• Aproximadamente el 95% de los individuos tienen de 28 a 32 años.
• y prácticamente la totalidad tienen entre 27 y 33 años.
A través de los anteriores ejemplos puede verse como el promedio y la D. E. basta para resumir un
estudio. Debe advertirse sin embargo, que:
a. Cuando la serie es muy pequeña como en el ejemplo de la página 155, las anteriores
propiedades de la D. E. son difíciles de comprobar, y
b. Para que la interpretación sea correcta se requiere que la característica estudiada semeje una
curva normal, si tal similitud no existe, es preferible recurrir a la mediana y a los percentiles
para resumir la serie y conformarse con analizar esta mediante el uso de porcentajes.
16.9.6 Intervalo Intercuartilar
Antes de enseñar a calcular el intervalo intercuartilar debe definirse que se entiende por percentiles
y cuartiles.
16.9.6.1 Percentiles y Cuartiles.
El término percentil deriva de “por ciento”, y por lo tanto una serie de observaciones no puede tener
más de 100 percentiles. Cada percentil indica el porcentaje de observaciones que en cada serie
está por debajo de él. El 10º percentil es el valor por debajo del cual el 10% de las observaciones y
el 25º percentil es el valor por debajo del cual se encuentra el 25% de las observaciones.
Según esto, la mediana es simplemente el 50º percentil, ya que debajo de ella se encuentra el 50%
de las observaciones, según lo estudiado anteriormente.
Al 25º percentil suele dársele el nombre de “primer cuartil”, por debajo de este valor se encuentra el
25% de las observaciones, es decir la cuarta parte de estas. De la misma manera, al 75º percentil
se le da el nombre de “tercer cuartil”, pues por debajo de él, dan tres cuartas partes de las
observaciones.
16.9.6.2. Cálculo del primer cuartil.
Para calcular el primer cuadril (Q1) se procederá de manera semejante como se hizo para el
cálculo de la mediana, tomando el mismo ejemplo que sirvió para lograr el cálculo (ver el cuadro
146) se procederá en la siguiente forma:
a. Buscar los límites verdaderos de las clases.

b. Obtener la frecuencia acumulada de las observaciones.
c. Averiguar cuál de las observaciones corresponde al primer cuartil, o sea:
N = 50 / 4 = 12.5
d. Como el primer cuartil está situado en la posición 12.5 y como hay 12 observaciones por
debajo de 29,5 kilos, se necesita ½ observación + (12.5 - 12 = 0.5) de las que hay en la
siguiente clase. Como se ha asumido que las observaciones están igualmente escapadas se
tomara 0.5/ 9 de la amplitud de la respectiva clase y se añadirá a su punto de comienzo, con el
fin de obtener el valor del primer cuartil.
Q1 =29.5 + (0,5 x 5)/9 = 29.5 + 0.27 = 29.77kilos
16.9.6.3 Calculo Del Tercer Cuartil.
La observación correspondiente al tercer cuartil (Q3) será la:
3𝑁 𝑃3 − 𝑓𝑎 𝑎𝑛𝑡
4
= 𝑃3 𝑄3 = 𝐿𝑖𝑛𝑓 + � 𝑓
�∗𝑖
Linf: límite real inferior

f a ant: frecuencia acumulada anterior
f: frecuencia modal
i: intervalo
Por lo tanto como hay 31 observaciones por debajo de 39.5 kilos se necesitan 6.5 observaciones
más de las siete que hay en la próxima clase, o sea que debemos tomar 6.5 / 7 de la amplitud de
la clase y añadirlo a su comienzo para averiguar el valor del tercer cuartil:
Q3 = 39.5 + ( 6.5 x 5 ) / 7 = 39.5 + 4.64 = 44.14 kilos.
16.9.6.4 Intervalo Intercuartilar.
El intervalo intercuartilar es aquel comprendido entre el primero y el tercer cuartiles. Su utilidad

consiste en que dentro de los límites determinados por él, se encuentra el 50% de las
observaciones “centrales”. Generalmente no afectadas por las fluctuaciones extremas de la serie.
El intervalo intercuartilar mide la dispersión de los valores de la serie, pues mientras más próximos
sus límites, mayor concentración de las observaciones alrededor de la mediana.
Si los días de hospitalización de 2 grupos de pacientes es respectivamente:
Primer grupo Segundo grupo

Md = 10 Md = 10
Q1 = 9 Q1 = 3
Q3 = 11 Q3 = 18
A pesar de que la mediana es 10 para ambos grupos, se observa que en el primero el 50% de los
pacientes tienen valores muy próximos a ella y en cambio, en el segundo grupo, la dispersión es
muchísimo mayor.
Sin la información adicional suministrada por el cálculo de los cuartiles Q1 y Q3, el resumen de la
serie quedaría incompleto.
En ocasiones se calcula la llamada desviación cuartana o cuartilar (Q), que es simplemente la
mitad del intervalo intercuartilar:
𝑄3 − Q1
𝑄=
2
Si la serie es perfectamente simétrica, entonces: Md ± Q
Engloba el 50% de las observaciones.
Si por lo contrario la serie es muy asimétrica, y en tales casos la desviación cuartana sugiere una
interrelación errónea, razón por la cual, casi nunca se utiliza.
16.9.6.5 Percentiles en series pequeñas.
Note que cuando el número de observaciones es muy pequeño, sólo se pueden calcular ciertos
percentiles. Si hay 5 observaciones sólo pueden calcularse: en realidad 5 percentiles; si hay 7,
podrán calcularse solo 7, etc.
En tales casos, para calcular determinado percentil, se utiliza la fórmula:
𝑛+1
𝑥 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑒𝑠𝑒𝑎𝑑𝑜
100
Supóngase por ejemplo, que se tienen las siguientes observaciones:
2, 3, 5, 9, 11, 15, 18
De acuerdo a la formula anterior:
a. El primer cuartil (25° percentil) será:
7+1
𝑥 25 = 2
100
b. Es decir, la observación número 2 cuyo valor es 3.
c. La mediana (50° percentil) será la observación número 4 cuyo valor es 9.
7+1
𝑥 50 = 4
100
d. El tercer cuartil (75° percentil) será:
7+1
𝑥 75 = 6
100
O sea la observación número 6 cuyo valor es 15.
CAPITULO XVII
DATOS DE ASOCIACIÓN
Como se recordará, se llaman datos de asociación a aquellos en los cuales los individuos se
clasifican simultáneamente mediante dos escalas.
Las escalas utilizadas pueden ser:
1. Ambas cualitativas.
2. Una cualitativa y otra cuantitativa.
3. Ambas cuantitativas.
La presentación y análisis subsecuente de los datos dependerá de la división anterior:
17.1 Ambas Escalas Cualitativas.
17.1.1 Presentación Tabular
Según se ha visto, una escala irá en la vertical y otra en la horizontal. Por lo general, aquella con
más subdivisiones se coloca en la vertical, salvo en los casos en que una de las escalas es
notoriamente más importante que la otra y por lo tanto debe ocupar dicho lugar. Como son dos
escalas, el cuadro mostrará una fila y una columna de totales.
Con fines analíticos, el cuadro suele llevar una o varias columnas con porcentajes o tasas, para
facilitar su interpretación por lo general no conviene presentar cuadros exclusivamente con
porcentajes, en ocasiones puede hacerse, pero en tales casos, debe editarse el número de
observaciones sobre los que se basan dichos porcentajes, como se han hecho en los cuadros 165,
166, y 167.
Cuadro 164
Defunciones por Leucemias y Aleucemias por formas clínicas y sexo.

Venezuela, 1961
Sexo
Formas clínicas Ambos sexos
Hombres Mujeres
Linfoide 15 11 26
Mieloide 14 15 29
Agudas 51 40 91
Otras 23 22 45
Total 103 88 191
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela, 1961.
7.1. 2 Presentación Gráfica.
La presentación gráfica de estos datos en cualquiera de las formas del diagrama de barras (ver
gráfico 102 y 103).
17.1.3 Análisis
El análisis se hace mediante porcentajes, cuyo cálculo variara de acuerdo al propósito del estudio.
Como un cuadro de asociación tiene una fila y una columna de datos, como además de un total
general, pueden, por consiguiente, calcularse porcentajes de 3 maneras diferentes lo cual
ilustraremos con los datos del cuadro anterior.
a. En relación al gran total. De las 191 defunciones, 26 fueron por leucemia linfoide, o sea, el
13,7%:
126
𝑥 100 = 13.7
191
El 53,9% de las defunciones fueron en hombres:
103
𝑥 100 = 53.9 %
191
Cuadro 165

Venezuela, 1961
Formas clínicas Sexo Ambos sexos

Hombres Mujeres (N = 191)
Linfoide 7.9 5.8 13.7
Mieloide 7.3 7.9 15.2
Agudas 26.7 20.9 47.6
Otras 12.0 11.5 23.5
Total 53.9 46.1 100.0
Fuente: datos del cuadro 164
b. En relación a los totales de la última columna. De las 26 defunciones por leucemia linfoide 15
fueron en hombres, o sea el 57. 7 %:
15
𝑥 100 = 57.7 %
26
y de las 29 por leucemia mieloide, 15, o sea el 51.7% ocurrieron en mujeres.
15
𝑥 100 = 75.0 %
2
Cuadro 166

Venezuela, 1961
(Porcentajes en relación a los totales de la última columna)
Sexo Ambos sexos

Formas clínicas
Hombres Mujeres (N = 191)
Linfoide (N = 26) 57.7 42.3 100.0
Mieloide (N = 29) 48.3 51.7 100.0
Agudas (N = 91) 56.0 44.0 100.0
Otras (N = 41) 51.1 48.8 100.0
Total (N = 191) 53.9 46.1 100.0
Fuente: datos del cuadro 164.
c. En relación a los totales de la última fila. De las 103 defunciones en el sexo masculino, 15, o
sea el 14.6% fueron a causa de leucemia linfoide:
15
𝑥 100 = 14.6 %
103
y 51, o sea el 49,5% fueron por leucemia aguda:
51
𝑥 100 = 49.5 %
103
Cuadro 167

Venezuela, 1961
(porcentajes en relación a los totales de la última fila)
Sexo
Ambos sexos
Formas clínicas Hombres Mujeres (N = 191)
(N = 103) (N = 88)
Linfoide 14.6 12.5 13.7
Mieloide 13.6 17.0 15.2
Agudas 49.5 45.5 47.6
Otras 22.3 25.0 23.5
Total 100.0 100.0 100.0
Lo anterior señala que hay que saber escoger los porcentajes que se usarán. Por regla general
puede decirse que los descritos en primer lugar no tienen mayor utilidad, pues en realidad
contribuyen muy poco a la mejor interpretación del cuadro. En cambio, las otras dos clases son
igualmente útiles, pues la información dada por ellos es algo diferente.
En el ejemplo presentado, si el interés está en saber cuál de las formas clínicas de la enfermedad
causa más muertes en cada uno de los sexos, los porcentajes calculados sobre los totales de la
última fila son los más convenientes (cuadro 167). Si por el contrario se desea averiguar cuál de los
dos sexos es afectado en cada forma clínica entonces los porcentajes en relación a los totales de
la última columna son los adecuados (cuadro 166).
Como un segundo ejemplo consideramos la información siguiente:
Cuadro 168
Casos, defunciones y tasas de letalidad en enfermos de neumonía de acuerdo a tratamiento

recibido
Número de Numero de Número de Tasa de

Tratamiento
defunciones sobrevivientes casos letalidad por 100
Terramicina 4 96 100 4
Penicilina 6 54 60 10
Sulfadiazina 6 34 40 15
Total 16 184 200 8
Fuente: Datos hipotéticos para ilustración
En el ejemplo presente es evidente que el mejor análisis consiste en comparar la letalidad habida
en los diferentes tratamientos tal como el caso en el cuadro el cual señala claramente que los
enfermos tratados con terramicina presentan la menos letalidad. Así 4 veces menos cuando se
emplea sulfadiazina. Desde luego así hubiéramos podido llegar a las mismas conclusiones aunque
no (4/16) a pesar que en el 50% de los casos estaba en dicho grupo (100/200) mientras solo el
20% de los casos recibió sulfadiazina (40/200) en dicho grupo se presentó el 37.5% de las
muertes (6/16)
17.2 Una escala cualitativa y otra cuantitativa
17.2.1 Presentación tabular
Se hace en la misma forma que en el caso anterior, colocando de preferencia la escala cuantitativa
en la primera columna, salvo en el caso que la escala cualitativa tenga muchas subdivisiones
(véase cuadro 196)
17.2. 2 Presentación gráfica
Comúnmente se utiliza el polígono de frecuencia o el diagrama semilogarítmico. Cuando le

frecuencia o tasa no difiere grandemente un de otra, se usa de preferencia el primero pero si tales
diferencias son marcadas debe utilizarse el segundo (ver gráfico 113 y 122)
Análisis
Este tipo de datos puede analizarse mediante el cálculo de constantes centrales y de dispersión, o
calculando, como en el caso anterior tasas y porcentajes.
Por lo general los datos que maneja el medico clínico y el experimentador se resume mejor usando
valores promédiales y de dispersión mientras que para el trabajador en salud pública o el
demógrafo, el análisis con tasas y porcentajes es más útil.
Lo anterior no quiere decir que datos susceptibles de un análisis no puedan ser analizados por el
otro método. La escogencia es cuestión de lo que se quiera poner más de patente. De todas
maneras recuérdese el siguiente principio: si no hay seguridad sobre que método usar debe
utilizarse las tasas y los porcentajes
Cuadro 169
Peso a nacer de 180 niños según el sexo
Peso en gramos hombres mujeres total

2000-2499 8 12 20
2500-2999 20 25 45
3000-3499 50 35 85
3500-3999 16 14 30
Total 94 86 180
Fuente datos hipotéticos para ilustración
En el cuadro anterior se calcula primero para los hombres y luego para las mujeres el promedio
estándar y la desviación estándar respectiva podemos concluir que el promedio de al nacer de los
niños 3144gr mientras que para las niñas es de 3047gr.
Sin embargo para un sanitarista, quizás es importante conocer que el 43% de las niñas pesan
menos de 3kg (37/86), mientas que solo el 30% de los niños pesan menos de 30kg (28/94).
17.3 Ambas escalas cuantitativas
Entra en esta categoría todos aquellos casos en los cuales a cada uno de los individuos estudiados
se le investiga dos medidas diferentes como ser cantidad de oxigeno inalado y CO2 exhalado,
contenido de oxígeno en la sangra arteria y venosa edad y estatura, etc.
17.3.1 Regresión y correlación
El análisis de cuadros presenta dos aspectos diferentes. Unas veces nuestros intereses esta en
conocer si las dos variables están variadas y medir hasta qué punto los cambios en una pueden
explicares por los cambios en la otra. En tal caso tenemos el problema de correlación y la unidad
de medida es el llamado coeficiente de correlación (r).
Otras veces cuando estamos seguros que existe un alto grado de variación entre 2 variables sea
porque lo conozcamos por experiencia o porque así los indique el coeficiente de correlación
previamente calculado el análisis se encamina a cuantificar la relación existente con el fin de
predecir cuáles serán los valores de una variable, cuando se conocen los valores de la otra. En
este caso se trata de un coeficiente de regresión y la medida utilizada es el coeficiente de
regresión (b)
Como se ve la explicación de un método no excluye precisamente el otro. Al estudiar las

variaciones de cualquier característica debemos averiguar cuáles son los factores que pueden
explicar dichas variaciones y una vez que lo hemos identificado podemos dedicarnos a medir en
qué grado los cambios que ellos experimentan a las características que nos interesa. (Problema de
regresión).
Supóngase por ejemplo, que al estudiar la mortalidad por determinada enfermedad, se sospecha
que hay una serie de causas que actúan sobre ella. Mediante técnicas de correlación precisaremos
cuales de esas causas están más íntimamente ligadas con la enfermedad y cuando ya han sido
identificadas, las técnicas de regresión ayudaran a determinar hasta qué punto cada una de esta
causas es responsable por las variaciones observadas en la mortalidad.
Hay sin embargo, ciertas limitaciones en la escogencia de la técnica más apropiada para cada
caso. Muchas veces es muy fácil constatar que los valores de una escala están determinados o
dependen de los valores de la otra. Así por ejemplo la estatura de un niño " depende " de su edad y
la cantidad de oxígeno en la sangre venosa "depende" de la cantidad de oxígeno en la sangre
arterial. Hablemos entonces de una escala independiente (x) y dependiente (y), y es justamente en
tales casos cuando es correcto el ejemplo de las técnicas de regresión.
Otras veces la anterior relación no es cierta. NO puede decirse que ciertos valores determinen los
otros, si no que unos y otros varían conjuntamente. Así por ejemplo, es frecuente observar que al
aumentar las pulsaciones, aumentan también las respiraciones, sin que por ello se pueda concluir
que el aumento de las pulsaciones dependen del aumento de las respiraciones o viceversa, en tal
caso no puede hablarse propiamente de un variable dependiente y otra independiente, sino de una
mutua relación entre las dos. Las técnicas de correlación serán empleadas electivamente en tales
ocasiones
17.3.2 Presentación tabular
Si los individuos son pocos bastara con especificar a lado de cada uno, los valores de las
observaciones hechas tal como puede verse al cuadro que acompaña al próximo gráfico, pero si
son más de 50 o 60 se agruparan en clases.
17.3.3 Presentación gráfica
Tratase de un problema de correlación o de regresión, la presentación se hará mediante el

diagrama de puntos cuya elaboración se discutió anteriormente cuando se trató de la presentación
de los datos estadísticos, sin embargo, como dicha representación será base para el análisis de los
datos, insistiremos sobre ello en los párrafos siguientes.
17.3.4 Coeficiente de regresión
En cualquier problema de regresión lo primero que se debe hacerse es un gráfico. Los principios
generales para su elaboración ya fueron estudiados y el único detalle adicional que debe tenerse
presente es de los valores de la variable independiente, se acostumbra colocarlos
proporcionalmente en la abscisa, mientras que la ordenada se reserva a los valores de la variable
dependiente.
En el cuadro y grafico siguiente se presenta el peso y estatura de un grupo de alumnos

ligeramente modificado para facilitar los cálculos.
Cuadro 172
Estatura y peso del curso de estadística
ALUMNOS ESTATURA EN CENTÍMETROS PESO EN KILOS

1 162 58
2 158 54
3 155 56
4 162 60
5 170 68
6 160 61
7 175 70
8 165 60
9 168 64
10 165 69
La distribución de los puntos del diagrama sugiere que la relación entre las dos variables puede ser
resumida adecuadamente mediante una línea recta tal como la trazada en el gráfico. Claramente
se observa que tales puntos tienden a agruparse alrededor de la línea y el peso aumenta
uniformemente cuando aumenta la esta uniformemente cuando aumenta la estatura
Grafico 173
Estatura y peso de un grupo de alumnos de metodología estadística
Peso
Estatura
Lógicamente, mientras más tienda los puntos a caer sobre la línea de regresión, más estrecha es
la relación entre las 2 variables y constatarse que si a cada aumento de 1 cm corresponderá a un
aumento de 2 kg entonces todos los puntos se dispondrían en una línea recta.
Si por lo contrario no existiera ninguna asociación entre las 2 variables, de tal manera que altos
pesos hubieran sido presentados distintamente por alumno distintos “altos” y “bajos”, los puntos
tenderían a alejarse considerablemente de la línea, formando una especie de círculo o cuadrado.
En tal caso se concluiría que no existe asociación entre las 2 variables y con ello se terminara el
análisis.
Si el fenómeno estudiado puede ser resumido por una línea recta, como en nuestro ejemplo
podemos intentar resumir matemáticamente dicha relación, con lo cual nos será posible predecir
los valores de la escala dependiente (Y) cuando se conoce los de la escala independiente (X).
La medida estadística utilizada es el coeficiente de regresión (b) el cual indica q los valores en la
escala dependiente cambia b unidades por unidad que cambia los valores de la escala
independiente. En el método presente al utilizar el ejemplo que luego estudiaremos, encontramos
que b = 0,80; lo cual quiere decir que por cada aumento de 1cm en la estatura se observa un
aumento de 0,80 Kg. de peso.
El coeficiente de regresión puede tener cualquier valor negativo. Si es positivo, significa que ambas
variables disminuyen o aumenta a la vez; si es negativo, quiere decir que cuando una variable
aumenta, la otra disminuye o viceversa; si fuere 0, tendríamos que para cualquier valor de la
escala independiente habría siempre el mismo valor para la escala independiente, o que para cada
valor de la escala independiente pudiéramos observar cualquier valor en la escala independiente
(ver gráfico 1745).
17.3.4.1. Calculo del coeficiente de regresión.
Es fácil aunque las operaciones son muy laboriosas.
GRAFICO 175
Cuadro 176
Talla y peso de un grupo de alumnos del curso de Metodología Estadística
(Cálculo del coeficiente de regresión)
Desviaciones Desviaciones Desviaciones Desviaciones Producto

Estatura
Peso ( Y) del promedio del promedio de X al de Y al de la
(X)
cuadrado cuadrado desviación
dx dy dx2 dy2 (dx) (dy)
(2) (3) 2 (5) (Y- Y )
2
(6) (X- X )
2
(7) (Y- Y )
2
(4) (X- X ) (8)
162 58 -2 -4 4 16 8
168 54 -6 -8 36 64 48
155 56 -9 -6 81 36 54
162 60 -2 -2 4 4 4
170 68 6 6 36 36 36
160 61 -4 -1 16 1 4
175 70 11 8 121 64 88
165 60 1 -2 1 4 -2
168 64 4 2 16 4 8
163 69 1 7 1 49 7
1640 620 0 0 316 278 255
Media 164 Media 62
255
b = = 0,80 kilos
316
Los pasos a seguir en el cálculo del coeficiente de regresión se resumen a continuación:
a. Disponer los datos como en el cuadro anterior.

b. Obtener el promedio para cada una de las variables en estudio.
c. Ver cuánto difiere cada observación de su promedio respectivo. Estas desviaciones se
obtendrán primero para una variable y luego para la otra y se anotarán respectivamente en las
columnas (4) y (5) del cuadro teniendo cuidado de indicar si son positivas o negativas.
d. Elevar al cuadrado las anteriores desviaciones, anotando los cuadrados en las
e. Columnas respectivas (6) y (7).
f. Totalizar las dos columnas de cuadrados.
g. Buscar el producto de las desviaciones obtenidas en el punto (3), para lo cual se multiplicara
renglón a renglón las columnas (4) y (5) conservando los signos algebraicos. Totalizar luego
estos productos.
h. Calcular el coeficiente de regresión, para lo cual se divide el total de la columna de productos
por el total de la columna dx2 (desviaciones cuadradas de los valores independiente)
∑ dxdy =
255
= 0,80 kilos
∑ dx 2
316
17 .3. 4 .2 La línea de regresión.- La línea recta trazada en el grafico 173 recibe el

Nombre de línea de regresión. Ella representa una inclinación de 0,8 kilos de peso por cada
centímetro de estatura.
Dicha línea se puede utilizar para predecir el peso de cualquier individuo cuya estatura se conozca,
pero para ello, necesario poderla trazar con absoluta exactitud. La ecuación general de esta línea
es:
Y = ( Y – b X ) + bX
En donde:
Y = valor de variable dependiente que se quiere conocer dado determinado valor de la variable
independiente.
Y y X = promedio de variables de estudio.

b = coeficiente de regresión.
X = valor de la variable independiente para el cual se quiere conocer el
correspondiente valor de la otra variable (Y)
Ejemplo: se quiere conocer el peso (Y) de un individuo que mide 180 centímetros de estatura (X).
Mediante el cuadro 176 sabemos que:
Y = 62
X = 164
b = 0,80 kilos
además:
X = 180, ser de la estatura del individuo cuyo correspondiente peso (Y) queremos conocer.
Por lo tanto, reemplazando en la fórmula anterior:
Y180 = 62 – (0,80 x 164) + (0,80 x 180)
Y haciendo los cálculos cuidando poner correctamente los signos algebraicos:
Y180 = 62 – 131,2 + 144,0 = 74,8 kilos
Es decir, el peso de un individuo de 180 centímetros puede estimarse en 74,8 kilos.
En la misma forma, si se quiere averiguar el peso de un individuo de 158 centímetros de estatura:
Y158 = 62 – (0,80 x 164) + (0,80 x 158) = 57.2 kilos
3. 4. 3. Limitaciones en la utilización del coeficiente de regresión.
El cálculo de b solo debe hacerse cuando el gráfico correspondiente señala que la relación
estudiada es lineal. Si no se llena esta condición su cálculo no tiene ningún significado.
Por lo demás, el coeficiente no puede aplicarse para predecir valores que excedan los límites de la
serie en donde fue calculado.
Así por ejemplo, es un hecho que la estatura depende de la edad, pero esto solo es cierto hasta el
final de la edad del crecimiento y será absurdo averiguar cuál sería la estatura de un hombre de 50
años, utilizando el coeficiente de regresión.
Finalmente, téngase presente que b no es una medida de la intensidad de la asociación que existe
entre dos variables. Si b es 800 en lugar de 0,80, esto no significa que en el primer caso la
asociación sea 1000 veces mayor que en el segundo caso. El valor de b depende de las unidades
de medición que se empleen y puede constatarse con los datos del cuadro 176, en donde b = 0,80
kilos que si hubiéramos expresado el peso de los estudiantes en gramos, entonces b hubiera sido
igual a 800.
17. 3. 5. Coeficiente de correlación
En un problema de correlación no puede decirse que una variable sea independiente y otra
dependiente. Si a un grupo de individuos tomamos el número de pulsaciones y respiraciones, sería
igualmente valedero preguntarse qué cambios se producen en el número de pulsaciones al
aumentar las respiraciones o viceversa. Para resumir los datos habría que calcular dos coeficientes
de regresión: b’ que indicará los cambios en las respiraciones por cada pulsación que aumenta y
b’’ que indicará los cambios en el número de pulsaciones al variar las respiraciones.
Con el fin de reducir las dos constantes a una sola, se utiliza el coeficiente de correlación r, que es
simplemente igual a la raíz cuadrada del producto de los dos coeficientes de regresión
mencionados ( b’ y b’’). Por lo tanto:
r= b' xb' '
3. 5. 1. Cálculo del coeficiente de correlación.
El cálculo del coeficiente de correlación se hace fácilmente con los datos de cuadro 176 para lo
cual se tomará los totales de las 3 últimas columnas, pues siendo r = b' xb' ' , si se considera
primero que la estatura, es la variable independiente, entonces, conforme ya se ha visto:
Σdxdy 255
b’ = = = 0,80 kilos
Σdx 2 316
y si se considera luego que el peso es la variable independiente, entonces se calculará b’’, para lo
cual solo variará el denominador del quebrado:
Σdxdy 255
b’’ = = = 0,91centímetros
Σ dy 2 278
y por lo tanto:
255 255 255

r= b' xb' ' = x = = 0,86
316 278 316 x 278
3. 5. 2. Valores de “r”.
El coeficiente de correlación puede tener cualquier valor entre –1 y +1. Valores positivos indican
que las dos variables aumentan o disminuyen al tiempo: valores negativos significan que cuando
una variable aumenta, la otra disminuye o viceversa. (Véase gráfico 181).
Si “r “es exactamente igual a –1 o +1, quiere decir que hay una perfecta asociación entre las dos
variables, en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra
cambia siempre igual número de unidades. En dichas ocasiones los puntos en el gráfico caerían
todos sobre una línea recta. Tal sería el caso si a cada aumento de una pulsación correspondiera
siempre el mismo aumento en el número de respiraciones (esquema A) o si a cada aumento de
una pulsación se observara siempre una misma disminución en el número de respiraciones
(esquema B).
Si “r “ = 0, significa que no hay ninguna asociación entre las dos variables, o que de existir, no es
una relación lineal. El gráfico que entonces se obtendría sería semejante al del esquema C, lo cual
se observaría, si para cada número de pulsaciones pudiera encontrarse cualquier número de
respiraciones.
Sin embargo, valores de r = 0 o iguales a la unidad, son más bien teóricos. En primer lugar aunque
no haya ninguna asociación entre 2 características, las variaciones causadas por el azar suelen
dar una correlación aparente. En segundo lugar, aun tratándose de correlaciones perfectas, no es
de esperar que r sea exactamente igual a 1, a causa de los errores que se cometa al hacer las
observaciones.
En la práctica pues, solo se observan valores intermedios entre 0 y ± 1 . Si las pulsaciones y las
respiraciones aumentaran o disminuyeran al mismo tiempo, pero sin que a cada aumento de una
pulsación corresponda siempre el mismo aumento en las respiraciones, se obtendría un gráfico
como el esquema D. Finalmente, si cuando las pulsaciones aumentan las respiraciones disminuyen
o viceversa, pero sin que haya la misma variación en las respiraciones por cada unidad que
cambia las pulsaciones, entonces se observaría algo como el esquema E.
Gráfico 181
Diagrama de puntos que ilustran diferentes grados de correlación
A: r = + 1 B: r = - 1
C: r = 0 D: r = 0.50
E: r = - 50
3. 5. 3. Interpretación de “r”.
En el ejemplo que nos sirvió para el cálculo del coeficiente de correlación encontramos que r =
0,86. Este valor no debe interpretarse como se hace corrientemente, en el sentido de que el 86%
de las variaciones en el peso son causadas por las variaciones en la estatura.
Para una interpretación, hay que obtener el Coeficiente de determinación que es la forma más
2 2 2
correcta debe tomarse r . En nuestro ejemplo r = (0,86) = 0,74, nos indica que un 74% de los
cambios en el peso se explican por las variaciones de la estatura. Si se hubiera encontrado que r =
2
0,71 y por lo tanto r = 0,50 se concluiría que solo el 50% de los cambios observados en el peso
son explicables por las variaciones en la estatura, quedando todavía un 50% de variación no
atribuible a esta última variable. La anterior explicación ayuda a comprender por qué coeficientes
de correlación menores de 0,50 son por lo general difíciles de interpretar, no debiéndose dar
demasiada importancia a tales hallazgos.
17. 3. 5. 4.Recomendaciones finales. Al interpretar las asociaciones entre dos variables, deben
tenerse en cuenta, finalmente, los siguientes principios:
1. Asociación no es sinónimo de causalidad. El que una variable aumente o disminuya al mismo

tiempo que otra, no quiere decir que los cambios en una, son determinados por la otra. Así por
ejemplo, en los últimos años la mortalidad por accidentes y la mortalidad por cáncer pulmonar
han aumentado considerablemente sí que pueda decirse que la una sea causa de la otra.
Evidentemente los asares de la vida moderna y otros muchos factores que han evolucionado
con el tiempo determinan tales ascensos.
2. Las asociaciones encontradas no deben aplicarse indebidamente a valores que excedan los
límites de las series estudiadas. Ya dijimos que la estatura aumenta con la edad, pero eso solo
es válido hasta el final de la edad del crecimiento y a nadie se le ocurriría predecir la estatura
de un adulto de 50 años en base a la anterior asociación.
3. El cálculo de coeficiente de correlación r sólo se justifica cuando el gráfico señala que la

asociación estudiada puede ser convenientemente resumida por una línea recta. En algunas
ocasiones el gráfico señala claramente que tal asociación no existe, pero si se calcular r podría
llegarse a obtener un valor equívoco a causa de la presencia de una valor aberrante como en
el caso esquematizado.
Gráfico 183
Diagrama de puntos que muestra una falsa correlación positiva
Por lo demás la relación existente puede no ser lineal. En el esquema próximo r = 0 a pesar de
que existe una perfecta relación curvilineal. En ocasiones como esta el cálculo de la
correlación es mucho más difícil y al asesoramiento por un técnico estadístico se hace
imprescindible.
4. La interpretación del coeficiente de correlación se hará teniendo en cuenta el número de

individuos estudiados. En las secciones 7.4 y7.7 señalamos que al obtener muestras repetidas
de una población los promedios de estas no siempre eran iguales.
a. Gráfico 184
Perfecta correlación curvilíneal en donde r = 0
De la misma manera, si muestras repetidas se extraen de determinado universo y para cada una
se calcula el coeficiente de correlación o el de regresión, dichos coeficientes, como sucede en el
promedio, pueden diferir del verdadero valor del universo en una cantidad más o menos
apreciable. Sin embargo, mientras mayor sea el tamaño de la muestra, menor variabilidad
presentarán dichos coeficientes y mayor será su validez. Se ha visto por ejemplo que aun en
poblaciones en las cuales no existe ninguna asociación (r = 0 por lo tanto) es posible encontrar
valores de r tan altos como 0,30 para muestras de 40 individuos, debido simplemente a accidentes
del muestreo. Esta es una nueva dificultad para la interpretación del coeficiente de correlación, la
cual debe tenerse siempre presente, para no dar mucha importancia a valores de r que se basen
en muestras muy pequeñas.
b. Cuando se estudia un grupo grande de individuos es necesario agrupar los datos en un número
conveniente de clases, con el fin de facilitar las complicaciones, las cuales sin embargo siguen
siendo muy laboriosas y se prestan a múltiples equivocaciones cuando se carece de práctica. Si el
investigador no puede recurrir al asesoramiento de un técnico estadístico es preferible analizar los
datos a la manera descrita anteriormente, pues el tiempo adicional consumido en tal análisis,
queda compensado por errores de cálculo que han podido evitarse. Si la realización de una
investigación ha exigido meses de trabajo, unas cuantas horas destinadas a su análisis estadístico
no representa una inversión inútil.
CAPITULO XVIII
SERIES CRONOLÓGICAS
Las series cronológicas son aquellas que estudian la variación de un fenómeno a través del
tiempo. El fenómeno estudiado puede referirse a: los casos o muertes de una enfermedad, al
ingreso per cápita de una colectividad, al número de estudiantes universitarios, etc.
El análisis de una serie cronológica puede tener por único propósito, describir la marcha histórica
de un fenómeno. Sin embargo, habitualmente se persigue evaluar los cambios ocurridos por la
introducción de alguna actividad particular o resumir la evolución de un fenómeno con miras a
predecir su posible ocurrencia en el futuro.
Cualquiera sea el propósito, el análisis de tales series es por lo general difícil, y aquí solo se
explicarán las técnicas más corrientes, no debiéndose olvidar, que la presentación tabular y gráfica
es paso previo indispensable para decidir sobre el análisis.
Como ya se vio anteriormente, el cuadro que resume una serie cronológica consta habitualmente
de dos columnas: la primera se destina a la escala del tiempo y la segunda a la inscripción del
número de veces que acaeció el fenómeno estudiado.
Sin embargo, cuando se describen las variaciones de una población, es conveniente colocar una
tercera columna de tasas, las cuales señalan la frecuencia con que se presentó el fenómeno por
cada 1.000, 10.000 o 100.000 habitantes, etc., con lo cual se facilitan grandemente las
comparaciones.
Cuadro 187
Tuberculosis. Mortalidad estimada y tasas por 100.000 habitantes.
Venezuela, 1956 – 1960
Año Número estimado de defunciones Tasa x 100,000 hab.

1956 2843 45,0
1957 2835 43,0
1958 2459 36,2
1959 2275 32,3
1960 2111 29,5
Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela. 1960.
18.2. Presentación gráfica.
Los gráficos utilizados para la presentación de las series cronológicas ya fueron descritos
anteriormente, pudiéndose utilizar el papel aritmético corriente o el semilogarítmico. Se recordará,
que cuando el interés está en conocer los cambios absolutos en el periodo, debe preferirse la
escala aritmética, pero si por el contrario se desea estudiar los cambios relativos de la serie, el
papel semilogarítmico es preferible. En los estudios médicos, por lo general el mayor interés se
encuentra en conocer los cambios absolutos ocurridos: en averiguar por ejemplo, cuántas vidas se
han salvado o cuántos casos de determinada enfermedad se han evitado, en tales ocasiones el
gráfico en papel aritmético debe por consiguiente ser utilizado.
18.3 Análisis de las series cronológicas.

Los fenómenos cambian de intensidad en las diversas épocas del año (variaciones estacionales);
presentan alzas y bajas de unos años a otros (ciclos anuales), y para largos periodos pueden
permanecer más o menos estacionarios o manifestar una tendencia hacia el aumento o el
descenso (tendencia secular). Considérese por ejemplo el caso de Tosferina en Venezuela. A
partir de 1936 cuando se fundó el Ministerio de Sanidad, la enfermedad ha venido en franco
retroceso gracias a las diversas medidas preventivas realizadas (tendencia secular hacia el
descenso). Sin embargo cada cuatro años se observa un aumento en el número de casos pues los
niños que nacen en el periodo forman una población de susceptibles que favorecen a la
propagación de la enfermedad (ciclos anuales). Finalmente, puede constatarse que para cada año,
la enfermedad tiene predominancia durante los meses de noviembre y diciembre, época del año en
la cual parece que las condiciones ambientales son propicias para la multiplicación del bacilo
(variación estacional).
Es a consecuencia de la ocurrencia conjunta de estos tres tipos de variación, que el análisis de las
series cronológicas se dificulta. Mientras que el examen de las tendencias seculares solo es
factible cuando se hace abstracción de las pequeñas variaciones que ocurren cada año, se
comprende fácilmente que los cambios anuales solo pueden interpretarse tomando en
consideración las variaciones cíclicas y seculares del fenómeno. Desconocer la anterior
interrelación ha conducido frecuentemente a numerosos errores de interpretación. Observe por
ejemplo el esquema siguiente, el cual representa una enfermedad con exacerbaciones cada 10
años: 1940. 1950, 1960.
Si un investigador estudiara el decenio 1950-1959, llegaría a l conclusión de que la enfermedad ha

descendido considerablemente, pero si otro investigador estudiaría el decenio 1951-1960
concluiría que la enfermedad se ha incrementado. Una simple ojeada al grafico mostraría que la
enfermedad continua estacionaria a pesar de lo asensos que aparecen cada 10 años.
En cualquiera de los casos anteriores, el grafico de una serie cronológica es muy importante, pues
de una simple mirada, podemos apreciar las variaciones habidas en lapso estudiado. Si se quiere
no obstante expresar la magnitud de las variaciones observadas, será necesario recurrir a otros
métodos, cuya escogencia depende de gran parte del aspecto que presenta los datos previamente
acentuados en el gráfico.
Cuando el grafico muestra que la serie asciende o desciende en forma más o menos lineal, el
análisis es bastante sencillo y cualquiera de las técnicas que a continuación se describen pueden
ser utilizadas
GRAFICO 189
Enfermedades con ciclos epidémicos decenales
Si la serie presenta por el contrario muchas irregularidades o si el grafico muestra que su tendencia
es más bien curvilínea, entonces el análisis es mucho más complicado. La suavización de los datos
mediante el método de los promedios móviles descrito en la sección 18.3.1.3. puede servir de
ayuda en la descripción de estas series.
18.3.1. Líneas de Tendencia
Este método consiste en buscar la línea o curva que represente mejor los datos estudiados, en tal
forma, que sin tenerse en cuenta las fluctuaciones menores, se destaque la tendencia general a
través de los años.
Dicha línea o curva viene a ser una línea promedio y mediante ella puede leerse en la ordenada,
los valores que corresponden a las distintas fechas.
Aunque existen técnicas matemáticas especiales para encontrar la mejor línea en cada caso,
debido a su complejidad, solo mostraremos métodos aproximados más sencillos.
18.3.1.1 Línea de tendencia a mano libre. Una vez hecho el grafico con los datos
correspondientes, se traza a mano una línea recta o curva, que aproximé lo más fielmente los
hechos descritos, evitando prolongar el trazo más allá del periodo en cuestión.
Desde luego, que si prolonga la línea un poco más allá del último año estudiado, se podrá predecir
la intensidad del fenómeno en los años futuros. Sin embargo, tales estimaciones asumen que el
fenómeno investigado varia en la misma forma que en el pasado, lo cual no siempre es verdadero,
y de ahí que por lo general solo son correctas cuando se hacen por el inmediato futuro.
Por lo demás, el método es solo aproximado, pues es difícil que dos personas distintas obtengan
los mismos resultados.
18.3.1.2. Línea de tendencia usando semipromedios. Este método solo debe utilizarse cuando
el grafico de los datos señala que ellos pueden ser representados por una línea recta.
Con los datos del cuadro 187 se procederá de la forma siguiente:
a. L os datos del periodo que se estudia se divide en dos grupos iguales y en cada uno se obtendrá el
promedio respectivo. Si el número de años es impar como en el ejemplo presente , el año de la
mita se incluirá en ambos promedios
Años Tasas
1956 45,0
1957 43,0
……………………………… …………………… ………
1958 36,2 .
1959 32,3 .
1960 29,5 .
………………………………………. ………
Por lo tanto los semipromedios serán:
45.0 + 43.0 + 36.2 124.2

= = 41.4
3 3
36.2 + 32.3 + 29.5 98.0
= = 32.7
3 3
b. En el grafico previamente elaborado se asentaran los dos semipromedios obtenidos, mediante
dos pequeñas cruces. Cada cruz debe ir en la mitad del espacio destinado para el periodo.
Puede verse en el grafico que sigue, que como el primer periodo se refiere a los años 1956,
1957 y 1958, el promedio se inscribe al frente del año 1957, que es el año central.
Gráfico 191
Mortalidad Estimada Por Tuberculosis, Venezuela, 1956 – 1960
18.3.1.3. Línea de tendencia con promedios móviles. Cuando las variaciones de las series son
muy irregulares es a veces difícil captar con la claridad la tendencia general del fenómeno que se
estudió. En tales ocasiones puede recurrirse a suavizar los datos mediante los promedios móviles.
Según el número de términos de la serie, puede calcular promedios móviles que incluyen 3,5 o
más años a la vez. En general, mientras mayor el número de años que se incluyen en la obtención
de los promedios, más regular se hace la línea de tendencia, pero en esos casos, más probabilidad
hay de que se pierdan importantes situaciones de la serie que se estudia y de ahí que el número
de los escogidos, no debe ser tan numeroso.
Para ilustrar la obtención de estos promedios, tomaremos los casos de Lepra, conocidos en el área
de Notificación Organizada durante el periodo 1941-1960. Dicha área comprende aquellas
regiones del país en las cuales los servicios sanitarios están bien organizados, en tal tema que los
datos sobre morbilidad y mortalidad se conocen de manera bastante exacta.
Cuadro 192
Lepra. Casos notificados por 100000habitantes. Área de notificación organizada 1941 – 1960.
(Cálculo de promedios móviles para 5 años)
Años Casos x 100.000 habitantes. Totales móviles Promedios Móviles

1941 8,3 - -
1942 8,9 - -
1943 11,3 47,2 9,4
1944 9,8 49,5 9,9
1945 8,9 50,8 10,2
1946 10,6 47,7 9,5
1947 10,2 46,8 9,4
1948 8,2 48,9 9,8
1949 8,9 50,6 1,1
1950 11,0 48,5 9,7
1951 12,3 48,5 9,7
1952 8,1 47,3 9,5
1953 8,2 41,4 8,3
1954 7,7 34,1 6,8
1955 5,1 30,2 6,0
1956 5,0 26,9 5,4
1957 4,2 26,5 5,3
1958 4,9 26,7 5,3
1959 7,3 - -
Fuente. Anuario de Epidemiología y estadística Vital Venezuela 1960
Los datos del cuadro anterior pueden suavizarse calculando promedios móviles de 5 en 5 años.
Para ello:
a. Se sumaran las tasas de los 5 primeros años disponibles y esta cifra, la cual representa el total
para el primer quinquenio, se colocara frente al año intermedio (1943).
b. Los totales sucesivos se obtendrán excluyendo del total precedente el primer año del
quinquenio y añadiéndole el siguiente año (1941 a 1945). (1942 a 1946) (1943 a 1947), etc.
c. Se obtendrán los promedios móviles dividiendo por 5 cada una de las cifras de la columna
anterior.
d. Una vez obtenidos estos promedios, se inscribirán en el mismo grafico en el cual se hayan
inscrito los datos originales.
Gráfico 193
Lepra; tasas observadas y promedios móviles, 1941-1960
Fuente: Datos de cuadro 192
Se observa en la serie anterior que no ha podido calcularse un promedio móvil para los 2 primeros
y los 2 últimos años, pues ellos se basan en datos que no figuran en el cuadro. Si los promedios
hubieran sido para tres años, en tal caso no se hubiera podido calcular el promedio para el primer
año y para el último de la serie.
A pesar del uso frecuente de los promedios móviles, ellos pueden ocultar oscilaciones importantes
de la serie o dar origen a dar irregularidades ficticias. Puede observarse en la serie anterior que en
los años en los cuales las tasas fueron elevadas, se hacen menos aparentes, pero el ascenso se
manifiesta dos años antes y termina dos años después.
18.3.2 Variación promedio anual
Consiste en averiguar mediante una simple resta, cual ha sido el aumento o el descenso absoluto
observado en el periodo y dividir por el número de años correspondientes, con el fin de obtener la
variación promedia anual.
En el ejemplo del cuadro 187, como la enfermedad descendió de 45.0 en 1956 a 29.5 en 1960 o
sea un descenso de 15.5 al dividir por 4 (1960 – 1956= 4), obtendremos que la tasa disminuyo 3.9
cada año. Observe que hemos dividido por 4 y no por 5, pues en el periodo solo hay en realidad 4
descensos anuales y no 5.
Conviene insistir en dos observaciones finales: a) el método sólo debe utilizarse cuando la
representación gráfica de los datos sigue más o menos una línea recta; b) proyecciones futuras
solo deben hacerse para años inmediatos. Observe que de acuerdo a nuestros datos, puede
estimarse que la tasa para 1961 será 25.6 (29.5 en 1960 – 3.9 = 25.6) pero si la proyección fuera
para 1970 se obtendrían un valor negativo (29.5 – 10 x 3.9 =-9. 5.
18.3.3 Ascenso y descenso porcentual

Para obtener el ascenso o descenso porcentual para el período se buscara la diferencia existente
entre los datos para el año inicial y los del año terminal del periodo y se dividirá por la frecuencia
correspondiente al año inicial. El resultado se multiplicara por 100 para expresarlo en forma de
porcentaje.
En los da tos anteriores se ve que el cambio porcentual para el período fue de:
Se observara que en este cálculo, al igual que en el método anterior, sólo se toman en cuenta los
valores del primero y del último año y el resultado siempre será igual cualesquiera que sean las
cifras intermedias. De ahí que el método solo debe usarse, cuando los datos ascienden o
descienden siguiendo una línea recta.
18.3.4. Línea de regresión en series cronológicas
Cuando la serie estudiada puede resumirse adecuadamente por una línea recta, como en los datos
del cuadro 187, las técnicas de regresión son aplicables.
El cálculo del coeficiente de regresión da una mejor estimación del cambio anual que experimenta
el fenómeno que se estudia, pues toma en cuenta todos los valores de la serie, y no solamente los
valores inicial y terminal. Los cálculos son idénticos a los aprendidos en el capítulo XVII, pero
reemplazados los años 1956, 1957, etc. por 1, 2, 3, etc.
− 41.7
b= = - 4.17
10
Lo cual indica que en promedio, la tasa desciende en 4.17 cada año.
La ecuación de la línea según se ha estudiado, será:

Y= Y- bX + bX = 37.2 – (- 4.17 x 3)+ (-4.17X) = 49.7 – 4.17 X
Si se desea saber cuál será la tasa a esperar en 1961 (sexto año de la serie); bastaría reemplazar
por 6, la incógnita de la fórmula anterior:
Y1961= 49.7 – (4.17 x 6)=49.7 – 25.0 = 24.7

CAPITULO XIX
MEDICIÓN DEL ERROR POR MUESTREO:

ERROR ESTÁNDAR Y SUS APLICACIONES
19.1. Introducción.
Al resumir los resultados de un estudio mediante, cualquiera de las medidas estadísticas acabadas
de ver (promedios, porcentajes, etc.), hay que tener en cuenta que tales constante pueden
adolecer de los mismos defectos que presentan las mediciones individuales.
Los errores debidos al observador, al objeto observado método de observación, pueden algunas
veces desaparecer al utilizar una medida de resumen o hacer al contrario más aparentes.
Un observador a causa de su impericia o fatiga puede registrar como negativos exámenes que en
realidad son positivos. Una técnica defectuosa, la pérdida de potencia de los reactivos utilizados o
la observación de los individuos bajo condiciones desfavorables, pueden conducir a cometer el
mismo error .En tales casos, al resumir los resultados encontrados, el número de reacciones
positivas será mucho menor de lo que en realidad es a causa de que se ha cometido un error
sistemático en una misma dirección.
Otras veces, los errores que se cometen no se hacen siempre en una misma dirección. Al tomar el
metabolismo basal de un grupo de individuos , unas veces se peca por exceso y otras por defecto
y en tales casos ,al resumir los resultados mediante un promedio por ejemplo, los errores en más o
menos, tienden a compensarse y el promedio así calculado representara el verdadero valor o un
valor muy cercano al que quiere conocerse.
En realidad no existe ningún método estadístico que permita valorar exactamente los anteriores
errores una vez cometidos. Una perfecta preparación de los observadores, un control adecuado de
las técnicas y aparatos utilizados en las observaciones y la estandarización de un método que
permita estudiar a todos los individuos en las mejores condiciones serán imprescindibles para
reducir a un mínimo tales errores.
19.2 Error por muestreo
Existe sin embargo otro tipo de error susceptible de controlarse estadísticamente. Conforme hemos
mencionado previamente por lo general resulta imposible estudiar la totalidad de la población en la
cual puede observarse determinado fenómeno, teniendo que limitarnos al estudio de una muestra
de dicha población. Pero de la misma manera que los individuos difieren unos de otros, las
diferentes muestras formadas con ellos diferirán también unas de otras, dando origen nuevamente
a una nueva fuente de error. Ese error el cual se debe simplemente al hecho de que no estamos
estudiando la totalidad del universo solo una porción de él, se conoce con el nombre de Error por
Muestreo y el representante en realidad la diferencia que hay entre el valor dado por la muestra y
el verdadero valor del universo que tratamos de averiguar a través del estudio de aquel.
19.2.1 Medición del error por muestreo: Error Estándar.
La constante estadística que permite la medición del error por muestreo recibe el nombre de error
estándar.
Desde luego que cada una de las medidas de resumen conocidas tendrá su correspondiente error
estándar. Podrá hablarse por consiguiente del error estándar del promedio, del error estándar de
un porcentaje o del error estándar de coeficiente de correlación, etc. y las fórmulas utilizadas para
su cálculo varían en cada caso.
19.2.2 Origen del Error estándar.
Aunque es difícil explicar sucintamente el origen del error estándar los resultados de la
demostración práctica comentados en la sección 7.7 y ayudaran a su comprensión. Según se vio
entonces si de una población determinada se obtiene un número grande de muestras del mismo
tamaño en cada una se calcula el promedio, estos promedios se distribuirán alrededor del
verdadero valor del universo formando una curva normal.
Por consiguiente como los promedios del conjunto de muestras extraídas de determinado universo
se distribuye alrededor del verdadero valor del universo formando una curva normal, puede
afirmarse: que ninguna muestra diferirá del valor del universo en más de tres veces la desviación
estándar, pues ya se sabe que entre X ± 3D.E. se encuentra prácticamente el 100% del área de
la curva.
Ahora bien, si con el fin de averiguar el verdadero valor del promedio de determinado universo, se
obtiene una muestra y se calcula su promedio, esto no será exactamente igual al del universo, pero
si conociéramos la desviación estándar de un conjunto de muestras extraídas de dicho universo
bastaría tomar X ± 3D.E. para determinar los limites dentro de los cuales se encuentra el
promedio del universo que se quiere conocer.
Sin embrago, para calcular este desviación estándar habría necesidad de obtener, digamos 100 o
200 muestras diferentes, lo cual es impráctico, pues en la investigación real se extraen solamente
una muestra y a partir de ella, se tratara de conocer la población de donde procede.
No obstante, se ha demostrado que la desviación estándar de un conjunto de muestras obtenidas
de determinada población, puede estimarse con bastante exactitud a partir de una sola muestra.
Esta constante estadística, mediante la cual se estima la verdadera desviación estándar de un

conjunto de muestras, que recibe el nombre de Error estándar.
Con el fin de contestar que tan bien el error estándar puede estimar la desviación estándar de un
conjunto de muestras, volveremos nuevamente a los resultados de la demostración de la sección
7.7 en dichas demostraciones como se recordara teníamos un universo de metras en el cual el
50% eran blancas y de él extrajeron 150 muestras de 10 metras cada una. El resultado es obtenido
entonces los que se copian en el siguiente cuadro, en el cual se han añadido las dos últimas
columnas para el cálculo del promedio y la desviación estándar.
El promedio y la desviación estándar calculados por los métodos estudiados por el capítulo XVI
son respectivamente (véase cuadro 200)
7420 407000
X = = 49.5% D.E = − (49.5) 2
= 16.3%
150 150
CUADRO 200
Distribución de 150 muestras de 10 metras cada una, de acuerdo al porcentaje de metras

blancas obtenidas
(Cálculo del promedio y la Desviación Estándar)
Porcentaje de N° de muestras
metras blancas observadas FX FX2
0 0 0 0
10 3 30 300
20 6 120 2.400
30 0 600 18.000
40 30 1.200 48.000
50 36 1.800 90.000
60
Calculemos ahora el error estándar de esta serie, para apreciar si él realmente estima la desviación
estándar acabada de obtener. La fórmula para calcular el error estándar de un porcentaje, que
será estudiada con más detalle en la sección 19.4.2., es la siguiente:
𝑝∗𝑞
𝐸. 𝐸 = �
𝑛
en donde:
p = porcentaje de metras blancas en el universo (50% en nuestro ejemplo).

q = porcentaje de metras no blancas = 100 - p = 50%
n = tamaño de la muestra (10 en nuestro ejemplo).
Reemplazando en la fórmula los anteriores valores:
50 𝑥 50
𝐸. 𝐸 = � = √250 = 15.8 %
10
Puede apreciarse que este valor estima con bastante exactitud la desviación, estándar calculada
anteriormente, que fue 15.8%.
19.2.3. Desviación Estándar y Error Estándar.
Antes de seguir adelante, conviene tener en cuenta la diferencia que hay entre la desviación
estándar y el error estándar.
La desviación estándar, como hemos señalado, sirve para indicar la variación que presentan los
individuos de una muestra, alrededor de su promedio.
El error estándar por su parte, mide la variación de un conjunto de muestras y puede considerarse,
por lo tanto, como la desviación estándar de un conjunto de muestras.
Por lo tanto, si queremos describir la manera como se distribuyen alrededor del promedio los
individuos de la muestra que estamos estudiando, debemos calcular la desviación estándar, pero si
lo que deseamos es saber cómo se distribuyen los promedios de diferentes muestras alrededor del
verdadero valor del universo, entonces debemos calcular el error estándar.
19.2.4. Interpretación del Error Estándar.
Como este error no es otra cosa que la desviación estándar de un conjunto de muestras, los
conceptos estudiados a propósito de esta son también aplicables a él y por lo tanto, podemos
afirmar que:
� = 1𝐸𝐸 incluye aproximadamente el 68% de las observaciones.

𝑋
� = 2𝐸𝐸 incluye aproximadamente el 95% de las observaciones.
𝑋
AREAS DE LA CURVA NORMAL
Diferencia E.E: Diferencia observada, expresadas en unidades de curve normal. Esta columna
también se refiere al intervalo comprendido entre el promedio y determinada múltiplo de la D.E.
P: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia igual o mayor de la
observada o proporción de los individuos estudiados que se encuentran fuera de los limites
comprendidos entre el promedio más sanos al múltiplo de la D.E indicado en la columna anterior.
IP: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia menor que la observada
o proporción de los individuos estudiados que se encuentran entre los limites comprendidos entre
el promedio más sanos múltiplo de la D.E.
X ± 3 E.E. incluye aproximadamente el 100% de las observaciones.

Lo anterior puede expresarse en otra forma, quizás no correcta desde el punto de vista matemático
puro, pero fácil de comprender para quienes poseen escasos conocimientos matemáticos. En vez
de decir que entre el promedio del universo más o menos dos veces su error estándar se
encuentra el 95% de los promedios de las muestras que de él puedan obtenerse, podría decirse
que solo el 5% de las muestras extraídas de determinado universo, diferirán de él en más de dos
veces el error estándar o lo que es lo mismo, si afirmamos que el verdadero promedio del universo
se encuentra comprendido entre el promedio de la muestra más o menos dos veces su error
estándar, tendremos la seguridad de estar en lo cierto en un 95% de las veces.
(Recuérdese nota de la página 157).
De la misma manera, al afirmar que el promedio del universo se encuentra comprendido entre el
promedio de la muestra más o menos 3 veces su error estándar, tendremos la seguridad de estar
en lo cierto, prácticamente en un 100 de los casos.
19.3. Certeza absoluta. Certeza relativa.
La explicación anterior parecería indicar que al hacer afirmaciones como las ilustradas, debiera
buscarse siempre una certeza del 100%, usando el promedio más o menos 3 veces el error
estándar. Sin embargo, las siguientes explicaciones permitirán comprender por qué esto no es
siempre posible.
Cuando afirmamos un hecho, se tiene una de las siguientes posibilidades:
• afirmar que es cierto, algo que en realidad es cierto.

• afirmar que es falso, algo que en realidad es falso.
• afirmar que es verdadero, algo que es falso.
• afirmar que es falso, algo que es verdadero.
Reconocer que es cierto o falso, algo que en realidad lo es, constituye la meta de todo
investigador, buscándose evitar los errores envueltos en las 2 últimas afirmaciones. Sucede sin
embargo, que en estadística, mientras más procuramos no cometer el primer error, mayores
probabilidades tenemos de cometer el segundo.
En el esquema siguiente se representan dos universos, uno de sanos y otro de enfermos. Si se

toman 3 errores estándar a cada lado, se tendría la seguridad que ningún individuo enfermos
dejaría de reconocer como tal, pero al mismo tiempo algunos sanos se están incluyendo como
enfermos (falsos positivos), ahora estamos decidiendo que es cierto algo que en realidad es falso.
Si no queremos cometer el anterior error, podemos tomar 2 lados estándar en lugar de 3 y

entonces ningún individuo sano se incluirá como enfermo, pero en tal caso, algunos individuos
realmente se dejarían de reconocer como tales (falsos negativos), es estamos reconociendo como
falso algo que es realmente verdadero.
Gráfico 204
Lustración de los errores que pueden cometerse en la comparación de 2 muestras
Puede observarse que mientras más procuramos no cometer el primer error, más caemos en el
segundo y viceversa. Por lo tanto, aspiramos a tener un 68%, un 95% o un 100% de certeza en
nuestras afirmaciones, depende del problema de que se trate.
El siguiente ejemplo servirá para aclarar este punto.
Imaginemos un nuevo tratamiento sobre el cual se tienen favorables indicios en cuanto a su

efectividad, pero cuya aplicación presenta cierta peligrosidad. Si el tratamiento es para una
enfermedad relativamente benigna, como la difteria, descaremos tener una certeza así absoluta de
que es efectivo, pues existiendo otros medios terapéuticos para la enfermedad, no correremos el
riesgo de recomendar una su aplicación.
19.4. Cálculo del error estándar.
Se ha señalado que cada una de las medidas de resumen tiene su correspondiente error estándar.
A continuación se señalan las fórmulas utilizadas para calcular el error estándar de un promedio y
el de un porcentaje. Otras fórmulas se explicarán a medida que sea necesario.
19.4.1. Error Estándar de un promedio (Error típico).
𝐷. 𝐸
𝐸. 𝐸 =
√𝑛
En su cálculo se seguirán los siguientes pasos:
1. Calcular el promedio de la serie.

2. Calcular la D.E. por el método conocido.
3. Dividir la D.E. por la raíz cuadrada del número de observaciones incluidas en la muestra. El
valor así obtenido es el error estándar del promedio.
19.4.2. Error Estándar de un Porcentaje.
𝑝∗𝑞
𝐸. 𝐸 = �
𝑛
En esta fórmula:
p: es el porcentaje de personas que poseen determinadas características, y,
q: el porcentaje de personas que no la poseen.
Si en un grupo de personas que se estudian, el 25% son hombres.
P = 25% y
q = 75%
Por lo tanto, conociendo “p” se conocerá el valor de “q”, pues
q = 100 - p
19.5 Utilización del error estándar.
El error estándar se utiliza para 3 fines principales:
1. Para conocer dentro de que límites se encuentra el verdadero valor del universo.
2. Para estimar el tamaño que debe tener una muestra para lograr determinada precisión.
3. Para saber si una muestra procede o no de determinado universo.
Las dos primeras de estas aplicaciones se estudiarán a continuación y en cuanto a la tercera, será
vista a propósito de los estudios comparativos.
19.6. Estimación de valor del universo.
Aunque el investigador toma una muestra con el fin de inferir partir de ella el verdadero valor de la
totalidad del universo, los resultados arrojados por la muestra no corresponden exactamente a los
del universo. Si con el fin de calcular la estatura promedio de alumnos de la Universidad,
estudiamos un grupo de 400 jóvenes encontramos que el promedio es 160 centímetros, esta cifra
no representa exactamente el verdadero valor para todos los universitarios, aunque sí es una cifra
muy aproximada.
Pero, ¿qué tan aproximada es esa estimación? El cálculo del error estándar, nos permitirá dar
contestación a esta pregunta.
De acuerdo a la investigación que se haya realizado, se presentan los casos diferentes:
1. Estimar el promedio del universo.

2. Estimar el porcentaje del universo.
El procedimiento general es el mismo, pero el cálculo del error estándar se hará utilizando las
correspondientes fórmulas vistas anteriormente.
19.6.1. Estimación del verdadero promedio del Universo.
Ejemplo: Con el fin de conocer la edad promedio de los 20.000 estudiantes de la Universidad
Central, se estudió una muestra de 400 alumnos, encontrándose que su promedio fue 23 años y la
desviación estándar 2 años.
En base al resultado de esta muestra, se desea saber dentro de que límites se encuentra el
verdadero promedio de los 20.000 estudiantes. Se desea poder hacer tal afirmación con un 95%
de certeza.
Procedimiento: El error estándar de la muestra (sección 19.4.1.) será:

𝐷. 𝐸 2 2
𝐸. 𝐸 = = = = 0,10 𝑎ñ𝑜𝑠
√𝑛 √400 20
Como al tomar 2 E.E. a uno y otro lado del promedio tendremos una certeza del 95%, entonces:
X ± 2 E.E. = 23 ± 2 x 0,10 = 23 ± 0.2

es decir, que el promedio verdadero de la edad de los universitarios estaría entre 22,8 años y 23,2
años.
Si los límites anteriores parecieran muy amplios, es decir, si se quisiera lograr mayor exactitud en
los resultados, sería necesario aumentar el tamaño de la muestra, pues como señala la fórmula,
mientras mayor el número de individuos estudiados, mayor el denominador del quebrado y menor
por consiguiente el error estándar.
Así por ejemplo, si en vez de 400 estudiantes se hubieran estudiado 1.600 y se hubiera encontrado
el mismo promedio y la misma desviación estándar, entonces el error estándar sería:
2 2
𝐸. 𝐸 = = = 0,20 𝑎ñ𝑜𝑠
√1600 40
y los límites dentro de los cuales estaría la edad promedio de los 20.000 universitarios sería:
23 ± 2 x 0.05 = 23 ± 0,1
es decir, entre 22,9 y 23, 1 años.
19.6.2 Estimación del verdadero porcentaje del universo.
Ejemplo: Con el fin de conocer el porcentaje de personas vacunadas contra la viruela, en una
población de 20 000 habitantes se estudió una muestra de 400 personas, de las cuales 300
estaban vacunadas, es decir, un 75%.
En base al resultado anterior se desea saber dentro de que límites se encuentra el verdadero
porcentaje de vacunados en la población. Se desea hacer tal estimación con un 95% de certeza.
Procedimiento: El error estándar de la muestra se calcula mediante la fórmula:
pq
E.E. =
n
en donde
“p” porcentaje de personas vacunadas en la muestra (75%) y

“q” porcentaje de personas no vacunadas, o sea, 100 – 75 = 25%
75 * 25
(E. E.) = = 4.69 = 2.16
400
Como al tomar 2 errores estándar tenemos una certeza del 95%, podemos afirmar que el
verdadero porcentaje de vacunados, estará entre:
75% ± 2 (2.16) = 75 ± 4.3, es decir, entre el 70.7 % y 79.3%
Lo mismo que en el caso anterior si estos límites parecen muy amplios y se desea mayor precisión,
podrá lograrse aumentando el tamaño de la muestra.
Así por ejemplo, si hubiera estudiado 1600 personas en vez de las 400 estudiadas y asumiendo
que si hubiera obtenido el mismo 75% de vacunados el E.E sería:
75x 25
= 1.17 = 1.08
1600
y los límites estarían entre:
75 ± 2 (1.08) = 75 ± 2.2, es decir, entre 72.8% y 77.2%.
19.7 Tamaño de la muestra (n).
Algo que inquieta frecuentemente al investigador, es el tamaño de la muestra que debe utilizar.
Esta preocupación es obvia, pues si la muestra es demasiado pequeña los resultados pueden
carecer de validez y si es demasiado grande, quizás represente al gasto de energías y recursos. El
tamaño de la muestra depende principalmente, de los siguientes factores:
1. Variabilidad del universo que se estudia, pues mientras más variable sea este, mayor ha de ser
el tamaño de la muestra.
2. Precisión que se quiere en los resultados, es decir, magnitud del error que podemos tolerar. Se
comprende que para afirmar el promedio del peso de un grupo de individuos está entre 40 y 60
kilos, se necesitará una muestra mucho más pequeña que si quisiéramos afirmar, que dicho
promedio está entre 50 y 51 kilos.
3. Margen de certeza que se desea obtener (95% o 99%), pues para determinada precisión
mientras mayor sea la certeza que se busca, mayor debe ser el tamaño de la muestra.
4. Como la precisión a que se aspire y la certeza que se desee, dependen del problema que se
estudie, podemos señalar que el tamaño de la muestra dependerá en parte de la aplicación
que se va a dar a los resultados que se obtengan (ver 19.3). Para fijar el tamaño de la muestra
debemos en primer lugar decidir sobre el margen de certeza que deseamos y sobre la
precisión que aspiramos en nuestros resultados. Luego, suponiendo por ejemplo, que
deseemos un 95% de certeza, mediante la igualdad: precisión deseada = 2 E.E., nos será fácil
despejar n. Como se ilustra en los siguientes párrafos en los cuales se estudia separadamente
el caso de los promedios y de los porcentajes.
19.7.1 Tamaño de la muestra en la estimación de un promedio.
Ejemplo: para conocer el promedio de peso de un grupo de escolares, se desea tomar una
muestra, en tal forma que el promedio estimado no difiere más de ½ kilo del verdadero valor del
universo, y que se pueda afirmar con un 95% de certeza que dicho resultado es correcto.
Como se quiere tener un 95% de certeza, hay que tomar 2 errores estándar, pues ya sabemos que
el 95% de las observaciones se encuentran en el intervalo determinado por:
x ± 2 E.E.
Esto quiere decir que el promedio de la muestra no debe diferir en más de 2 E.E, del promedio
verdadero del universo, o sea que si P es la precisión deseada o máximo error que podemos
tolerar, entonces podemos escribir:
P = 2 E.E
D.E
Y como ya sabemos que el error estándar del promedio es igual a: , reemplazando en la
n
igualdad anterior tendremos:
D.E
P=2
n
y por simple despeje algebraico encontramos que el tamaño de la muestra será:
2 D.E 2
n=( ) ( ∗)
P
Antes que debamos responder cuál debe ser el número de individuos que hay necesidad de
estudiar, es necesario conocer el valor de la Desviación Estándar. Es lógico que este valor solo
puede conocerse una vez que se haya hecho la investigación, pero un valor aproximado puede
obtenerse consultando la opinión de algún experto, o basándose en un estudio previo o recurriendo
a una encuesta piloto.
Generalmente un conocimiento de la población que vamos a estudiar nos permite predecir la

variación que se encontrará. Así por ejemplo podemos decir casi con seguridad –sin que ello sea
difícil- que el peso de los escolares presentará variaciones entre 30 y 48 kilos.
Ahora bien, como la desviación estándar es aproximadamente 1/6 de la amplitud total de la serie
(pues X ± 3D.E incluye la totalidad de la curva) podemos estimar, en el ejemplo dado, que:
48 − 30
D.E. = = 3
6
Si admitimos que para nuestro ejemplo presente D.E. = 3, entonces, con el fin de no cometer una
equivocación mayor de ½ kilo (P = 0.50), el tamaño de la muestra sería:
2 D.E. 2 2X 3 2
n=( ) = ( ) = 144
P 0,5
Es decir, que nuestra muestra de constar aproximadamente de 150 individuos.
19.7.2 Tamaño de la muestra en la estimación de un porcentaje.
Ejemplo: Se desea conocer con un 95% de certeza y sin cometer un error mayor de 3%, el
porcentaje de mujeres que hay en la Universidad.
Como se quiere tener un 95% de certeza hay que tomar 2 E.E. y por lo tanto; P, la precisión
deseada sería:
P = 2 E.E.
y como se sabe que el error estándar de un porcentaje es igual a 2 pq /n reemplazando en la
equivalencia anterior:
∗
Como X = 2.58 cubre el 99% de las observaciones, si se quisiera una certeza del 99% la fórmula quedaría:
2.58 D.E
n =( )2
p
P=2 pq /n
de donde, finalmente, se deduce que el tamaño de la muestra será:
4 pq
n = P2 ( ∗)
De nuevo hay necesidad de tener un valor aproximado de p, es decir, conocer aproximadamente el

porcentaje de mujeres en la Universidad.
Este valor no necesita que sea muy preciso, pues note como p + q = 100, el producto de p x q es
más o menos igual, si “p” varía dentro de los límites prudenciales:
Si p = 40 entonces 40 x 60 = 2.400
Si p = 50 entonces 50 x 50 = 2.500
Si p = 60 entonces 60 x 40 = 2.400
Si en el ejemplo presente suponemos que alrededor del 20% de los estudiantes son mujeres (p =
20%), el número de individuos que debería tener la muestra con el fin de no cometer un error
mayor del 3% (P = 3%) sería, de acuerdo a la fórmula anterior:
4 pq 4(20 X 80 ) 710
n= = =
P2 P(3) 2 (3) 2
De la misma manera, si se supone que alrededor del 30% de los estudiantes son mujeres (p =
30%) y se quiere no cometer un error mayor del 5% (P = 5%), el tamaño sería:
4 pq 4(30 X 70)
n= = = 336
P2 (5) 2
Desde luego, no es indispensable examinar exactamente 336 alumnos, ya que de acuerdo al “p”
que encontraremos al tomar la muestra, el número anterior puede variar.
La fórmula sólo nos da un dato aproximado, pero de todos modos, tal dato es mucho más útil que
si se tomará arbitrariamente determinado número de individuos.
∗
Si se deseara una certeza del 99% la fórmula quedaría:
6,6 pq
n=
P2
en donde 6,6 es el cuadrado de 2,58 ya que como se recordará, el intervalo X = 2,58 E.E. cubre el 99%
de las observaciones.
CAPITULO XX
ANALISIS DE LA INFORMACION:
LOS ESTUDIOS COMPARATIVOS

20.1 Generalidades.
Ya mencionamos anteriormente que la finalidad de los estudios comparativos es averiguar si

existen diferencias entre 2 o más grupos que se estudian y tratar de determinar las causas
capaces de explicarlas.
El hecho de que entre 2 grupos de pacientes tratados diferentemente se encuentren ciertas

diferencias, no debe hacernos concluir desde un principio que tales diferencias sean debidas a que
un tratamiento es mejor que el otro. En efecto, si suponemos que tenemos 2 grupos de pacientes,
el primero tratado con sulfadiazina y el segundo con Penicilina y que la letalidad fue
respectivamente 5% y 2%, la diferencia del 3% pudiera ser debida a una de las siguientes causas:
1. Falta de comparabilidad entre los 2 grupos, es decir, que los 2 grupos de pacientes no tenían
características semejantes.
2. Variación explicable por azar, pues según se ha visto, si 2 muestras son obtenidas del mismo
universo, los resultados no siempre serán exactamente iguales.
3. Mayor efectividad de la Penicilina con respecto a la Sulfadiazina.
Ahora bien, para poder concluir que el mejor resultado observado se debe a que la Penicilina es
más efectiva, habrá que descartar primero las otras 2 posibles causas:
Habrá que probar en primer lugar, que los grupos son comparables, pues de no serlo, ello ya sería
una explicación adecuada de las diferencias observadas. Será necesario luego, demostrar que no
es probable que el azar haya producido tales diferencias, pues si ellas pueden explicarse
fácilmente por éste, no sería necesario recurrir a otras explicaciones.
20.2 Comparabilidad de los grupos.
En medicina experimental, frecuentemente se busca evidenciar si algún tratamiento es mejor que

otro, y para ello se requiere que los grupos que se están comparando están homogéneamente
constituidos en relación a aquellas características que tienen relación con el problema que se
estudia.
Si por ejemplo, se está estudiando alguna enfermedad cuya mortalidad, depende en parte de la
edad, estado nutritivo y sexo de los pacientes, los 2 grupos deberán estar igualmente constituidos
con respecto a estos factores.
Sucede sin embargo, que aunque igualemos los 2 grupos con respecto a las características que
son conocidas, todavía pueden existir otras características desconocidas que influencian el
fenómeno que se estudia. En tal caso, la única manera de igualar los 2 grupos es mediante el
sistema al azar, el cual, a la larga, tiende a uniformizar su composición, haciéndolos equivalentes.
Si al azar no se ha usado como sistema de elección de los individuos que se estudian, nunca se
podrá estar seguro que los grupos son valederamente comparables y quedará duda si la diferencia
observada en la comparación se debe a una afectividad real del tratamiento o a una falta de
comparabilidad entre los grupos.
El siguiente ejemplo ayudará a aclarar los conceptos expresados anteriormente.

Hoy en día no hay ninguna duda de que existe una estrecha relación entre el hábito de fumar y el
cáncer de pulmón, pero ha sido imposible todavía probar de manera concluyente que el cigarrillo
produce la enfermedad.
Esta imposibilidad radica en que la asociación encontrada puede tener 3 explicaciones:
1. El cigarrillo produce cáncer.

2. El cáncer predispone al hábito de fumar (?)
3. Tanto el cáncer como el hábito de fumar son determinados por un tercer factor aún
desconocido.
CIGARRILLO
FACTOR DESCONOCIDO
CÁNCER
Nuestros actuales conocimientos médicos nos permiten descartar la hipótesis de que el cáncer
induzca al hábito de fumar, pero la tercera de las explicaciones mencionadas todavía sigue en pie.
Si se pudieran formar dos grupos al azar, de tal manera que a los individuos de un grupo se les
ordenará fumar y a los componentes del otro se les prohibiera hacerlo, podría estudiarse del
cáncer en unos y otros y cualquier diferencia encontrada podría atribuirse al cigarrillo, pues el azar
al igualar los grupos, haría una distribución más o menos homogénea de todos los factores,
conocidos o no, que pudieran influenciar la aparición de la enfermedad.
Como tal experimento no es posible, en la primera práctica se toman 2 grupos tan semejantes
como sea posible, pero nunca se puede igualar con respecto a todas las características conocidas
que puedan tener relación con la enfermedad y como es obvio, tampoco aquellas que son
desconocidas. En tales condiciones, de existir un factor desconocido que a la vez produjera el
cáncer y el hábito de fumar, el grupo de grandes fumadores sería a la vez el que tuviera más
cáncer y viceversa, y aunque exista una indudable asociación entre los 2 factores, dicha asociación
no podría interpretarse en el sentido de que el hábito de fumar produce la enfermedad.
Al comparar 2 o más grupos debe tenerse en cuenta que en ocasiones, especialmente cuando las
muestras son muy pequeñas puede suceder que a pesar que el azar haya sido utilizado como
sistema de elección, se presenten ciertas diferencias, debidas exclusivamente al hecho de que los
resultados que se comparan no son realmente comparables.
Vamos a suponer que con el fin de probar la hipótesis de que el estado nutritivo es mejor en las
familias pudientes que en las pobres, se hubieran escogido muestras probabilísticas de 2 escuelas
diferentes: la escuela A en donde asisten solamente niños ricos y la escuela B para los niños
pobres. Supongamos que los resultados hubieran sido los siguientes:
Cuadro 217
Peso de dos grupos de alumnos, por sexo
Escuela A Escuela B
Alumno Sexo Peso Alumno Sexo Peso
1 M 34 1 M 31
2 M 36 2 M 33
3 M 33 3 M 35
4 M 34 4 M 37
5 M 32 5 F 32
6 M 35 6 F 30
7 M 33 7 F 31
8 M 35 8 F 31
9 F 29 9 F 30
10 F 31 10 F 31
11 F 32 11 F 32
12 F 32 12 F 31
Escuela A: X = 396 / 12 = 33,0 kilos

Escuela B: X = 384 / 12 = 32,0 kilos
El investigador desprevenido, calculará los promedios respectivos para las dos escuelas y al
encontrar que los alumnos de la Escuela A pesan un promedio 1 kilo más que los de la escuela B,
daría por probada su hipótesis de trabajo.
Pero son en realidad comparables los grupos anteriores?. Puede observarse en los datos
precedentes que en la muestra de la Escuela A hay muchos más hombres que mujeres (8 vs. 4) y
que en la Escuela B, sucede lo contrario. Como el peso es una característica que en gran parte
depende del sexo, este factor no debe pasarse por alto al hacer la comparación. Si comparamos
los promedios de los varones para las 2 escuelas y hacemos luego lo mismo con las hembras,
encontraremos:
Masculino: X A= 272/ 8=34 Kilos; X B = 136/4 =34 Kilos
Femenino: X A= 124/4=31 Kilos; X B = 248/8= 31 Kilos

Es decir, teniendo en cuenta el sexo no existe absolutamente ninguna diferencia entre dos
escuelas; por lo tanto la diferencia controlada entre los dos promedios globales era una diferencia
artificial, debida exclusivamente al hecho que se estaba comparando grupos que no eran
comparables.
Este ejemplo ilustra por consiguiente la necesidad de ver primeramente si los grupos que van a
compararse son homogéneos con respecto a las características que tengan en relación con el
problema que se estudia, pues de no serlo, una comparación global de los resultados seria
inadecuada.
20.2.1 Importancia del grupo control
Comparar, por lo tanto involucra la existencia de un patrón de comparación con el cual puedan
contrastarse los resultados que estarás tratando de medir. Dicho de otra manera, en todo estudio
en que se pretenda probar que el tratamiento es eficaz, o se trate de determinar causa y efecto, a
lado del grupo experimental, debe haber un grupo control.
Son pocas las ocasiones en que dicho grupo control no es necesario. Así por ejemplo, se ha
señalado que, ningún control fue necesario para afirmar que la Estreptomicina era efectiva en el
tratamiento de la meningitis tuberculosa, ya que la experiencia había señalado que antes del
advenimiento de la droga, la enfermedad era siempre mortal. De la misma manera, cualquier
droga que pueda disminuir la letalidad de la rabia, no necesitar la existencia de un grupo control
para decidir que es efectiva, pues ya sabemos que la enfermedad una vez declarada conduce
inexorablemente a la muerte.
En todas las otras ocasiones, el grupo control es imprescindible y para que él sea conveniente,
debe ser escogido de tal forma, que sea perfectamente comparable con el grupo experimental.
Este grupo control puede ser escogido de dos maneras:
a. control histórico
b. control simultáneo
c. individuo de grupo experimental como sus propios controles
d. el universo como grupo control.
20.2.2 Control histórico
En esta modalidad, los resultados son observados en el grupo experimental y compactados con
aquellos obtenidos en épocas pasadas. Así por ejemplo, si se investiga la acción de una nueva
droga sobre la viruela, la letalidad observada en los pacientes sometidos a nuevo tratamiento, se
compara con la letalidad habitual observas en el pasado en pacientes con dicha enfermedad. Sin
embargo, para que esta comparación fuera valedera, habría que estar seguro de que atrevas de
los años no ha habido ningún cambio marcado en la virulencia de los gérmenes, en la
susceptibilidad de los individuos, ni en las condiciones que favorece la interacción entre gérmenes
y susceptibles. Como nunca tendremos certeza sobre los puntos anteriores, solo si se exceptúa
los casos en los cuales hay grandes diferencias entre el grupo experimental y el control histórico,
queda la duda sobre si dichas diferencias son debidas a la acción del nuevo tratamiento o que los
grupos no son comparables.
20.2.3 Control simultaneo
Por los motivos anteriores, el grupo control debe escogerse en tal forma, que los individuos que lo
integran sean similares al grupo experimental, en todas aquellas características importantes en
relación con el problema que se estudia. Es necesario que antes de asignar cada individuo al
grupo respectivo, se decida de antemano si él va a ser incluido o no en la investigación, pues en
caso contrario puede llegarse a una selección de la muestra. Hecha esta decisión los individuos se
repartirán por cualquier procedimiento al azar que garantice, su correcta distribución. Entre estos
procedimientos hay tres principales:
1. Alternación. Consiste en decidir al azar, el grupo al cual pertenezca el primer individuo

escogido y los restantes, se distribuirían alternadamente en los diferentes grupos. El simple
lanzamiento de una moneda a cara o sello decidirá el grupo al que ira el primer individuo, en el
caso en que se estudien dos grupos.
2. Pareamiento. Si son dos grupos, se escogen primero pares de individuos que sean tan
semejantes como sea posible, con respecto a determinado número de características (mismo
sexo, misma edad, mismo peso, etc.) y luego, mediante al azar, se determina el grupo al que
pertenecerán los integrantes de cada par. El mismo procedimiento general se aplica cuando
se trata de más de dos grupos.
3. Azar simple. Los individuos se asignan a los grupos mediante el uso de tablas de números al
azar, según lo explicado en el capítulo sobre muestreo. En la práctica, si son, dos grupos, se
prepare una serie de sobres cerrados, la mitad para el grupo control y la otra mitad para el
grupo experimental. Una vez que se decida que el individuo formara parte de la investigación,
se tomara un sobre para decidir el grupo en que se incluirá.
20.2.4 Los mismos individuos como su propio grupo control.
En ocasiones los mismos individuos hacen a la vez de grupo experimental y de grupo control, para
lo cual se hacen determinadas indecisiones en cada individuo, antes y después de aplicarle las
droga que se estudia o de someterlo al estímulo que se investiga. Este método debe utilizarse
siempre que las condiciones de la investigación lo permitan.
20.2.5.1 El Universo como Grupo control.
Los resultados observados en una muestra que ha sido sometida a un estímulo especial, se
comparan con lo que ocurre en el universo del cual fue extraída la muestra.
20.2.5.2 Eliminación del azar como causa de las diferencias observadas.
Una vez seguros que las muestras son comparables y Antes que tratemos de investigar las
causas de las diferencias observadas, es necesario descartar la influencia del azar, pues ya
sabemos que debido al error por muestreo, habitualmente se observan ciertas diferencias entre
diversas muestras provenientes del mismo universo.
No hay en realidad ningún procedimiento que nos indique con certeza absoluta cuales muestras
proceden de un determinado universo y cuáles no, pero podemos aceptar el criterio de que
aquellas muestras que ocurren con una frecuencia menor al 1% (0 al 5%) son tan improbables
que en ausencia de información al respecto, se considerarán como provenientes de otro
universo.
El problema por lo tanto, se reduce a averiguar con qué frecuencia se presentan las diferentes
muestras, cuando muestras repetidas se extraen de determinados universos.
Ahora bien, se ha señalado que el azar es ordenado y al estudiar el error estándar, concluimos
que:
X ± 1E.E. incluye al promedio del universo en el 68.2% de los casos.

X ± 2E.E incluye al promedio del universo en el 95.4% de los casos.
X ± 2.58 E E. Incluye al promedio del universo en el 99 de los casos.
X ± 3 E. E. Incluye al promedio del universo en el 99.7% de los casos.
Lo anterior quiere decir que muestras cuyos promedios difieran del verdadero promedio del
universo en más de dos errores estándar solo se presentan con una frecuencia inferior al 5%
(100 % -95% = 5%) y aquellas que difieran en más de 3 errores estándar, solo aparecen con una
frecuencia menor al 0.3%.
Dicho de otra manera: si la diferencia entre el promedio de una muestra y el promedio del universo
es mayor que 2 veces el error estándar, tal diferencia solo puede observarse por azar en menos
del 5% de los casos y si dicha diferencia es mayor que 3 veces el error estándar su ocurrencia es
mucho menor al 0.3%.
Por consiguiente, si hemos adoptado el criterio de llamar improbables resultados que se presentan
con una frecuencia menor al 5% designaremos como tales, todas aquellas diferencias mayores a 2
errores estándar. Igualmente, si adoptamos el criterio de llamar improbables solamente aquellos
resultados que se presentan con frecuencia menor al 0.3%, se designaran como tales las
diferencias que exceden a 3 veces el error estándar.
Dichas diferencias, tan improbables en su aparición (menos del 1% o del 5%, según el criterio que
se adopte), se denominan “estadísticamente significantes” o simplemente “significantes”.
El hecho de que clasifiquemos como improbables las muestras qu4e se presentan con frecuencia
menor al 1% o al 5%, es una cuestión arbitraria que debe decidirse de acuerdo a cada problema
particular. Al estudiar el error estándar, señalamos que mientras más exigente nuestro estándar
acerca de lo que es improbable (1% en vez del 5%), más probabilidad hay de fallar en reconocer
diferencias en realidad son verdaderas. Si por el contrario, rebajamos nuestro estándar (5% en
vez del 1%), corremos el peligro de calificar como reales, diferencias que en verdad no lo son.
Recuérdese sección 19.3.
20.2.6 Interpretación de la significancia estadística
A menudo el investigador cree terminada su responsabilidad concluyendo que el resultado es o no

significante, lo cual se debe a que habitualmente se ignora el verdadero significado de estos
términos.
Un resultado se denomina significante cuando no puede explicarse fácilmente por azar, pero esto
no quiere decir que no pueda haber sido producido por él.
De la misma manera, un resultado se cataloga como “no significante”, cuando puede ser fácilmente
producido por el azar, a pesar de que en el caso estudiad este no haya intervenido en su
producción.
Esta aclaración es necesaria porque un resultado significante no es una prueba concluyente de

que existan diferencias reales, de la misma manera que un resultado no significante pruebe que
ellas no pueden existir.
El resultado significante o no significante es solo una evidencia más a favor o en contra de la
hipótesis que se busca probar y corresponde al investigador reunir esta evidencia a cualquier otra
disponible, antes de interpretar los hechos que ha observado.
Al interpretar estos resultados hay 2 importantes limitaciones que deben tenerse en cuenta:
a. Un resultado significante no puede interpretarse como evidencia de casualidad. En el estudio

de Bradford Hill y Richard Doll, sobre cáncer pulmonar- Que ya hemos comentado -, la
diferencia en la aparición de la enfermedad entre fumadores y no fumadores, es
estadísticamente significante, pero por razones entonces explicadas, no puede concluirse que
él habita de fumar sea el causante de la enfermedad
b. Un resultado “estadísticamente significante” no tiene ninguna importancia si no es al mismo

tiempo “prácticamente significante” no tiene ninguna importancia si no es al mismo tiempo
“prácticamente significante”. Como veremos en próximos capítulos, mientras mayor sea el
tamaño de la muestra, mayor será la probabilidad que determinada diferencia sea significante.
Así por ejemplo, si un tratamiento A, cura el 20% de los pacientes y otro tratamiento B, al 22%,
tal diferencia no es significante en grupos de 50 personas, pero si lo es en grupos de 10.000.
Sin embargo, como el objetivo de averiguar si determinado resultado es o no significante, es
tomar una acción subsecuente, tal diferencia del 2% es de muy escasa utilidad en el terreno
práctico.
20.3.1.1 Pruebas de significancia estadística
Son numerosas las pruebas estadísticas utilizadas con la finalidad de medir la influencia del azar y
cada una de ellas suele tener aplicaciones perfectamente definidas. La escogencia de la prueba
más conveniente depende principalmente de los siguientes factores:
a. Número de grupos que se comparan, es decir, según se trata de 2 grupos, o 3 o más.
b. Número de individuos en cada grupo, pues si son pocos, las técnicas son por lo general mucho
más difíciles. Tales pruebas no serán estudiadas en este curso.
c. Escala de clasificación utilizada, pues las pruebas estadísticas son mucho más fáciles cuando la
escala es cualitativa.
d. Grupos independientes o no. Cuando los individuos de un grupo son distintos a los del otro, las
muestras se llaman independientes. En los casos en los cuales los individuos se usan como
grupo control o cuando se escogen por pares semejantes antes de asignarlos al respectivo grupo,
las muestras se llaman dependientes y las técnicas de análisis son diferentes a las del caso
anterior.
Teniendo en cuenta os anteriores puntos, podemos resumir de la manera siguiente, las técnicas de
análisis que serán motivo de los próximos capítulos:
A. Muestras independientes.
1. Comparación entre 2 grupos
1. Estudio resumido por frecuencias relativas Pruebas de

2. Estudio resumido por promedios curva normal
b. Comparación entre más de 2 grupos:

1. Estudio resumido por frecuencias relativas:
Prueba de Chi Cuadrado
2. Estudio resumido por promedios: Prueba de
Kruskal Walles grupos no independientes
c. Comparación entre dos grupos:
1. Estudio resumido por f. relativas. Pruebas modificadas de curva normal

2. Estudio resumido por promedios.
d. Comparación entre más de 2 grupos: Debido a su dificultad no se estudiaran.

CAPITULO XXI
COMPARACION ENTRE EL PROMEDIO DE UNA MUESTRA Y EL PROMEDIO

DEL UNIVERSO
EJEMPLO PRÁCTICO: Se investigará el número de pulsaciones por minuto en 16 hombres,
presumiblemente normales, obteniéndose los siguientes resultados:
Cuadro 225
Pulsaciones por minuto en 16 individuos normales.
Individuos Pulsaciones x minuto Desviaciones Desviaciones al cuadrado

1 70 -4 16
2 66 -8 64
3 82 8 64
4 64 -10 100
5 65 -9 81
6 88 14 196
7 82 8 64
8 70 -4 16
9 70 -4 16
10 84 10 100
11 85 11 121
12 68 -6 36
13 84 10 100
14 76 2 4
15 65 -9 81
16 65 -9 81
Total 1184 1140
PROMEDIO = 1.184/16 =74
1140
D.E.= = 71.25 =8.45
16
Se desea saber con un 95% de certeza, si el promedio observado en este grupo se diferencia
significativamente del valor de 70 pulsaciones, considerado como normal.
21.2. Discusión.
Si de un universo de hombres normales, el promedio de pulsaciones fuera de 70 por minuto, se

extrajeran repetidas muestras de individuos y para cada una se calcularía el respectivo promedio,
es indudable que los promedios así obtenidos no serán del todo exactos. Ellos se distribuirán
alrededor del verdadero promedio del universo (70 pulsaciones) formando, una curva normal
alrededor de 70 y con una desviación estándar que se calcula mediante:
DE
n
Esta fórmula se recordará, es el error estándar del promedio, donde “0” es la desviación estándar
de la muestra que se está estudiando, calculada por el método previamente aprendido y “n” el
número de personas estudiadas.
Como ya sabemos que el promedio más o menos 2 EE, determina el límite dentro, del cual está
el 95% de la muestra, solo quedará un 5% fuera de estos límites. Este 5% de muestras tan
diferentes del universo y de aparición poco frecuente, debe considerare proveniente de otros
universos, a no ser que se sepa de ante mano que proviene de él.
El ejemplo que estamos estudiando el valor:
𝐷𝐸 8.45
= = 2,11
√𝑛 √16
y por lo tanto, los límites dentro de los cuales estará el 95% de la muestra será:
70 ± 2 (2.11)
es decir, entre 65,78 y 74,22 pulsaciones por minuto.
Gráfico 227
Posición de la muestra estudiada en relación a las zonas de significancia de la curva

normal.
Como el promedio de nuestra muestra (74) se encuentra dentro de estos límites, podemos
concluir que ella proviene de un universo cuyo promedio es de 70,o usando la terminología
estadística, la muestra no difiere significativamente de 70.
Anteriormente hay 2 procedimiento equivalente al anterior, que se suele emplear en su lugar:
a. Puede dividirse la diferencia que existe entre el promedio de la muestra y el promedio del
universo (74-70=4) por el error estándar:
Diferencia 74 − 70 4
= = = 1,89
ErrorEs tan dar 2,11 2,11
y buscar este resultado en Tablas de Áreas de la Curva Normal (ver página 202), para conocer la
probabilidad que existe de encontrar por azar una muestra que como la presente difiera en 4
pulsaciones del valor del universo. En nuestro ejemplo, buscando en tales tablas el valor 1,89
vemos que esta probabilidad es casi 6% y como hemos adoptado el criterio de que un fenómeno
que se presente con una frecuencia mayor del 5% no es improbable, concluiremos como antes,
que nuestra muestra no difiere significativamente de 70.
b. Si no se está interesado en buscar la probabilidad del suceso, sino de saber solamente si el

resultado es o no explicable por el azar, basta ver si el resultado de la división anterior (diferencia
sobre E.E) es mayor o menor que 2. Si es menor que 2, se concluirá igualmente que la diferencia
no es significante.
21.3. Resumen del procedimiento.
Una vez obtenido el promedio y la D.E. del grupo que se estudia se seguirá los siguientes pasos:
1. Obtener la diferencia entre el promedio del grupo y el promedio general del universo:
Diferencia = 74 – 70 = 4
2. Obtener el error estándar del grupo que se estudia mediante la fórmula: σ / n , en donde σ es
la desviación estándar de la muestra y n el número de personas que se han observado:
8,45 8,45
E .E . = = = 2,11
16 4
3. Dividir la diferencia obtenida en el punto (1) por el error estándar:
Diferencia 4
= = 1,89
E.E. 2,11
4. Buscar en una tabla de áreas de la curva normal, la probabilidad correspondiente al valor que se
acaba de calcular o simplemente ver si es mayor que 2, según se ha indicado.
21.4 Efecto del tamaño de la muestra.
Note que si la misma D.E.= 8,45 se hubiera obtenido en una muestra de 25 personas en vez de 16,
entonces se hubiera concluido que el promedio de la muestra difería significativamente del
promedio de 70 pulsaciones.
En efecto en tal caso:
σ 8,45
E .E = = = 1,69
25 5
y = = = 2,4 valor significante ( ∗).
E.E 1,69 1,69
∗
En esta prueba de significancia, al igual que en las otras que se ilustran en próximos capítulos, un resultado se clasificará
como “significante” cuando la probabilidad de que aparezca por azar sea menor al 5% es decir, cuando Diferencia Error
Estándar sea mayor que 1,96. Debe recordarse no obstante, que algunos catalogan como significantes, solamente aquellos
resultados que pueden aparecer por azar 1% o menos de las veces (diferencia / E.E. igual o mayor que 2,58) y como “no
significantes” cuando su aparición es igual o superior al 5%. Si se adopta este criterio, toda diferencia que se presente con
una frecuencia entre el 1% y el 5% (diferencia / Error Estándar entre 1,96 y 2,58), se catalogará como resultado de
De una manera general, la fórmula DE / n señala, que el error estándar es directamente
proporcional a la desviación estándar e inversamente proporcional a la raíz cuadrada de tamaño de
la muestra. Mientras mayor el tamaño de ésta, menor será el error estándar y más probabilidades
habrá de que determinada diferencia sea significante.
“significancia dudosa”, lo cual quiere decir que la decisión debe ser aplazada hasta que haya más evidencia disponible.
Aunque este proceder es aparentemente acertado, parece una cautela innecesaria si se tiene siempre presente lo expuesto
en la sección 20.31 a propósito de la interpretación de la Significancia Estadística (véase página 222).
CAPITULO XXII
COMPARACIÓN ENTRE EL PORCENTAJE DE UNA MUESTRA Y EL DEL UNIVERSO
22.1 Problema práctico.
En una epidemia de viruela mayor se presentaron 80 casos de los cuales murieron 24, o sea que
hubo una letalidad del 30%.
Como la fatalidad usual para esta enfermedad es 25%, se desea saber con un 95% de certeza, si
la diferencia del 5% que se observa (30-25=5) puede ser explicada por azar.
22.2 Discusión.
Si repetidas muestras de 80 casos fueron tomadas de un universo de enfermos cuya fatalidad es

25% y si en cada muestra se computara la tasa de letalidad, dichas tasas no serían exactamente
iguales, sino que se distribuirían formando una curva normal, centrada en el verdadero valor del
universo (25%) y con una desviación estándar dada por:
p´q´
n
Esta fórmula es “error estándar de un porcentaje” en la cual:
p´ es el porcentaje de casos que mueren en el universo (25%).

q´ es el porcentaje de casos que se salvan en el universo (75%).
n es el número de individuos estudiados, o sea 80.
Se notará que esta es la misma fórmula estudiada en el capítulo XIX, pero mientras allí
utilizábamos los valores p y q de la muestra, por no conocer los del universo, ahora usamos p´ y q´,
es decir los correspondientes valores del universo, ya que siendo ellos conocidos, no es necesario
estimarlos a partir de la muestra,
p´q´
en nuestro ejemplo, el valor
n
es igual a 4,8% y según el criterio adoptado anteriormente, los límites de no - significancia estarán
entre:
25% ± 2(4,8) , es decir, entre 15,4% y 34,6%.
Gráfico 231
Posición de la muestra estudiada en relación a las zonas de significancia de la curva normal
Como la letalidad del 30% observada en nuestra muestra se encuentra dentro de estos límites, se
puede concluir que la observada diferencia del 5%, muy posiblemente fue obra del azar.
En igual forma que el ejemplo del capítulo anterior, hay dos procedimientos alternativos:
a. Dividir la diferencia que existe entre el universo y la muestra por el correspondiente error
estándar:
Diferencia 30 − 25
= = 1,04
ErrorEstándar 4,8
y buscar en Tablas de Áreas de la Curva Normal (véase página 202), la probabilidad que existe de
encontrar por azar una muestra que difiera de su universo en el porcentaje observado. En nuestro
ejemplo, la probabilidad correspondiente a 1,04 es aproximadamente 30%, o sea, que 30 veces de
cada 100, se encontrarán por azar, diferencias como la observada, lo cual desde luego, es una
ocurrencia demasiado frecuente, para considerar significante.
b. De una manera más breve, cuando no se está interesado en hallar la probabilidad de tal suceso,
sino en saber simplemente si la diferencia es o no significante, se dividirá dicha diferencia por el
error estándar y si el resultado es mayor que 2, se concluirá que es significante. En nuestro caso,
= = 1,04
ErrorEstándar 4,8
valor no significante, fácilmente explicable por el azar.
22.3 Resumen del procedimiento.
1. Se buscará la diferencia entre la letalidad usual de la enfermedad y la letalidad observada en la

muestra que se estudia:
Diferencia = 30% - 25% = 5%
2. Se calculará el error estándar del porcentaje mediante:

p´q´
n
en donde como dijimos:
p´ = 25% = porcentajes de casos fatales en el universo.

q´ = (100-25) = 75% = porcentajes de casos que se salvan.
n = número de enfermos estudiados en nuestra muestra.
En nuestro ejemplo:
p´q´ 25 × 75
E.E = = = 4,8
n 80
3. Se divide la diferencia obtenida en el punto (1) por el error estándar:
= = = 1,04
Estándar 4,8 4,8
4. Se ve si el último valor es mayor o menor que 2, y si es menor, se dirá que la diferencia

observada no es significante, es decir, que muy posiblemente es debido al azar.
22.4 Observaciones.
a. Si en vez de porcentajes estuviéramos usando por ejemplo, tasas por 1.000, el procedimiento
sería el mismo, recordando tan sólo que p`+ q´ = 1.000.
En el problema presente, si la mortalidad en el universo fuera 250 x 1.000 y la mortalidad en la

muestra 300 x 1.000 entonces:
p´ = 250, q´ =750 y la diferencia: 300 – 250 = 50
250 × 750
E .E = = 48 ; y,
80
Diferencia 50
= = 1.04 , como anteriormente.
E.E 48
b. Lo mismo que en el ejemplo del capítulo XXI, mientras mayor el tamaño de la muestra, mayor
será la probabilidad de encontrar significancia estadística. Si la muestra hubiera sido cuatro veces
mayor, el error estándar se hubiera reducido a la mitad:
25 × 75
E.E = = 2,4 ; y, entonces:
320
= = 2,1
E.E 2,4
valor significante que indicaría que la diferencia observada no es fácilmente explicable por el azar,
y entonces cabría suponer que el actual brote epidémico es de una gravedad mayor que la usual, o
que el tratamiento últimamente empleado no es tan efectivo como el antiguo. En fin, la evidencia
estadística se reunirá a cualquiera otra disponible con el fin de hacer las correspondientes
deducciones.
CAPITULO XXIII
COMPARACION ENTRE LOS PROMEDIOS DE DOS MUESTRAS

INDEPENDIENTES
23.1 Ejemplo práctico.
En un problema anterior se estudió el número de pulsaciones de 16 hombres normales y se

encontró que el promedio fue de 74 por minuto, con una D.E. igual a 8,45.
Supongamos que al mismo tiempo se estuvieran estudiando 16 mujeres, con los resultados que a
continuación aparecen.
Cuadro 235
Pulsaciones por minuto en 16 mujeres normales
Individuos Pulsaciones por minutos Desviaciones Desviaciones al cuadrado

1 76 -1 1
2 72 -5 25
3 79 2 4
4 65 -12 144
5 70 -7 49
6 88 11 121
7 80 3 9
8 76 -1 1
9 78 1 1
10 84 7 49
11 86 9 81
12 74 -3 9
13 84 7 49
14 78 1 1
15 70 -7 49
16 72 -5 25
Total 1.232 0 618
1.232
Pr omedio = = 77
16
618
D.E. = = 38,62 = 6,21
16
Se desea saber si el promedio de pulsaciones para los hombres difiere significativamente del de
las mujeres o si la diferencia observada es fácilmente explicable por el azar.
23.2 Discusión.
Aunque no hubiera ninguna distinción entre hombres y mujeres con respecto al número de
pulsaciones por minuto, no quiere esto decir que los promedios de las dos muestras tengan que
coincidir exactamente. En efecto, si repetidos pares de muestras de 16 individuos cada una, se
extraen del mismo universo, en cada par se podrá computar el promedio para la primera y para la
segunda muestras X 1 y X 2 respectivamente. La diferencia entre estos dos promedios (-) será
unas veces cero y otras veces mayor o menor. De todas maneras, diferencias muy grandes,
positivas o negativas serán extraordinariamente raras.
Estas diferencias se distribuirán en forma de una curva normal centrada en 0 (cero) y con una
desviación estándar dada por la fórmula:
(E.E ) = X 1 − X 2 = (E.E )12 + (E.E )22

Esta fórmula se conoce con el nombre de “error estándar de la diferencia entre 2 promedios”. En
ella: (E.E)1 es el error estándar de la primera muestra y (E.E.)2 el error estándar de la segunda, que
serán calculados en la misma forma previamente estudiada.
Como ya sabemos que el promedio más o menos 2 errores estándar incluirá el 95% de las
muestras, sólo se considerarán como provenientes de diferentes universos, diferencias ( X 1 - X 2 )
que se encuentran fuera de los límites determinados.
En nuestro ejemplo: el valor (E.E )12 + (E.E )22 , calculado por el método que luego se explicará,
es igual a 2,6 y por lo tanto, los límites dentro de los cuales estará el 95% de las diferencias entre
pares de muestras procedentes del mismo universo será:
0 ± (2,6), es decir, entre –5,2 y +5,2
Gráfico 237
Posición de la diferencia observada en relación a las zonas de significancia de la curva

normal
Como la diferencia entre los promedios de las dos muestras que estamos estudiando (77-74=3) se
encuentra dentro de estos límites, se concluye que la diferencia observada no es significante.
Alternativamente del mismo modo que hicimos en los problemas anteriores, podemos:
a. Dividir la diferencia de los dos promedios (77-74=3) por el error estándar de la diferencia:
Diferencia 3
= = 1,1
E.E 2,6
CAPITULO XXIV
COMPARACION ENTRE LOS PORCENTAJES

DE DOS MUESTRAS INDEPENDIENTES
24.1 Problema práctico
En un hospital se trataron por el método clásico, 80 casos de viruela mayor, de los cuales murieron
24, una letalidad del 30%. Otros 120 pacientes fueron sometidos a un nuevo tratamiento, sobre
cuya efectividad existía favorables indicios, En este último grupo fallecieron 30 pacientes, una
letalidad del 25%. Se desea saber si la diferencia del 5%, observada entre los dos grupos de
pacientes, puede ser atribuida al azar o si se debe buscar otra explicación.
Cuadro 240
Viruela, Casos y Defunciones, por tratamiento
Tratamiento Casos Defunciones Letalidad x 100

Tratamiento clásico 80 24 30.0 (p1)
Tratamiento nuevo 120 30 25.0 (p2)
TOTAL 200 54 27.0 (p3)
24.2 Discusión
Si una muestra de 80 y otra de 120 fueran tomadas del mismo universo de pacientes, aunque el
tratamiento no tuviera efecto, la diferencia entre las dos tasas de letalidad no sería necesariamente
0 (cero).
Por lo tanto si se tomaran repetidas pares de muestra y se calculara la diferencia en la tasa de

letalidad de cada par, esas diferencias se distribuirían en una curva normal centrada en cero y con
una desviación estándar dada por la fórmula:
po qo po qo
(E.E) p1-p2 = +
n1 n2
La fórmula anterior llamada “error estándar de la diferencia entre dos porcentajes” y cuya
aplicación luego veremos, nos da en nuestro ejemplo un valor igual a 6.4%.
Gráfico 241
Posición de la diferencia observada en relación a las zonas de significancia de la curva

normal
Como X ± 2 E.E incluye 95% de las muestras, tomando E.E a cada lado del promedio,
encontraremos que diferencias entre muestras, que se encuentran entre – 12.8% no se
consideran como significantes y por consiguiente la diferencia de 5% observada entre nuestros dos
grupos de enfermos (30%-25%=5%), puede haber sido producida por el azar.
De la misma manera que en previos ejemplos:
A) podemos dividir la diferencia observada por el error estándar de la diferencia, ósea:
Diferencia 5
= = 0.78
E.E 6.4
buscar la probabilidad que existe de encontrar por el azar una diferencia como la observada.
La probabilidad correspondiente a 0.78 es de 43% es decir, que de cada 100 veces habrá 43 en
las cuales puede encontrarse por azar una diferencia como la anotada. Fenómenos que se
presentan con esta frecuencia no son raros y por consiguiente, podemos concluir que no hay
evidencia suficiente para afirmar que un tratamiento sea mejor que el otro.
B) Ver simplemente si el resultado de la división anterior es menor que 2, caso en el cual la

diferencia estudiada no es significante.
24.3 Resumen del procedimiento
1) Los datos deben colocarse como en el cuadro de la página anterior, con el fin de saber
cuántas defunciones ocurrieron en los dos grupos juntos y conocer cuál fue la letalidad en el total
de pacientes. Como en el total hubo 200 pacientes, de los cuales murieron 54 la letalidad conjunta
fue del 27% es decir:
54 × 100
= 27%
200
Como no se conoce la letalidad del universo, esta letalidad conjunta de 27% se tomara como una
buena estimación de aquella. Ella será p o , la probabilidad que un paciente muera y por lo tanto,
qo , la probabilidad que un paciente no muera, será igual a 100-27= 73%.
2) Se calculara el error estándar de la diferencia de los dos porcentajes mediante la fórmula:
po qo po qo
+
n1 n2
En el cual:
p o = letalidad global para los pacientes de los dos grupos (27%)

q o = 100- p o = 100-27 = 73%.
n1 = número de individuos en la primera muestra (80)
n2 = número de individuos en la segunda muestra (120)
En nuestro ejemplo:
27 × 73 27 × 73
(E.E.) p1− p 2 = + = 6.4
80 120
3) Se averigua la diferencia entre la letalidad del primer grupo de pacientes y la del segundo:
Diferencia = ( 30% - 25%) = 5%
4) Dicha diferencia se divide por el “Error estándar de la diferencia” encontrado en el punto (2), es
decir:
= = = 0.78
E.E 6.4 6.4
5) Si el anterior valor es menor que 2 se concluirá, como en el caso presente, que la diferencia
observada en la letalidad de los dos grupos de pacientes, no es significativa.
24.4 Observaciones.
En algunos textos se utilizan en lugar que el anterior la formula siguiente:
p1 q1 p 2 q 2
+
n1 n2
Es decir, en vez de tomar la letalidad conjunta de los 2 grupos ( p o ) , como estimación de la

letalidad de universo, se emplea la letalidad de la primera muestra ( p1 ) para calcular su error
estándar y la letalidad de la segunda muestra ( p 2 ) para calcular el error estándar de ella.
Esta fórmula es errónea aunque suele dar valores muy cercanos a la formula correcta que
explicamos en el texto, no debe utilizarse, pues en algunas ocasiones, especialmente cuando el
tamaño de las dos muestras es muy diferente puede darse el caso que la formula correcta señale
diferencias estadísticamente significantes y que la fórmula que estamos comentando, indique falta
de significancia en los resultados.
Considérese como ilustración de lo anterior los siguientes datos teóricos sobre 100 pacientes.
Cuadro 244
Pacientes por tratamiento y resultado
Droga Casos Defunciones Letalidad

A 80 12 15% ( p1 )
B 20 7 35% ( p 2 )
Total 100 19 19% ( p 3 )
Aplicando la formula correcta:
po qo po qo 19 × 81 19 × 81
E.E= + = + = 9.8
n1 n2 80 20
= = 2.1 significante.
E.E 9.8
Aplicando la formula incorrecta:
p1 q1 p 2 q 2 15 × 85 35 × 65
E.E.= + = + = 11.3
n1 n2 80 20
= = 1.8 no significante
E.E. 11.3
CAPITULO XXV
CHI CUADRADO X
25.1 Introducción
La curva normal solo puede usarse cuando son dos los grupos que se comparan.
Cuando quieren compararse 3 o más muestras, su aplicación es incorrecta a causa del siguiente
hecho: “Al comparar 2 grupos, si tomamos 2 E.E., tenemos un 95% de certeza en nuestras
afirmaciones y podemos estar equivocados en el 5% restante de los casos. Si comparamos 3
grupos, A, B, C, por el mismo procedimiento, habría que hacer tres comparaciones diferentes, A, vs
B, A vs C, y B vs C y como en cada comparación se puede cometer el 5% de error, el error global
cometido podría alcanzar el 15%. Si fueran 4 los grupos estudiados, habría 6 comparaciones
diferentes y el error que pudiera cometerse alcanzaría al 30%.
Cuando se desea comparar más de dos grupos, no puede aplicarse por lo tanto, las pruebes de
significancia estudiadas hasta ahora.
Si se quisiera comparar los promedios de varios grupos de individuos, habría que recurrir al
llamado Análisis de la Variancia, cuya técnica por ser muy complicada, no se estudiara, aunque en
el próximo capítulo ilustremos un procedimiento sencillo que permite hacer correctamente tales
comparaciones.
Cuando lo que se quiere comparar es una serie de porcentajes tasa, puede recurrirse a la llamada
“Prueba de Chi Cuadrado”, cuya aplicación general se ilustrara en el siguiente ejemplo.
25.2 Ejemplo Práctico
Tres drogas diferentes se ensayaron para el tratamiento del catarro común midiéndose su
efectividad de acuerdo al porcentaje de pacientes que mejoraron dentro de las 24 horas siguientes
a la iniciación del tratamiento. Los resultados de dicho tratamiento aparecen resumidos en el
siguiente cuadro:
Cuadro 247
Pacientes con catarro común por tratamiento y resultado
Droga Curación Fracaso Total Pacientes Porcentaje de Curación

Droga A 12 38 50 24.00
Droga B 27 123 150 18.00
Droga C 21 79 100 21.00
Total 60 240 300 20.00
Se desea saber si las diferencias observadas se deben a distinta efectividad de los tratamientos
empleados o si ellas pueden explicarse razonablemente por el azar.
25.3 Discusión
El porcentaje general de curaciones para los 3 grupos tomados en conjunto fue de 20% (60 ×
100/300=20%). Si tomamos dicho porcentaje como una buena aproximación de lo que sucede en
el universo de donde proceden los pacientes que se estudian podemos darnos cuenta que si los
tres tratamientos fueran eficaces en igual grado, el porcentaje de curaciones en cada uno de ellos
fuera del 20% en vez de 24%, 18%, y 21% como se ha observado en los datos del problema.
Por lo tanto, asumiendo un porcentaje de curación de 20% para cada uno de los grupos, se podría
calcular el número de pacientes que debiera mejorar con cada tratamiento.
Así por ejemplo, en los pacientes del primer grupo, él número de curaciones seria 10 de las 12
observadas (20% de 50=10) y él número de persona s que no curaron seria c40, es decir 50 – 10 =
40.
Igualmente de los 150 pacientes que recibieron la droga B, debieron curar 30 (20% 150 = 30) y de
los que recibieron la droga C, debieron haber curado 20 en vez de 21 que curaron.
Estas frecuencias teóricas (T) junto con las frecuencias observadas (O) en el experimento servirán
de base para el cálculo de Chi Cuadrado.
25.4 Cálculo de Chi Cuadrado
En el siguiente cuadro se resumen los cálculos necesarios para la obtención de X 2 los cuales se
explicaran a continuación.
Cuadro 248
Cuadro de Chi Cuadrado

Curaciones Fracasos
Droga
O Total (O-T) (O-T)2/T O Total (O-T) (O-T)2/T
(1) (2) (3) (4) (5) (6) (7) (8) (9)
A 12 10 2 0.4 38 40 -2 0.1
B 27 30 -3 0.3 123 120 3 0.075
C 21 20 1 0.05 79 80 -1 0.0125
Fuente de datos del cuadro 247
1. Se obtendrán las frecuencias teóricas (T) correspondientes a cada una de las casillas del
cuadro lo cual se logra según se acaba de explicar multiplicando el porcentaje global del
cuadro por el total de pacientes en cada tratamiento. El mismo resultado puede obtenerse,
multiplicando para cada cifra observada (O), los dos subtotales que le son comunes y
dividiendo por el total general del cuadro. Así por ejemplo (véase en el cuadro 247) los dos
subtotales para los 12 pacientes que curaron con la droga A, son: 50 y 60 y por consiguiente la
respectiva frecuencia teórica será:
50 × 60
= 10
300
Igualmente para los 27 pacientes que curaron con la droga B los subtotales correspondientes son:
60 y 50 y la frecuencia teórica será:
60 × 150
=30
300
Estas frecuencias teóricas aparecen en las columnas 3 y 7 del cuadro anterior
2. Se restara cada valor observado (O) el correspondiente valor teórico (T) acabado de calcular
(columnas 4 y 8)
3. Cada una de las diferencias anteriores (O- T) se elevara al cuadrado y se dividirá por la
respectiva frecuencia teórica, o sea:
(12 − 10) 2 (27 − 30) 2

: ; etc
10 30
4. La suma de todos los resultados anteriores (columna 5 y 9) será el valor de Chi Cuadrado:
(O − T ) 2
X2 =∑
T
El cual en nuestro ejemplo dará:
(12 − 10) 2 (27 − 30) 2 (79 − 80) 2

X2 = + + ......... + . =
10 30 80
=0.40+0.30+0.05+0.10+0.07+0.01=0.93
25.5 Interpretación de χ2
De acuerdo a lo acabado de exponer es fácil arce cuenta de:
a. Cuando las frecuencias observadas coinciden con las teóricas, χ 2 = 0.

b. El valor de χ será mayor, cuanto más grandes sean las diferencias entre los valores
2
observados y los teóricos.

c. El valor de χ 2 será mayor mientras mayor sea el número de grupos que se estudian..
De acuerdo a este último punto se comprende que para la interpretación de χ , es necesario

2
tener en cuenta no solamente su valor, sino también el número de grupos y número de

características en las cuales se basa y así por ejemplo, un valor de χ
2
= 6 no podría decirse si es
significante o no hasta que no sepamos a cuántos grupos se refiere.
En estadística se dice que es necesario conocer el “grado de libertad” de χ 2 antes de poder

interpretarlo.
La manera más fácil de calcular el “grado de libertad” de χ 2 en la aplicación que estamos

estudiando es la siguiente:
a. Sin tomar en cuenta los totales, se ven cuántas columnas (c) y cuantos renglones (r ) tiene la
tabla.
b. Multiplicando:
gl = (c – 1 ) x (f – 1 ); donde:
c = columna y f = fila. Así se obtendrá el grado de libertad de χ2.

En nuestro ejemplo, como son tres tratamientos, habrá tres renglones como en cada tratamiento
se estudian “curaciones” y “fracasos”, habrá dos columnas. Por lo tanto, el “grado de libertad” será:
(3 – 1 ) ( 2 – 1) = 2 x 1 = 2
Probabilidades dadas por X².
Si se quiere saber cuál es la probabilidad correspondiente a cada valor de χ que pueda

2
calcularse, se buscará en tablas especiales que existen para ello. En la práctica lo que
generalmente interesa es saber si las diferencias observadas entre los grupos son fácilmente
explicables por azar o no.
Si aceptamos el criterio de llamar significante toda diferencia que por azar pueda ocurrir sólo 5
veces o menos en 100 experimentos análogos, bastará conocer qué valor debe alcanzar χ
2
para poderse llamar significante. En la tabla siguiente aparecen algunos de dichos valores
ordenados de acuerdo al correspondiente grado de libertad.
En nuestro ejemplo encontramos que con 2 grados de libertad χ = 0,93. Como este valor está
2
muy por debajo de 6,0 - valor dado por la tabla – concluimos que las diferencias observadas son
fácilmente explicables por azar y no hay necesidad de recurrir a otras explicaciones.
Cuadro 251
Valores de la distribución de X²
25.6 Relación entre χ2 y la Curva Normal.
Todos aquellos casos en que se comparan 2 grupos mediante la Curva Normal, pueden
compararse también mediante Chi Cuadrada.
En el ejemplo dado en la página 240, en el cual encontramos que:
Diferencia 0.78
Error Estándar
El cálculo de chi cuadrado nos daría:
= (24-21.6)² + (30-32.4)² + (56-58.4)² + (90-87.6)² = 0.608

21.6 32.4 58.4 87.6
En estos casos, cuando χ tiene 1 grado de libertad, su valor es exactamente igual al

2
cuadrado de Diferencia/Error Estándar, es decir:
x²= ( Diferencia)² o lo que es lo mismo:

Error Estándar
√ x² = Diferencia
Error Estándar
En el ejemplo acabado de citar en el cual (diferencia/E.E) = 0.78 y χ 2 = 0.608 note que:
0.608 = (0.78)²
En la misma forma si χ2=9 entonces Diferencia/ E.E = 3.
Si este último valor fuera igual a 2, chi cuadrado sería igual a 4.
Debe recordarse que la anterior relación solamente es cierta cuando χ 2 tiene 1 grado de libertad.
CAPITULO XXVI
COMPARACION ENTRE LOS PROMEDIOS DE TRES O MAS MUESTRAS INDEPENDIENTES.
26.1. Introducción.
Con el fin de hacer correctamente comparaciones entre los promedios de tres o más muestras se
utiliza la técnica de Análisis de la Variancia. Dicha técnica no está al alcance del estudiante
corriente, pero en su lugar puede utilizarse la llamada prueba de Kruskal-Wallis, de aplicación
sencilla y cuyos resultados son casi equivalentes a los del Análisis de la Variancia.
26.2 Prueba Kruskal-Wallis.
Esta prueba consiste en dar un número de orden a cada una de las observaciones y calcular el
valor “H” el cual puede interpretarse con la tabla de χ2.
Con el fin de no distraerse en los cálculos aritméticos, supóngase que se ha tomado la estatura de
los alumnos de cuatro escuelas diferentes y se desea saber si los cuatro promedios difieren
significativamente o si tales diferencias pueden explicarse fácilmente por el azar.
26.2.1. Cálculo e Interpretación.
Para efectuar la prueba se procederá de la siguiente forma:
1. Sin tomar en cuenta el grupo al que pertenece, se dará a cada observación un número de
orden de uno en adelante, empezando por la menor y terminando por la mayor. Cuando hay
varias observaciones iguales, a cada una se le dará el promedio del número que corresponda.
Note en el cuadro siguiente que la menor estatura observada fue 135 y a ese individuo se le
dio el número 1. Luego aparece un escolar con 136, a quien corresponde el 2 y otro de 137, a
quien corresponde el número 3. Hay en seguida tres escolares de 138 centímetros, a quienes
corresponderán los puestos 4, 5 y 6 pero no miden exactamente igual, se tomó el promedio de
estos tres números (15/3 = 5) y a cada uno se le dio un valor de 5. Desde luego, el próximo
valor (140 cm) no será 6 sino 7 pues los 3 valores con 5, que representan los escolares
cuarto, quinto y sexto.
En la misma forma se continuará, hasta dar un número de orden a cada observación.
Cuadro 254.
Estatura en centímetros de los alumnos de cuatro escuelas.
(Cálculo de la prueba de Kruskall-Wallis).
Escuela A Escuela B Escuela C Escuela D

Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden
142 9 136 2 135 1 137 3
149 16 138 5 138 5 150 17,5
138 5 145 12 140 7 153 20
150 17,5 144 11 147 14 141 8
151 19 154 21 146 13
148 15 155 22
143 10
Suma T1 66,5 76 27 83,5
n 5 7 4 6
X 146 144 140 147
2. Para cada escuela separadamente se suman los números de orden acabados de calcular
(valores T1 del cuadro anterior).
3. Calcular el valor II, mediante la fórmula: H = [ 12 x T1² ] – 3 (N+1)

N(N+1) n1
en donde:
12 y 3 son constantes invariables en cualquier prueba.

N es el total de personas estudiadas: 22 en nuestro ejemplo.
n1 es el número de individuos estudiados en cada escuela: 5, 7, 4, 6.
T1 es la suma de los números de orden en cada uno de los grupos.
En nuestro ejemplo: 66.5; 76.27; 83.5.
Como indica la fórmula, cada una de las sumas (T1) debe elevarse al cuadrado y dividirse por el
número de escolares en la respectiva escuela y luego sumar los resultados de tales divisiones.
Por lo tanto aplicando la fórmula:
H = [ 12 (66.5² + 76² + 27² + 83.5²) ] – 3 (22 +1)

22 (22+1) 5 7 4 6
= [ 12 (884.45+825.14+182.28+1162.04) ] –(3 x 23)

22 x 23
= [ 12 (3.053.88) ] - 69= 72.42-69= 3.42
506
4. Buscar en la tabla de x² el valor de “H” es o no significante, teniendo en cuenta que el número

de grados de libertad es igual al número de grupos menos 1. En nuestro ejemplo, cómo eran
cuatro escuelas los grados de libertad son: (4-1) = 3
Para que el valor “H” con tres grados de libertad sea significante cuando se desea un 95% de
certeza, la tabla de x² muestra que debe exceder a 7.8. Como nuestro valor calculado fue 3.42,
el cual está muy por debajo del valor d la tabla, concluimos que las diferencias en la estatura
entre las cuatro escuelas, muy posiblemente se deban al azar.
CAPITULO XXVII
COMPARACION ENTRE DOS MUESTRAS NO INDEPENDIENTES.
271. Generalidades.
Cuando los individuos que se estudian sirven como su propio control como en el caso en el cual se
le toma a cada individuo determinada medición “antes” y “después” de cualquier tratamiento, o
cuando con fines comparativos dos métodos diferentes se aplican a los mismos individuos, es claro
que en tales ocasiones, los valores que quieren compararse no son independientes. Así por
ejemplo, sin con el fin de evaluar la acción hipertensiva de una droga se toma la presión arterial a
un grupo de individuos “antes” y “después” de su aplicación, naturalmente que los valores después
de aplicada la droga dependerán de la tensión original, pues una persona cuya tensión sistólica
original sea de 150, posiblemente ascienda a 180, pero es dudoso que quien tenga inicialmente
una tensión de 100, presente luego un valor de180. Los métodos apropiados para hacer estas
comparaciones son algo distintos de los estudiados hasta ahora y lo mismo que en el caso de las
muestras independientes, debe tenerse en cuenta si los resultados se han resumido mediante
promedios o porcentajes.
27.2. Comparación de los promedios de dos muestras no independientes.
En el capítulo XXIII se compararon las pulsaciones por minuto de 16 hombres y 16 mujeres,

llegándose a la conclusión de que las diferencias observadas eran muy probablemente debidas al
azar. Con el fin de comparar los resultados de la prueba estadística utilizada cuando las muestras
son independientes, con la que debe utilizarse cuando las muestras no son independientes,
vamos a suponer que los valores de los hombres corresponden a los de un grupo de individuos a
quienes se les tomó el número de pulsaciones “antes” de inyectarle determinada droga “A” y que
los valores dados entonces para las mujeres, corresponden al mismo grupo de individuos
“después” de la inyección de la droga.
Los resultados, copiados de los cuadros 225 y 235 son los siguientes:
Cuadro 257
Pulsaciones por minuto en 16 individuos normales, antes y después de la aplicación de la Droga
“A”
(Cálculo del promedio y de la D.E. de los “cambios” observados)
Antes Después Cambios Desviaciones Desviaciones

Individuos
de la droga de la droga (después antes) (cambios promedio) al cuadrado
1 70 76 6 3 9
2 66 72 6 3 9
3 82 79 -3 -6 36
4 64 65 1 -2 4
5 65 70 5 2 4
6 88 88 0 -3 9
7 82 80 -2 -5 25
8 70 76 6 3 9
9 70 78 8 5 25
10 84 84 0 -3 9
11 85 86 1 -2 4
12 68 74 6 3 9
13 84 84 0 -3 9
14 76 78 2 -1 1
15 65 70 5 2 4
16 65 72 7 4 16
Total 1184 1232 0 182
Antes de la inyección :¯Xa = 1.184/16 = 74
D.E .= 84.1 (tomado del cuadrado de 225)
Después de la inyección: X¯d =1.232/16 = 77

D.E. = 6.21 (tomado del cuadrado de 235)
Cambios observados: Xe = 48/16 = 3

D.E. = √182/16 = 3.37
27.2.1. Prueba de significancia incorrecta.
Si se considera erróneamente que las mediciones antes y después de la inyección de la droga son
independientes, se aplicaría la prueba estadística vista en el Capítulo XXIII a propósito de la
comparación de 16 hombres y 16 mujeres.
En tal caso:
(E.E.)1 = 8.41/√16= 2.11

(E.E.)2 = 6.21/√16= 1.55
(E.E.) de la diferencia = √(2.11)² + (1.55)² = 2.6
y conforme ya se vio:
Diferencia = 77 – 74 = 1.1 no significante

E.E. 2.6
27.2.2. Prueba de significancia correcta.
Para hacerse esta prueba debe trabajarse con los “cambios” observados de la manera siguiente:
a. Buscar los cambios observados, restando para cada individuo el valor observado “Después” de
la aplicación de la droga, el que se observó “Antes” de que ésta hubiera sido aplicada. Debe
tenerse cuidado en conservar los signos (+) y (-).+
b. Sumar estos valores tomando en cuenta los signos algebraicos y dividir por el número de
individuos estudiados para obtener el promedio de los cambios (X = 48/16=3).
c. Buscar las desviaciones entre cada cambio y su promedio (Xe).
Note por ejemplo, que el tercer individuo presenta un descenso en las pulsaciones (-3) y al restar a
esta cifra el promedio (3), se obtiene:
-3 – (3) = - 6
d. Elevar al cuadrado cada desviación y sumar la columna correspondiente para obtener la
desviación estándar por el método conocido:
D.E.. = √182/16 = 3.37
e. Calcular el error estándar de los cambios, por el procedimiento ya conocido.
E.E. = 3.37 = 3.37 = 0.84

√16 4
f. Para la prueba de significancia, como el promedio de los cambios:
Xe = Xd – Xa = (77 – 74) = 3
Entonces:
Diferencia = 3 – 0 = 3.6 valor significante

E.E. 0.84
Note que la prueba correcta señala que las diferencias observadas son significantes, mientras que
si se hubiera utilizado incorrectamente la prueba para muestras independientes, habríamos
concluido que tales diferencias no eran estadísticamente significantes.
27.3 Comparación entre los porcentajes de dos muestras no dependientes.
Muchas veces se evalúa la eficacia de una nueva técnica diagnóstica comparando los resultados
que se obtienen con ella, con aquellos que se obtienen en lo mismo individuos con la utilización de
otra técnica de reconocida eficiencia.
27.3.1 Comparación incorrecta.
Si a cien niños se les hubiera aplicado PPD intradérmica en un antebrazo y PPD por escarificación
en el otro para determinar cuál procedimiento es mejor, no se obtendrían todas las ventajas de
este experimento si nos contentáramos con averiguar el porcentaje de niños positivos a cada una
de las pruebas.
Por lo tanto, la presentación de tales datos, no sería correcta en tal forma, ni tampoco sería
correcta aplicar la prueba de significancia estadística estudiada en el capítulo XXIV, como si se
tratara las muestras independientes.
Cuadro 260
Resultados de la aplicación de PPD intradérmico y por escarificación

a un grupo de 100 niños
(Presentación inadecuada de los datos)
Resultado Porcentaje de
Vía de ubicación Total
Negativo Positividad positividad
Intradérmica 30 70 100 30,0
Escarificación 20 80 100 20,0
Total 50 150 200 25,0
Aplicando esta prueba:
25x75
( E.E.)1 = = 4.33
100
25x75
( E.E.) 2 = = 4.33
100
E.E. de la diferencia = (4.33) 2 + (4.33) 2 = 6.12

por consiguiente:
= = 1.63 no significante
E.E. 6.12
27.3.2 Comparación correcta
Con el fin de comparar correctamente los resultados del experimento anterior, ellos deben
presentarse de tal manera, que se pueda averiguar cuantos niños fueron positivos o negativos a
las dos reacciones a la vez y cuántos de quienes dieron positividad a una reacción fueron
negativos a la otra o viceversa.
Contraste el cuadro anterior, que no permite conseguir tal información, con el siguiente que sí la
suministra:
Cuadro 261
Resultados de la aplicación de PPD intradérmico y por escarificación

a un grupo de 100 niños
Escarificación
Intradérmico Total
- +
+ 16* 14 30
- 64 6* 70
Total 80 20 100
Puede apreciarse que la diferencia de 10% entre 30% de positividad al PPD intradérmico y el 20%
de positividad al escarificado, se debe al hecho de que hubo 16 individuos positivos a la primera
prueba y negativos a la segunda, mientras que solo hubo 6 niños positivos a la escarificación y
negativos a la reacción intradérmica, es decir:
Intradérmica (+) pero Escarificación (-) 16 en 22 = 72,7%

Escarificación (+) pero Intradérmica (-) 6 en 22 = 27,33%
Si los niños hubieran estado divididos en 11 y 11, entonces las dos pruebas diagnósticas habrían
mostrado la misma positividad. Puede averiguarse por lo tanto, si la discordancia anterior es
significante, comparando con 50% cualquiera de los 2 porcentajes anteriores. Pues observe que
72.7% - 50% = a 22.7% e igualmente 50% - 27.3% = 22.7%. Para efectuar la prueba estadística,
simplemente:
a. Calcule el error estándar correspondiente a los 22 individuos en los cuales las pruebas no
.
concordaron, tomando p = 50%, o sea:
p,q. 50x50 2500

E.E. = = = = 10.65
22 22 22
b. Divídase por este error estándar, la diferencia entre cualquiera de los 2 porcentajes en
discordancia y 50%, o sea:
50% − 27.3% 22.7
= = 2.13 significante.
E.E. 10.65
Mientras que la prueba correcta que se acaba de efectuar muestra una diferencia significante entre
el PPD intradérmico y el escarificado, la prueba incorrecta nos llevaba a una conclusión contraria.
27.3.3 Prueba de Mc. Nemar
En lugar de la prueba acaba de explicar, puede utilizarse la prueba de Mc. Nemar que consiste en
calcular Chi Cuadrado, en base, solamente a los valores en los cuales las dos reacciones no
concuerdan:
Wasserman
Kahn
- +
+ A B
- C D
Si llamamos estos valores, A y D, respectivamente, el cálculo será sencillamente:
( A − D) 2
X2 =
A+ D
o sea, con los datos del ejemplo anterior:
(16 − 6) 2 10 2
X2 = = = 4.5
(16 + 6) 22
2
Buscando este valor en la tabla de X (cuadro 251) vemos que es significante, conclusión
idéntica a la alcanzada con la prueba aplicada en la sección anterior (27.3.2)
Note de paso:
(2.13) 2 = 4.5
2
lo cual confirma nuevamente, que cuando x tiene solamente un grado de libertad, entonces:
Diferecia 2
( ) = X2
E.E.
AJUSTE DE TASAS (Tasas corregidas o estandarizadas)
Al querer comparar dos o más poblaciones que difieran en su composición por edad, sexo o raza,
deben tenerse en cuenta estos factores para que la comparación sea correcta.
Así por ejemplo, la tasa cruda de mortalidad en dos poblaciones puede diferir exclusivamente por
el hecho de que en una de ellas la población sea más vieja que en la otra, a pesar de que las tasas
específicas por edad sean semejantes.
Desde luego que una comparación correcta podría hacerse comparando una a una las tasas
específicas, por edades, pero cuando se desea resumir el estudio en una simple cifra, es necesario
recurrir a un procedimiento que elimine la influencia del factor que está viciando la comparación.
Para tal fin, son de utilidad las tasas corregidas.
Aun cuando la explicación que sigue se refiere concretamente a la corrección de tasas por edades,
el procedimiento es el mismo para la corrección de tasa por sexo, raza, etc. Pueden inclusive
presentarse tasas corregidas simultáneamente por edad y sexo o por edad y raza; según se
requiera.
Población estándar
Para él cálculo de las tasas corregidas se requiere una población estándar, sin que tenga mayor
importancia la población que se escoja como tal.
Si se comparan dos ciudades, la población estándar puede ser la suma del número de sus
habitantes o puede escogerse una de ellas como población estándar.
Si la comparación es entre varias ciudades de un mismo país, puede escogerse la población del
país como estándar.
La obtención de tasas corregidas puede hacerse por dos métodos:
a) Método directo
b) Método indirecto
El método directo equivale a preguntarse cuál sería la mortalidad de la región que se estudia si
ella tuviera la misma composición etaria que la población estándar o cual sería la tasa cruda de
mortalidad de las dos o más regiones que se comparan, si ellas tuvieran la misma composición
etaria.
El método indirecto equivale a preguntarse cuál sería la mortalidad de la región que se estudia, si
ella estuviera sometida a las mismas tasas de mortalidad por edades de la población estándar.
Método directo.
Con el fin de facilitar la verificación de los cálculos tomemos el siguiente ejemplo teórico, en donde
se comparan los datos de dos poblaciones: la primera una población joven en progresión y la otra,
una población vieja, estacionaria.
Cuadro 1
Habitantes, defunciones y tasas de mortalidad por grupos de edad, en las poblaciones de

San Pedro y San Juan, 1960
San pedro San juan
Mortalidad Mortalidad
Grupos de por 1.000 por 1.000
edad Habitantes Defunciones habitantes Habitantes Defunciones habitantes
(1) (2) (3) (4) (5) (6) (7)
- 15 años 40.000 400 10,0 30.000 270 9,0
15 – 49 años 50.000 300 6,0 50.000 250 5,0
50 y + años 10.000 200 20,0 30.000 540 18.0
Todas las 100.000 900 9,0 110.000 1.060 9,6
edades
Puede verse en el cuadro que antecede que a pesar que las tasas por edad son menores en San
Juan, su tasa cruda de mortalidad es mayor que la de san Pedro, lo cual se debe desde luego, a
que en la primera ciudad hay un número mayor de personas de 50 y más años, edades en donde
la mortalidad es mayor.
Para la corrección de tasas por el método directo puede seguirse cualquiera de los dos siguientes
procedimientos.
Primer procedimiento. Los pasos a seguir, resumidos en el cuadro 366, son:
1) Escoger la población estándar y buscar su composición por grupos de edad. En este

ejemplo, se ha tomado la suma de los habitantes de las ciudades, como población
estándar (columna 2).
2) Averiguar el número de muertes que se habrían producido en esta población si ella hubiera
estado sometida a las tasas de mortalidad de cada grupo de edad de la primera de las
ciudades que se estudian. Para ella se multiplicara el número de habitantes en cada grupo
etario de la población estándar por la tasa correspondiente observada en la primera ciudad
(columna 2 x 3. La suma de estos productos será el total de muertes teóricas para la
primera ciudad.
3) Repetir el paso anterior utilizando las tasas de la segunda ciudad (columna 2 x 5).
4) Dividir las muertes teóricas obtenidas en los dos pasos anteriores (total de columnas 4 y
6) por la población estándar total y dichos resultados representaran las tasas corregidas
para las ciudades que se estudian.
Cuadro 2
Cálculos para la corrección de tasas por el método directo, utilizando como población
estándar, la suma de los habitantes de las 2 ciudades
SAN PEDRO SAN JUAN

Habitantes en
Grupos de Mortalidad por Mortalidad por
la población Mortalidad Mortalidad
edad 1.000 1.000
estándar teórica(2) * (3) teórica (2) * (3)
habitantes habitantes
(1) (2) (3) (4) (5) (6)
-15 años 70.000 10 700 9 630
15 – 49 años 100.000 6 600 5 500
50 y + años 40.000 20 800 18 720
Todas las
210.000 2.100 1.850
edades
La tasa corregida par a las dos ciudades será:
2.100
Para San Pedro * 1.000 = 10.0 por 1.000 habitantes
210.000
1.850
Para San Juan * 1.000 = 8,8 por 1.000 habitantes
210.000
Las tasas anteriores señalan, que se las dos poblaciones hubieran tenido una distribución etaria
semejante, la tasa cruda de mortalidad de San Juan habría sido inferior a la de San Pedro y no
superior como lo es en el ejemplo. De hecho, la tasa de San Juan es:
8,8 * 100
= 88% de la de San Pedro
10
Segundo procedimiento. Un habitante de San Juan podría preguntarse cuál sería la tasa de
mortalidad de su ciudad, si ella tuviera la misma distribución etaria de San Pedro. En este caso
podemos tomar como población estándar la de San Pedro.
Los cálculos en todo semejantes al del ejemplo anterior, aparecen a continuación:
Cuadro 3
Cálculos para la corrección de tasas por el método directo, tomando como población
estándar la de la ciudad de San Pedro
SAN JUAN
Habitantes en la
Grupos de edad Mortalidad por 1.000 Mortalidad teórica
población estándar
habitantes (2)*(3)
(1) (2) (3) (4)
- 15 años 40.000 9 360
15 – 49 años 50.000 5 250
50 y + años 10.000 18 180
Todas las edades 100.000 790
La tasa corregida para San Pedro, que ha sido tomada como población estándar, será su misma
tasa cruda de mortalidad (9 x 1.000). La tasa corregida para San Juan será:
790 * 1.000
= 7,9 x mil habitantes
100.000
De nuevo se observa que la tasa de San Juan, es:
7,9 * 100
= 88% de la de San Pedro
9
Método indirecto
Los siguientes pasos esquematizados en el cuadro 369 resumen los correspondientes cálculos:
1. Escoger la población estándar y buscar su tasa cruda de mortalidad y sus tasas de mortalidad
por grupos de edad (columna2.
2. Averiguar la distribución por edades de la población de cada una de las ciudades que se
comparan ( columnas 3y5)
3. Averiguar las muertes teóricas que se producirían en la primera ciudad si estuviera sometida a
las tasas de mortalidad de la población estándar. Para ello se multiplica cada una de las tasas
de la población estándar (columna 2) por el correspondiente número de habitantes de la
primera ciudad (columna 3. La suma de estos productos será el total de muertes teóricas en
dicha ciudad (columna 4.
4. Repetir el procedimiento anterior para obtener el total de muertes teóricas en la segunda

ciudad (columna 6.
5. En cada ciudad dividir el número total de muertes que realmente ocurrieron por el
correspondiente total de muertes teóricas. Con esto se obtiene un factor correctivo que
expresa la relación entre la mortalidad del aria estudiada y la mortalidad de la población
estándar.
6. Obtener las tasas corregidas para las ciudades que se estudian, multiplicando los valores
encontrados en el paso anterior por la tasa cruda de mortalidad de la población estándar.
Cuadro 4
Cálculos para la corrección de tasas por el método indirecto, utilizando las tasas de
mortalidad de una población teórica.
Tasa de SAN PEDRO SAN JUAN

mortalidad
Grupos de por 1.000 Mortalidad Mortalidad
edad habitantes en Habitantes (b) teórica (2) * Habitantes (b) teórica (2) *
la población (3) (5)
estándar (a)
(1) (2) (3) (4) (5) (6)
- 15 años 8 40.000 320 30.000 240
15 – 49 años 5 50.000 250 50.000 250
50 y + años 25 10.000 250 30.000 750
Todas las Ed. 7 100.000 820. 110.000 1.210
(a) cifras teóricas, digamos para todo el país
(b) cifras tomadas del cuadro 365
Como las muertes que relámete ocurrieron fueron (cuadro 365):
San Pedro = 900

San Juan = 1060
Se calculará:
900
Factor correctivo para San Pedro = 1,10
820
1.060
Factor correctivo para San Juan = 0,86
1.240
Las tasas corregidas para las dos ciudades se obtendrán aplicando los anteriores valores para la
tasa cruda de la población estándar, en este caso 7 x 1000:
Tasa corregida para San Pedro: 7 x 1,10 = 7,70 x 1.000
Tasa corregida para San Juan: 7 x 0,85 = 6,02
6,02 * 100
La tasa de San Juan es: = 78% de la de San Pedro
7,7
Comparación de los dos métodos
Aun cuando el método directo parece mucho más lógico que el indirecto, este último tiene como
ventajas:
1. No requiere conocer la mortalidad por edades en las áreas que se comparan.
2. Cuando las poblaciones son pequeñas, sus tasas de mortalidad pueden presentar grandes
fluctuaciones debidas al azar y en esos casos las tasas de población estándar por ser muy
estables suministran una excelente mortalidad teórica.
Se habrá observado que según la población que se escoja como estándar las tasas obtenidas son
diferentes. Sin embargo, la importancia relativa de dichas tasas, que es lo que importa conocer,
permanece casi inmodificable. Puede verse que los ejemplos que sirvieron de ilustración, a pesar
de que los valores que se encontraron para las dos ciudades variaron considerablemente según el
método y la población estándar utilizada, el cambio relativo fue muy semejante en los tres
ejemplos: 88%, 88% y 78% respectivamente.
Debe tenerse en cuenta que las tasas corregidas no añaden ninguna nueva información a las tasas
de mortalidad especificas por edades. Por el contrario mucha información se pierde y por lo tanto,
ellas no deben sustituir a las tasas específicas, cuyo análisis detallado es mucho más importante
que el dato resumido de una tasa corregida.

Bioestadistica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioestadistica PDF

Cargado por

Copyright:

Formatos disponibles

FAYAD CAMEL V.

Profesor de Bioestadística – Escuela de Salud Pública – Universidad Central de Venezuela

IMPRESO EN LA UNIDAD ANDRES “VOISIN”

II LAS ETAPAS DEL METODO ESTADÍSTICO

PLANIFICACIÓN DE LAS INVESTIGACIONES

V LOS ERRORES EN LAS OBSERVACIONES

VII LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR

VIII DISEÑO DE LOS FORMULARIOS

X REVISIÓN Y CORRECCION DE LA INFORMACION

XI CLASIFICACION Y COMPUTACION DE LOS

COMPARACIONES ENRE LOS

COMPARACIÓN ENTRE DOS

La principal dificultad que se encuentra en la enseñanza de la Estadística a los estudiantes y

El libro cubre el programa de Estadística seguido en el curso de Médicos Sanitaristas de la

a. La numeración de los cuadros y gráficos corresponde a la página en la cual se encuentran, con

Al terminan quiero agradecer al personal docente de la Escuela de Salud Pública y muy

Especialmente grato me resulta finalmente, expresar mis agradecimientos a las autoridades

Caracas, noviembre de 1964.

LA ESTADÍSTICA Y SUS RELACIONES CON EL MÉTODO CIENTÍFICO Y CON

1.2. El Método Científico.

1. Exacta observación del fenómeno que se estudia.

1.3. La Estadística y el Método Científico.

a. La estadística interviene en el primer paso de la investigación científica ayudando a que las

b. En la verificación de las hipótesis también es importante la Estadística. Como la verificación de

1.4 La Estadística y la Medicina.

1.4.1. Usos en Medicina Individual.

En el campo de la clínica, al diagnóstico de cualquier enfermedad solo es posible llegar mediante

Un pronóstico a su vez no es otra cosa que la aplicación que el cálculo de probabilidades a un

Finalmente, todo nuevo tratamiento requiere su ensayo experimental que demuestre si es

1.4.2 Usos en Medicina Colectiva.

En el campo de la Salud Pública solo mediante procedimientos estadísticos podrá conocerse la

LAS ETAPAS DEL METODO ESTADISTICO

La aplicación de la Estadística a un problema determinado comprende las siguientes etapas:

1. Planificación del estudio.

PLANIFICACIÓN DE LAS INVESTIGACIONES MÉDICAS

Aunque algunos de los más importantes descubrimientos científicos se ha debido a la casualidad

3.2 Pasos de la Planificación.

Los diferentes pasos que deben considerarse en la etapa de planificación, se comprenderán

Luego tratamos de documentarnos convenientemente sobre dicho problema, haciendo una

Las anteriores consideraciones nos permiten esquematizar la planificación en los siguientes 5

1. Planteamiento del Problema.

3.3. Primer paso: Planteamiento del problema.

a) Definición de la naturaleza e importancia del problema que se estudia.

3.3.1. Naturaleza e Importancia del Problema.

3.3.2. Determinación de Objetivos.

Determinar el objeto final, significa dilucidar las posibilidades de aplicación práctica de la

Determinar los objetivos inmediatos es explicar COMO se va a hacer la investigación, es decir,

3.4. Segundo Paso: Búsqueda y evaluación de la información existente.

Luego, el material disponible se clasificara para su lectura por tópicos y de acuerdo a la

¿QUIÉN hizo el estudio?

3.4.2. Evaluación Global del material estudiado.

3.5 Tercer paso: Formulación de la Hipótesis.

En toda investigación (salvo aquellas esencialmente descriptivas) implícita o explícita, se trata de

La escogencias de la hipótesis que va a verificarse dependerá de la síntesis del investigador, de

3.6 Cuarto paso: Verificación de la Hipótesis.

La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se

3.6.1. Diseño de la Investigación.

Es necesario definir los términos que se usaran en la investigación, pues frecuentemente

Es importante sobre todo:

3.6.2. Ejecución de la Investigación.

La ejecución de la investigación es la: Recolección, Elaboración y análisis de la información

LA ETAPA DE RECOLECCION DE LA INFORMACIÓN

LOS ERRORES EN LAS OBSERVACIONES