Está en la página 1de 268

Introducción a la Estadística UD.

Bioestadística

Documento elaborado por:


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Dra. Olivia O. de Higueros
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR: INVESTIGACIÓN
U.D. BIOESTADÍSTICA
Primer Año Ciclo 2023

INTRODUCCIÓN A LA ESTADÍSTICA

I. HISTORIA DE LA ESTADÍSTICA1

Hechos principales que caracterizan la trayectoria seguida por la estadística, desde su origen hasta su forma
actual.

Los principales datos estadísticos se remontan a épocas lejanas cuando principiaron a esbozarse los
primeros esfuerzos de administración pública, que sugieren la necesidad de hacer inventarios más o menos
regulares de la población y de las otras riquezas existentes en el territorio.

Con la aparición de los diversos sistemas de escritura empiezan a obtenerse datos que pueden merecer el
calificativo de información estadística.

Los egipcios realizaron inscripciones regulares de habitantes y recopilaron datos de catastro. Los chinos
empezaron a levantar censos de población desde el milenio IX antes de J.C. Los hebreos mencionaban en
sus libros sagrados (Pentateuco, Libro de los reyes, etc.) varios censos que hicieron, del pueblo de Israel.

En Asiria también se practicaban censos de población, lo mismo que en la India, en la época del Imperio de
los Gruptas, hacia el sigloV de nuestra era. En la antigua Roma se desarrolló notablemente la institución del
censo, al igual que en Grecia y otras civilizaciones antiguas, en donde hacia más o menos el año 100 se
hizo obligatoria la declaración de los nacimientos y defunciones.

Esta fase de recuentos, que abarca hasta la Edad Media se caracteriza por su carácter pasivo, siendo
notoria la falta de un método de interpretación.

El siglo XVIII marca un período histórico del desarrollo de la estadística, como consecuencia de las ideas
mercantilistas que proliferaron, el aumento de las encuestas y el aumento de las investigaciones estadísticas
en general (sobre las manufacturas, el comercio y la población), es en esta época cuando empiezan a
discutirse e iniciarse teorías, los datos se van clasificando con método, los eventos de la vida pueden ser
objeto de una nueva técnica y la estadística empezó a considerarse como una disciplina autónoma.

El primero en demostrar la regularidad de ciertos fenómenos vitales que aparecían como debidos al azar fue
John Graunt, también demostró el exceso de nacimientos de varones con respecto al de mujeres, la
proporción aproximadamente igual de ambos sexos en la población, el alto coeficiente de mortalidad infantil
y la mortalidad más alta en las zonas urbanas que en las rurales.

El Inglés Halley, fue el primero que construyó una tabla de vida, utilizando las matemáticas para determinar
la expectación de la duración de la vida humana a cualquier edad.

La creación de la palabra “estadístico” se atribuye a Godofredo Achenwall.

1
Leal Rodríguez, Juan francisco "Estadística Aplicada a la Investigación" Tomo 1 Guatemala C.A. 2000. pp
1-3
Dra. Olivia Ordóñez de Higueros Ciclo -2023- 1
Introducción a la Estadística UD. Bioestadística

 Lambert Adolphe Quetelet: (belga) tiene el mérito de haber aplicado por primera
vez las nuevas técnicas a la economía y a la demografía, abriendo así el camino
para buscar “Leyes” en el camino de las ciencias humanas.

 Jacob Bernoulli: Suizo fue el creador de la “Ley de los Grandes Húmeros”


 Pierre Laplace: publicó: “la Teoría Analítica de las probabilidades”

Precursores  Karl Gauss: formuló “La ley normal”.


de la
estadística  Sir Francis Galton: inició la aplicación de las técnicas estadísticos al estudio de
los problemas biológicos, determinó que el concepto de la fisiología del proceso
hereditario era esencialmente estadístico.

 Karl Pearson: con su “contribución matemática a la teoría de la evolución” ha sido


el adelanto fundamental más notable que se ha hecho en la aplicación del cálculo
de probabilidades. La estadística moderna presenta como base el cálculo de
probabilidades.

El siglo XX ha sido prodigioso en aportaciones estadísticas, ya existen grandes


organismos estadísticos internacionales y en casi todos los países del mundo se ha
introducido la enseñanza de esta disciplina.

La importancia de la estadística radica en que:

 Se ocupa de fenómenos de masa, de fenómenos colectivos, de grandes grupos o conjuntos de


datos y no de datos individuales.
 Es una técnica general aplicable a diferentes campos de la ciencia.
 Permite establecer márgenes de variabilidad.
 Se basa en leyes del azar, estudiadas por el cálculo de probabilidades.
 Permite la estimación de parámetros de población y suministra varias medidas de la exactitud y
precisión de esas estimaciones.

II. IMPORTANCIA DE LA ESTADÍSTICA PARA EL MÉDICO

El médico es una persona que resuelve problemas de salud en forma individual, en cada uno de sus
pacientes, pero que también debe interesarse por resolver los problemas de un grupo, problemas de interés
para la sociedad. Esto puede realizarlo mediante la aplicación eficiente de principios científicos, por medio
de la investigación.

El médico, podría por ejemplo, a través de la experimentación y por ende de la investigación, perfeccionar el
uso de un producto, de un tratamiento, de una técnica, utilizar técnicas ya existentes buscando mejores
resultados, etc. o ¿por qué no? diseñar o descubrir nuevos procesos; lo que le permitiría formular y resolver
problemas. He aquí el ¿Por qué enseñar estadística?
2
Mendenhall y colaboradores mencionan dos objetivos:

 Brindar al estudiante una herramienta que le ayude a planear, organizar, analizar e interpretar los datos
de un experimento (una investigación).
 Brindar al estudiante una herramienta para que pueda entender aquellos artículos publicados que hacen
uso en una u otra forma de la estadística.

2
Matute Estadística ……

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 2


Introducción a la Estadística UD. Bioestadística

III. DEFINICIÓN DE CONCEPTOS BASICOS

Con frecuencia se tiene la creencia de que la estadística es una simple recolección de números. De hecho,
éste era su significado original, se trataba de una colección de información económica y de la población vital
para el Estado, útil para la administración. Actualmente la estadística ha sobre pasado esa posición, se ha
convertido en un método científico de análisis ampliamente aplicado en todas las ciencias sociales y
naturales.

1. ESTADÍSTICA:

 El New Collegiate Dictionary de Webster, define estadística como una rama de las matemáticas que
trata de la recopilación, el análisis la interpretación y la presentación de una gran cantidad de datos
numéricos.

 Para Kendall y Stuart, "la estadística es la rama del método científico que trata de los datos reunidos
al contar o medir las propiedades de alguna población".

 Según Fraser: "la estadística trata con métodos para obtener conclusiones a partir de los resultados
de los experimentos o procesos".

 Freund dice que "la estadística es algo que abarca el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre".

 Para Mood "estadística es la tecnología del método científico".

 Mendenhall y otros autores dicen que "la estadística trata del diseño de experimentos o encuestas
mediante muestras para obtener una cantidad determinada de información a un costo mínimo y del
uso óptimo de esta información para hacer inferencias con respecto a una población".

Puede observarse que las definiciones son diferentes, pero casi todas hacen mención de la recopilación
de datos y la inferencia como elementos en común.

En conclusión, puede decirse entonces que:


La estadística es una herramienta indispensable para el investigador.
Es la disciplina que se ocupa de la recolección, organización y
procesamiento de datos, así como de la obtención de inferencias
sobre un gran volumen de datos (población) a partir del estudio de
una parte de ellos (muestra).

De lo anterior se deduce que la estadística se divide en dos grandes campos: la estadística descriptiva y
la estadística inferencial.

2. ESTADÍSTICA DESCRIPTIVA:

Comprende un conjunto de formas para organizar y reducir el volumen de observaciones (datos),


proporcionando un resumen de los rasgos generales de un conjunto de datos, sean estos de una
muestra o de una población.

La estadística descriptiva incluye diferentes formas, entre las cuales están: tablas o cuadros, gráficas,
medidas numéricas de resumen, como las medidas de tendencia central y otras.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 3


Introducción a la Estadística UD. Bioestadística

3. ESTADÍSTICA INFERENCIAL:
Es aquella que permite realizar inferencias (deducciones) acerca de una población, mediante los
resultados que se obtienen del estudio de una muestra, extraída de dicha población. En otras palabras,
permite generalizar la información o hacer conclusiones sobre la población, basándose en los datos
aportados por la muestra.

4. VARIABLE:
Se denomina variable a toda aquella característica que puede ser observable y/o medible; y que toma
diferentes valores en diferentes personas, lugares o cosas.
Una misma característica puede tomar diferente valor o aspecto al ser observada (o medida) en
diferentes poseedores de la misma.
Ejemplo:

 El Sexo o género, es una variable porque es una característica que puede ser observada y que,
en algunas personas el aspecto puede revelar que pertenecen al sexo femenino, en tanto que
otras al sexo masculino.

 La frecuencia cardíaca, al ser medida (latidos por minuto) en una persona adulta, puede
encontrarse, por ejemplo, 68 latidos por minuto, en tanto que en otra, puede encontrarse 70
latidos por minuto; se está midiendo la misma característica en diferente persona.

Por su naturaleza, las variables pueden clasificarse en dos grupos: variables cualitativas o categóricas y
variables cuantitativas o numéricas.

a. VARIABLES CUALITATIVAS O CATEGÓRICAS:


Son aquellas características que corresponden a “cualidades”, y por ende no pueden ser medidas, lo
que significa que no existe un instrumento de medición que proporcione información sobre la magnitud
de la presencia, de la cualidad o característica; ésta solamente puede observarse o ser indagada su
presencia o ausencia.
Estas variables únicamente permiten clasificar a los sujetos de estudio, dependiendo de la existencia o
ausencia del atributo o característica.

Ejemplo:
 La variable religión no requiere de algún instrumento de medición o forma establecida para
registrar la información, solamente se clasifica al sujeto indagando ¿qué creencia o dogma
profesa?
 La variable estado civil, tampoco necesita de un instrumento de medición, solamente requiere de
indagar con el sujeto de estudio, ¿cuál es su estado civil?, para luego clasificarlo.

b. VARIABLES CUANTITATIVAS O NUMÉRICAS:


Son aquellas características factibles de medición, existe un instrumento o una forma establecida para
registrar la información.
Ejemplo:
 La frecuencia respiratoria es una variable que presenta una forma establecida para registrar la
información, ésta consiste en contar el número de respiraciones por minuto, en el sujeto en
quien se esté midiendo la característica.

 El peso puede ser tomado por medio de un instrumento de medición, que puede ser una balanza
o una báscula, que arroja la información sobre la cantidad en libras, kilos, gramos, etc. (según

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 4


Introducción a la Estadística UD. Bioestadística

sea la unidad de medida que se desee o se esté utilizando), del sujeto en quien se esté
midiendo la característica.
Las variables cuantitativas o numéricas a su vez, se dividen en dos clases o tipos:

b.1. Cuantitativas discretas:


Son aquellas que se caracterizan por separaciones o interrupciones en la escala de valores, lo que
indica ausencia de valores entre los distintos valores específicos que la variable pueda asumir.

Ejemplo:
 La frecuencia respiratoria es una variable cuantitativa discreta porque entre los valores que
puede asumir, presenta interrupciones, puede encontrarse: 17, 18, 19, etc. respiraciones por
minuto, pero no podrá encontrarse 17.3, 18.72, 19.035 , etc. respiraciones por minuto, no puede
ocurrir una fracción de respiración.
 El número de embarazos es otro ejemplo de variable cuantitativa discreta, ya que no podrá
encontrarse 0.6 de embarazo o 2.85 embarazos, etc.

b.2. Cuantitativas continuas:


Son aquellas que no poseen separaciones o interrupciones, pueden tomar cualquier valor dentro de
un intervalo especificado de valores.

Ejemplo:
 La variable peso es una variable cuantitativa continua porque puede encontrarse una gama de
valores entre un intervalo especificado, por ejemplo entre 110 y 111 libras, puede encontrarse
110.1, 110.25, 110.361, 110.5684, etc, según se posea un instrumento de medición muy
sensible, como una balanza digital.
 La estatura es otro ejemplo de variable continua. En una persona podría encontrarse que
posee una estatura de 1mt, 68cm y 6mm.

5. ESCALAS DE MEDICIÓN
MEDICIÓN: Es la asignación de números o signos, a objetos o a eventos, de acuerdo con un conjunto
de reglas preestablecido. Los signos pueden ser letras e inclusive palabras.
Puede decirse entonces que escala de medición es el procedimiento que se utiliza para asignarle una
identificación y ubicación a la característica de interés.
Existen varias escalas de medición, las cuales son consecuencia del hecho de que la medición puede
llevarse a cabo bajo diferentes series de reglas. A continuación se describe cada una de las escalas de
medición.

a. ESCALA NOMINAL:
Es la escala de medición más baja. Consiste en clasificar las observaciones en categorías, que difieren
unas de otras, siendo éstas mutuamente excluyentes y colectivamente exhaustivas. Las categorías
pueden estar dadas según reglas preestablecidas o ser fijadas por el investigador.

Ejemplo:
 La variable sexo o género es una variable medible en escala nominal, ésta únicamente permite
clasificar las observaciones de la variable, en dos categorías preestablecidas: femenino y
masculino, categorías que son mutuamente excluyentes, pues un sujeto no puede pertenecer a
ambas categorías a la vez; y colectivamente exhaustivas, porque todos los sujeto podrán ser
clasificados en una de las categorías.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 5


Introducción a la Estadística UD. Bioestadística

 Diagnóstico es otra variable que se mide en escala nominal, pues consiste únicamente en
nombrar la enfermedad encontrada en el sujeto de estudio. En este caso, el investigador puede
fijar las reglas de organización, por ejemplo colocar los diagnósticos, en forma alfabética, según
el sistema afectado, etc.

b. ESCALA ORDINAL:
Esta escala no sólo nombra las categorías de la variable, sino que también las ordena por rangos de
acuerdo a algún criterio fijado, estableciendo una jerarquía entre ellas. La diferencia entre las categorías
no necesariamente será de la misma magnitud.

Ejemplo:
 La variable escolaridad es una variable medible en escala ordinal, ésta escala permite clasificar
en forma ordenada las observaciones de la variable, colocando las categorías en orden
jerárquico: Pre-primaria, Primaria, Básicos, Diversificado, etc. y en este ejemplo, puede
observarse que la diferencia entre una categoría y otra, es diferente.
 Daño provocado por alguna sustancia química: es otra variable medible en escala ordinal. El
investigador podría proponerse las siguientes categorías: leve, moderado y severo; el
investigador deberá especificar los criterios fijados para la clasificación (dichos criterios podrían
estar preestablecidos).
Como se puede observar, las categorías guardan un orden jerárquico, que puede ser colocado en forma
ascendente o descendente, pero nunca en desorden.

Tanto la escala nominal como la ordinal son


utilizables para variables cualitativas o
categóricas.

c. ESCALA DE INTERVALO:
Es una escala más especializada, a diferencia de las anteriores, es una escala que utiliza cantidades
numéricas, por lo que se utiliza en variables cuantitativas, ésta no sólo nombra las categorías de la
variable, y las ordena, sino que también es posible conocer la distancia entre dos mediciones
cualesquiera, por ejemplo se sabe que entre una medición de 40 y otra de 45, hay cinco unidades.
Otra característica relevante de esta escala, es que, posee un "cero relativo", un cero no verdadero,
porque no indica "ausencia total de la característica".

Ejemplo:
 La Temperatura ambiente es quizá el mejor ejemplo de una variable medible en escala de
intervalo, la unidad de medida es el grado. Generalmente en las radioemisoras del país, por la
mañana informan sobre el estado del tiempo, es aquí donde puede escucharse, por ejemplo,
que en Quetzaltenango amaneció a "cero grados centígrados", pero esto no indica que no haya
temperatura, este "cero" no está indicando ausencia de la característica.

d. ESCALA DE RAZÓN:
Es la escala más especializada, ocupa el nivel más alto, posee un "cero absoluto", un cero
verdadero, que por supuesto, indica "ausencia total de la característica", también es posible conocer
la distancia entre dos mediciones cualesquiera y puede determinarse la igualdad de las razones así
como hacerse comparaciones proporcionales como el doble, el triple, la mitad, etc.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 6


Introducción a la Estadística UD. Bioestadística

Ejemplo:
 La Estatura es un ejemplo de variable medible en escala de razón, la unidad de medida puede
variar, ya que ésta puede ser solicitada en pies, metros, etc.
Al medir a 2 personas, la persona “A” y la persona “B”, se puede encontrar que miden 1.62 y
1.76 mt. respectivamente; se observa que la persona “B” es 14 cm más alta que la persona “A” o
viceversa.
Tanto la escala de intervalo como la de razón son utilizables
para variables cuantitativas o numéricas, aunque si el
investigador tiene información de variables numéricas y
desea trabajarlas solamente organizando los datos en
categorías, puede hacerlo; desde luego que estaría bajando
el nivel de la variable.

6. POBLACIÓN:
Al definir lo que es una población, por lo general se piensa en un grupo de personas, sin embargo en
estadística, se define población como la totalidad de sujetos en los cuales se tiene interés en un
momento determinado, dichos sujetos podrán ser personas, muestras de sangre, plantas, células, etc.
Por lo tanto, las poblaciones se determinan y definen con base en el campo de interés.
Las poblaciones pueden ser denominadas finitas, si consisten de un número determinado de sujetos; o
infinitas, si se trata de una sucesión infinita de valores.

7. MUESTRA:
La muestra es definida simplemente como una parte de la población.

Ejemplo:
Se está interesado en evaluar el peso de los niños inscritos en el presente ciclo escolar, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
 La POBLACIÓN está formada por los niños inscritos en dicha escuela, en el presente
ciclo escolar.

 Una MUESTRA estaría constituida, por ejemplo, por los alumnos inscritos en el 2o.
grado.

8. PARÁMETRO:
Es una medida descriptiva calculada a partir de los datos de una población.

9. ESTADÍSTICO:
Es una medida descriptiva calculada a partir de los datos de una muestra.
Ejemplo:

Se tiene interés en el promedio de peso de los niños inscritos en el presente ciclo lectivo, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
 Si se calcula el promedio con los pesos de todos los niños inscritos en dicha escuela, en
el presente ciclo lectivo, se obtendrá un PARÁMETRO.
 En tanto que se obtendrá un ESTADÍSTICO al calcular el promedio solo con los pesos
de, por ejemplo, los alumnos inscritos en el 2o. grado.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 7


Introducción a la Estadística UD. Bioestadística

REFERENCIAS
1. Leal Rodríguez, Juan Francisco. “ESTADÍSTICA APLICADA A LA INVESTIGACIÒN” Guatemala, C.A.
2000.
2. Levin, Jack “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN SOCIAL” De. Harla. México 1977
3. Spiegel Murray R. “ESTADÍSTICA” Editorial Mc Graw Hill.
4. Pagano, Marcello. “FUNDAMENTOS DE BIOESTADÍSTICA” 2ª. ed. Edit. Math Learning. 2001
5. Daniel, Wayne. “BIOESTADÍSTICA”. 4ª. Ed. Edit. Limusa Wiley. 2002
6. Wonnacott T.H. “INT-RODUCCIÓN A LA ESTADÍSTICA” 5ª. Ed. Edit. Limusa1997.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 8


Introducción a la Estadística UD. Bioestadística

Documento elaborado por:


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Dra. Olivia O. de Higueros
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR: INVESTIGACIÓN
U.D. BIOESTADÍSTICA
Primer Año Ciclo 2022

INTRODUCCIÓN A LA ESTADÍSTICA

I. HISTORIA DE LA ESTADÍSTICA1

Hechos principales que caracterizan la trayectoria seguida por la estadística, desde su origen hasta su forma
actual.

Los principales datos estadísticos se remontan a épocas lejanas cuando principiaron a esbozarse los
primeros esfuerzos de administración pública, que sugieren la necesidad de hacer inventarios más o menos
regulares de la población y de las otras riquezas existentes en el territorio.

Con la aparición de los diversos sistemas de escritura empiezan a obtenerse datos que pueden merecer el
calificativo de información estadística.

Los egipcios realizaron inscripciones regulares de habitantes y recopilaron datos de catastro. Los chinos
empezaron a levantar censos de población desde el milenio IX antes de J.C. Los hebreos mencionaban en
sus libros sagrados (Pentateuco, Libro de los reyes, etc.) varios censos que hicieron, del pueblo de Israel.

En Asiria también se practicaban censos de población, lo mismo que en la India, en la época del Imperio de
los Gruptas, hacia el sigloV de nuestra era. En la antigua Roma se desarrolló notablemente la institución del
censo, al igual que en Grecia y otras civilizaciones antiguas, en donde hacia más o menos el año 100 se
hizo obligatoria la declaración de los nacimientos y defunciones.

Esta fase de recuentos, que abarca hasta la Edad Media se caracteriza por su carácter pasivo, siendo
notoria la falta de un método de interpretación.

El siglo XVIII marca un período histórico del desarrollo de la estadística, como consecuencia de las ideas
mercantilistas que proliferaron, el aumento de las encuestas y el aumento de las investigaciones estadísticas
en general (sobre las manufacturas, el comercio y la población), es en esta época cuando empiezan a
discutirse e iniciarse teorías, los datos se van clasificando con método, los eventos de la vida pueden ser
objeto de una nueva técnica y la estadística empezó a considerarse como una disciplina autónoma.

El primero en demostrar la regularidad de ciertos fenómenos vitales que aparecían como debidos al azar fue
John Graunt, también demostró el exceso de nacimientos de varones con respecto al de mujeres, la
proporción aproximadamente igual de ambos sexos en la población, el alto coeficiente de mortalidad infantil
y la mortalidad más alta en las zonas urbanas que en las rurales.

El Inglés Halley, fue el primero que construyó una tabla de vida, utilizando las matemáticas para determinar
la expectación de la duración de la vida humana a cualquier edad.

La creación de la palabra “estadístico” se atribuye a Godofredo Achenwall.

1
Leal Rodríguez, Juan francisco "Estadística Aplicada a la Investigación" Tomo 1 Guatemala C.A. 2000. pp
1-3
Dra. Olivia Ordóñez de Higueros Ciclo -2023- 1
Introducción a la Estadística UD. Bioestadística

 Lambert Adolphe Quetelet: (belga) tiene el mérito de haber aplicado por primera
vez las nuevas técnicas a la economía y a la demografía, abriendo así el camino
para buscar “Leyes” en el camino de las ciencias humanas.

 Jacob Bernoulli: Suizo fue el creador de la “Ley de los Grandes Húmeros”


 Pierre Laplace: publicó: “la Teoría Analítica de las probabilidades”

Precursores  Karl Gauss: formuló “La ley normal”.


de la
estadística  Sir Francis Galton: inició la aplicación de las técnicas estadísticos al estudio de
los problemas biológicos, determinó que el concepto de la fisiología del proceso
hereditario era esencialmente estadístico.

 Karl Pearson: con su “contribución matemática a la teoría de la evolución” ha sido


el adelanto fundamental más notable que se ha hecho en la aplicación del cálculo
de probabilidades. La estadística moderna presenta como base el cálculo de
probabilidades.

El siglo XX ha sido prodigioso en aportaciones estadísticas, ya existen grandes


organismos estadísticos internacionales y en casi todos los países del mundo se ha
introducido la enseñanza de esta disciplina.

La importancia de la estadística radica en que:

 Se ocupa de fenómenos de masa, de fenómenos colectivos, de grandes grupos o conjuntos de


datos y no de datos individuales.
 Es una técnica general aplicable a diferentes campos de la ciencia.
 Permite establecer márgenes de variabilidad.
 Se basa en leyes del azar, estudiadas por el cálculo de probabilidades.
 Permite la estimación de parámetros de población y suministra varias medidas de la exactitud y
precisión de esas estimaciones.

II. IMPORTANCIA DE LA ESTADÍSTICA PARA EL MÉDICO

El médico es una persona que resuelve problemas de salud en forma individual, en cada uno de sus
pacientes, pero que también debe interesarse por resolver los problemas de un grupo, problemas de interés
para la sociedad. Esto puede realizarlo mediante la aplicación eficiente de principios científicos, por medio
de la investigación.

El médico, podría por ejemplo, a través de la experimentación y por ende de la investigación, perfeccionar el
uso de un producto, de un tratamiento, de una técnica, utilizar técnicas ya existentes buscando mejores
resultados, etc. o ¿por qué no? diseñar o descubrir nuevos procesos; lo que le permitiría formular y resolver
problemas. He aquí el ¿Por qué enseñar estadística?
2
Mendenhall y colaboradores mencionan dos objetivos:

 Brindar al estudiante una herramienta que le ayude a planear, organizar, analizar e interpretar los datos
de un experimento (una investigación).
 Brindar al estudiante una herramienta para que pueda entender aquellos artículos publicados que hacen
uso en una u otra forma de la estadística.

2
Matute Estadística ……

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 2


Introducción a la Estadística UD. Bioestadística

III. DEFINICIÓN DE CONCEPTOS BASICOS

Con frecuencia se tiene la creencia de que la estadística es una simple recolección de números. De hecho,
éste era su significado original, se trataba de una colección de información económica y de la población vital
para el Estado, útil para la administración. Actualmente la estadística ha sobre pasado esa posición, se ha
convertido en un método científico de análisis ampliamente aplicado en todas las ciencias sociales y
naturales.

1. ESTADÍSTICA:

 El New Collegiate Dictionary de Webster, define estadística como una rama de las matemáticas que
trata de la recopilación, el análisis la interpretación y la presentación de una gran cantidad de datos
numéricos.

 Para Kendall y Stuart, "la estadística es la rama del método científico que trata de los datos reunidos
al contar o medir las propiedades de alguna población".

 Según Fraser: "la estadística trata con métodos para obtener conclusiones a partir de los resultados
de los experimentos o procesos".

 Freund dice que "la estadística es algo que abarca el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre".

 Para Mood "estadística es la tecnología del método científico".

 Mendenhall y otros autores dicen que "la estadística trata del diseño de experimentos o encuestas
mediante muestras para obtener una cantidad determinada de información a un costo mínimo y del
uso óptimo de esta información para hacer inferencias con respecto a una población".

Puede observarse que las definiciones son diferentes, pero casi todas hacen mención de la recopilación
de datos y la inferencia como elementos en común.

En conclusión, puede decirse entonces que:


La estadística es una herramienta indispensable para el investigador.
Es la disciplina que se ocupa de la recolección, organización y
procesamiento de datos, así como de la obtención de inferencias
sobre un gran volumen de datos (población) a partir del estudio de
una parte de ellos (muestra).

De lo anterior se deduce que la estadística se divide en dos grandes campos: la estadística descriptiva y
la estadística inferencial.

2. ESTADÍSTICA DESCRIPTIVA:

Comprende un conjunto de formas para organizar y reducir el volumen de observaciones (datos),


proporcionando un resumen de los rasgos generales de un conjunto de datos, sean estos de una
muestra o de una población.

La estadística descriptiva incluye diferentes formas, entre las cuales están: tablas o cuadros, gráficas,
medidas numéricas de resumen, como las medidas de tendencia central y otras.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 3


Introducción a la Estadística UD. Bioestadística

3. ESTADÍSTICA INFERENCIAL:
Es aquella que permite realizar inferencias (deducciones) acerca de una población, mediante los
resultados que se obtienen del estudio de una muestra, extraída de dicha población. En otras palabras,
permite generalizar la información o hacer conclusiones sobre la población, basándose en los datos
aportados por la muestra.

4. VARIABLE:
Se denomina variable a toda aquella característica que puede ser observable y/o medible; y que toma
diferentes valores en diferentes personas, lugares o cosas.
Una misma característica puede tomar diferente valor o aspecto al ser observada (o medida) en
diferentes poseedores de la misma.
Ejemplo:

 El Sexo o género, es una variable porque es una característica que puede ser observada y que,
en algunas personas el aspecto puede revelar que pertenecen al sexo femenino, en tanto que
otras al sexo masculino.

 La frecuencia cardíaca, al ser medida (latidos por minuto) en una persona adulta, puede
encontrarse, por ejemplo, 68 latidos por minuto, en tanto que en otra, puede encontrarse 70
latidos por minuto; se está midiendo la misma característica en diferente persona.

Por su naturaleza, las variables pueden clasificarse en dos grupos: variables cualitativas o categóricas y
variables cuantitativas o numéricas.

a. VARIABLES CUALITATIVAS O CATEGÓRICAS:


Son aquellas características que corresponden a “cualidades”, y por ende no pueden ser medidas, lo
que significa que no existe un instrumento de medición que proporcione información sobre la magnitud
de la presencia, de la cualidad o característica; ésta solamente puede observarse o ser indagada su
presencia o ausencia.
Estas variables únicamente permiten clasificar a los sujetos de estudio, dependiendo de la existencia o
ausencia del atributo o característica.

Ejemplo:
 La variable religión no requiere de algún instrumento de medición o forma establecida para
registrar la información, solamente se clasifica al sujeto indagando ¿qué creencia o dogma
profesa?
 La variable estado civil, tampoco necesita de un instrumento de medición, solamente requiere de
indagar con el sujeto de estudio, ¿cuál es su estado civil?, para luego clasificarlo.

b. VARIABLES CUANTITATIVAS O NUMÉRICAS:


Son aquellas características factibles de medición, existe un instrumento o una forma establecida para
registrar la información.
Ejemplo:
 La frecuencia respiratoria es una variable que presenta una forma establecida para registrar la
información, ésta consiste en contar el número de respiraciones por minuto, en el sujeto en
quien se esté midiendo la característica.

 El peso puede ser tomado por medio de un instrumento de medición, que puede ser una balanza
o una báscula, que arroja la información sobre la cantidad en libras, kilos, gramos, etc. (según

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 4


Introducción a la Estadística UD. Bioestadística

sea la unidad de medida que se desee o se esté utilizando), del sujeto en quien se esté
midiendo la característica.
Las variables cuantitativas o numéricas a su vez, se dividen en dos clases o tipos:

b.1. Cuantitativas discretas:


Son aquellas que se caracterizan por separaciones o interrupciones en la escala de valores, lo que
indica ausencia de valores entre los distintos valores específicos que la variable pueda asumir.

Ejemplo:
 La frecuencia respiratoria es una variable cuantitativa discreta porque entre los valores que
puede asumir, presenta interrupciones, puede encontrarse: 17, 18, 19, etc. respiraciones por
minuto, pero no podrá encontrarse 17.3, 18.72, 19.035 , etc. respiraciones por minuto, no puede
ocurrir una fracción de respiración.
 El número de embarazos es otro ejemplo de variable cuantitativa discreta, ya que no podrá
encontrarse 0.6 de embarazo o 2.85 embarazos, etc.

b.2. Cuantitativas continuas:


Son aquellas que no poseen separaciones o interrupciones, pueden tomar cualquier valor dentro de
un intervalo especificado de valores.

Ejemplo:
 La variable peso es una variable cuantitativa continua porque puede encontrarse una gama de
valores entre un intervalo especificado, por ejemplo entre 110 y 111 libras, puede encontrarse
110.1, 110.25, 110.361, 110.5684, etc, según se posea un instrumento de medición muy
sensible, como una balanza digital.
 La estatura es otro ejemplo de variable continua. En una persona podría encontrarse que
posee una estatura de 1mt, 68cm y 6mm.

5. ESCALAS DE MEDICIÓN
MEDICIÓN: Es la asignación de números o signos, a objetos o a eventos, de acuerdo con un conjunto
de reglas preestablecido. Los signos pueden ser letras e inclusive palabras.
Puede decirse entonces que escala de medición es el procedimiento que se utiliza para asignarle una
identificación y ubicación a la característica de interés.
Existen varias escalas de medición, las cuales son consecuencia del hecho de que la medición puede
llevarse a cabo bajo diferentes series de reglas. A continuación se describe cada una de las escalas de
medición.

a. ESCALA NOMINAL:
Es la escala de medición más baja. Consiste en clasificar las observaciones en categorías, que difieren
unas de otras, siendo éstas mutuamente excluyentes y colectivamente exhaustivas. Las categorías
pueden estar dadas según reglas preestablecidas o ser fijadas por el investigador.

Ejemplo:
 La variable sexo o género es una variable medible en escala nominal, ésta únicamente permite
clasificar las observaciones de la variable, en dos categorías preestablecidas: femenino y
masculino, categorías que son mutuamente excluyentes, pues un sujeto no puede pertenecer a
ambas categorías a la vez; y colectivamente exhaustivas, porque todos los sujeto podrán ser
clasificados en una de las categorías.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 5


Introducción a la Estadística UD. Bioestadística

 Diagnóstico es otra variable que se mide en escala nominal, pues consiste únicamente en
nombrar la enfermedad encontrada en el sujeto de estudio. En este caso, el investigador puede
fijar las reglas de organización, por ejemplo colocar los diagnósticos, en forma alfabética, según
el sistema afectado, etc.

b. ESCALA ORDINAL:
Esta escala no sólo nombra las categorías de la variable, sino que también las ordena por rangos de
acuerdo a algún criterio fijado, estableciendo una jerarquía entre ellas. La diferencia entre las categorías
no necesariamente será de la misma magnitud.

Ejemplo:
 La variable escolaridad es una variable medible en escala ordinal, ésta escala permite clasificar
en forma ordenada las observaciones de la variable, colocando las categorías en orden
jerárquico: Pre-primaria, Primaria, Básicos, Diversificado, etc. y en este ejemplo, puede
observarse que la diferencia entre una categoría y otra, es diferente.
 Daño provocado por alguna sustancia química: es otra variable medible en escala ordinal. El
investigador podría proponerse las siguientes categorías: leve, moderado y severo; el
investigador deberá especificar los criterios fijados para la clasificación (dichos criterios podrían
estar preestablecidos).
Como se puede observar, las categorías guardan un orden jerárquico, que puede ser colocado en forma
ascendente o descendente, pero nunca en desorden.

Tanto la escala nominal como la ordinal son


utilizables para variables cualitativas o
categóricas.

c. ESCALA DE INTERVALO:
Es una escala más especializada, a diferencia de las anteriores, es una escala que utiliza cantidades
numéricas, por lo que se utiliza en variables cuantitativas, ésta no sólo nombra las categorías de la
variable, y las ordena, sino que también es posible conocer la distancia entre dos mediciones
cualesquiera, por ejemplo se sabe que entre una medición de 40 y otra de 45, hay cinco unidades.
Otra característica relevante de esta escala, es que, posee un "cero relativo", un cero no verdadero,
porque no indica "ausencia total de la característica".

Ejemplo:
 La Temperatura ambiente es quizá el mejor ejemplo de una variable medible en escala de
intervalo, la unidad de medida es el grado. Generalmente en las radioemisoras del país, por la
mañana informan sobre el estado del tiempo, es aquí donde puede escucharse, por ejemplo,
que en Quetzaltenango amaneció a "cero grados centígrados", pero esto no indica que no haya
temperatura, este "cero" no está indicando ausencia de la característica.

d. ESCALA DE RAZÓN:
Es la escala más especializada, ocupa el nivel más alto, posee un "cero absoluto", un cero
verdadero, que por supuesto, indica "ausencia total de la característica", también es posible conocer
la distancia entre dos mediciones cualesquiera y puede determinarse la igualdad de las razones así
como hacerse comparaciones proporcionales como el doble, el triple, la mitad, etc.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 6


Introducción a la Estadística UD. Bioestadística

Ejemplo:
 La Estatura es un ejemplo de variable medible en escala de razón, la unidad de medida puede
variar, ya que ésta puede ser solicitada en pies, metros, etc.
Al medir a 2 personas, la persona “A” y la persona “B”, se puede encontrar que miden 1.62 y
1.76 mt. respectivamente; se observa que la persona “B” es 14 cm más alta que la persona “A” o
viceversa.
Tanto la escala de intervalo como la de razón son utilizables
para variables cuantitativas o numéricas, aunque si el
investigador tiene información de variables numéricas y
desea trabajarlas solamente organizando los datos en
categorías, puede hacerlo; desde luego que estaría bajando
el nivel de la variable.

6. POBLACIÓN:
Al definir lo que es una población, por lo general se piensa en un grupo de personas, sin embargo en
estadística, se define población como la totalidad de sujetos en los cuales se tiene interés en un
momento determinado, dichos sujetos podrán ser personas, muestras de sangre, plantas, células, etc.
Por lo tanto, las poblaciones se determinan y definen con base en el campo de interés.
Las poblaciones pueden ser denominadas finitas, si consisten de un número determinado de sujetos; o
infinitas, si se trata de una sucesión infinita de valores.

7. MUESTRA:
La muestra es definida simplemente como una parte de la población.

Ejemplo:
Se está interesado en evaluar el peso de los niños inscritos en el presente ciclo escolar, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
 La POBLACIÓN está formada por los niños inscritos en dicha escuela, en el presente
ciclo escolar.

 Una MUESTRA estaría constituida, por ejemplo, por los alumnos inscritos en el 2o.
grado.

8. PARÁMETRO:
Es una medida descriptiva calculada a partir de los datos de una población.

9. ESTADÍSTICO:
Es una medida descriptiva calculada a partir de los datos de una muestra.
Ejemplo:

Se tiene interés en el promedio de peso de los niños inscritos en el presente ciclo lectivo, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
 Si se calcula el promedio con los pesos de todos los niños inscritos en dicha escuela, en
el presente ciclo lectivo, se obtendrá un PARÁMETRO.
 En tanto que se obtendrá un ESTADÍSTICO al calcular el promedio solo con los pesos
de, por ejemplo, los alumnos inscritos en el 2o. grado.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 7


Introducción a la Estadística UD. Bioestadística

REFERENCIAS
1. Leal Rodríguez, Juan Francisco. “ESTADÍSTICA APLICADA A LA INVESTIGACIÒN” Guatemala, C.A.
2000.
2. Levin, Jack “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN SOCIAL” De. Harla. México 1977
3. Spiegel Murray R. “ESTADÍSTICA” Editorial Mc Graw Hill.
4. Pagano, Marcello. “FUNDAMENTOS DE BIOESTADÍSTICA” 2ª. ed. Edit. Math Learning. 2001
5. Daniel, Wayne. “BIOESTADÍSTICA”. 4ª. Ed. Edit. Limusa Wiley. 2002
6. Wonnacott T.H. “INT-RODUCCIÓN A LA ESTADÍSTICA” 5ª. Ed. Edit. Limusa1997.

Dra. Olivia Ordóñez de Higueros Ciclo -2023- 8


U.D. Bioestadística Ciclo: 2023

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Documento elaborado por

FACULTAD DE CIENCIAS MÉDICAS -CUM- Dra. Olivia de Higueros

ÁREA DE INVESTIGACIÓN
U.D. BIOESTADÍSTICA

GUÍA PARA ELABORACIÓN DE


BASES DE DATOS

I. INTRODUCCIÓN

Una vez que se ha terminado con el proceso de recopilación de la información, el investigador se encuentra
con un cúmulo de información que necesita “vaciar” de alguna forma, utilizando algún programa, para poder
organizar y analizar dicha información, en otras palabras, necesita elaborar una base de datos.
Se define una base datos como un banco de datos o una serie de datos organizados y relacionados entre sí,
pertenecientes a un mismo contexto, los cuales son recolectados y almacenados de forma sistemática para
ser explorados por programas estadísticos.

El programa Excel es una hoja electrónica amigable y útil para la elaboración de bases de datos, de
diferente índole y con diferentes propósitos, por lo que se convierte en una herramienta valiosa en el proceso
de análisis de datos. Se ha vuelto tan útil y amigable, que los formularios de Google, entre otros, pueden ser
descargados en este programa.
Una base de datos puede ser leída por programas especiales que faciliten todo el proceso estadístico, como
por ejemplo: EpiInfo, Stata, SPSS, Epidat, entre otros.

II. PROCESO PARA ELABORACIÓN DE UNA BASE DE DATOS


Es de hacer notar que esta guía se enfoca principalmente al procedimiento que se deberá realizar si la
recopilación de la información se hace en forma presencial, sin embargo, también hay aspectos útiles si se
utiliza alguna herramienta virtual para recopilar la información.

El programa Excel consta de una serie de filas y una serie de columnas; para la elaboración de la base de
datos utilizando dicho programa, se debe proceder de la siguiente forma:
a. Identificación de boletas: cada boleta debe tener un número que la identifique, es recomendable
que dicho número sea colocado en la esquina superior derecha de la carátula o primera hoja del
instrumento (si constara de varias páginas), el propósito es facilitar la ubicación, por si fuere
necesario verificar algún dato.

b. En la primera columna se colocará la identificación de cada boleta (No. de boleta), esto facilitará la
localización del registro, por si fuera necesario, para hacer alguna corrección o confirmación
respecto a los datos.
c. Cada columna de las subsiguientes corresponderá a una variable. En el encabezado de cada
columna se deberá escribir el nombre de la variable, por lo que cada columna contendrá la
información de la variable respectiva.
d. Cada fila corresponderá a la información de una boleta, en otras palabras, a la información de un
sujeto de estudio.

Dra. Olivia Ordóñez de Higueros 1


U.D. Bioestadística Ciclo: 2023

Una vez comprendidos y ejecutados los incisos anteriores, se tiene lista la “plantilla” para ingresar la
información. Desde luego que estos incisos deben realizarse si la recopilación de la información se ha
realizado en forma manuscrita.

Google forms proporciona en formato Excel, un archivo con la información que cada “sujeto de estudio”
colocó al responder un formulario. Para ir transformando el archivo en una base de datos es necesario
revisarlo y editarlo, por lo que se puede tomar como referencia los incisos anteriores así como los que se
van describiendo más adelante.

Ejemplo: La imagen muestra un archivo generado desde Google forms:

Marca temporal: es colocado


automáticamente por el sistema. Cada columna se encuentra Cada fila presenta la
encabezada por el enunciado que información proporcionada
permite recopilar la información. por cada “sujeto de estudio”.

Identificación del
“sujeto de estudio”

III. ALGUNAS CONSIDERACIONES

Si el procedimiento se hace en forma manual, antes de iniciar el ingreso de los datos al programa Excel, se
debe proceder a:

a. Codificación de las variables: Se requiere contar con una copia en blanco, del instrumento
utilizado para la investigación (boleta, encuesta), para codificar las variables.

La codificación consiste en identificar a cada variable con un “nombre” que conste de 8 a 10


caracteres, sin dejar ningún espacio y sin utilizar tildes ni símbolos. También es recomendable que
se escriba todo en letras minúsculas.

Esta codificación debe realizarse para que dicho archivo pueda ser leído por programas estadísticos
como los que se mencionaron anteriormente. Actualmente esto es necesario para la utilización de
algunos programas que aún tienen este tipo de restricciones.

Dra. Olivia Ordóñez de Higueros 2


U.D. Bioestadística Ciclo: 2023

EJEMPLO:

BOLETA DE RECOLECCIÓN DE DATOS CODIFICACIÓN DE VARIABLES

No. De Boleta:___ boleta:___

I. DATOS GENERALES I. DATOS GENERALES


Hospital: _________________________ hospital: _________________________
Edad: ____ Sexo: Masculino__ Femenino edad: __ sexo: Masculino(1)_ Femenino(2)
No. De cama___ Presión Arterial(PA):_____ ncama ___
padiast presión diastólica____
pasist presión sistólica____

II. CARACTERIZACIÓN CLÍNICA II. CARACTERIZACIÓN CLÍNICA


1. Diagnóstico de ingreso al hospital: 1. dxingreso
a. Neumonía c. Epiglotitis a. Neumonía(1) c. Epiglotitis(3)
b. Sepsis d. Otro b. Sepsis(2) d. Otro__(4)

Se puede observar en la columna derecha, que las variables han sido codificadas, todas están
escritas con letras minúsculas y en negrita. Al codificar o colocar nuevos nombres a las variables, se
debe tener el cuidado de que, el nuevo nombre “refleje” la información que contiene.
En el cuadro anterior, se puede observar que, para las primeras 5 variables del ejemplo, no parece
haber ningún problema, está explícita la información que contendrá cada columna; sin embargo,
para la sexta variable: Diagnóstico de ingreso, el nuevo nombre que se ha colocado es dxingreso,
que desglosado correspondería a: dx = diagnóstico, ingreso = de ingreso.
b. Codificación de categorías: Las categorías de las variables también se pueden codificar,
utilizando números. Como se puede observar en las variables sexo y diagnóstico, se ha
colocado un número entre paréntesis, esto se hace con el propósito de facilitar la digitalización o
vaciado de los datos.
La asignación de un número a las categorías de las variables, también está asociado a factor de
riesgo, un número mayor, corresponderá a la categoría con mayor riesgo.

EJEMPLO:

Variable Categorías Codificación


Sexo Masculino 1
Femenino 2
Diagnóstico de ingreso al Neumonía 1
Hospital Sepsis 2
Epiglotitis 3
Otro ____ 4

Observación:
Para la categoría “Otro” se puede proceder de dos formas:
a. Colocar el número “4”(la codificación) y habilitar otra columna para escribir la
respuesta obtenida(otro diagnóstico), porque dicha información podría ser de
importancia para la investigación.
b. Escribir la respuesta obtenida como “otro” en lugar del número “4”

Dra. Olivia Ordóñez de Higueros 3


U.D. Bioestadística Ciclo: 2023

IV. RECOMENDACIONES

Es importante tomar en cuenta las siguientes recomendaciones:

1. Establecer desde la elaboración del instrumento, que la información de las variables numéricas (o
cuantitativas) sea recopilada en sus unidades originales, con el propósito de no perder información,
por ejemplo: peso, talla, edad, niveles de colesterol en sangre, etc.

Se puede observar en la boleta del ejemplo, la variable Presión Arterial (PA). Si al recopilar los
datos, se registra como: normal, hipertenso o hipotenso y no se coloca el valor encontrado durante
la toma, es probable que a futuro, si fuera necesario realizar algún análisis cuantitativo sobre la
presión sistólica, la diastólica o la diferencial, no será posible hacerlo, porque no se contará con la
información necesaria.

Si al final, el interés sobre la variable es solamente cualitativo o categórico, la información se puede


codificar en el mismo programa Excel o en el programa estadístico que se vaya a utilizar para el
análisis de los datos.

2. Como se mencionó anteriormente, las categorías de las variables también se pueden codificar, ya
sea por situación de “riesgo” o con el propósito de facilitar la digitalización de los datos, esto se
refiere a que, por ejemplo es más rápido digitar “1 o 2” que “masculino o femenino”; por otro lado, al
escribir una palabra se corre el riesgo de escribirla de diferente forma, ejemplo: MASCULINO,
Masculino o masculino, las tres palabras dicen lo mismo pero algunas versiones (antiguas) del
programa, al hacer un *recuento de los datos, las podrían reconocer como diferentes y podría
darnos un resultado como este:
*para lo cual se puede utilizar la función contar si de Excel.

Sexo F
(frecuencia)
MASCULINO 50
Masculino 20
masculino 15

Desde luego que al utilizar un formulario de Google, la situación planteada anteriormente, se puede
considerar al momento en que se elabora el formulario, optando por el tipo de ítem en el que el encuestado
solamente pueda seleccionar la opción que le corresponda.

3. Al digitar la información de las categorías de las variables “codificadas”, en otras palabras, utilizando
números: 1(masculino) y 2 (femenino), se debe tener presente que la variable no es numérica, por
lo tanto, se deberá tener el cuidado en cuanto a las indicaciones que se proporcionan al programa
ya que podría realizar cálculos numéricos, al ejecutar lo solicitado.

EJEMPLO:

Sexo Codificación Cálculo solicitado al


programa:
Masculino 1 Media Aritmética = 1.5
Femenino 2 Desviación Estándar = 0.5

Dra. Olivia Ordóñez de Higueros 4


U.D. Bioestadística Ciclo: 2023

Como se puede ver en el ejemplo, el programa realizó los cálculos, sin embargo los resultados
obtenidos no tienen ningún sentido porque las variables son categóricas, por lo que se analizan con
otro tipo de medidas, como las proporciones y los porcentajes.

4. El programa Excel “reconoce” el tipo de información que se está colocando en las celdas, lo
numérico lo coloca hacia la derecha y lo categórico (o alfa numérica) hacia la izquierda, por lo que
se recomienda no centrar los datos, ya que, se suele hacer por “presentación”, pero el programa
estadístico podría tener problemas para reconocer la información del archivo.

5. Si existiera información faltante en la base de datos, se recomienda proceder así:


a. Revisar la boleta (o instrumento) correspondiente, por si se cometió algún error durante la
digitación, para proceder a completar la información.
b. Eliminar el registro de la base de datos, si no existiera la información faltante, luego de la
revisión.
Debido a que luego de la recopilación de información, pueden aparecer instrumentos con datos
faltantes, algunos autores recomiendan que cuando se realiza el cálculo del tamaño de muestra
para una investigación, se tome de un 5% a 10% más, para cubrir las probables pérdidas.

V. EJEMPLO DE UNA BASE DE DATOS

Al elaborar la base de datos utilizando el programa Excel, la información va dispuesta en filas y


columnas como se mencionó anteriormente. Tomando como base la boleta del ejemplo, ya con los
nombres de las variables codificados al igual que las categorías de las variables, quedaría de la
siguiente forma:

En el cuadro se puede observar en la columna de la variable edad, en la boleta No. 2, un valor de


516; pero el valor real podría ser 51, 16 o quizá 56; al estar identificadas las boletas, se puede
regresar a ellas y verificar la información. Esto desde luego si se cuenta con la información en físico.

En la recomendación No. 1, se aconseja colocar los valores encontrados de las variables numéricas,
la variable Presión Arterial está formada por dos valores, correspondientes a la presión sistólica y
diastólica, es por ello que se observa en la base de datos, una columna para cada valor.

Dra. Olivia Ordóñez de Higueros 5


U.D. Bioestadística Ciclo: 2023

NOTA

Ahora se cuenta con Google forms para elaborar la boleta (cuestionarios), se aconseja tomar en cuenta lo
que se detalla en este documento para elaborar el formulario, ya que, consideramos que será de utilidad
para la recopilación adecuada de la información.

Google forms provee una variedad de “ítems” como la de completación, de selección de una sola alternativa,
etc. que permiten recopilar la información de una forma más rápida, solamente se debe tener el cuidado de
elegir el tipo correcto, según la información que se requiere, y desde luego, pensando en la forma en que se
analizará la información.

Ejemplo: archivo Excel generado desde Google forms:

Ejemplo: en la imagen se puede observar el archivo editado.


Columna agregada para cada variable.
Se observa el nuevo nombre y la
Se observa nombre
codificación de las categorías
codificado de la variable

FUENTES CONSULTADAS
1. Daniel WW. Bioestadística, Base para el Análisis de las Ciencias de la Salud. Tercera Ed. México: Limusa
Wiley; 2008. 876 p.
2. http://eprints.rclis.org/14591/1/BD_INVESTIGACION_2010_exit.pdf

Dra. Olivia Ordóñez de Higueros 6


Presentación Tabular y Gráfica de la Variable Cualitativa.

Universidad de San Carlos de Guatemala


Facultad de Ciencias Médicas
Centro Universitario Metropolitano
Área Curricular de Investigación
U. D. de Bioestadística

PRESENTACIÓN DE LA VARIABLE CUALITATIVA

1. Presentación de datos
En la investigación, la información que se recopile en la recolección de la información, se puede presentar
de las tres formas siguientes:
a. En forma escrita (con palabras).
b. En cuadros o tablas.
c. En gráficas.

1.1 Presentación escrita


Consiste en dar la información de las cifras en párrafos escritos. Este sistema es
ventajoso cuando el resultado es poco; pero es tedioso y puede dar lugar a
confusión cuando la información es muy amplia.

Ejemplo: En la República de Guatemala se publica el boletín de la red de


establecimientos del Ministerio de Salud Pública y Asistencia Social, el boletín
publicado en 2009 presenta los siguientes datos del Departamento de Guatemala:
“Existen 99 establecimientos que prestan servicios de salud; encontrándose 9
hospitales que representan el 9.09%, 28 centros de salud que hacen el 28.28% y 62
puestos de salud equivalente al 62.63%”.

1.2 Presentación tabular


Los resultados en cifras se disponen en el cuerpo de un cuadro estadístico, presentado en líneas y
columnas.
La presentación tabular se ha definido como: “el medio de resumir y presentar datos relacionados unos con
otros y otra información en columnas y filas.
Su objetivo es presentar de manera concisa y adecuada información que no podrías ser presentada tan
claramente en ninguna forma”.(1)

1.2.1 Partes de un cuadro


Todo cuadro estadístico está estructurado con los siguientes elementos:
Características o
categorías de la segunda
NÚMERO DEL ENCABEZADO O TABLA
variable cualitativa
TITULO
(NOTA DE ENCABEZADO)

ENCABEZADO DE LA ENCABEZADO FILA MATRIZ


COLUMNA MATRIZ Segunda variable cualitativa
Características Primera variable Cualitativa SUB ENCABEZADO SUB ENCABEZADO
o categorías de SUB ENCABEZADO CELDA CELDA
la primera SUB ENCABEZADO CELDA CELDA
variable SUB ENCABEZADO CELDA CELDA
cualitativa
Nota de pie.
Fuente y origen

Para indicar las partes de un cuadro, se presenta el siguiente ejemplo.

(1) YS. BUREAU OF THE GENGUS. Burcean of the Census Manual of Tabular Presentation by Brunce L. Jenkinson. Washington D.C.: U.S. Government.
Printing office, 1950.

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 1
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
CUADRO No. 1
RED DE ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA
ROSA, GUATEMALA. 2009.
(Sólo de tomaron en cuenta los establecimientos que están funcionando)

ESTABLECIMIENTOS DE SALUD TOTAL


MUNICIPIO PUESTO CENTRO DE HOSPITALES
DE SALUD SALUD
CUILAPA 3 1 1 5
NUEVA SANTA ROSA 5 1 0 6
PUEBLO NUEVO VIÑAS 6 1 0 7
TAXISCO 4 1 0 5
SANTA CRUZ NARANJO 3 1 0 4
SANTA ROSA DE LIMA 1 1 0 2
BARBERENA 1 1 0 2
ORATORIO 3 1 0 4
SAN JUAN TECUACO 1 1 0 2
CHIQUIMULILLA 10 1 0 11
GUAZACAPAN 4 1 0 5
TOTAL 41 11 1 53
Nota: Los datos expuestos en el cuadro están actualizados a la fecha indicada.
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

Cada uno de los componentes de un cuadro estadístico deben de cumplir con ciertas reglas relativas,
encontrándose entre las más importantes:

1.2.1.1 Número de cuadro


El número indica la posición del cuadro dentro de un informe, texto o estudio, facilitando así su referencia.

Para esto es necesario llenar los cuadros de acuerdo al orden de aparición dentro del estudio, por ejemplo,
si la tabla o cuadro es la primera de un documento con tres capítulos y aparece en el primer capítulo será
el cuadro No. 1.1., el primer valor indica el número del capítulo y el segundo el número del cuadro; si luego
en el mismo estudio aparecen más tablas; por ejemplo, otra numerada 3.5 indica que es la tabla No. 5 del
capítulo número 3. Cuando aparece únicamente una tabla en el reparto o estudio puede omitirse el
número.

1.2.1.2 Título de un cuadro o tabla


El título de una tabla debe de ser la descripción resumida del contenido de un cuadro, por lo que debe ser
completo y conciso.
Ejemplo: Veamos el CUADRO No. 1,
Un título es completo en tanto cumpla con las siguientes cumple el título con las
interrogantes: interrogantes.

¿QUÉ? ¿Qué estudia o cuál es el ¿Qué se estudia? Red de


¿Qué? establecimientos de salud.
universo o población que investiga?
¿Cómo? ¿Cómo se estudia? Por municipios.
¿Dónde? ¿Cómo? ¿Cómo se estudia o bajo qué
criterio de clasificación se maneja la ¿Dónde fue el lugar donde se
¿Cuándo?
información? recopiló la investigación?
¿Dónde? El área geográfica que Departamento de Santa Rosa,
cubre la investigación o a qué lugar Guatemala.
se refiere. ¿Cuándo se llevó a cabo? Año
¿Cuándo? Fecha o período que 2009.
abarca la investigación.

1.2.1.3 NOTAS DE ENCABEZADO


Estas se colocan cerca del título, proporcionan información general sobre la tabla completa o sobre alguna
parte que quiera resaltarse de la misma.

2
Presentación Tabular y Gráfica de la Variable Cualitativa.

En algunas ocasiones las notas de encabezado se utilizan para definir algún término del título, o para indicar
las unidades en que se está trabajando la información que aparece en el cuadro.
Estas notas deben escribirse con letra minúscula, van entre paréntesis y abajo del título. Ejemplo: Cuadro
No. 1 (Sólo se tomaron en cuenta los establecimientos que están funcionando).

1.2.1.4 CUERPO DEL CUADRO


Es un conjunto de celdas dispuestas en filas y columnas.

• FILA MATRIZ
Es la primera fila, cumple un propósito diferente a las demás filas ya que, en ella se colocan las diferentes
subdivisiones de la clasificación o encabezados de los datos expuestos en el cuerpo del cuadro. Ejemplo
Cuadro No. 1.

ESTABLECIMIENTOS DE SALUD TOTAL

PUESTOS DE SALUD CENTROS DE SALUD HOSPITALES

• COLUMNA MATRIZ
Cumple el mismo propósito de la fila matriz únicamente que en ella se colocan los encabezados de los datos
de las diferentes filas. Ejemplo: Cuadro No. 1

MUNICIPIOS
CUILAPA
NUEVA SANTA ROSA
PUEBLO NUEVO VIÑAS
TAXISCO

• ORDENAMIENTO DE LA COLUMNA MATRIZ


Los renglones de la columna matriz se pueden ordenar de varias formas: Alfabética, Geográfica, por
magnitud, cronológica, usual, numérica.

o ALFABETICA
Facilita la localización de la información, ejemplo:

ENFERMEDADES DEL CORAZON PACIENTES


FEMENINO MASCULINO
ARTERIOESCLEROSIS 50 40
COR-PULMONAR 30 60
HIPERTENSION ARTERIAL 30 30
INFARTO AL MIOCARDIO 20 25

o GEOGRAFICA
Es aplicable cuando los usuarios están muy familiarizados con la clasificación. Ejemplo.

ZONIFICACION NUMERO DE HOSPITALES


CENTRO 5
SUR 6
NORTE 4
ORIENTE 2
OCCIDENTE 6

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 3
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
o POR MAGNITUD
Este tipo de ordenamiento se hace en forma ascendente o descendente, según su magnitud. Ejemplo:

TIPO DE QUEMADURA NUMERO DE PACIENTES


PRIMER GRADO 200
SEGUNDO GRADO 130
TERCER GRADO 50

o CRONOLÓGICO
Por años que puede ser del más antiguo al más cercano o viceversa o bien por meses. Ejemplo:
AÑO MESES
1995 ENERO
2000 FEBRERO
2005 MARZO
2010
ABRIL
2015
MAYO
2020
JUNIO

o USUAL
Cuando la información se presenta según clases ya establecidas. Ejemplo:

ESTADO CIVIL
SOLTERO
CASADO
UNIDO
VIUDO
DIVORCIADO

o NUMÉRICO
Cuando tiene que enumerarse las clases. Ejemplo: Las zonas de las diferentes ciudades del Departamento
de Guatemala.
ZONIFICACION
1
2
3
4
5

4
Presentación Tabular y Gráfica de la Variable Cualitativa.

• CELDAS
Es el espacio que encierra cada dato individual; proporcionando información tanto de la columna como de
la fila, son estos los que se consideran el cuerpo del cuadro, ya que aquí está considerada toda la
información numérica. Ejemplo: Cuadro No. 1.

ESTABLECIMIENTOS DE SALUD
MUNICIPIO PUESTO DE CENTRO DE HOSPITALES TOTAL
SALUD SALUD
CUILAPA CELDA CELDA CELDA CELDA
3 1 1 5
NUEVA SANTA ROSA CELDA CELDA CELDA CELDA
5 1 0 6
PUEBLO NUEVO VIÑAS CELDA CELDA CELDA0 CELDA
6 1 0 7
TAXISCO CELDA CELDA CELDA CELDA
4 1 0 5
SANTA CRUZ NARANJO CELDA CELDA CELDA CELDA
3 1 0 4
SANTA ROSA DE LIMA CELDA CELDA CELDA CELDA
1 1 0 2
BARBERENA CELDA CELDA CELDA CELDA
1 1 0 2
ORATORIO CELDA CELDA CELDA0 CELDA
3 1 4
SAN JUAN TECUACO CELDA CELDA CELDA CELDA
1 1 0 2
CHIQUIMULILLA CELDA CELDA CELDA CELDA
10 1 0 11
GUAZACAPAN CELDA CELDA CELDA CELDA
4 1 0 5
TOTAL 41 11 1 53

1.2.1.5 NOTA DE PIE


Se colocan al pie del cuadro y pueden tener información de tipo general o bien específica. Es decir, pueden
ser explicaciones de una fila, de una columna o bien una cifra en particular.

Si son explicaciones que se localizan en la columna matriz, o fila matriz se identifican con números 1, 2, 3…,
las referencias a cifras en particular se señalan con letras minúsculas: a, b, c, o con asteriscos (*) para evitar
que se confundan con las cifras del cuadro.

La utilización de la nota de pie tiende a desaparecer siempre que la nota de encabezado llene esta función.
Ejemplo cuadro No. 1 (los datos expuestos en el cuadro están actualizados a la fecha indicada).

1.2.1.6 FUENTE U ORIGEN


Toda información debe tener información sobre su origen, ya que esto sirve al consultante para comprobar,
evaluar o bien obtener información, si fuera necesario.

También es importante el indicar por quien fue recabada la información y la técnica utilizada para la
recopilación de la misma. Si los datos fueron obtenidos de algún reporte o libro, la referencia al margen de
la información siguiendo las reglas convencionales de las citas bibliográficas. Ejemplo: Cuadro No. 1 Fuente:
(Boletín del Ministerio de Salud Pública).

1.2.2 OTROS ASPECTOS A CONSIDERAR


Se pueden considerar, además de los lineamientos anteriores, los siguientes:

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 5
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
o TOTALES
Pueden colocarse en la primera fila y en la primera columna por ser las partes más visibles de un cuadro,
pero es correcto colocarlos en la última fila y en la primera columna. Ejemplo: ver cuadro No. 1

o RAYADO
Se usa línea doble horizontal sólo para abrir el cuadro. Las líneas horizontales se usan únicamente para
abrir y cerrar y para subrayar totales y subtotales.

Las líneas verticales se usan únicamente para separar columnas. El cuadro se puede dejar abierto en sus
lados izquierdo y derecho.

o TIPO DE LETRA
Sólo el título se pone con letras mayúsculas, el resto de rótulos con minúsculas del mismo tipo, excepto la
palabra total que debe ir con mayúsculas. Se utiliza tipo más pequeño de minúsculas, para las notas de
encabezamiento, pie, o fuente informativa. Todos los rótulos o leyendas deben de escribirse
horizontalmente.

o CIFRAS
Las cifras escritas en el cuerpo del cuadro deben de ir separadas en sus millares y millones con una coma y
para separar decimales se utiliza punto. 2,161.05.

o SIGNOS CONVENCIONALES
Cifras es cero. (-) guión
No hay información. (.) punto
Existe información, pero no ha sido recibida o publicada. (…) tres puntos
Cifra tan pequeña que no se puede expresar en la unidad mencionada (o) cero.

1.2.3 CLASIFICACION Y USO DE LOS CUADROS ESTADISTICOS


Según su finalidad los cuadros pueden clasificarse en dos categorías: Propósito general, Propósito
específico.

1.2.3.1 CUADROS DE PROPÓSITO GENERAL


Se elaboran con el fin de servir como fuente de información estadística y se encuentran en estudios de tipo
descriptivo o apéndices de trabajos analíticos, reportes. Generalmente estos son cuadros con demasiados
datos, por lo que se dificulta el análisis de involucrados. Son cuadros vinculados con la etapa de recolección
de datos.

1.2.3.2 CUADROS DE PROPÓSITO ESPECÍFICO


Son cuadros que se elaboran con el fin de análisis o de cálculo. Generalmente se utilizan en trabajos
monográficos y tienen como objetivo mostrar datos sobre los que se quiera llamar la atención y constituyen
el fundamento de las conclusiones que se derivan de la investigación.

Con fines de estudio, los cuadros de uso específico se clasifican: cuadros de investigación, cuadros
expositivos o presentativos y tablas de trabajo.

o CUADROS DE INVESTIGACION
Estos son de carácter interno, generalmente no son publicados, muchas veces sirven para labores previas a
la presentación.

Los cuadros de investigación utilizados son: Cuadro dicotómico simple y cuadro dicotómico de doble
entrada

o CUADROS EXPOSITIVOS O CUADROS DE PRESENTACIÓN

Tienen como objetivo mostrar cifras estadísticas relacionadas con los temas de trabajo. Estos aparecen en
trabajos de investigación, reportes, publicaciones, estudios descriptivos, et.

Este tipo de cuadros deben cumplir obligadamente con todos los requisitos de elaboración de un cuadro
estadístico ya que establecen la base para cualquier análisis.

6
Presentación Tabular y Gráfica de la Variable Cualitativa.

Para una presentación más adecuada de los datos y sobre todo para un mejor análisis, es conveniente
estudiar ésta, desde el punto de vista de las variables evaluadas; por lo que se consideran dos situaciones.
Si la variable o variables en estudio son de naturaleza cualitativa: los datos se agrupan en una o varias
escalas cualitativas, llamadas clases o categorías. o Si la variable o las variables en estudio son de naturaleza
cuantitativa, los datos se agrupan en una o varias escalas cuantitativas llamadas clases o intervalos de clase.

1.2.4 PRESENTACION TABULAR DE LA VARIABLE CUALITATIVA


Cuando la información incluye una sola variable la representación tabular de la misma se realiza mediante
una tabla de 2 columnas que es lo que llamamos distribución de frecuencias.

En la primera columna se anotan las categorías de la variable y en la segunda columna el número de


frecuencias o casos que corresponde a cada categoría. Ejemplo:

CUADRO No. 4
ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA ROSA,
GUATEMALA. 2009.
TIPO DE ESTABLECIMIENTO No.
HOSPITALES 1
PUESTOS DE SALUD 54
CENTROS DE SALUD 14
TOTAL 69
Fuente: Boletín del Ministerio de Salud Pública.

Según los datos del cuadro No. 4, se observa que la variable tipo de establecimientos es una variable
cualitativa y el número de establecimientos es una cuantificación de la variable en estudio.

ANÁLISIS
La información de la variable cualitativa al presentarse, habitualmente se analiza mediante el cálculo de
frecuencias relativas o tantos por ciento. Para ilustrar el concepto de frecuencia relativa y tanto por ciento,
consideremos la siguiente situación.

Supóngase que una variable toma los valores A,B y C. Valores observados de la variable y que el número de
casos o frecuencias son FA, FB y FC respectivamente, siendo N = FA + FB + FC la frecuencia total o el número
total de observaciones, esto es:

VARIABLE FRECUENCIAS
A FA
B FB
C FC
TOTAL N = FA + FB + FC

Podemos comparar las FRECUENCIAS ABSOLUTAS (FA, FB, FC) contra la frecuencia total (N), obteniendo las
correspondientes FRECUENCIAS RELATIVAS (Fra, F rb), las cuales se definen como:
Fra. = FA/N
Frb = FB/N
Frc = FC/N

Ya que:
FA/N + FB/N + FC/N = FA + FB + FC/N = N/N = 1

Se puede generalizar que la suma de las frecuencias relativas es igual a uno, lo cual puede servir como un
criterio de verificación de las operaciones efectuadas. Un tanto por ciento es una frecuencia relativa,
multiplicada por 100: en este caso, los respectivos tantos por ciento son:
%A = FA / N x 100

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 7
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
%B = FB/ N X 100
%C = FC/N x 100

El análisis en una distribución simple de frecuencias de una variable cualitativa consiste en incluir en dicha
tabla una columna para las frecuencias relativas y otra para los tantos por ciento. En la práctica la columna
de frecuencia relativa suele omitirse, presentando únicamente los tantos por ciento. En este caso
tendremos:

VARIABLE FRECUENCIA ABSOLUTA TANTOS POR CIENTO


A FA FA/N X 100
B FB FB/N x 100
C FC FC/N X 100
TOTAL N 100%

CUADRO No. 5
PRIMERAS VEINTE CAUSAS DE MORTALIDAD EN GUATEMALA.
GUATEMALA, 2009.
(En cifras absolutas y relativas)

DIAGNOSTICO FRECUENCIAS FRECUENCIA TANTOS


ABSOLUTAS RELATIVA POR
CIENTO
NEUMONIA POR ORGANISMO NO ESPECIFICADO 6488 0.2343 23.43
INFARTO AGUDO DEL MIOCARDIO 2953 0.1066 10.66
PARO CARDIACO 2222 0.0802 8.02
DISPARO DE OTRAS ARMAS DE FUEGO Y NO 2156 0.0778 7.78
ESPECIFICADAS
EVENTO CEREBROVASCULAR NO ESPECIFICADO 1453 0.0525 5.25
INSUFICIENCIA CARDIACA 1347 0.0486 4.86
DIABETES MELLITUS NO ESPECIFICADA 1294 0.0467 4.67
DIARREA Y GASTROENTERITOS DE PRESUNTO 1203 0.0434 4.34
ORIGEN INFECCIOSO
SENILIDAD 1136 0.0410 4.10
OTRAS SEPTISEMIAS 1049 0.0379 3.79
TUMOR MALIGNO DEL ESTÓMAGO 790 0.0285 2.85
OTROS SÍNTOMAS Y SIGNOS DEL SISTEMA 755 0.0273 2.73
CIRCULATORIO Y RESPIRATORIO
FIBROSIS Y CIRROSIS DEL HIGADO 717 0.0259 2.59
ENFERMEDAD ALCOHOLICA DEL HIGADO 664 0.0240 2.40
TRAUMATISMO INTRACRANEANO 659 0.0238 2.38
INSUFICIENCIA RENAL NO ESPECIFICADA 588 0.0212 2.12
DESNUTRICION PROTEICOCALORICA NO 574 0.0207 2.07
ESPECIFICADA
HIPERTENSION ARTERIAL ESCENCIAL 557 0.0201 2.01
CHOQUE NO CLASIFICADO 547 0.0197 1.97
TUMOR MALIGNO DEL HIGADO Y VIAS BILIARES 543 0.0196 1.96
INTRAHEPATICAS
TOTAL 27695 1.0000 100
Fuente: Boletín del Ministerio de Salud Pública y Asistencia Social.

Con fines de análisis es conveniente colocar la columna de tanto por ciento, ya que facilita la visión del tema
en estudio.

8
Presentación Tabular y Gráfica de la Variable Cualitativa.

• DATOS DE ASOCIACIÓN Y CUADROS DE ASOCIACIÓN

En este tipo de cuadros las observaciones se agrupan de acuerdo a dos escalas de clasificación, se dice que
los datos están asociados.

En estos cuadros una escala va en la vertical y la otra en la horizontal. Por facilidad de comparar números
dispuestos en fila que en columna: en la vertical deberá colocarse la escala que tenga más subdivisiones o
que sea más importante que la otra.
La fila y la columna de TOTALES puede colocarse al principio o al final del cuadro indistintamente.

Los cuadros de asociación deben de cumplir con todos los requisitos de elaboración de un cuadro
estadístico. Ejemplo:

CUADRO No. 6
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
GUATEMALA 2178 2674 4852
SAN MARCOS 1590 2167 3757
HUEHUETENANGO 1538 1987 3525
ALTA VERAPAZ 1411 1505 2916
ESCUINTLA 1026 1688 2714
QUICHE 1240 1463 2703
QUETZALTENANGO 1170 1429 2599
JUTIAPA 780 1155 1935
SUCHITEPEQUEZ 804 1096 1900
TOTONICAPAN 833 1057 1890
CHIQUIMULA 717 1052 1769
CHIMALTENANGO 730 940 1670
SANTA ROSA 616 907 1523
JALAPA 579 804 1383
PETEN 478 875 1353
IZABAL 527 794 1321
SOLOLA 575 650 1225
RETALHULEU 510 673 1183
SACATEPEQUEZ 546 633 1179
ZACAPA 407 591 998
BAJA VERAPAZ 410 525 935
EL PROGRESO 256 359 615
TOTAL 18,921 25,024 43945
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

ANÁLISIS
El análisis de estos cuadros, exactamente igual que en las distribuciones simples de frecuencias cualitativas,
es mediante el cálculo de porcentajes. Toda vez que la tabla tiene una fila y una columna de totales, además
de un total general, hay tres formas diferentes como pueden calcularse los porcentajes.

Con propósitos de presentación y análisis, no es conveniente, en este tipo de tablas, exhibir los porcentajes
incorporados al cuerpo del cuadro, sino más bien presentar tablas derivadas o secundarias en las cuales se
encuentran únicamente los porcentajes, pero indicando con claridad cuál o cuáles son los totales con
respecto a los cuales se calculó, pues en caso contrario, dicho porcentaje carecería de significación como

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 9
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
ilustración de este tipo de análisis calcularemos los porcentajes para el cuadro No. 5, para los cuales se
tienen las siguientes alternativas.

En relación con el total general:


De los 43,945 casos de mortalidad en los departamentos de Guatemala, 25,024 son de sexo masculino, lo
que representa un 56.94%, esto es: 25,024/43945 X 100 = 56.94%, y 18,921 son de sexo femenino, lo que
representa un 43.06%.

CUADRO No. 7
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
-cifras relativas-
Porcentajes sobre el total general, n = 43,945.

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
% %
GUATEMALA 4.96 6.08 11.04
SAN MARCOS 3.62 4.93 8.55
HUEHUETENANGO 3.50 4.52 8.02
ALTA VERAPAZ 3.21 3.42 6.63
ESCUINTLA 2.33 3.84 6.17
QUICHE 2.82 3.33 6.15
QUETZALTENANGO 2.66 3.25 5.91
JUTIAPA 1.77 2.63 4.40
SUCHITEPEQUEZ 1.83 2.49 4.32
TOTONICAPAN 1.90 2.40 4.30
CHIQUIMULA 1.63 2.39 4.02
CHIMALTENANGO 1.66 2.14 3.80
SANTA ROSA 1.40 2.06 3.46
JALAPA 1.32 1.83 3.15
PETEN 1.09 1.99 3.08
IZABAL 1.20 1.81 3.01
SOLOLA 1.31 1.48 2.79
RETALHULEU 1.16 1.53 2.69
SACATEPEQUEZ 1.24 1.44 2.68
ZACAPA 0.93 1.34 2.27
BAJA VERAPAZ 0.93 1.20 2.13
EL PROGRESO 0.58 0.82 1.40
TOTAL 43.06 56.94 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

En relación con los totales de las filas:

De los 4,852 casos de las muertes en el departamento de Guatemala el 44.89% son mujeres (2178/4852 X
100) y el 55.11% son hombres (2674/4852). (Ver cuadro No. 8).

10
Presentación Tabular y Gráfica de la Variable Cualitativa.

CUADRO No. 8
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras r elativas
(Porcentajes con relación a los totales de la columna)

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
GUATEMALA 44.89 55.11 100
SAN MARCOS 42.32 57.68 100
HUEHUETENANGO 47.69 56.37 100
ALTA VERAPAZ 48.39 51.61 100
ESCUINTLA 37.80 62.20 100
QUICHE 45.87 54.13 100
QUETZALTENANGO 45.02 54.98 100
JUTIAPA 40.31 59.69 100
SUCHITEPEQUEZ 42.32 57.68 100
TOTONICAPAN 44.07 55.93 100
CHIQUIMULA 40.53 59.47 100
CHIMALTENANGO 43.71 56.29 100
SANTA ROSA 40.45 59.55 100
JALAPA 41.87 58.13 100
PETEN 35.33 64.67 100
IZABAL 39.89 60.10 100
SOLOLA 46.94 53.06 100
RETALHULEU 43.11 56.89 100
SACATEPEQUEZ 46.31 53.69 100
ZACAPA 40.78 59.22 100
BAJA VERAPAZ 43.85 56.15 100
EL PROGRESO 41.63 58.37 100
TOTAL 43.06 56.94 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

Con relación a los totales de las columnas, de los 25024 casos de mortalidad del sexo masculino 1463 Vivian
en Quiché, lo que representa un 5.85%. (Ver cuadro No. 9).

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 11
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
CUADRO No. 9
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras relativas
(Porcentajes relacionados con la fila de totales)

DEPARTAMENTO SEXO
FEMENINO MASCULINO
GUATEMALA 11.52 10.68
SAN MARCOS 8.41 8.66
HUEHUETENANGO 8.13 7.94
ALTA VERAPAZ 7.46 6.01
ESCUINTLA 5.42 6.74
QUICHE 6.56 5.85
QUETZALTENANGO 6.19 5.71
JUTIAPA 4.12 4.38
SUCHITEPEQUEZ 4.25 4.38
TOTONICAPAN 4.40 4.22
CHIQUIMULA 3.79 4.20
CHIMALTENANGO 3.86 3.76
SANTA ROSA 3.26 3.62
JALAPA 3.06 3.21
PETEN 2.53 3.50
IZABAL 2.79 3.17
SOLOLA 3.04 2.60
RETALHULEU 2.70 2.69
SACATEPEQUEZ 2.89 2.53
ZACAPA 2.15 2.36
BAJA VERAPAZ 2.17 2.10
EL PROGRESO 1.35 1.43
TOTAL 100 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

12
Presentación Tabular y Gráfica de la Variable Cualitativa.

1.3. REPRESENTACIÓN GRÁFICA

La representación gráfica es un complemento de la representación tabular. “En una gráfica la información


estadística se presenta en términos de magnitud interpretados visualmente”.

Las gráficas constituyen un instrumento estadístico de mucha importancia, ya que una gráfica bien
elaborada, en la presentación de datos ayuda a un análisis más rápido del problema; aunque se tenga el
inconveniente de que no son tan exactas, pues sólo se presentan valores aproximados. William Playfair a
quien se le atribuye la iniciación del método gráfico, escribió: “La ventaja del método propuesto no es dar
una expresión más exacta que la de las cifras, sino dar una idea más simple y permanente del proceso
gradual y de cantidades comparables en períodos diferentes presentando a la vista una figura gráfica, cuyas
proporciones corresponden al monto de las cantidades que intenta expresar”.

1.3.1. REPRESENTACION GRAFICA DE DATOS A ESCALA CUALITATIVA


Llamamos representación gráfica a escala cualitativa a la representación de los datos de la variable
cualitativa; entre las gráficas tenemos:

1.3.1.1 DIAGRAMA DE BARRAS


Es de fácil construcción e interpretación; todo diagrama debe de llenar los siguientes requisitos:

o Número, título y fuente, que deben de seguir los lineamientos generales para la construcción de
cuadros.

o Las magnitudes se muestran mediante la longitud de las barras que se trazan con referencia a
una escala horizontal o vertical, según el caso.

o Los valores de la escala se muestran en la parte superior y también abajo en el retículo o superficie
del trazado de la gráfica y se unen mediante líneas verticales.

o En lo que respecta a la ordenación de las barras es importante: Las barras difieren únicamente
en longitud y no en ancho.

o Se deja el mismo espacio entre barra y barra, para poder identificarlas fácilmente con el título.

o Las barras se ordenan por magnitud por facilidad de análisis, el orden puede ser creciente o
decreciente.

o Si se incluye la categoría –otros- ésta se muestra en la posición más baja. Esta posición podría no
ser la más adecuada de la ordenación por magnitud; sin embargo, es preferible dicha posición,
toda vez que la categoría –otros- generalmente incluye clases poco importantes.

o Las barras pueden hacerse verticalmente, si así se desea o bien horizontalmente dependiendo
del título, el cual debe colocarse por aparte.

o Línea cero. Una gráfica diseñada para mostrar magnitudes absolutas debe tener definida una
línea cero y una escala ininterrumpida, para facilitar el análisis de la gráfica o bien de la
comparación entre dos o más gráficas, ya que si no utilizamos la línea cero es muy difícil
establecer comparaciones.

1.3.1.2. DIAGRAMA DE BARRAS SIMPLES


Consiste en representar la información en barras individuales, medidas en una sola dirección a lo largo del
eje horizontal.

Son excelentes para la representación gráfica de los datos presentados en un cuadro de distribuciones
simples de frecuencias; a escala cualitativa, para este tipo de representación se puede utilizar cifras
absolutas o bien cifras relativas; se presenta a continuación este tipo de gráfica, con su respectivo cuadro.

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 13
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
CUADRO No. 10
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS, EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

TIPO DE VACUNA NIÑOS

BCG 24425
PENTAVALENTE 21547
OPV (Polio) 21533
SPR 6021
DPT 3669
TOTAL 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social

Con los datos del cuadro anterior, se presenta la gráfica de barras simples.

GRAFICA No. 1
VACUNACION PRACTICADA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000

25000

20000

15000

10000

5000

0
BCG PENTAVALENTEOPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 10.

1.3.1.3. DIAGRAMA DE BARRAS SEGMENTADAS


Es un diagrama similar al diagrama de barras simples, únicamente que en este caso la información va
segmentada en sus partes componentes; este tipo de diagrama es usado generalmente para representar
datos de asociación.

Se coloca una información seguida de otra; este tipo de gráfica presenta la dificultad de no ser tan clara, ya
que sólo la primera información principia en la línea cero, pero no las demás, es conveniente no utilizar más
de tres variables, ya que se presta a mucha confusión, para dar ejemplo de esta gráfica, se presenta el
siguiente cuadro.

CUADRO No. 11
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

TIPO DE VACUNA SEXO TOTAL


FEMENINO MASCULINO
BCG 14655 9770 24425
PENTAVALENTE 12928 8619 21547
OPV (Polio) 12919 8614 21533
SPR 3612 2409 6021
DPT 2201 1468 3669
TOTAL 46315 30880 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social
A partir de los datos del cuadro anterior, se representa el diagrama de barras segmentadas.

14
Presentación Tabular y Gráfica de la Variable Cualitativa.

GRAFICA No. 2
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000

25000

20000

15000
Sexo Masculino
10000 Sexo Femenino

5000

0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 11.

1.3.5 DIAGRAMA DE BARRAS AGRUPADAS


Este tipo de gráfica se elabora igual que los anteriores, es muy útil para datos de asociación, ya que permite
establecer comparación entre las variables involucradas. Para la elaboración de los diagramas de barras
agrupadas hay que seguir ciertas reglas, entre estas debe de identificar los componentes:
o Las barras deben de colocarse de diferentes colores; también, se puede utilizar alguna manera de
diferenciación entre unas y otras.
o El espaciamiento en estas gráficas, se utiliza de la siguiente manera; no se deja espacio entre barra
y barra, sino el espaciamiento es entre grupo y grupo de barras.

o La claridad y simplicidad, en estas gráficas indica que no se debe mostrar mucha información en la
misma gráfica. Se puede utilizar barras dobles, triples en barras agrupadas, pero si son más barras
resulta una gráfica confusa o sin utilidad.

Veamos un ejemplo de este tipo de gráficas:

GRAFICA No. 3
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
16000

14000

12000

10000

8000
Sexo Femenino
6000
Sexo Masculino
4000

2000

0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 11.

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 15
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
1.3.6 DIAGRAMA DE BARRAS BIDIRECCIONALES
Es utilizado al igual que el de barras segmentadas o agrupadas, se utiliza para presentar datos de
asociación, se recomienda representar la relación únicamente de dos variables cualitativas, cada una con
sus categorías; además, se utiliza la misma escala en dos sentidos, a partir de una línea cero. Ejemplo:

GRAFICA No. 4
VACUNACION PRACTICADA EN NIÑOS AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

Fuente: Datos del cuadro No. 10.

1.3.7 DIAGRAMA DE SECTORES


Se utiliza para mostrar el tamaño relativo de componentes de un total de frecuencias u observaciones de
una sola variable cualitativa. Este diagrama es muy usado con fines de presentaciones populares, ya que su
interpretación es sumamente sencilla. En el diagrama de sectores se puede presentar cifras absolutas y
cifras relativas.

Para su construcción (manual) se hace uso de un círculo y como éste tiene 360o , al representar la
información hay que establecer la relación, se toma como ejemplo los datos del cuadro No. 10.

Los 77195 niños vacunados forman el 100%, esto equivale a representarlos en un círculo.

77195-------------100%-------------360o

Si se quiere graficar toda la información, se tiene:

Frecuencias absolutas Frecuencias relativas Grados


Vacunados BCG 24425 113.904
Vacunados OPV (Polio) 21533
Vacunados con PENTEVALENTE 21547
Vacunados con SPR 6021
Vacunados con DPT 3669
Total 77195 100% 360o

Para calcular los datos se aplica una regla de 3. Ejemplo:

Para el porcentaje:

77195 100%
(244255 X 100)/77195 = 31.64%
24425 X
Para el grado:

100 360%
(31.64 X 360)/100 = 113.904%
31.64% X

16
Presentación Tabular y Gráfica de la Variable Cualitativa.

Vacunados BCG 24425 31.64% 113.904o


Vacunados OPV (Polio) 21533 27.89% 100.404o
Vacunados con PENTEVALENTE 21547 27.91% 100.476o
Vacunados con SPR 6021 7.80% 28.080o
Vacunados con DPT 3669 4.75% 17.100o
Total 77195

Teniendo ya los datos se procede a graficar, con la ayuda de un transportador, para poder buscar los
grados correspondientes a cada variable involucrada.

Cuando se grafica en forma manual, es aconsejable principiar a construir del ángulo de 0 o

GRAFICA No. 4
VACUNACION PRACTICADA AL TOTAL DE NIÑOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

BCG OPV (Polio) PENTREVALENTE SPR

Fuente: Datos del cuadro No. 10.

BIBLIOGRAFIA:

1. Documento “Guía de Lectura”. Docentes Estadística.


Leal, Francisco. “Estadística Descriptiva e Investigación”. Guatemala, Imperial Gráfica. Sf. S.p.
2. Orellana González, René Arturo. “Estadística”. Ed. Superiores de Guatemala.
3. Ministerio de Salud Pública y Asistencia Social. Boletín de la Red de Servicios de Salud y Asistencia
Social 2009.

TDEM/tdem

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2023 17
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
Presentación Tabular y Gráfica de la Variable Cualitativa.

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA


CENTRO UNIVERSITARIO METROPOLITANO
FACULTAD DE CIENCIAS MEDICAS
Área Curricular de Investigación
U. D.: BIOESTADISTICA
PRESENTACIÓN DE LA VARIABLE CUALITATIVA

1. Presentación de datos
En la investigación, la información que se recopile en la recolección de la información, se puede presentar
de las tres formas siguientes:
a. En forma escrita (con palabras).
b. En cuadros o tablas.
c. En gráficas.

1.1 Presentación escrita


Consiste en dar la información de las cifras en párrafos escritos. Este sistema es
ventajoso cuando el resultado es poco; pero es tedioso y puede dar lugar a
confusión cuando la información es muy amplia.

Ejemplo: En la República de Guatemala se publica el boletín de la red de


establecimientos del Ministerio de Salud Pública y Asistencia Social, el boletín
publicado en 2009 presenta los siguientes datos del Departamento de Guatemala:
“Existen 99 establecimientos que prestan servicios de salud; encontrándose 9
hospitales que representan el 9.09%, 28 centros de salud que hacen el 28.28% y 62
puestos de salud equivalente al 62.63%”.

1.2 Presentación tabular


Los resultados en cifras se disponen en el cuerpo de un cuadro estadístico, presentado en líneas y
columnas.
La presentación tabular se ha definido como: “el medio de resumir y presentar datos relacionados unos con
otros y otra información en columnas y filas.
Su objetivo es presentar de manera concisa y adecuada información que no podrías ser presentada tan
claramente en ninguna forma”.(1)

1.2.1 Partes de un cuadro


Todo cuadro estadístico está estructurado con los siguientes elementos:
Características o
categorías de la
NÚMERO DEL ENCABEZADO O TABLA
segunda variable
TITULO
cualitativa
(NOTA DE ENCABEZADO)

ENCABEZADO DE LA ENCABEZADO FILA MATRIZ


COLUMNA MATRIZ Segunda variable cualitativa
Características Primera variable Cualitativa SUB ENCABEZADO SUB ENCABEZADO
o categorías de SUB ENCABEZADO CELDA CELDA
la primera SUB ENCABEZADO CELDA CELDA
variable SUB ENCABEZADO CELDA CELDA
cualitativa
Nota de pie.
Fuente y origen

Para indicar las partes de un cuadro, se presenta el siguiente ejemplo.

(1) YS. BUREAU OF THE GENGUS. Burcean of the Census Manual of Tabular Presentation by Brunce L. Jenkinson. Washington D.C.: U.S. Government.
Printing office, 1950.

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 1
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
CUADRO No. 1
RED DE ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA
ROSA, GUATEMALA. 2009.
(Sólo de tomaron en cuenta los establecimientos que están funcionando)

ESTABLECIMIENTOS DE SALUD TOTAL


MUNICIPIO PUESTO CENTRO DE HOSPITALES
DE SALUD SALUD
CUILAPA 3 1 1 5
NUEVA SANTA ROSA 5 1 0 6
PUEBLO NUEVO VIÑAS 6 1 0 7
TAXISCO 4 1 0 5
SANTA CRUZ NARANJO 3 1 0 4
SANTA ROSA DE LIMA 1 1 0 2
BARBERENA 1 1 0 2
ORATORIO 3 1 0 4
SAN JUAN TECUACO 1 1 0 2
CHIQUIMULILLA 10 1 0 11
GUAZACAPAN 4 1 0 5
TOTAL 41 11 1 53
Nota: Los datos expuestos en el cuadro están actualizados a la fecha indicada.
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

Cada uno de los componentes de un cuadro estadístico deben de cumplir con ciertas reglas relativas,
encontrándose entre las más importantes:

1.2.1.1 Número de cuadro


El número indica la posición del cuadro dentro de un informe, texto o estudio, facilitando así su referencia.

Para esto es necesario llenar los cuadros de acuerdo al orden de aparición dentro del estudio, por ejemplo,
si la tabla o cuadro es la primera de un documento con tres capítulos y aparece en el primer capítulo será
el cuadro No. 1.1., el primer valor indica el número del capítulo y el segundo el número del cuadro; si luego
en el mismo estudio aparecen más tablas; por ejemplo, otra numerada 3.5 indica que es la tabla No. 5 del
capítulo número 3. Cuando aparece únicamente una tabla en el reparto o estudio puede omitirse el
número.

1.2.1.2 Título de un cuadro o tabla


El título de una tabla debe de ser la descripción resumida del contenido de un cuadro, por lo que debe ser
completo y conciso.
Ejemplo: Veamos el cuadro No. 1,
Un título es completo en tanto cumpla con las siguientes interrogantes: cumple el título con las
interrogantes.
¿QUÉ? ¿Qué estudia o cuál es el
¿Qué? ¿Qué se estudia? Red de
universo o población que investiga?
¿Cómo? establecimientos de salud.
¿Dónde?
¿Cómo? ¿Cómo se estudia o bajo qué
criterio de clasificación se maneja la ¿Cómo se estudia? Por municipios.
¿Cuándo?
información? ¿Dónde fue el lugar donde se
¿Dónde? El área geográfica que recopiló la investigación?
cubre la investigación o a qué lugar Departamento de Santa Rosa,
se refiere. Guatemala.
¿Cuándo? Fecha o período que ¿Cuándo se llevó a cabo? Año
abarca la investigación. 2009.

1.2.1.3 NOTAS DE ENCABEZADO


Estas se colocan cerca del título, proporcionan información general sobre la tabla completa o sobre alguna
parte que quiera resaltarse de la misma.

2
Presentación Tabular y Gráfica de la Variable Cualitativa.

En algunas ocasiones las notas de encabezado se utilizan para definir algún término del título, o para indicar
las unidades en que se está trabajando la información que aparece en el cuadro.
Estas notas deben escribirse con letra minúscula, van entre paréntesis y abajo del título. Ejemplo: Cuadro
No. 1 (Sólo se tomaron en cuenta los establecimientos que están funcionando).

1.2.1.4 CUERPO DEL CUADRO


Es un conjunto de celdas dispuestas en filas y columnas.

 FILA MATRIZ
Es la primera fila, cumple un propósito diferente a las demás filas ya que, en ella se colocan las diferentes
subdivisiones de la clasificación o encabezados de los datos expuestos en el cuerpo del cuadro. Ejemplo
Cuadro No. 1.

ESTABLECIMIENTOS DE SALUD TOTAL

PUESTOS DE SALUD CENTROS DE SALUD HOSPITALES

 COLUMNA MATRIZ
Cumple el mismo propósito de la fila matriz únicamente que en ella se colocan los encabezados de los datos
de las diferentes filas. Ejemplo: Cuadro No. 1

MUNICIPIOS
CUILAPA
NUEVA SANTA ROSA
PUEBLO NUEVO VIÑAS
TAXISCO

 ORDENAMIENTO DE LA COLUMNA MATRIZ


Los renglones de la columna matriz se pueden ordenar de varias formas: Alfabética, Geográfica, por
magnitud, cronológica, usual, numérica.

o ALFABETICA
Facilita la localización de la información, ejemplo:

ENFERMEDADES DEL CORAZON PACIENTES


FEMENINO MASCULINO
ARTERIOESCLEROSIS 50 40
COR-PULMONAR 30 60
HIPERTENSION ARTERIAL 30 30
INFARTO AL MIOCARDIO 20 25

o GEOGRAFICA
Es aplicable cuando los usuarios están muy familiarizados con la clasificación. Ejemplo.

ZONIFICACION NUMERO DE HOSPITALES


CENTRO 5
SUR 6
NORTE 4
ORIENTE 2
OCCIDENTE 6

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 3
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
o POR MAGNITUD
Este tipo de ordenamiento se hace en forma ascendente o descendente, según su magnitud. Ejemplo:

TIPO DE QUEMADURA NUMERO DE PACIENTES


PRIMER GRADO 200
SEGUNDO GRADO 130
TERCER GRADO 50

o CRONOLÓGICO
Por años que puede ser del más antiguo al más cercano o viceversa o bien por meses. Ejemplo:
AÑO MESES
1995 ENERO
2000 FEBRERO
2005 MARZO
2010
ABRIL
2015
MAYO
2020
JUNIO

o USUAL
Cuando la información se presenta según clases ya establecidas. Ejemplo:

ESTADO CIVIL
SOLTERO
CASADO
UNIDO
VIUDO
DIVORCIADO

o NUMÉRICO
Cuando tiene que enumerarse las clases. Ejemplo: Las zonas de las diferentes ciudades del Departamento
de Guatemala.
ZONIFICACION
1
2
3
4
5

4
Presentación Tabular y Gráfica de la Variable Cualitativa.

 CELDAS
Es el espacio que encierra cada dato individual; proporcionando información tanto de la columna como de
la fila, son estos los que se consideran el cuerpo del cuadro, ya que aquí está considerada toda la
información numérica. Ejemplo: Cuadro No. 1.

ESTABLECIMIENTOS DE SALUD
MUNICIPIO PUESTO DE CENTRO DE HOSPITALES TOTAL
SALUD SALUD
CUILAPA CELDA CELDA CELDA CELDA
3 1 1 5
NUEVA SANTA ROSA CELDA CELDA CELDA CELDA
5 1 0 6
PUEBLO NUEVO VIÑAS CELDA CELDA CELDA0 CELDA
6 1 0 7
TAXISCO CELDA CELDA CELDA CELDA
4 1 0 5
SANTA CRUZ NARANJO CELDA CELDA CELDA CELDA
3 1 0 4
SANTA ROSA DE LIMA CELDA CELDA CELDA CELDA
1 1 0 2
BARBERENA CELDA CELDA CELDA CELDA
1 1 0 2
ORATORIO CELDA CELDA CELDA0 CELDA
3 1 4
SAN JUAN TECUACO CELDA CELDA CELDA CELDA
1 1 0 2
CHIQUIMULILLA CELDA CELDA CELDA CELDA
10 1 0 11
GUAZACAPAN CELDA CELDA CELDA CELDA
4 1 0 5
TOTAL 41 11 1 53

1.2.1.5 NOTA DE PIE


Se colocan al pie del cuadro y pueden tener información de tipo general o bien específica. Es decir, pueden
ser explicaciones de una fila, de una columna o bien una cifra en particular.

Si son explicaciones que se localizan en la columna matriz, o fila matriz se identifican con números 1, 2, 3…,
las referencias a cifras en particular se señalan con letras minúsculas: a, b, c, o con asteriscos (*) para evitar
que se confundan con las cifras del cuadro.

La utilización de la nota de pie tiende a desaparecer siempre que la nota de encabezado llene esta función.
Ejemplo cuadro No. 1 (los datos expuestos en el cuadro están actualizados a la fecha indicada).

1.2.1.6 FUENTE U ORIGEN


Toda información debe tener información sobre su origen, ya que esto sirve al consultante para comprobar,
evaluar o bien obtener información, si fuera necesario.

También es importante el indicar por quien fue recabada la información y la técnica utilizada para la
recopilación de la misma. Si los datos fueron obtenidos de algún reporte o libro, la referencia al margen de
la información siguiendo las reglas convencionales de las citas bibliográficas. Ejemplo: Cuadro No. 1 Fuente:
(Boletín del Ministerio de Salud Pública).

1.2.2 OTROS ASPECTOS A CONSIDERAR


Se pueden considerar, además de los lineamientos anteriores, los siguientes:

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 5
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
o TOTALES
Pueden colocarse en la primera fila y en la primera columna por ser las partes más visibles de un cuadro,
pero es correcto colocarlos en la última fila y en la primera columna. Ejemplo: ver cuadro No. 1

o RAYADO
Se usa línea doble horizontal sólo para abrir el cuadro. Las líneas horizontales se usan únicamente para
abrir y cerrar y para subrayar totales y subtotales.

Las líneas verticales se usan únicamente para separar columnas. El cuadro se puede dejar abierto en sus
lados izquierdo y derecho.

o TIPO DE LETRA
Sólo el título se pone con letras mayúsculas, el resto de rótulos con minúsculas del mismo tipo, excepto la
palabra total que debe ir con mayúsculas. Se utiliza tipo más pequeño de minúsculas, para las notas de
encabezamiento, pie, o fuente informativa. Todos los rótulos o leyendas deben de escribirse
horizontalmente.

o CIFRAS
Las cifras escritas en el cuerpo del cuadro deben de ir separadas en sus millares y millones con una coma y
para separar decimales se utiliza punto. 2,161.05.

o SIGNOS CONVENCIONALES
Cifras es cero. (-) guión
No hay información. (.) punto
Existe información, pero no ha sido recibida o publicada. (…) tres puntos
Cifra tan pequeña que no se puede expresar en la unidad mencionada (o) cero.

1.2.3 CLASIFICACION Y USO DE LOS CUADROS ESTADISTICOS


Según su finalidad los cuadros pueden clasificarse en dos categorías: Propósito general, Propósito
específico.

1.2.3.1 CUADROS DE PROPÓSITO GENERAL


Se elaboran con el fin de servir como fuente de información estadística y se encuentran en estudios de tipo
descriptivo o apéndices de trabajos analíticos, reportes. Generalmente estos son cuadros con demasiados
datos, por lo que se dificulta el análisis de involucrados. Son cuadros vinculados con la etapa de recolección
de datos.

1.2.3.2 CUADROS DE PROPÓSITO ESPECÍFICO


Son cuadros que se elaboran con el fin de análisis o de cálculo. Generalmente se utilizan en trabajos
monográficos y tienen como objetivo mostrar datos sobre los que se quiera llamar la atención y constituyen
el fundamento de las conclusiones que se derivan de la investigación.

Con fines de estudio, los cuadros de uso específico se clasifican: cuadros de investigación, cuadros
expositivos o presentativos y tablas de trabajo.

o CUADROS DE INVESTIGACION
Estos son de carácter interno, generalmente no son publicados, muchas veces sirven para labores previas a
la presentación.

Los cuadros de investigación utilizados son: Cuadro dicotómico simple y cuadro dicotómico de doble
entrada

o CUADROS EXPOSITIVOS O CUADROS DE PRESENTACIÓN

Tienen como objetivo mostrar cifras estadísticas relacionadas con los temas de trabajo. Estos aparecen en
trabajos de investigación, reportes, publicaciones, estudios descriptivos, et.

Este tipo de cuadros deben cumplir obligadamente con todos los requisitos de elaboración de un cuadro
estadístico ya que establecen la base para cualquier análisis.

6
Presentación Tabular y Gráfica de la Variable Cualitativa.

Para una presentación más adecuada de los datos y sobre todo para un mejor análisis, es conveniente
estudiar ésta, desde el punto de vista de las variables evaluadas; por lo que se consideran dos situaciones.
Si la variable o variables en estudio son de naturaleza cualitativa: los datos se agrupan en una o varias
escalas cualitativas, llamadas clases o categorías. o Si la variable o las variables en estudio son de naturaleza
cuantitativa, los datos se agrupan en una o varias escalas cuantitativas llamadas clases o intervalos de clase.

1.2.4 PRESENTACION TABULAR DE LA VARIABLE CUALITATIVA


Cuando la información incluye una sola variable la representación tabular de la misma se realiza mediante
una tabla de 2 columnas que es lo que llamamos distribución de frecuencias.

En la primera columna se anotan las categorías de la variable y en la segunda columna el número de


frecuencias o casos que corresponde a cada categoría. Ejemplo:

CUADRO No. 4
ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA ROSA,
GUATEMALA. 2009.
TIPO DE ESTABLECIMIENTO No.
HOSPITALES 1
PUESTOS DE SALUD 54
CENTROS DE SALUD 14
TOTAL 69
Fuente: Boletín del Ministerio de Salud Pública .

Según los datos del cuadro No. 4, se observa que la variable tipo de establecimientos es una variable
cualitativa y el número de establecimientos es una cuantificación de la variable en estudio.

ANÁLISIS
La información de la variable cualitativa al presentarse, habitualmente se analiza mediante el cálculo de
frecuencias relativas o tantos por ciento. Para ilustrar el concepto de frecuencia relativa y tanto por ciento,
consideremos la siguiente situación.

Supóngase que una variable toma los valores A,B y C. Valores observados de la variable y que el número de
casos o frecuencias son FA, FB y FC respectivamente, siendo N = FA + FB + FC la frecuencia total o el número
total de observaciones, esto es:

VARIABLE FRECUENCIAS
A FA
B FB
C FC
TOTAL N = FA + FB + FC

Podemos comparar las FRECUENCIAS ABSOLUTAS (FA, FB, FC) contra la frecuencia total (N), obteniendo las
correspondientes FRECUENCIAS RELATIVAS (Fra, F rb), las cuales se definen como:
Fra. = FA/N
Frb = FB/N
Frc = FC/N

Ya que:
FA/N + FB/N + FC/N = FA + FB + FC/N = N/N = 1

Se puede generalizar que la suma de las frecuencias relativas es igual a uno, lo cual puede servir como un
criterio de verificación de las operaciones efectuadas. Un tanto por ciento es una frecuencia relativa,
multiplicada por 100: en este caso, los respectivos tantos por ciento son:
%A = FA / N x 100

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 7
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
%B = FB/ N X 100
%C = FC/N x 100

El análisis en una distribución simple de frecuencias de una variable cualitativa consiste en incluir en dicha
tabla una columna para las frecuencias relativas y otra para los tantos por ciento. En la práctica la columna
de frecuencia relativa suele omitirse, presentando únicamente los tantos por ciento. En este caso
tendremos:

VARIABLE FRECUENCIA ABSOLUTA TANTOS POR CIENTO


A FA FA/N X 100
B FB FB/N x 100
C FC FC/N X 100
TOTAL N 100%

CUADRO No. 5
PRIMERAS VEINTE CAUSAS DE MORTALIDAD EN GUATEMALA.
GUATEMALA, 2009.
(En cifras absolutas y relativas)

DIAGNOSTICO FRECUENCIAS FRECUENCIA TANTOS


ABSOLUTAS RELATIVA POR
CIENTO
NEUMONIA POR ORGANISMO NO ESPECIFICADO 6488 0.2343 23.43
INFARTO AGUDO DEL MIOCARDIO 2953 0.1066 10.66
PARO CARDIACO 2222 0.0802 8.02
DISPARO DE OTRAS ARMAS DE FUEGO Y NO 2156 0.0778 7.78
ESPECIFICADAS
EVENTO CEREBROVASCULAR NO ESPECIFICADO 1453 0.0525 5.25
INSUFICIENCIA CARDIACA 1347 0.0486 4.86
DIABETES MELLITUS NO ESPECIFICADA 1294 0.0467 4.67
DIARREA Y GASTROENTERITOS DE PRESUNTO 1203 0.0434 4.34
ORIGEN INFECCIOSO
SENILIDAD 1136 0.0410 4.10
OTRAS SEPTISEMIAS 1049 0.0379 3.79
TUMOR MALIGNO DEL ESTÓMAGO 790 0.0285 2.85
OTROS SÍNTOMAS Y SIGNOS DEL SISTEMA 755 0.0273 2.73
CIRCULATORIO Y RESPIRATORIO
FIBROSIS Y CIRROSIS DEL HIGADO 717 0.0259 2.59
ENFERMEDAD ALCOHOLICA DEL HIGADO 664 0.0240 2.40
TRAUMATISMO INTRACRANEANO 659 0.0238 2.38
INSUFICIENCIA RENAL NO ESPECIFICADA 588 0.0212 2.12
DESNUTRICION PROTEICOCALORICA NO 574 0.0207 2.07
ESPECIFICADA
HIPERTENSION ARTERIAL ESCENCIAL 557 0.0201 2.01
CHOQUE NO CLASIFICADO 547 0.0197 1.97
TUMOR MALIGNO DEL HIGADO Y VIAS BILIARES 543 0.0196 1.96
INTRAHEPATICAS
TOTAL 27695 1.0000 100
Fuente: Boletín del Ministerio de Salud Pública y Asistencia Social.

Con fines de análisis es conveniente colocar la columna de tanto por ciento, ya que facilita la visión del tema
en estudio.

8
Presentación Tabular y Gráfica de la Variable Cualitativa.

 DATOS DE ASOCIACIÓN Y CUADROS DE ASOCIACIÓN

En este tipo de cuadros las observaciones se agrupan de acuerdo a dos escalas de clasificación, se dice que
los datos están asociados.

En estos cuadros una escala va en la vertical y la otra en la horizontal. Por facilidad de comparar números
dispuestos en fila que en columna: en la vertical deberá colocarse la escala que tenga más subdivisiones o
que sea más importante que la otra.
La fila y la columna de TOTALES puede colocarse al principio o al final del cuadro indistintamente.

Los cuadros de asociación deben de cumplir con todos los requisitos de elaboración de un cuadro
estadístico. Ejemplo:

Cuadro No. 6
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
GUATEMALA 2178 2674 4852
SAN MARCOS 1590 2167 3757
HUEHUETENANGO 1538 1987 3525
ALTA VERAPAZ 1411 1505 2916
ESCUINTLA 1026 1688 2714
QUICHE 1240 1463 2703
QUETZALTENANGO 1170 1429 2599
JUTIAPA 780 1155 1935
SUCHITEPEQUEZ 804 1096 1900
TOTONICAPAN 833 1057 1890
CHIQUIMULA 717 1052 1769
CHIMALTENANGO 730 940 1670
SANTA ROSA 616 907 1523
JALAPA 579 804 1383
PETEN 478 875 1353
IZABAL 527 794 1321
SOLOLA 575 650 1225
RETALHULEU 510 673 1183
SACATEPEQUEZ 546 633 1179
ZACAPA 407 591 998
BAJA VERAPAZ 410 525 935
EL PROGRESO 256 359 615
TOTAL 18,921 25,024 43945
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

ANÁLISIS
El análisis de estos cuadros, exactamente igual que en las distribuciones simples de frecuencias cualitativas,
es mediante el cálculo de porcentajes. Toda vez que la tabla tiene una fila y una columna de totales, además
de un total general, hay tres formas diferentes como pueden calcularse los porcentajes.

Con propósitos de presentación y análisis, no es conveniente, en este tipo de tablas, exhibir los porcentajes
incorporados al cuerpo del cuadro, sino más bien presentar tablas derivadas o secundarias en las cuales se
encuentran únicamente los porcentajes, pero indicando con claridad cuál o cuáles son los totales con
respecto a los cuales se calculó, pues en caso contrario, dicho porcentaje carecería de significación como

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 9
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
ilustración de este tipo de análisis calcularemos los porcentajes para el cuadro No. 5, para los cuales se
tienen las siguientes alternativas.

En relación con el total general:


De los 43,945 casos de mortalidad en los departamentos de Guatemala, 25,024 son de sexo masculino, lo
que representa un 56.94%, esto es: 25,024/43945 X 100 = 56.94%, y 18,921 son de sexo femenino, lo que
representa un 43.06%.

CUADRO No. 7
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
-cifras relativas-
Porcentajes sobre el total general, n = 43,945.

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
% %
GUATEMALA 4.96 6.08 11.04
SAN MARCOS 3.62 4.93 8.55
HUEHUETENANGO 3.50 4.52 8.02
ALTA VERAPAZ 3.21 3.42 6.63
ESCUINTLA 2.33 3.84 6.17
QUICHE 2.82 3.33 6.15
QUETZALTENANGO 2.66 3.25 5.91
JUTIAPA 1.77 2.63 4.40
SUCHITEPEQUEZ 1.83 2.49 4.32
TOTONICAPAN 1.90 2.40 4.30
CHIQUIMULA 1.63 2.39 4.02
CHIMALTENANGO 1.66 2.14 3.80
SANTA ROSA 1.40 2.06 3.46
JALAPA 1.32 1.83 3.15
PETEN 1.09 1.99 3.08
IZABAL 1.20 1.81 3.01
SOLOLA 1.31 1.48 2.79
RETALHULEU 1.16 1.53 2.69
SACATEPEQUEZ 1.24 1.44 2.68
ZACAPA 0.93 1.34 2.27
BAJA VERAPAZ 0.93 1.20 2.13
EL PROGRESO 0.58 0.82 1.40
TOTAL 43.06 56.94 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

En relación con los totales de las filas:

De los 4,852 casos de las muertes en el departamento de Guatemala el 44.89% son mujeres (2178/4852 X
100) y el 55.11% son hombres (2674/4852). (Ver cuadro No. 8).

10
Presentación Tabular y Gráfica de la Variable Cualitativa.

CUADRO No. 8
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras r elativas
(Porcentajes con relación a los totales de la columna)

DEPARTAMENTO SEXO TOTAL


FEMENINO MASCULINO
GUATEMALA 44.89 55.11 100
SAN MARCOS 42.32 57.68 100
HUEHUETENANGO 47.69 56.37 100
ALTA VERAPAZ 48.39 51.61 100
ESCUINTLA 37.80 62.20 100
QUICHE 45.87 54.13 100
QUETZALTENANGO 45.02 54.98 100
JUTIAPA 40.31 59.69 100
SUCHITEPEQUEZ 42.32 57.68 100
TOTONICAPAN 44.07 55.93 100
CHIQUIMULA 40.53 59.47 100
CHIMALTENANGO 43.71 56.29 100
SANTA ROSA 40.45 59.55 100
JALAPA 41.87 58.13 100
PETEN 35.33 64.67 100
IZABAL 39.89 60.10 100
SOLOLA 46.94 53.06 100
RETALHULEU 43.11 56.89 100
SACATEPEQUEZ 46.31 53.69 100
ZACAPA 40.78 59.22 100
BAJA VERAPAZ 43.85 56.15 100
EL PROGRESO 41.63 58.37 100
TOTAL 43.06 56.94 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

Con relación a los totales de las columnas, de los 25024 casos de mortalidad del sexo masculino 1463 Vivian
en Quiché, lo que representa un 5.85%. (Ver cuadro No. 9).

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 11
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
CUADRO No. 9
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras relativas
(Porcentajes relacionados con la fila de totales)

DEPARTAMENTO SEXO
FEMENINO MASCULINO
GUATEMALA 11.52 10.68
SAN MARCOS 8.41 8.66
HUEHUETENANGO 8.13 7.94
ALTA VERAPAZ 7.46 6.01
ESCUINTLA 5.42 6.74
QUICHE 6.56 5.85
QUETZALTENANGO 6.19 5.71
JUTIAPA 4.12 4.38
SUCHITEPEQUEZ 4.25 4.38
TOTONICAPAN 4.40 4.22
CHIQUIMULA 3.79 4.20
CHIMALTENANGO 3.86 3.76
SANTA ROSA 3.26 3.62
JALAPA 3.06 3.21
PETEN 2.53 3.50
IZABAL 2.79 3.17
SOLOLA 3.04 2.60
RETALHULEU 2.70 2.69
SACATEPEQUEZ 2.89 2.53
ZACAPA 2.15 2.36
BAJA VERAPAZ 2.17 2.10
EL PROGRESO 1.35 1.43
TOTAL 100 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.

12
Presentación Tabular y Gráfica de la Variable Cualitativa.

1.3. REPRESENTACIÓN GRÁFICA

La representación gráfica es un complemento de la representación tabular. “En una gráfica la información


estadística se presenta en términos de magnitud interpretados visualmente”.

Las gráficas constituyen un instrumento estadístico de mucha importancia, ya que una gráfica bien
elaborada, en la presentación de datos ayuda a un análisis más rápido del problema; aunque se tenga el
inconveniente de que no son tan exactas, pues sólo se presentan valores aproximados. William Playfair a
quien se le atribuye la iniciación del método gráfico, escribió: “La ventaja del método propuesto no es dar
una expresión más exacta que la de las cifras, sino dar una idea más simple y permanente del proceso
gradual y de cantidades comparables en períodos diferentes presentando a la vista una figura gráfica, cuyas
proporciones corresponden al monto de las cantidades que intenta expresar”.

1.3.1. REPRESENTACION GRAFICA DE DATOS A ESCALA CUALITATIVA


Llamamos representación gráfica a escala cualitativa a la representación de los datos de la variable
cualitativa; entre las gráficas tenemos:

1.3.1.1 DIAGRAMA DE BARRAS


Es de fácil construcción e interpretación; todo diagrama debe de llenar los siguientes requisitos:

o Número, título y fuente, que deben de seguir los lineamientos generales para la construcción de
cuadros.

o Las magnitudes se muestran mediante la longitud de las barras que se trazan con referencia a
una escala horizontal o vertical, según el caso.

o Los valores de la escala se muestran en la parte superior y también abajo en el retículo o superficie
del trazado de la gráfica y se unen mediante líneas verticales.

o En lo que respecta a la ordenación de las barras es importante: Las barras difieren únicamente
en longitud y no en ancho.

o Se deja el mismo espacio entre barra y barra, para poder identificarlas fácilmente con el título.

o Las barras se ordenan por magnitud por facilidad de análisis, el orden puede ser creciente o
decreciente.

o Si se incluye la categoría –otros- ésta se muestra en la posición más baja. Esta posición podría no
ser la más adecuada de la ordenación por magnitud; sin embargo, es preferible dicha posición,
toda vez que la categoría –otros- generalmente incluye clases poco importantes.

o Las barras pueden hacerse verticalmente, si así se desea o bien horizontalmente dependiendo
del título, el cual debe colocarse por aparte.

o Línea cero. Una gráfica diseñada para mostrar magnitudes absolutas debe tener definida una
línea cero y una escala ininterrumpida, para facilitar el análisis de la gráfica o bien de la
comparación entre dos o más gráficas, ya que si no utilizamos la línea cero es muy difícil
establecer comparaciones.

1.3.1.2. DIAGRAMA DE BARRAS SIMPLES


Consiste en representar la información en barras individuales, medidas en una sola dirección a lo largo del
eje horizontal.

Son excelentes para la representación gráfica de los datos presentados en un cuadro de distribuciones
simples de frecuencias; a escala cualitativa, para este tipo de representación se puede utilizar cifras
absolutas o bien cifras relativas; se presenta a continuación este tipo de gráfica, con su respectivo cuadro.

CUADRO No. 10

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 13
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS, EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

TIPO DE VACUNA NIÑOS

BCG 24425
PENTAVALENTE 21547
OPV (Polio) 21533
SPR 6021
DPT 3669
TOTAL 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social

Con los datos del cuadro anterior, se presenta la gráfica de barras simples.

GRAFICA No. 1
VACUNACION PRACTICADA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000

25000

20000

15000

10000

5000

0
BCG PENTAVALENTEOPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 10.

1.3.1.3. DIAGRAMA DE BARRAS SEGMENTADAS


Es un diagrama similar al diagrama de barras simples, únicamente que en este caso la información va
segmentada en sus partes componentes; este tipo de diagrama es usado generalmente para representar
datos de asociación.

Se coloca una información seguida de otra; este tipo de gráfica presenta la dificultad de no ser tan clara, ya
que sólo la primera información principia en la línea cero, pero no las demás, es conveniente no utilizar más
de tres variables, ya que se presta a mucha confusión, para dar ejemplo de esta gráfica, se presenta el
siguiente cuadro.

CUADRO No. 11
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

TIPO DE VACUNA SEXO TOTAL


FEMENINO MASCULINO
BCG 14655 9770 24425
PENTAVALENTE 12928 8619 21547
OPV (Polio) 12919 8614 21533
SPR 3612 2409 6021
DPT 2201 1468 3669
TOTAL 46315 30880 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social
A partir de los datos del cuadro anterior, se representa el diagrama de barras segmentadas.

14
Presentación Tabular y Gráfica de la Variable Cualitativa.

GRAFICA No. 2
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000

25000

20000

15000
Sexo Masculino
10000 Sexo Femenino

5000

0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 11.

1.3.5 DIAGRAMA DE BARRAS AGRUPADAS


Este tipo de gráfica se elabora igual que los anteriores, es muy útil para datos de asociación, ya que permite
establecer comparación entre las variables involucradas. Para la elaboración de los diagramas de barras
agrupadas hay que seguir ciertas reglas, entre estas debe de identificar los componentes:
o Las barras deben de colocarse de diferentes colores; también, se puede utilizar alguna manera de
diferenciación entre unas y otras.
o El espaciamiento en estas gráficas, se utiliza de la siguiente manera; no se deja espacio entre barra
y barra, sino el espaciamiento es entre grupo y grupo de barras.

o La claridad y simplicidad, en estas gráficas indica que no se debe mostrar mucha información en la
misma gráfica. Se puede utilizar barras dobles, triples en barras agrupadas, pero si son más barras
resulta una gráfica confusa o sin utilidad.

Veamos un ejemplo de este tipo de gráficas:

GRAFICA No. 3
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
16000

14000

12000

10000

8000
Sexo Femenino
6000
Sexo Masculino
4000

2000

0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna

Fuente: Datos del cuadro No. 11.

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 15
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
1.3.6 DIAGRAMA DE BARRAS BIDIRECCIONALES
Es utilizado al igual que el de barras segmentadas o agrupadas, se utiliza para presentar datos de
asociación, se recomienda representar la relación únicamente de dos variables cualitativas, cada una con
sus categorías; además, se utiliza la misma escala en dos sentidos, a partir de una línea cero. Ejemplo:

GRAFICA No. 4
VACUNACION PRACTICADA EN NIÑOS AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

Fuente: Datos del cuadro No. 10.

1.3.7 DIAGRAMA DE SECTORES


Se utiliza para mostrar el tamaño relativo de componentes de un total de frecuencias u observaciones de
una sola variable cualitativa. Este diagrama es muy usado con fines de presentaciones populares, ya que su
interpretación es sumamente sencilla. En el diagrama de sectores se puede presentar cifras absolutas y
cifras relativas.

Para su construcción (manual) se hace uso de un círculo y como éste tiene 360o , al representar la
información hay que establecer la relación, se toma como ejemplo los datos del cuadro No. 10.

Los 77195 niños vacunados forman el 100%, esto equivale a representarlos en un círculo.

77195-------------100%-------------360o

Si se quiere graficar toda la información, se tiene:

Frecuencias absolutas Frecuencias relativas Grados


Vacunados BCG 24425 113.904
Vacunados OPV (Polio) 21533
Vacunados con PENTEVALENTE 21547
Vacunados con SPR 6021
Vacunados con DPT 3669
Total 77195 100% 360o

Para calcular los datos se aplica una regla de 3. Ejemplo:

Para el porcentaje:

77195 100%
(244255 X 100)/77195 = 31.64%
24425 X
Para el grado:

100 360%
(31.64 X 360)/100 = 113.904%
31.64% X
Vacunados BCG 24425 31.64% 113.904o

16
Presentación Tabular y Gráfica de la Variable Cualitativa.

Vacunados OPV (Polio) 21533 27.89% 100.404o


Vacunados con PENTEVALENTE 21547 27.91% 100.476o
Vacunados con SPR 6021 7.80% 28.080o
Vacunados con DPT 3669 4.75% 17.100o
Total 77195

Teniendo ya los datos se procede a graficar, con la ayuda de un transportador, para poder buscar los
grados correspondientes a cada variable involucrada.

Cuando se grafica en forma manual, es aconsejable principiar a construir del ángulo de 0o

GRAFICA No. 4
VACUNACION PRACTICADA AL TOTAL DE NIÑOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.

BCG OPV (Polio) PENTREVALENTE SPR

Fuente: Datos del cuadro No. 10.

BIBLIOGRAFIA:

1. Documento “Guía de Lectura”. Docentes Estadística.


Leal, Francisco. “Estadística Descriptiva e Investigación”. Guatemala, Imperial Gráfica. Sf. S.p.
2. Orellana González, René Arturo. “Estadística”. Ed. Superiores de Guatemala.
3. Ministerio de Salud Pública y Asistencia Social. Boletín de la Red de Servicios de Salud y Asistencia
Social 2009.

TDEM/tdem

Documento fue elaborado por: Arq. Sonia Luarca. Revisado y


Ciclo académico 2022 17
actualizado por: Licda. Thelma Soberanis y Lic. Oliver Otzoy
U.D. Bioestadística Ciclo: 2023

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Documento elaborado por:


FACULTAD DE CIENCIAS MÉDICAS Dra. Olivia de Higueros
AREA CURRICULAR: INVESTIGACIÓN
U.D. BIOESTADÍSTICA PRIMER AÑO

Medidas Descriptivas para Variables Cualitativas

Introducción
En la vida diaria constantemente se hace uso de operaciones matemáticas, es
necesario comparar cosas, ya que algunos enunciados que involucran números,
tienen un significado muy restringido y poco útil si no son comparados con otros, o
con otras cantidades.
A continuación se desarrollará el tema de medidas de punto o medidas puntuales,
denominadas así por algunos autores, en virtud de que constan de un solo valor que
identifica o que provee información sobre la característica de interés. Éstas medidas
de punto son: las Razones, las Proporciones, y los Porcentajes.

Medidas de punto
Las medidas de punto son procedimientos matemáticos utilizados para el análisis e
interpretación de datos provenientes de variables cualitativas, también llamadas
categóricas.
Las más utilizadas son: las proporciones, los porcentajes y las razones

1. PROPORCIONES
Una proporción es la relación o comparación entre dos grupos, en donde uno es
una parte del todo y el otro es el todo (total o universo). Está representada por
una fracción en donde, el numerador es una parte del denominador y el
denominador es el todo (total o universo).

Por lo que los valores de una proporción


estarán entre 0 y 1.

Ejemplo:
Durante el mes de diciembre del año anterior, fueron atendidos 276 niños con
quemaduras, en la emergencia de pediatría, del Hospital Roosevelt. 165 de los niños
presentaron quemaduras grado I, 96 presentaron quemaduras grado II y los
restantes presentaron quemaduras grado III, (datos hipotéticos con fines de estudio).

Dra. Olivia Ordóñez de Higueros Página 1


U.D. Bioestadística Ciclo: 2023

¿Qué proporción de niños presentó quemaduras grado II?

Cálculo: Interpretación:
 El total de atendidos fue de 276. De los niños atendidos por quemaduras
 La cantidad de niños que presentó en la emergencia del Hospital Roosevelt,
quemaduras grado II es de 96.
durante el mes de diciembre del año
anterior, 0.35 presentó quemaduras
96 / 276 = 0.3478 ≈ 0.35 grado II.
Nota: Generalmente la respuesta final se trabaja
con 2 decimales.

2. PORCENTAJES
Un porcentaje es una proporción multiplicada por cien.
Generalmente es más sencillo interpretar números enteros o números mayores a
uno, que números decimales. Las proporciones ofrecen cifras decimales como
resultado; por tal razón, con los porcentajes se facilita la interpretación y
comprensión de resultados, porque en cierta manera permiten una mejor
comprensión de la magnitud en que ocurre el evento o característica de interés.

Ejemplo:
Durante el mes de diciembre del año anterior, fueron atendidos 276 niños con
quemaduras, en la emergencia de pediatría del Hospital Roosevelt. 165 de los niños
presentaron quemaduras grado I, 96 presentaron quemaduras grado II y los
restantes presentaron quemaduras grado III.

¿Qué porcentaje de niños presentó quemaduras grado II?

Cálculo: Interpretación:
 El total de atendidos fue de 276.
De los niños atendidos por quemaduras en
 La cantidad de niños que
presentó quemaduras grado II la emergencia del Hospital Roosevelt,
es de 96. durante el mes de diciembre del año
anterior, el 34.78% presentó quemaduras
grado II.
96 / 276 x 100 = 34.7826
El porcentaje de niños que presentó
Aproximando: ≈ 34.78
quemaduras grado II, de los atendidos por
o bien: ≈ 35 quemaduras en la emergencia del Hospital
Roosevelt, durante el mes de diciembre del
Nota: Generalmente la respuesta final se año anterior, fue de 34.78.
trabaja con 2 decimales.

Dra. Olivia Ordóñez de Higueros Página 2


U.D. Bioestadística Ciclo: 2023

3. RAZONES

Una razón es la relación o comparación que se hace entre dos grupos diferentes,
que pueden ser de igual o diferente naturaleza, para determinar si ellas son
iguales o si una es mayor que la otra.

Por ejemplo:
Se puede comparar un grupo de Médicos con un grupo de Agrónomos, en este
ejemplo, son dos grupos diferentes pero de igual naturaleza, ambos grupos están
conformados por personas y en este caso profesionales.

También se puede comparar un grupo de “veterinarios” con un grupo de “vacas”.


Son dos grupos diferentes o independientes y de diferente naturaleza, ya que un
grupo es de personas y otro de animales.

La razón está representada por una fracción:

Donde:
Fórmula:
C = total del primer grupo
C.k d = total del segundo grupo
d k = es una base, una unidad seguida de ceros (10, 1000, etc.).
Esta base puede obviarse. Habitualmente se utiliza para evitar los
decimales o hacer más grandes las cantidades muy pequeñas,
propiciando de esta manera una interpretación más comprensible.
Para la interpretación de una razón por lo general, se parte del
denominador.
Si se hubiere utilizado la base (K), ésta hace referencia al
grupo mencionado en el denominador.

Ejemplo:

Calcular la razón de vacas-veterinarios en el departamento del Progreso. Se sabe


que los Médicos veterinarios en dicha localidad son 3; y que el número de vacas en
la misma, es de 875. (Datos hipotéticos con fines de estudio).

Cálculo: Interpretación:

875 / 3 = 291.67 Por cada veterinario hay 291.67 vacas. Aproximando, en


virtud de que es una variable discreta, por cada
veterinario hay 292 vacas.

Utilizando K, que para este ejemplo es 100, se diría: por


875 / 3 x 100 = 29167 cada 100 veterinarios hay 29,167 vacas.
También podría decirse que hay 29,167 vacas por cada
100 veterinarios.

Dra. Olivia Ordóñez de Higueros Página 3


U.D. Bioestadística Ciclo: 2023

Ejercicios:

1. Calcule e interprete la razón entre:


a. 50 pacientes y 4 médicos
b. 1salón de clase y 2 profesores
c. 35 sillas y 20 personas
d. Q1,500.00 y 5 personas

2. Qué significan las siguientes razones:


a. La razón entre los alumnos mayores de 18 años y los menores de 18 años
es 3:1
b. La razón de los egresados de colegios subvencionados y los egresados de
colegios privados es 5:10

3. Resuelve el siguientes problema:


a. En un curso de 30 alumnos, las niñas están en razón de 3:2 respecto de
los varones. ¿cuántos varones hay en el curso?

APROXIMACIÓN O REDONDEO DE NÚMEROS


Generalmente se hace necesario redondear números, ya que algunos datos se
utilizan en números enteros, otros suelen utilizarse con uno, con dos decimales, etc,
por lo tanto se hace uso de la aproximación.
Existen diversas reglas de aproximación1, pero para efectos de evaluación
especialmente, utilizaremos los siguientes criterios, ejemplos:

 El número 52.7 es necesario manejarlo como entero, se aproximará entonces


al entero más cercano, en este caso al inmediato superior, o sea a 53.
 El número 27.814 se necesita aproximar a dos decimales = 27.81.
 El número 32.4165 se necesita aproximar a tres decimales = 32.416.
 El número 19.175 se necesita aproximar a dos decimales = 19.18

Nota: Los dos últimos ejemplos ilustran los casos de aproximación del número "5":
 Si el número que antecede al 5 es par, no aproxima al inmediato superior.
 Si el número que antecede al 5 es impar, se aproximará al inmediato superior.2

Referencias
http://tabarefernandez.tripod.com/ficha11.pdf
https://www.youtube.com/watch?v=l6p-gnvBz-Y

1
Spieguel, Murray R. “Estadística” Editorial Mc Graw Hill. pp 2
2
Spiegel R, Murray "ESTADISTICA" Serie Schawn, publicaciones en español. Editorial Mc graw Hill.

Dra. Olivia Ordóñez de Higueros Página 4


U.D. Bioestadística Ciclo: 2023

DOCUMENTO ELABORADO POR


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA ARQ. SONIA NINETH LUARCA GIL

FACULTAD DE CIENCIAS MÉDICAS Revisión y actualización:


ÁREA CURRIVULAR DE INVESTIGACIÓN Dra. Olivia O. de Higueros.
U.D. BIOESTADÍSTICA

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS


DE VARIABLE CUANTITATIVA

INTRODUCCION
La estadística es una herramienta indispensable para la investigación; sin embargo, según
mencionan algunos autores, se debe tener cuidado con su uso para no caer en el “abuso” de la
información, en el transcurso de su análisis e interpretación.

A manera de ilustración se presentan las siguientes expresiones (curiosidades):

 “Según acaba de publicar una reciente estadística, más del 80% de los hombres obesos
del mundo están gordos”.1
 “Según las últimas estadísticas, de cada tres niños que nacen en el mundo dos son
chinos. Menos en China que son los tres”.1
1
 “Según recientes estadísticas, el 99% de los hombres le da una mala reputación al resto..”

PRESENTACIÓN TABULAR
DE VARIABLE CUANTITATIVA
Luego de la recopilación de información (datos), es muy importante el ordenamiento y
presentación de la misma.
Para presentar la información en forma tabular (cuadros), en nuestra UD se trabajarán dos formas:

a) Arreglo ordenado ó serie simple.


b) Distribución en intervalos de clase, para presentarlos seguidamente en tablas y/o graficas.

1. ARREGLO ORDENADO O SERIE SIMPLE


Es la manera más sencilla de ordenar la información y consiste en un ordenamiento de los datos,
de menor a mayor (ascendente) ó de mayor a menor (descendente), presentado en tablas ó
cuadros, disponiendo el número de columnas adecuado, según estética y simetría, para colocar
los datos en forma de lista. Es necesario recordad que, al tratarse de una tabla de presentación,
debe cumplir con todos los requisitos correspondientes: No. de tabla o cuadro, título, etc.

Al presentar la información en una serie simple, los datos no pierden su individualidad, es decir, se
cuenta con la información directa (tal como se obtuvo), para la realización de cálculos y análisis.
Es aconsejable utilizar esta presentación cuando se tiene menos de 30 datos.
__________________________
1
http://www.makmakmak.co m/6-CURiOSiDADES/ LiNK.php?Id=126

Dra. Olivia Ordóñez de Higueros 1


U.D. Bioestadística Ciclo: 2023

Ejemplo de un arreglo ordenado o serie simple:

CUADRO No. 1
NOTAS DEL PRIMER PARCIAL DE BIOESTADISTICA,
DE UN GRUPO DE ESTUDIANTES DE PRIMER AÑO
DE LA FACULTAD DE CIENCIAS MÉDICAS DE LA USAC.
GUATEMALA, MARZO DE 2022

Notas (punteos)
1.6 4.8 6.4 7.6
1.6 4.8 6.8 7.6
2.8 5.6 6.8 8
2.8 5.6 7.2 8.4
3.2 5.6 7.2 8.4
4.4 6.4 7.6 8.8
La ponderación del 1er. parcial fue de 10 puntos.
Fuente: notas proporcionadas por la unidad de evaluación.

2. DISTRIBUCIÓN EN CLASES, EN INTERVALOS O EN INTERVALOS DE CLASE

Este tipo de presentación es aconsejable utilizarla cuando se cuenta con 30 datos o más.
La presentación consiste en agrupar los datos en clases o intervalos; acompañados de sus
respectivas frecuencias.

Para elaborar una Distribución en Intervalos de Clase es necesario establecer el número de clases
o intervalos a utilizar así como la amplitud que tendrán dichos intervalos. El procedimiento incluye
varios cálculos, que se detallan a continuación:

Encontrar el Rango, Recorrido o Amplitud de la variable:


Es necesario examinar los datos porque se requiere de la
Paso 1 amplitud que exista entre ellos. La amplitud de la variable no es
más que la diferencia existente entre el valor más bajo (XS) y el
valor más alto (XL). Su símbolo es una “R”

Rango, recorrido o amplitud = R=XL-XS

Calcular el número o la cantidad de clases o intervalos:


Se realiza en función del total de elementos o sujetos en la
distribución, ya sea una población (N) o bien una muestra (n),
apoyándose en la fórmula de Sturgess. Su símbolo es una “K”
Paso 2
Número de clases o intervalos = K = 1 + 3.322 X (log N)

Los valores 1 y 3.322 son constantes en la fórmula.

Dra. Olivia Ordóñez de Higueros 2


U.D. Bioestadística Ciclo: 2023

Calcular la amplitud de los intervalos o clases:


Para calcular la amplitud que deberán tener los intervalos se
Paso 3 requiere de los resultados obtenidos en los 2 pasos
anteriores, utilizando la siguiente fórmula:
Amplitud de intervalo o clase = i = R/K

Límites de clase:
Luego de haber calculado el número de clases y la amplitud de las mismas, se procede a la
elaboración de los intervalos (o clases).

Antes de continuar con el procedimiento, es necesario aclarar que al valor menor de cada clase o
intervalo se le denomina límite inferior y al mayor, límite superior.

Para construir los intervalos se recomienda iniciar con el valor más bajo (o el menor) de los datos
observados, como el límite inferior para el primer intervalo. Para continuar simplemente se va
sumando la amplitud de intervalo calculada ( i ) para ir formando los límites inferiores de las clases
o intervalos siguientes. Para calcular los límites superiores de cada clase, solamente se resta uno
al límite inferior de la clase siguiente.

Ejemplo:
Información necesaria Límites de cada intervalo o clase

Dato más bajo o menor L. inferiores L. superiores


observado = 18 18 21
Amplitud de intervalo 22 25
calculada (i ) = 4 26 29

Límites absolutos:
Cuando los intervalos son elaborados en forma discreta, los límites permiten espacio entre una
clase y otra, con ello se evidencia la discreción de la variable y los límites son denominados
absolutos.

Ejemplo:
Edad (años) No. de Pacientes.
15–19 18 Nota: La variable edad es de naturaleza
continua pero para el ejemplo y por lo
20–24 20 general se trabaja en forma discreta.
25–29 9
30–34 8

Dra. Olivia Ordóñez de Higueros 3


U.D. Bioestadística Ciclo: 2023

Si estos límites son colocados sobre una recta numérica podríamos observar lo siguiente:

15 19 20 24 25 29 30 34

Límites reales (LR):


Si los intervalos han sido elaborados en forma discreta y se requiere continuidad en los
mismos, se procede entonces a calcular límites reales
Su cálculo es sencillo y consiste en aplicar la siguiente fórmula:

𝐿𝑆(𝑖) + 𝐿𝐼(𝑖+1) LS (i) = límite superior de la clase (i )


𝐿𝑅 =
2 LI (i+1)= límite inferior de la clase siguiente (i+1)

Ejemplo cálculo de límites reales:

19 + 20
Edad (años) No. de Pacientes. 𝐿𝑅 = = 𝟏𝟗. 𝟓
2
15–19 18
20–24 20 24 + 25
25–29 9 𝐿𝑅 = = 𝟐𝟒. 𝟓
2
30–34 8
29 + 30
𝐿𝑅 = = 𝟐𝟗. 𝟓
2

Al colocar los valores de los límites de las clases sobre una recta numérica, se puede
observar:
Límites absolutos
15 19 20 24 25 29 30 34

14.5 19.5 24.5 29.5 34.5


Límites reales

Límites aparentes:
Se dice que los límites de una clase son aparentes cuando éstos no permiten espacio entre un
límite y otro; los intervalos han sido elaborados en forma continua. Ejemplo:
Estatura (cms) No. de Pacientes.
150 – 155 15
155 – 160 13
160 – 165 6
165 – 170 7

Dra. Olivia Ordóñez de Higueros 4


U.D. Bioestadística Ciclo: 2023

Al colocar los valores de los límites de las clases sobre una recta numérica, se puede
evidenciar la continuidad de la variable:

1ª. Clase 2ª.Clase 3ª. Clase 4ª. Clase

150 155 160 165 170

Cuando se elaboran los intervalos en forma continua y se procede a la tabulación de los datos,
surge la duda de que, por ejemplo, si se tiene una estatura de 155 cm, ¿en dónde se colocará, si
en la 1ª. o en la 2ª. Clase? En virtud de que los límites son aparentes, el valor 155 aparentemente
es límite superior de la 1ª. Clase, sin embargo, la primera clase contendrá datos desde 150 hasta
154.9999…; por lo que el valor de 155 cm deberá ser tabulado en el 2º. Intervalo.

Amplitud de los intervalos o clases:


En cuanto a la amplitud de cada clase o intervalo, ésta puede ser constante (la misma para todos
los intervalos) o variable (diferente para todos o para algunos intervalos).

Intervalos de amplitud constantes:


Se llama así porque la separación o distancia entre límite inferior y superior de cada clase
es siempre el mismo.

Ejemplo:

Peso (lbs) No. de pacientes Limites Reales La amplitud de un intervalo se


obtiene al restar los límites reales.
También se puede obtener al restar el
10–19 15 9.5 – 19.5 límite interior de una clase al límite
inferior de la clase siguiente.
20–29 16 19.5 – 29.5 Para comprobar si los intervalos
poseen la misma la amplitud, se
30–39 10 29.5 – 39.5 pueden restar los límites reales, en
cualquier sentido (como lo señalan las
flechas rojas), proporcionaran el mismo
40–49 6 39.5 – 49.5 resultado.

Intervalos de amplitud variable:


Una distribución tiene intervalos de amplitud variable, si la distancia entre límite real inferior y límite
real superior varía de una clase a otra, en el caso de una distribución con intervalos absolutos o si
la distancia entre límite inferior y límite superior varía de una clase a otra, en el caso de una
distribución con intervalos aparentes.

Dra. Olivia Ordóñez de Higueros 5


U.D. Bioestadística Ciclo: 2023

Los intervalos de amplitud variable se utilizan cuando los valores de la distribución que se está
estudiando se encuentran muy dispersos, por lo que al agruparlos con intervalos constantes, existe
la probabilidad de que algunos de ellos queden con frecuencia de cero. Si no es importante
evidenciar la ausencia de valores se puede optar por utilizar intervalos de diferente amplitud.
Ejemplo:

Intervalos de amplitud constante Intervalos de amplitud variable

Edad (años) No. Ptes. Edad (años) No. Ptes.


5- 9 10 5-9 10
10 - 14 5 10-14 5
15 - 19 0 15-29 8
20 - 24 0 30-34 15
25 - 29 8 35-44 12
30 - 34 15
35 - 39 0
40 - 44 12

La misma información se puede presentar en distinta forma sin cambiar el sentido y desde luego,
a criterio del investigador.

Ejemplo de elaboración de una distribución en intervalos de clase.


PROBLEMA
Se cuenta con el nivel de glucosa en sangre de 60 niños que asistieron a control de niño sano,
durante el mes de enero, a la clínica familiar “Santa Marta” de la Universidad de San Carlos de
Guatemala (los datos son hipotéticos, con fines docentes).
Con los siguientes datos se requiere elaborar una distribución agrupada en intervalos de clase.

56 61 55 62 55 64 73 68 71 72 79 81
60 57 61 67 67 68 66 65 60 65 55 66
65 72 65 68 62 75 75 72 73 73 68 73
66 61 69 72 68 81 69 74 74 68 65 67
69 64 66 65 58 65 65 67 56 67 63 63

1º. Amplitud de 2º. Número de clases o intervalos 3º. Amplitud de la clase o


la variable intervalo
K = 1 + 3.322 (log N)
R = XL–XS 𝑅 26
𝑖= =
K=1 + 3.322 X (log 60) 𝐾 7
R = 81–55
K = 1 + 3.322 X 1.77815125
R = 26 𝑖 = 3.714285714
K = 1 + 5.907018454 = 6.907018454
𝑖≃4
K = 7

Dra. Olivia Ordóñez de Higueros 6


U.D. Bioestadística Ciclo: 2023

OBSERVACIÓN:
 El número de clases se aproxima al entero superior, aunque no aplique la regla de
aproximación, porque, como se puede observar en el ejemplo, no es posible colocar 6
intervalos completos y 0.9 del siguiente intervalo.

 Para la amplitud de las clases o intervalos, es necesario aplicar las reglas de aproximación. Recordar
que, si el número que antecede al 5 es par, no se aproxima al inmediato superior; pero si es
impar si se aproxima.

 Para unificar criterios, al calcular la amplitud o recorrido de la variable se debe utilizar la mayor
cantidad de decimales que presenten los datos recopilados, cuando la variable sea continua.

NOTA
Sin embargo, la aproximación de la amplitud de la clase queda a criterio del investigador, ya que
es quien decide si desea evidenciar la naturaleza de la variable (de ser continua), trabajando con
decimales o bien puede eliminarlos, para evitar la complejidad que los decimales pudieran causar.

Tabulación de la información:
Una vez que se ha calculado la cantidad de intervalos necesarios y la amplitud que estos deben
tener, se procede a la tabulación de los datos.
La tabulación de los datos se debe realizar en un cuadro denominado tabla de trabajo, en la cual
se pueden colocar, las frecuencias absolutas, acumuladas, relativas, marcas de clase, etc.
Toda la información contenida en ésta tabla no debe incluirse en el cuadro de presentación, ésta
información puede ser necesaria para realizar cálculos como medidas descriptivas, que se verán
más adelante o para la elaboración de gráficas.

Conteo, recuento, o tabulación:


Este procedimiento permite llegar a establecer las frecuencias absolutas o número se sujetos de
estudio en cada clase o intervalo. Este procedimiento puede realizarse rápidamente utilizando las
herramientas del programa Excel.

Frecuencia Absoluta:
Es el número de veces que aparece un determinado valor. Se simboliza con una f o fi. La suma de
las frecuencias absolutas da como resultado el total de datos que corresponde al tamaño de la
muestra (n) o de la población (N) que se estudia.

Frecuencia relativa:
Es el cociente entre una frecuencia absoluta y el número total de los datos. Se simboliza con una
fr. Una frecuencia relativa es una proporción, porque expresa la relación que hay entre una parte y
el todo. La frecuencia relativa también puede multiplicarse por 100 para expresarla en porcentaje.

Frecuencia acumulada:
Es la suma acumulativa de las frecuencias absolutas. Se simboliza con una fa.

Frecuencia relativa acumulada:


Es la suma acumulativa de las frecuencias relativas. Se simboliza con una fra.

Dra. Olivia Ordóñez de Higueros 7


U.D. Bioestadística Ciclo: 2023

Marca de clase:
Se conoce también como punto medio, es
el valor que representa a cada clase o Mc = marca de clase
intervalo y se localiza justo al centro del 𝐿𝐼(𝑖) + 𝐿𝑆(𝑖)
intervalo, de allí su nombre. 𝑀𝑐 = LI (i) = límite inferior de la clase (i)
2
Su cálculo es muy sencillo ya que es igual
LS (i) = límite superior de la clase (i)
a la suma de los límites ya sean reales o
absolutos de cada clase, dividido dentro
de 2. Sus símbolos: Mc, Xi, Pm.

TABLA DE TRABAJO

Nivel de glucosa Conteo f fa Límites Reales Mc fr fra


55 - 58 llll II 7 7 54.5 - 58.5 56.5 0.12 0.12
59 - 62 Illl ll 7 14 58.5 - 62.5 60.5 0.12 0.24
63 - 66 IIII IIII IIII I 16 30 62.5 - 66.5 64.5 0.27 0.51
67 - 70 IIII IIII llll 14 44 66.5 - 70.5 68.5 0.23 0.74
71 - 74 IIII IIII I 11 55 70.5 - 74.5 72.5 0.18 0.92
75 - 78 II 2 57 74.5 - 78.5 76.5 0.03 0.95
79 - 82 III 3 60 78.5 - 82.5 80.5 0.05 1.00
TOTAL 60 1.00
Este procedimiento lo realiza Excel con la función
“contar si”, proporcionando la frecuencia.

El cuadro No. 2 es el cuadro de presentación para los datos de glucosa de los 60 niños. Al cuadro
de presentación se le puede agregar una tercera columna que puede contener las frecuencias
relativas o los porcentajes, según sean los objetivos del investigador.

El Cuadro No. 3 es otro cuadro de presentación para la misma información pero incluye una
columna con los porcentajes.

CUADRO No. 2
NIVEL DE GLUCOSA DE 60 NIÑOS
DE LA CLÍNICA FAMILIAR “SANTA MARTA”, DE LA USAC.
GUATEMALA FEBRERO, 2022
Nivel de Glucosa No. Niños
55 – 58 7
59 – 62 7
63 – 66 16
67 – 70 14
71 – 74 11
75 – 78 2
79 – 82 3
TOTAL 60
Fuente: Datos hipotéticos con fines didácticos.

Dra. Olivia Ordóñez de Higueros 8


U.D. Bioestadística Ciclo: 2023

CUADRO No. 3
NIVEL DE GLUCOSA DE 60 NIÑOS
DE LA CLÍNICA FAMILIAR “SANTA MARTA”, DE LA USAC.
GUATEMALA FEBRERO, 2022
Nivel de Glucosa No. Niños Porcentaje
55 – 58 7 11.67
59 – 62 7 11.67
63 – 66 16 26.67
67 – 70 14 23.33
71 – 74 11 18.33
75 – 78 2 3.33
79 – 82 3 5
TOTAL 60 100%
Fuente: Datos hipotéticos con fines didácticos.

Referencias
Spieguel R, Murray "ESTADISTICA" Serie Schawn, publicaciones en español. Editorial Mc
graw Hill.

En el siguiente enlace encuentras un tutorial que puede ser de utilidad para la elaboración
de tablas utilizando Excel:

https://www.youtube.com/watch?v=lvChXgnkV60

Dra. Olivia Ordóñez de Higueros 9


U.D. Bioestadística Ciclo: 2023

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA


DOCUMENTO ELABORADO POR
FACULTAD DE CIENCIAS MÉDICAS -CUM- ARQ. SONIA NINETH LUARCA GIL
ÁREA DE INVESTIGACIÓN Revisión y actualización:
U.D. BIOESTADÍSTICA Dra. Olivia O. de Higueros.

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS


DE VARIABLE CUANTITATIVA

INTRODUCCION

La estadística es una herramienta indispensable para la investigación; sin embargo, según


mencionan algunos autores, se debe tener cuidado con su uso para no caer en el “abuso” de la
información, en el transcurso de su análisis e interpretación.

A manera de ilustración se presentan las siguientes expresiones:

 “Según acaba de publicar una reciente estadística, más del 80% de los hombres obesos
del mundo están gordos”.1

 “Según las últimas estadísticas, de cada tres niños que nacen en el mundo dos son
chinos. Menos en China que son los tres”.1
1
 “Según recientes estadísticas, el 99% de los hombres le da una mala reputación al resto..”

PRESENTACIÓN GRÁFICA
DE VARIABLE CUANTITATIVA
Los cuadros o tablas proporcionan información importante; pero un análisis visual ayuda a
comprender más fácilmente la información que se desea transmitir.
Los tipos de gráfica más comunes para representar datos de variables cuantitativas son:
1. Histograma.
2. Polígono de frecuencias.
3. Ojiva o polígono de frecuencias acumuladas

1. Histograma
Es una gráfica que consiste en una serie de rectángulos unidos, que tienen su base sobre un eje
horizontal (eje X), cuyo ancho está determinado por la amplitud del intervalo, que representa los
datos de la variable en estudio y su altura (eje Y) dependerá de las frecuencias que pueden ser las
absolutas, las relativas, o los porcentajes.
__________________________

1
http://www.makmakmak.co m/6-CURiOSiDADES/ LiNK.php?Id=126

Dra. Olivia Ordóñez de Higueros 1


U.D. Bioestadística Ciclo: 2023

Para construir un histograma es necesario utilizar los límites reales en el eje X, porque al dibujar
los rectángulos, estos deben estar unidos uno junto al otro.

Si los datos de la variable que se va a graficar no inician en cero, se debe indicar dibujando una
línea de corte sobre el eje X, para evitar la pérdida del espacio al no encontrar información en esa
parte de la recta numérica. En el eje Y, no se recomienda hacer lo mismo, porque distorsiona la
magnitud de los rectángulos en la gráfica.

Como toda gráfica, para su presentación, debe cumplir con número, título y fuente. También debe
identificarse cada eje, indicando en el eje “X” la variable en estudio y los datos de la misma, que
para este tipo de gráfica corresponde a los límites reales ; y en el eje “Y” el número de sujetos de
estudio (# de pacientes, # de estudiantes, etc).

CUADRO No. 4
EDAD DE PACIENTES ATENDIDOS EN
LA CLÍNICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023

Edad (años) No. Pacientes


10–19 10
20–29 18
30–39 10
40–49 13
50–59 4
60–69 5
70–79 2
TOTAL 62
Fuente: Datos hipotéticos con fines didácticos.

Se tomarán los datos del cuadro No. 4 para elaborar un histograma, como ejemplo.

Datos necesarios para la construcción de un histograma.

X f LR
Edad (años) (No. de pacientes) Limites reales
10–19 10 9.5 – 19.5
20–29 18 19.5 – 29.5
30–39 10 29.5 – 39.5
40–49 13 39.5 – 49.5
50–59 4 49.5 – 59.5
60–69 5 59.5 – 69.5
70–79 2 69.5 – 79.5
TOTAL 62

En el Eje “X” o eje de las abscisas, se deberán colocar los datos de la variable, representados
por los límites reales, como se mencionara en párrafos anteriores.

En el Eje “Y” o eje de las ordenadas, se colocarán las frecuencias absolutas, las relativas o los
porcentajes. Para establecer la escala se debe tomar en cuenta el valor más alto registrado en

Dra. Olivia Ordóñez de Higueros 2


U.D. Bioestadística Ciclo: 2023

las frecuencias (absolutas, relativas o en los porcentajes). Por cuestiones de atracción visual, los
rectángulos del histograma se pueden pintar, pero todos deberán ser un mismo color, teniendo el
cuidado de marcar con claridad cada rectángulo.

GRÁFICA No. 1
EDAD DE PACIENTES ATENDIDOS EN
LA CLÍNICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023

Fuente: Datos del cuadro No. 4.

2. Polígono de frecuencias
Es una gráfica de línea. Para su construcción sobre el eje " X " o eje de las abscisas se utilizan las
marcas de clase, que corresponden a los datos de la variable en estudio y en el eje "Y " o eje de
las ordenadas, se colocan las frecuencias (absolutas, relativas o porcentajes).
Para elaborar el trazo en forma manual sobre un plano de coordenadas, se localiza para cada
marca de clase su respectiva frecuencia, señalándolo con un punto, seguidamente se procede a
unir los puntos con segmentos de línea recta continua. Para cerrar el polígono se calculan las
marcas de clase anterior y posterior de la distribución y se cierra con línea punteada.

Como toda grafica debe cumplir con los requisitos de número, titulo y fuente

Datos necesarios para la construcción de un polígono:


X f Mc
Edad (años) (No. de pacientes) Marca de Clase
10–19 10 14.5
20–29 18 24.5
30–39 10 34.5
40–49 13 44.5
50–59 4 54.5
60–69 5 64.5
70–79 2 74.5
TOTAL 62

Dra. Olivia Ordóñez de Higueros 3


U.D. Bioestadística Ciclo: 2023

GRÁFICA NO. 2
EDAD DE PACIENTES ATENDIDOS EN
LA CLINICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023
20
18

16
14
No. de pacientes

12

10
8

6
4

2
0
4.5 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5
Edad en años

Fuente: Datos del cuadro No.4.

3. Ojiva de Gálton:
Se le llama también polígono de frecuencias acumuladas y es una gráfica de línea que muestra las
frecuencias acumuladas y es útil para analizar en un punto determinado cuantos elementos están
arriba o debajo de un valor determinado.
Para su construcción se usan los limites reales como datos de la variable sobre el eje “X” y las
frecuencias acumuladas, que pueden ser las absolutas, las relativas o los porcentajes, en el eje
“Y”. Como toda grafica debe cumplir con los requisitos de número, titulo y fuente.

Datos necesarios para la construcción de una ojiva:

Edad (años) f fa Limites Reales


10–19 10 10 9.5 - 19.5
20–29 18 29 19.5 - 29.5
30–39 10 39 29.5 - 39.5
40–49 13 52 39.5 - 49.5
50–59 4 56 49.5 - 59.5
60–69 5 60 59.5 - 69.5
70–79 2 62 69.5 - 79.5
TOTAL 62

Dra. Olivia Ordóñez de Higueros 4


U.D. Bioestadística Ciclo: 2023

GRÁFICA No. 3
EDAD DE PACIENTES ATENDIDOS EN
LA CLINICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023

No. de
pacientes

Edad en años
Fuente: Datos del cuadro No. 4.

NOTA
Las gráficas descritas anteriormente pueden ser elaboradas rápidamente en el programa Excel, sin
embargo, es indispensable tener claro los siguientes aspectos:
1. El tipo de variable que se está manejando.
2. Los tipos de gráficas que se recomienda para los datos que se tienen.
3. Saber utilizar el programa Excel para elaborar las gráficas de forma adecuada.

El programa Excel ofrece una variedad de gráficas, es el usuario quien debe tomar la decisión de la que
utilizará, dicha decisión depende del tipo de datos con los que cuenta, así como lo que se quiere presentar.

Es importante recordar que un programa hará lo que se le solicite, por lo tanto, se debe saber ¿qué
información colocar? y ¿en qué forma hacerlo?, porque de lo contrario “hará lo que pueda”, aunque no sea
lo adecuado.

En el siguiente enlace encuentras un tutorial para la elaboración de gráficas


utilizando Excel: https://www.youtube.com/watch?v=uZ3Q6Nth7-E

Dra. Olivia Ordóñez de Higueros 5


Medidas de Tendencia Central y de Dispersión Ciclo 2020

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA


FACULTAD DE CIENCIAS MÉDICAS
FASE I, PRIMER ANO Documento elaborado por:
U.D. ESTADISTICA Dra. Olivia de Higueros

MEDIDAS DE TENDENCIA CENTRAL

Con anterioridad se ha dicho que las distribuciones de frecuencias (simple o en intervalos


de clase) son útiles para resumir los datos, pero existen situaciones en las que se
necesita un tipo de resumen más conciso. Lo que se necesita en muchas situaciones es
condensar los datos, es cuando se recurre a las medidas de tendencia central.

Las medidas de tendencia central son medidas descriptivas. Son valores numéricos que
tienden a localizar, en algún sentido, la parte central de un conjunto de datos, algo así
como la zona en donde los mismos tienden a concentrarse. Una medida de tendencia
central es un solo valor representativo de todo el conjunto de datos, que pueden provenir
de una muestra o una población.

Las medidas de tendencia central conllevan información respecto al valor típico o


promedio de un conjunto de valores. Las más utilizadas son tres: la media aritmética, la
mediana y la moda.

Moda
Su símbolo es: Mo, que se utiliza indistintamente para un parámetro o un estadístico.

La moda es el valor de la variable que aparece repetido en mayor número de veces, es el


valor con mayor frecuencia, por lo que no requiere de cálculo, es localizada por simple
inspección, a excepción de cuando los datos se encuentren en una distribución en
intervalos de clase, en cuyo caso se utilizará una forma para su cálculo.

Propiedades:

 Es la más simple de cálculo y sencilla de interpretación.


 Puede haber más de una moda, en cuyo caso podrá encontrarse distribuciones
bimodales o trimodales, pero, si existiesen más de tres datos que se repiten en la
misma magnitud, o todos los datos son diferentes, se dice que la distribución es
amodal.
 Puede utilizarse para describir datos cualitativos o cuantitativos.

Dra. Olivia de Higueros


Medidas de Tendencia Central y de Dispersión Ciclo 2020

Ejemplo:
Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24
pacientes jóvenes con la enfermedad de
Duchenne*

Para localizar la moda no se requiere ordenar


los datos, sin embargo facilita el procedimiento.

1500 2055 3790


1505 2360 3796
1571 3340 3802
1573 3345 3805
1835 3577 5500
1840 3580 5504
1995 3720 5595
2000 3723 5600

Interpretación: La distribución es amodal,


ninguno de los datos de la distribución se
repite.

*Datos tomados de: “Estadística para Biología y Ciencias de la Salud”. J.Susan Milton, 3ª. Ed.
Editorial McGraw. Pp 31.
** Datos tomados de: “Bioestadística” Wayne W, Daniel 3ª. Ed. Editorial Limusa. Pp. 142. Con
objeto de estudio se asumirá que estos datos corresponden a una población.

Mediana
Su símbolo es: Me o Md, cualquiera de los dos puede utilizarse, y es indistinto para
parámetro o estadístico.

La mediana es el valor que divide al conjunto de datos en dos partes iguales, de tal forma
que el número de valores mayor o igual a la mediana es igual al número de valores
menores o iguales a ella.

La mediana también es una medida de posición que se sitúa a la mitad de la distribución,


por lo que requiere del ordenamiento previo de los datos, un ordenamiento en forma
ascendente.

Propiedades:
 Es simple de cálculo y sencilla de interpretación. En una distribución en intervalos
su cálculo es más laborioso. En su momento se desarrollara la formula.
 Es única, solamente existe una mediana para cada distribución.

2
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020

 No es influenciada por valores extremos, al ser una medida de posición, se


localiza a la mitad de la distribución, no importando en sí, la magnitud de los
datos.
 Se utiliza para describir datos cuantitativos, aunque algunos autores1 refieren que
puede usare en datos cualitativos a escala ordinal; sin embargo, para unificación
de criterios, nos quedaremos con la primera propuesta.

Ejemplo:
Como la mediana también es una medida de posición, el primer paso es calcular
precisamente esa posición; lo que se hace de la siguiente forma:
Me (posición) = (n+1)/2 (en la formula N=si es población o n= si es muestra)

Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.

Me = (24+1)/2= 12.5 => se toman los datos de la


posición 12 y 13, se suman y se divide entre 2:
3345 + 3577= 3461

1. 1500 9. 2055 17. 3790


2. 1505 10. 2360 18. 3796
3. 1571 11. 3340 19. 3802
4. 1573 12. 3345 20. 3805
5. 1835 13. 3577 21. 5500
6. 1840 14. 3580 22. 5504
7. 1995 15. 3720 23. 5595
8. 2000 16. 3723 24. 5600

Interpretación: El 50% de los pacientes


presenta 3461 u/lt , de creatinina cinasa en
sangre, o menos

Media Aritmética
_
Su símbolo es: μ cuando se trate de un parámetro y x cuando sea un estadístico.

Por lo general, al hablar de un promedio sin especificar el tipo, lo más seguro es que se
está haciendo referencia a la media aritmética. La media es la medida de tendencia
central más conocida, y a la que con más frecuencia se reconoce con el nombre de
promedio, principalmente para su interpretación.
Propiedades:

1
Jack Levin “Fundamentos de Estadística en la Investigación Social” 2ª. Edición, Editorial Harla, México.
pp. 45.

3
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020

 Es simple de cálculo y sencilla de interpretación. En una distribución en intervalos


su cálculo es más laborioso. En su momento se desarrollara la formula.
 Es única, ya que para un conjunto de datos existe una sola media aritmética.
 Es influenciada por valores extremos, puesto que todos los datos del conjunto
entran en juego para su cálculo, de tal manera que, valores tan pequeños o tan
grandes pueden distorsionarla.
 Se utiliza para describir datos cuantitativos.

Ejemplo:
Para calcular la media aritmética se utilizaran las siguientes formulas:

Para Arreglo ordenado:

Media = =
n
El numerador es la sumatoria de cada dato de la variable (x) y el denominador es el total de datos (N
o n).

Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.

1. 1500 9. 2055 17. 3790


2. 1505 10. 2360 18. 3796
3. 1571 11. 3340 19. 3802
4. 1573 12. 3345 20. 3805
5. 1835 13. 3577 21. 5500
6. 1840 14. 3580 22. 5504
7. 1995 15. 3720 23. 5595
8. 2000 16. 3723 24. 5600

_
X = 76911/24 = 3204.625

Interpretación: El promedio o el valor medio


de creatinina cinasa en sangre que presentan
los pacientes es de 3204.625 u/lt.

4
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020

COMPARACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA 2

Luego de calcular las medidas de tendencia central, surge la pregunta ¿Cuál será la más
apropiada a utilizar para describir la distribución?

La decisión debe involucrar algunos factores como:


 El tipo de variable
 La forma de distribución de los datos
 El objetivo de la investigación.

EL TIPO DE VARIABLE

La moda por ejemplo, puede utilizarse para cualquier tipo de variable, porque requiere
solamente de un conteo, solamente se trata de localizar el dato que más se repite o el
dato con mayor frecuencia.
La mediana es para variables cuantitativas o numéricas al igual que la media aritmética.
Es importante recordar que la media aritmética es influenciada por valores extremos, por
lo que, si la distribución cuenta con este tipo de valores, ésta medida no será la mejor
opción.

FORMA DE LA DISTRTIBUCIÓN

La forma de la distribución es otro factor importante en la elección de la medida de


tendencia central.

Cuando el investigador trabaja con una distribución simétrica, su elección se basará


principalmente en sus objetivos de investigación. Sin embargo, cuando trabaja con una
distribución sesgada, su decisión estará influenciada por la forma que presenten sus
datos.

En una distribución sesgada, la mediana se ubica en algún punto entre la media y la


moda, ésta característica la convierte en la medida de tendencia central más deseable
para describir una distribución sesgada.

2
Jack Levin “Fundamentos de Estadística en la Investigación Social” 2ª. Edición, Editorial Harla, México.
pp. 45

5
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

EL OBJETIVO DE LA INVESTIGACIÓN

Si se busca una medición rápida, sencilla pero crudamente descriptiva o si está


trabajando con una distribución bimodal, empleará generalmente la moda. Sin embargo,
ésta sólo tiene utilidad como un indicador preliminar de la tendencia central.

Si el investigador busca una medición precisa de la tendencia central, la decisión está


generalmente entre la media y la mediana. Para describir una distribución sesgada, se
recomienda utilizar la mediana, porque tiende a equilibrar los datos de la distribución.

Para una medida precisa de las distribuciones simétricas, se tiende a preferir la media
aritmética, ya que, puede utilizarse en el análisis estadístico más avanzado. Otra
característica importante de la media es que, es más estable que la mediana, esto
significa que, al tomar varias muestras de una misma población, y calcularles la media y
la mediana a cada una, el valor de la mediana tenderá a variar más de una muestra a
otra, que el valor de la media aritmética.

En resumen podría decirse que:3

 La Moda es la medida de tendencia central menos confiable. Su utilización es


“prioritariamente” con datos cualitativos.

 La mediana, es adecuado utilizarla cuando una distribución se aparta de lo normal


(distribuciones sesgadas).

 La Media, su uso es adecuado cuando las distribuciones son simétricas o


aproximadas a la forma normal.

MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central permiten resumir una serie de datos a un solo valor.
Sin embargo cuando se utiliza una de ellas, puede proporcionar un cuadro incompleto del
conjunto de datos, por lo que podría conducir tanto a conclusiones erróneas o
distorsionadas, como a una posible aclaración.

Por ejemplo, podría decirse que se están realizando un estudio con dos medicamentos
para el tratamiento de cefalea4; se ha encontrado que el medicamento “xx” ha mostrado
una media de duración del efecto, de 6 horas y el medicamento “YY” ha mostrado
también una media de 6 horas. ¿Podría concluirse entonces que los dos medicamentos
presentan la misma duración del efecto? ¿Podría entonces un médico, recetar cualquiera
de los dos medicamentos?, etc.
Se considera que simplemente con la media no es posible llegar a esas conclusiones,
porque, que tal si los datos recopilados para el medicamento “XX” son más variados que
los datos recolectados con el medicamento “YY”. Se necesita entonces, además de una
medida de tendencia central, una medida que indique ¿Cómo están diseminados los
datos?, se necesita una medida de dispersión.

3
“Métodos Estadísticos Aplicados”. Norville M. Downie. 5a. Edición. Editorial Harla. México.
4
Cefalea: se nombra así al dolor de cabeza.
6
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

Las medidas de dispersión5 son las que miden la variedad que muestran los datos de una
distribución. Una medida de dispersión conlleva información respecto a la cantidad total
de variabilidad presente en un conjunto de datos. Si en una distribución se encuentra
que todos los datos son iguales, esto indica que no hay dispersión; pero si no son
iguales, entonces existe dispersión. Si los datos de una distribución son cercanos entre
sí, la magnitud de la dispersión será pequeña; por el contrario, si los datos están
ampliamente esparcidos, la dispersión será mayor.

Existen varias medidas de dispersión, entre ellas: El rango o amplitud, la Varianza o


Variancia, La Desviación Estándar y El Coeficiente de Variación.

Rango, Recorrido o Amplitud


Su símbolo es: R no importando si es un parámetro o un estadístico.

Es la forma más sencilla de medir la variación de un conjunto de datos; y se trata


simplemente de la diferencia que existe entre el valor más pequeño y el valor más grande
de la distribución. Sin embargo su utilidad es limitada, por el hecho de que toma
solamente dos valores de la distribución, ignorando la magnitud así como el número total
de los demás datos, lo que la hace una medida poco confiable.

Su fórmula es: R = XL – XS

Ejemplo:

Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.
En los datos ordenados, el cálculo es fácil.

1. 1500 9. 2055 17. 3790


2. 1505 10. 2360 18. 3796
3. 1571 11. 3340 19. 3802
4. 1573 12. 3345 20. 3805
5. 1835 13. 3577 21. 5500
6. 1840 14. 3580 22. 5504
7. 1995 15. 3720 23. 5595
8. 2000 16. 3723 24. 5600

R= XL – XS = 5600 – 1500 = 4100

Interpretación: Los datos oscilan a lo largo


de, o la amplitud de la variables es de 4100
u/lt.

5
Sinónimos de dispersión: variación, expansión, esparcimiento, fluctuación.
7
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

El rango o amplitud se considera meramente como índice preliminar o aproximado


de la variabilidad de una distribución.

Se utiliza sólo cuando hay urgencia, para dar una idea de la dispersión, pero no
como una medida definitiva de dispersión. Es útil también para detectar si se ha
cometido algún error en el cálculo de la desviación estándar, ya que ésta última, es
“aproximadamente” la sexta parte del rango (ésta regla empírica es aplicable cuando el
número de datos es grande).

Varianza o Variancia
Su símbolo es: σ2 cuando se trate de un parámetro y s2 cuando sea un estadístico.

La varianza o variancia mide la dispersión de los datos, en función del esparcimiento


alrededor de su media. Por lo tanto, toma en cuenta todos los datos de la distribución.

Para su cálculo:
 Se mide la distancia existente entre cada uno de los datos y la media aritmética
de la distribución.
 Cada una de las distancias se eleva al cuadrado; luego se suman todas las
distancias.
 El producto de la sumatoria se divide entre N (para datos de una población) o
entre n-1 (para datos de una muestra).
 El resultado presenta entonces, es una media de las distancias6.
 Debido a que las distancias se elevan al cuadrado, para evitar una sumatoria de
“cero”, el resultado que la varianza ofrece es en unidades al cuadrado, lo que la
hace una medida de dispersión inadecuada si se pretende expresar el resultado
en unidades originales, en otras palabras, esta situación impide su interpretación.

Ejemplo:

Para el cálculo se utilizarán las siguientes formulas:

Para Arreglo ordenado:


Varianza = S2 =
Ʃ(X-X)2
n-1

Varianza = S2 = Ʃ
El numerador es la sumatoria de cada dato de la variable (x) menos la media
aritmética, elevado al cuadrado y el denominador es el total de datos menos 1 si los datos
provienen de una muestra

8
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

6
“Fundamentos de Estadística en la Investigación Social”. Jack Levin. 2ª. Edición. Editorial Harla. México.
pp. 59.

9
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

Desviación estándar o Desviación típica


Su símbolo es: σ cuando se trate de un parámetro y s cuando sea un estadístico.

La desviación estándar no es más que la raíz cuadrada de la varianza, por lo tanto, al


igual que ésta, mide la dispersión de los datos, en función del esparcimiento alrededor de
su media. Al obtener la raíz cuadrada de la varianza, el resultado regresa a la unidad de
medida original, por lo que la información se hace interpretable.

La desviación estándar se utiliza siempre que una distribución se aproxime a la


distribución normal. Es la base para gran parte de la Estadística. Como la medida más
confiable de variabilidad, se emplea con datos de intervalo y de razón7.
Tanto la varianza como la desviación estándar son medidas de dispersión ampliamente
utilizadas en análisis estadísticos, principalmente en el contexto de la toma de decisiones
en estadística.

7
“Métodos Estadísticos Aplicados” Norville M. Downie. 5ª. Edición. Editorial Harla. México. pp.58.
10
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019

Coeficiente de Variación
Su símbolo es: C.V. indistintamente para parámetro o estadístico.

El coeficiente de variación es una medida de variabilidad relativa que expresa la


desviación estándar como un porcentaje de la media. Es útil para comparar la dispersión
de dos o más conjuntos de datos, no importando si se trata de los datos de muestras o
poblaciones diferentes, o si se compara los datos de dos o más variables en el mismo
grupo.
En virtud de que, tanto la desviación estándar como la media aritmética de la distribución
se expresan en la misma unidad de medida, ésta se cancela al calcular el coeficiente de
variación, obteniéndose una medida independiente a la unidad de medición de la
variable, por lo tanto una medida susceptible de comparación.

Ejemplo: Para el cálculo se utilizará la siguientes formula: C.V = σ/µ o

Como la utilidad del C.V. es la comparación de la variabilidad entre grupos; de las


distribuciones anteriores se puede decir que: los niveles de glucosa presentan menos
dispersión que los niveles de creatinina cinasa.

11
Dra. Olivia de Higueros
MEDIDAS DESCRIPTIVAS
DATOS AGRUPADOS
BIOESTADISTICA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
MEDIA MEDIANA MODA
Una media aritmética resulta al Es una medida de tendencia Es el valor con mayor frecuencia
efectuar una serie determinada central y de posición que parte en las distribuciones de datos.
de operaciones con un conjunto a la distribución en dos partes
de números y que, en iguales. Como medida de
determinadas condiciones posición esta representado por
puede representar por si solo a el cuartil dos, decil cinco y
todo el conjunto. percentil cincuenta.
CARACTERISTICAS PRINCIPALES CARACTERISTICA PRINCIPALES CARACTERISTICAS PRINCIPALES
1. Es única 1. Es única 1. Puede existir mas de una
2. Se toman en cuenta todos los datos 2. En cálculo no se incluyen todos los 2. No es afectada por valores extremos
de la variable valores de la variable 3. El tamaño y variabilidad del
3. Su valor se ve afectado por valores 3. Su valor no se ve afectado por intervalo puede afectar su valor.
extremos valores extremos

FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS


Parámetro 

Estadístico 
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER” CÁLCULO DE LA MEDIA EN
GUATEMALA, FEBRERO DE 2021 DATOS AGRUPADOS
Niveles de f Mc fMc FORMULA A EMPLEAR:
glucosa
(mg/dl)
80 -- 100 5 90 450
101 –115 20 108 2160
Mc = marca de clase
116 -- 135 35 125.5 4392.5
136 -- 150 45 143 6435 µ = 37375/ 230
151 -- 172 15 161.5 2422.5
µ = 162.5 mg / dl
173 -- 190 60 181.5 10890
191 – 210 30 200.5 6015
Interpretación: El promedio
211 -- 250 20 230.5 4610
de los niveles de glucosa
N = 230 ∑ 37375 sérica del grupo de pacientes
FUENTE: Datos Hipotéticos es de 162.5 mg/dl
MEDIANA EN DATOS AGRUPADOS
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES Fórmula
DIABÉTICOS, HOSPITAL “RENACER” a emplear 
GUATEMALA, FEBRERO DE 2021
Paso 1: Encontrar en que intervalo se
Niveles f Mc f(X) fa
encuentra la mediana: N/2 = 230/2 = 115
de glucosa (X)
Buscar en frecuencia acumulada (fa) de
(mg/dl)
arriba hacia abajo el intervalo que contiene
80 -- 100 5 90 450 5 a 115, el quinto Intervalo contiene a 115.
101 –115 20 108 2160 25 (línea verde). Cálculo de i = 173-151 = 22
116 -- 135 35 125.5 4392.5 60 Paso 2: Utilizar la fórmula:
136 -- 150 45 143 6435 105
= 165.17
151 -- 172 15 161.5 2422.5 120
173 -- 190 60 181.5 10890 180
191 – 210 30 200.5 6015 210 Me = 165.17 mg/dl
211 -- 250 20 230.5 4610 230 INTERPRETACION: El valor que divide a la
N = 230 ∑ 37375 distribución en dos partes iguales es 165.17
FUENTE: Datos Hipotéticos
mg/dl
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2021 CÁLCULO DE LA MODA EN DATOS AGRUPADOS
Fórmula a emplear:
Niveles f Mc f(X) fa
de glucosa (X) PASO 1.
(mg/dl) En que intervalo se encuentra la moda??
80 -- 100 5 90 450 5 Observe el intervalo donde se encuentra la mayor
101 –115 20 108 2160 25 Frecuencia absoluta y allí se encuentra la moda.
En este caso es el intervalo 6 (fila color verde)
116 -- 135 35 125.5 4392.5 60
136 -- 150 45 143 6435 105 PASO 2.
Utilice la formula: Mo = 172.5 + ( 45 / (45 + 30)) (18)
151 -- 172 15 161.5 2422.5 120
Δ1 = 60 – 15 = 45
173 -- 190 60 181.5 10890 180 Δ2 = 60 - 30 = 30
191 – 210 30 200.5 6015 210 i = 191 – 173 = 18
211 -- 250 20 230.5 4610 230 MODA = 183.3 mg/dl
Interpretación: El valor mas frecuente es 183.3 mg/dl
N = 230 ∑ 37375
FUENTE: Datos Hipotéticos
PARTE PRACTICA DEL ESTUDIANTE
MEDIDAS DE TENDENCIA CENTRAL
Realizar los siguientes cálculos
en relación al cuadro No. 2.
1. Calcule la media
2. Calcule la mediana
3. Calcule la moda
4. Explique si es simétrica
la distribución.
RESPUESTAS AL EJERCICIO ANTERIOR

 Clase de la Mediana

1. MEDIA 2.MEDIANA
= 699.7 / 64 = 10.93 mg/dl = 10.4 mg/dl

3. MODA
= 13.88 mg/dl 4. NO ES SIMETRICA LA DISTRIBUCION
MEDIDAS DE POSICION
DATOS AGRUPADOS
CUARTILES DECILES PERCENTILES
Son valores que dividen una Son valores que dividen a una Son valores que dividen a una
distribución estadística en distribución estadística en 10 distribución estadística en 100
cuatro partes iguales. partes iguales. Corresponde partes iguales. Corresponde a
Correspondiendo cada una de cada parte de la distribución un cada parte el 1% de la
ellas al 25% de la distribución. 10%. Solamente existen 9 distribución. Solamente existen
Solamente existen 3 cuartiles, deciles, el D1, D2, D3,…..D9. 99 percentiles, el P1, P2,..P99.
el Q1, Q2 y Q3.
División en cuartiles División en Deciles División en percentiles

FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS


EJEMPLO UTILIZANDO CUARTIL
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
1. Cual es el valor que deja sobre si 1/4 de
GUATEMALA, FEBRERO DE 2021
la distribución?
Niveles de f Mc f(X) fa
glucosa (X)
(mg/dl)
1/4= 25%  podría ser Q3 o P75
80 -- 100 5 90 450 5 Se calculará el Q3.
101 –115 20 108 2160 25 ¿Cuál será la posición?
Posición  (230X3)/4=172.5 (6ª. clase)
116 -- 135 35 125.5 4392.5 60
136 -- 150 45 143 6435 105 Lri = 172.5 ; fa = 120 ; i = 191 – 173 = 18
fi =60
151 -- 172 15 161.5 2422.5 120
173 -- 190 60 181.5 10890 180 =188.25

191 – 210 30 200.5 6015 210


211 -- 250 20 230.5 4610 230 Q3 = P75 = 188.25 mg/dl
Interpretación: El 25% de los pacientes tiene
N = 230 ∑ 37375
niveles de glicemia de 188 mg/dl o más.
FUENTE: Datos Hipotéticos
EJEMPLO UTILIZANDO DECIL
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2021 2. Encontrar el valor que deja SOBRE SI el
30% de los datos.
Niveles de f Mc f(X) fa
glucosa (X)
(mg/dl)
Se puede calcular el D7 o P70.
80 -- 100 5 90 450 5
Dará el mismo resultado. Se calculará
101 –115 20 108 2160 25 el D7, ustedes pueden calcular el P70.
116 -- 135 35 125.5 4392.5 60 Encontrando posición:
posición = kn/10 = (7X230)/10 = 161
136 -- 150 45 143 6435 105
Viendo las fa, vemos que la 6ª. Clase
151 -- 172 15 161.5 2422.5 120 Contiene a 161. En esa clase esta el
173 -- 190 60 181.5 10890 180 D7 y P70.
i = 191-173 =18 ; fa = 120 ; fi = 60
191 – 210 30 200.5 6015 210
211 -- 250 20 230.5 4610 230 = 184.8
N = 230 ∑ 37375
Interpretación: El 30% de los pacientes
FUENTE: Datos Hipotéticos
diabéticos tiene 184.8 mg/dl o más
CUADRO No1 EJEMPLO UTILIZANDO PERCENTIL
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2020
3. Cual es el valor que deja bajo si las 2/5
Niveles f Mc fMc Fa partes de la distribución?
de glucosa 2/5 = 40%  podría ser D4 o P40
(mg/dl) Se calculará el P40.
80 -- 100 5 90 450 5 Encontrando Posición  9200/100 = 92
92, está contenido en la 4ª. Clase. (verde)
101 –115 20 108 2160 25
116 -- 135 35 125.5 4392.5 60 Lri = 135.5 fa = 60 i = 151 – 136 = 15
136 -- 150 45 143 6435 105 fi =45
151 -- 172 15 161.5 2422.5 120 = 146.17

173 -- 190 60 181.5 10890 180


191 – 210 30 200.5 6015 210 Interpretación: El 40% de pacientes
211 -- 250 20 230.5 4610 230 diabéticos tienen niveles de glicemia
N = 230 ∑ 37375 menores de 146.17 mg/dl
FUENTE: Datos Hipotéticos
EJERCICIO PARA IDENTIFICAR MEDIDAS DE
POSICION
INSTRUCCIONES: No debe realizar ningún cálculo, solo escriba a que
cuartil, decil o percentil se están refiriendo.
1. El valor que deja sobre si el 54% de la distribución.
2. El valor que deja bajo si el 25% de la distribución.
3. El valor que deja bajo si el 60% de la distribución.
4. El valor que deja sobre si el 80% de la distribución.
5. El valor que deja bajo si la 1/5 parte de la distribución.
6. El valor que deja sobre si las 4/5 partes de la distribución.
RESPUESTAS AL EJERCICIO ANTERIOR
INSTRUCCIONES: No realice los cálculos solo escriba a que cuartil, decil
o percentil se están refiriendo.
1. El valor que deja sobre si el 54% de la distribución. P 46
2. El valor que deja bajo si el 25% de la distribución. Q1 o P25
3. El valor que deja bajo si el 60% de la distribución. P60 o D6
4. El valor que deja sobre si el 80% de la distribución. P20 o D2
5. El valor que deja bajo si la 1/5 parte de la distribución. P20 o D2
6. El valor que deja sobre si las 4/5 partes de la distribución. P20 o D2
PARTE PRACTICA
Calcule e interprete las siguientes
medidas de posición en
base a los datos del cuadro 2 :

1. El valor que deja bajo si 33%


de la distribución.
Niveles de f Xi f(Xi) fa
2. El valor que deja sobre si 1/5 de nitrógeno
la distribución. 5.9 -- 7.5 8 6.7 53.6 8
7.6 -- 9.6 14 8.6 120.4 22
9.7 -- 10.5 12 10.1 121.2 34
10.6 -- 13.2 10 11.9 119 44
13.3 -- 15.1 19 14.2 269.8 63
15.2 -- 16.2 1 15.7 15.7 64
n=64 699.7
RESPUESTAS DEL EJERCICIO ANTERIOR

1. El valor que deja bajo si 33%


de la distribución.
Se debe calcular el P33. Niveles de f Xi f(Xi) fa
Se encuentra en la segunda clase. nitrógeno
5.9 -- 7.5 8 6.7 53.6 8
7.6 -- 9.6 14 8.6 120.4 22
= 9.52 mg/dl 9.7 -- 10.5 12 10.1 121.2 34
10.6 -- 13.2 10 11.9 119 44
2. El valor que deja sobre si 1/5 de 13.3 -- 15.1 19 14.2 269.8 63
la distribución. 15.2 -- 16.2 1 15.7 15.7 64
Se puede calcular el D8 o P80. n=64 699.7
Se resolverá como D8.
Se encuentra en la 5ª. Clase.

=13.97 mg/dl
MEDIDAS DE DISPERSION
DATOS AGRUPADOS
VARIANZA DESVIACION ESTANDAR COEFICIENTE DE VARIACION
Representa la variabilidad La desviación estándar indica la Es la relación entre la desviación
medida en unidades al cuadrado variabilidad en unidades típica y su media. El coeficiente
de una serie de datos respecto a absolutas de los datos respecto a de variación permite comparar
su media. La desviación estándar su media. Mientras mayor es la las dispersiones de dos
al cuadrado equivale a la desviación estándar mayor es la distribuciones distintas y
varianza. dispersión de la población. determinar cual tiene mayor
dispersión. A mayor valor
porcentual del coeficiente de
variación mayor dispersión.
FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS

estadístico estadístico estadístico

parámetro parámetro
parámetro
CÁLCULO DE LA VARIANZA EN DATOS AGRUPADOS
CUADRO No1 SEGUIR LOS PASOS SIGUIENTES:
PASO 1
NIVELES DE GLUCOSA SERICA DE LOS PACIENTES
A cada marca de clase se le resta la
DIABÉTICOS, HOSPITAL “RENACER” media, nuestra media es µ = 162.5
GUATEMALA, FEBRERO DE 2021 (vea columna verde, Mc - µ )

Niveles de f Mc Mc - µ f(Mc - µ)2 PASO 2


glucosa (X) Los datos de la columna verde se elevan
(mg/dl) al cuadrado y se multiplican por cada
80 -- 100 5 90 -72.5 26281.25 frecuencia absoluta. (ver columna azul)
101 –115 20 108 -54.5 59405
PASO 3 Sumar la columna azul, esto da
116 -- 135 35 125.5 -37 47915 un total de 308,187.5
136 -- 150 45 143 -19.5 17111.25
PASO 4 El valor anterior dividirlo entre el
151 -- 172 15 161.5 -1 15
tamaño de N, cuando es población y n-1
173 -- 190 60 181.5 19 21660 si es muestra.
191 – 210 30 200.5 38 43320 = 308,187.5/230 = 1339.95

211 -- 250 20 230.5 68 92480


= 1339.95  VARIANZA
N = 230 ∑308,187.5 INTERPRETACION: La variabilidad en unidades al
cuadrado equivale a 1339.95
CÁLCULO DE LA DESVIACION ESTANDAR EN DATOS AGRUPADOS
CUADRO No1 SE REALIZAN LOS MISMOS PASOS
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES QUE SE UTILIZARON PARA CALCULAR
DIABÉTICOS, HOSPITAL “RENACER” LA VARIANZA Y ESTE ULTIMO PASO.
GUATEMALA, FEBRERO DE 2021
PASO 6
Para el calculo de la desviación
estándar solamente toma el dato de
la varianza y le calcula su raíz
cuadrada.

σ = 36.61 mg/dl
INTERPRETACION: La variabilidad en
unidades absolutas corresponde a 36.61
mg/dl
CÁLCULO DEL COEFICIENTE DE VARIACION
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2021 PASO UNICO
Valor de la media = 161.2 mg/dl
Valor de la σ = 34.36 mg/dl
CV = (σ/µ) X 100
CV = (36.61/162.5) X 100
CV = 22.53%

El coeficiente de variación se expresa


como la relación de la desviación
estándar como un porcentaje de la
media. Cuando nos piden calcular la
variabilidad relativa nos están
solicitando el coeficiente de
variación.

FUENTE: Datos Hipotéticos


¿PARA QUE SIRVE EL CV.?
COMPARACION EN DOS DISTRIBUCIONES
• En el hospital RENACER el CV = 22.53% (dato recién calculado)

• Ahora suponga que se tiene otro grupo de pacientes diabéticos


en el hospital LA ESPERANZA. La media de glicemia fue de 180 mg/dl
la desviación estándar fue de 20 mg/dl. Entonces el CV = 11.11%

Note que el coeficiente de variación del hospital la Esperanza es menor que el coeficiente de
variación del hospital “Renacer”, por lo tanto es mas homogénea la distribución de datos del
hospital la Esperanza.
Conclusión:
Es mas homogéneo el grupo de datos del hospital “La Esperanza”. Esto quiere decir que existe
menos dispersión en la distribución de datos del hospital “La Esperanza” con respecto a la
distribución del hospital “Renacer”.
Ejemplo adicional del coeficiente de variación.
El cóndor de los Andes tiene una extensión media (alas extendidas) de 285 Cms. con una
desviación estándar de 30 Cms., mientras que una especie de murciélago tiene una
extensión media (alas extendidas) de 10 Cms. y su población presenta una desviación
estándar de 3 Cms.
¿Cuál de las dos poblaciones presenta una mayor dispersión en lo que se refiere a la
extensión de sus alas?
Primera impresión  Pareciera que hay mayor dispersión en el cóndor
por el valor mayor de su desviación estándar.
MURCIELAGO CONDOR
CV = (3/10) X 100 CV = (30/285) X100
CV = 30% CV = 10.53%

CONCLUSION: Mediante el coeficiente de variación se ha comprobado que, aunque la variación estándar de la


extensión de las alas del cóndor de los andes es muy superior a la de esa especie de murciélago, su dispersión es
menor. Explicado de otra forma quiere decir que existe mayor variabilidad en el tamaño de alas de esa especie de
murciélagos con respecto a la variabilidad en el tamaño de alas de los cóndores.
PARTE PRACTICA MEDIDAS DE DISPERSION

INSTRUCCIONES: Utilizando su calculadora resuelva lo


solicitado en base a los datos del cuadro 2.
1. Determine la variabilidad en unidades al cuadrado.
2. Determine la variabilidad en unidades absolutas.
3. Determine la variabilidad relativa.

4. Se conoce que en el hospital “Bello Amanecer” la


relación que existe entre la desviación estándar y
la media, relacionado con los valores de nitrógeno
de urea es del 18% . ¿Están mas dispersos los valores
del nitrógeno de urea en el hospital “Bello Amanecer”
o el hospital “San Jacinto”?
RESPUESTAS PARTE PRACTICA
MEDIDAS DE DISPERSION
INSTRUCCIONES: Utilizando su calculadora resuelva lo
solicitado en base a los datos del cuadro 2.
1. Determine la variabilidad en unidades al cuadrado.  7.34
2. Determine la variabilidad en unidades absolutas.  2.71 mg/dl
3. Determine la variabilidad relativa. CV = (2.71/10.93) X 100  24.79% (Hospital San Jacinto)
4. Se conoce que en el hospital “Bello Amanecer” la
relación que existe entre la desviación estándar y
la media, relacionado con los valores de nitrógeno  Están mas dispersos los valores de nitrógeno
de urea es del 18% . ¿Están mas dispersos los valores en el hospital San Jacinto porque el CV es mayor.
del nitrógeno de urea en el hospital “Bello Amanecer”
o el hospital “San Jacinto”?
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

DOCUMENTO DE APOYO PARA LA


UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
AÑO 2023
Elaborado por: Licda. Haylyn Karina Valdez, MSc.
Revisado por: Inga. Vivian Paola Pérez, M.A.
TEMA CENTRAL: Introducción al muestreo

A continuación encontrarán algunos conceptos importantes para la comprensión del tema:

1. Muestra probabilística: Es una muestra extraída de una población, de tal forma que cada
elemento tuvo una probabilidad conocida de estar incluido en esa muestra.

2. Muestra aleatoria simple: Se considera muestra aleatoria simple si una muestra de tamaño n,
extraída de una población de tamaño N, tiene la misma probabilidad de ser seleccionada y sus
elementos son elegidos al azar.

3. Marco muestral: Consiste en descripciones disponibles con anterioridad del material en forma
de mapas, listas, directorios, etc., a partir de los cuales las unidades de la muestra se pueden
construir y se puede seleccionar un conjunto de elementos o sujetos (1). Es la población de donde
se tomarán los datos de la muestra según el tipo de muestreo a realizar.

4. Muestreo: Es la técnica que se emplea para la selección de una muestra a partir de


una población. De cualquier población finita de tamaño N, es posible extraer un número de
muestras diferentes de tamaño n. Esto si N es lo suficientemente grande como para permitir el
muestreo. Las poblaciones pequeñas, por razones obvias, no son muestreadas, en lugar de ello,
se examina la población completa (2). Existen dos tipos de muestreo: no probabilístico y
probabilístico.

4.1 Muestreo no probabilístico: En las técnicas de muestreo de tipo no probabilísticas, la selección


de los sujetos a estudio dependerá de ciertas características, criterios, etc., que el investigador
considere en ese momento; por lo que pueden ser poco válidos y confiables o reproducibles;
debido a que este tipo de muestras no se ajustan a un fundamento probabilístico, es decir, no
dan certeza que cada sujeto a estudio represente a la población (5).

Antes de hablar del muestreo probabilístico, vemos la situación de muestrear con reemplazo y sin
reemplazo:

● Muestreo con reemplazo: Cuando se utiliza una muestra con reemplazo cada elemento de la
población está disponible para cada extracción. Ejemplo: De los expedientes clínicos de pacientes
que asisten a la clínica de salud integral del Centro Universitario Metropolitano (CUM), se elige
un expediente al azar para conocer sus características sociodemográficas, se toman sus datos y
luego es devuelto al archivo, para cuando se elija otro expediente éste pueda ser tomado en
cuenta nuevamente. Es decir, un mismo elemento puede aparecer varias veces en la muestra.
1
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

Para esta situación del muestreo con reemplazo considere lo siguiente:


a. El número se eleva a la potencia de “n”.
b. Es mayor el número resultante.
c. Puede aparecer varias veces un elemento.
d. Se debe colocar nuevamente el elemento para ser tomado en cuenta.

La fórmula para calcular la cantidad de muestras posibles de extraer en el Muestreo con reemplazo
es: 𝑁 !
Ejemplo: Al tener una población N=28 y se toman muestras n=4. ¿Cuántas muestras es posible
extraer si se realiza un muestreo con reemplazo?
28" = 614,656 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟

● Muestreo sin reemplazo: En este muestreo siguiendo con el ejemplo, el expediente extraído no
es devuelto al archivo después de tomar los datos, sino que se separa hasta extraer toda la
muestra. Con este procedimiento un elemento debe aparecer sólo una vez. En la práctica,
generalmente el muestreo se hace sin reemplazo.

Para esta situación del muestreo sin reemplazo considere lo siguiente:


a. Se utiliza la opción de la calculadora “n C r”.
b. Es menor el número resultante.
c. Sólo una vez puede aparecer un elemento.
d. No se coloca el elemento nuevamente para ser tomado en cuenta.

La fórmula para la calcular la cantidad de muestras posibles de extraer en Muestreo sin reemplazo
es: 𝑁 𝐶 𝑛

Ejemplo cuando se desglosa la fórmula: Al tener una población N=5 y se toman muestras n=2.
¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo?
5 𝐶 2 = !!(#&!)! =
#! (! (∗"∗-∗)∗+
()∗+)∗ (-∗)∗+)
= = 10 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
)!-!

Ejemplo cuando se utiliza la calculadora: Al tener una población N=5 y se toman muestras n=2.
¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo?
5 𝐶 2 = 10 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟

4.2 Muestreo probabilístico: Las técnicas de muestreo probabilísticas, permiten conocer la


probabilidad que cada individuo a estudio tiene de ser incluido en la muestra a través de una
selección al azar, por lo que existen procedimientos estadísticamente seguros que permiten
inferir, a partir de la muestra extraída, sobre la población de interés. A continuación se abordarán
dos de los tipos de muestreo probabilístico:

2
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

4.2.1 Muestreo aleatorio simple: Es el sistema de extracción al azar de los elementos de una
muestra aleatoria simple. Se caracteriza porque otorga la misma probabilidad de ser elegidos
a todos los elementos de la población y garantiza que todos los individuos tienen la misma
oportunidad de ser incluidos en la muestra (3). Los elementos se pueden extraer con
reemplazo y sin reemplazo.

El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente
video para visualizar el paso a paso: https://youtu.be/Movj5ujvSWM

Ejemplo para el MUESTREO ALEATORIO SIMPLE CON REEMPLAZO


Se desea extraer una muestra de 5 pacientes, por medio de muestreo con reemplazo de una
población de 15 personas con los siguientes valores de glucosa en ayunas:
Pacientes Valores de Pacientes Valores de Pacientes Valores de
(Sujetos que (Sujetos que (Sujetos que
glucosa en ayuna glucosa en ayuna glucosa en
conforman la conforman la conforman la
población) (mg/dl) población) (mg/dl) población) ayuna (mg/dl)
1 91 6 107 11 104
2 94 7 94 12 105
3 115 8 105 13 88
4 85 9 94 14 107
5 89 10 103 15 90

Se requiere lo siguiente:
1) Calcular la cantidad de muestras que pueden ser extraídas con reemplazo.
2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la
muestra extraída.
3) El cálculo de los estadísticos (media y desviación estándar).
Solución:
1) 15( = 759,375 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por
la aleatorización):
Número del Número Valores de
paciente en la aleatorio glucosa en
muestra ayunas
1 12 105 Observa que los elementos
pueden aparecer más de una vez.
2 12 105
3 13 88
4 08 105
5 08 105

3
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

3) Los estadísticos calculados son:


𝑥 = 101.6 𝑠 = 7.60

Ejemplo para el MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO


Se desea extraer una muestra de 5 pacientes, por medio de muestreo con reemplazo de una
población de 15 personas con los siguientes valores de glucosa en ayunas:
Pacientes Valores de Pacientes Valores de Pacientes Valores de
(Sujetos que (Sujetos que (Sujetos que
glucosa en ayuna glucosa en ayuna glucosa en
conforman la conforman la conforman la
población) (mg/dl) población) (mg/dl) población) ayuna (mg/dl)
1 91 6 107 11 104
2 94 7 94 12 105
3 115 8 105 13 88
4 85 9 94 14 107
5 89 10 103 15 90

Se requiere lo siguiente:
1) Calcular la cantidad de muestras que pueden ser extraídas sin reemplazo.
2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la
muestra extraída.
3) El cálculo de los estadísticos (media y desviación estándar).

Solución:
1) 15 𝐶 5 = 3,003 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por
la aleatorización):
Número del Número Valores de
paciente en la aleatorio glucosa en ayuna
muestra Observa que ninguno de los elementos
puede aparecer más de una vez. Si al
1 12 105 generar los números aleatorios sugiere uno
2 13 88 que ya está en el listado, se debe
seleccionar el siguiente hasta no tener
3 08 105 repetidos en el listado de números
aleatorios.
4 04 85
5 10 103

3) El cálculo de los estadísticos (media y desviación estándar).


𝑥 = 97.2 𝑠 = 9.86

4
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

4.2.2 Muestreo sistemático:


Cuando el criterio de distribución de los sujetos a estudio en una serie es tal, que los más
similares tienden a estar más cercanos y ordenados. Este tipo de muestreo suele ser más
preciso que el aleatorio simple, debido a que recorre la población de forma más uniforme (3).
Se toman muestras más directas y ordenadas a partir de una regla determinística, también
llamada sistemática. El diseño muestral sistemático más sencillo es llamado muestreo
sistemático uniforme de paso k, para el ejemplo se seguirán los siguientes pasos:

1) Tener el listado ordenado de la población.


2) Determinar el tamaño de la muestra.
3) Definir el tamaño del salto sistemático k dado por k = N/n (Nota importante: al resultar un
número con decimal, se procede a aproximar a número entero de acuerdo a las “reglas de
aproximación” determinadas por la Unidad de Bioestadística.
4) Elegir un número aleatorio entre 1 y k ( =arranque aleatorio o primer sujeto de estudio que
conformará la muestra). Este número permite obtener la primera unidad muestral.
5) A partir de la posición , dando un salto k unidades, obtendremos la segunda unidad de la
muestra u +k y de esta forma, saltando de k en k unidades, el resto de la muestra estará
formada por las unidades u +2k, u +3k,…, u +(n+1) k.

Ejemplo: Consideramos una población de 5,000 pacientes con las dos dosis de la vacuna AstraZeneca
pertenecientes a determinada zona y de la que se pretende extraer una muestra sistemática de 10
agricultores. El procedimiento a seguir es el siguiente (4):
1) Definir el tamaño del salto sistemático k= 5000/10= 500
2) Selecciona un número aleatorio r entre 1 y 500, (por ejemplo 96)
3) Seleccionar los restantes elementos de la muestra, 96, 96+500=596, 596+500=1096, 1596,
2096, 2596, 3096, 3596, 4096, 4596.

El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente
video para visualizar el paso a paso: https://youtu.be/4a2KR_nccZs

5
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

TEMA ADICIONAL: Distribuciones Muestrales

A continuación se presente el siguiente tema, el cual es clave para la comprensión de la inferencia


estadística:

Distribución muestral: Es la distribución de todos los valores posibles que puede asumir una
estadística, calculados a partir de muestras del mismo tamaño, extraídas aleatoriamente de la
misma población.

Se procede de la siguiente manera:


1) De una población finita, se extraen de manera aleatoria todas las muestras posibles, y
2) Se calcula la estadística de interés para cada muestra.
3) Se tiene interés de conocer la media, desviación estándar y forma funcional (apariencia gráfica).

Ejemplo:
Población= 3
Muestra= 2
Muestreo con reemplazo 3) = 9 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
N Edad Muestras que Elementos de las Medias de las 𝑥 − 𝜇! "
%𝑥 − 𝜇! &
pueden muestras muestras
extraerse 𝑥
1 17 1 17, 17 17 -1.33333333 1.77777778
2 18 2 17, 18 17.5 -0.83333333 0.69444444
3 20 3 17, 20 18.5 0.166666667 0.02777778
4 18, 17 17.5 -0.83333333 0.69444444
5 18, 18 18 -0.33333333 0.11111111
6 18, 20 19 0.666666667 0.44444444
7 20, 17 18.5 0.166666667 0.02777778
8 20, 18 19 0.666666667 0.44444444
9 20, 20 20 1.666666667 2.77777778
∑ 55 165 7.000000

Cálculo de la media muestral: Es la media de todas las posibles muestras que se calculan de una
población. Es interesante ver que la media de la población es igual a las medias de todas las
muestras.
./ ((
𝜇 = ! 𝜇 = - = 18.33 años

./ +0(
𝜇/ = # ! 𝜇/ = = 18.33 años
-"

6
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

Cálculo de la desviación estándar muestral (llamado también error estándar de la media o sólo
ERROR ESTÁNDAR): Es la desviación estándar de todas las posibles muestras que se calculan de una
población. Es interesante notar que la varianza de la distribución muestral es igual a la varianza de
la población dividida entre el tamaño de la muestra.

.(/&1# )" 2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝜎/) = = = 0.78
#! 3
4" +.(0
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑖𝑣𝑖𝑑𝑖𝑑𝑎 𝑒𝑛𝑡𝑟𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 = = 0.78 =
! )
𝜎 1.25
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 (𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟) = L𝜎/) = 𝜎/ = = = 0.88 𝑎ñ𝑜𝑠
√𝑛 √2

La utilidad de lo anterior es comprender que cuando se desea generalizar los datos de una muestra
extraída de una población con distribución normal:
1) La distribución de la media será normal.
2) La media muestral será igual a la media de la población.
3) La desviación muestral será igual a la desviación de la población dividida entre el tamaño de la
muestra.

Ahora bien, cuando el muestreo se realiza en una población que no sigue una distribución normal,
se utiliza el Teorema de Límite Central.

Teorema de límite central: El Teorema del Límite Central permite tomar muestras a partir de
poblaciones con distribución no normal y garantizar que se obtengan aproximadamente los mismos
resultados que si la población tuviera una distribución normal, siempre que se tome una muestra
grande.

La normalidad de una población es importante para la inferencia estadística. Empíricamente se


considera una muestra grande a una muestra de tamaño 30 en adelante.

Factor finito de corrección para población finita: Si el tamaño de la muestra es muy grande, el
teorema del límite central es aplicable y el muestreo de la media tendrá una distribución
aproximadamente normal.
#&!
● El factor L#&+ se llama corrección por población finita y se puede aplicar cuando el tamaño de
la muestra es grande en comparación con el tamaño de la población. Es decir sí se aplica cuando
!
>0.05.
#
● Esta multiplicación, además, permite disminuir el error estándar.

7
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO

Ejemplo:
● Error estándar con factor finito de corrección
)
Si - > 0.66 𝑠𝑖 𝑠𝑒 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑐𝑎 𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑓𝑖𝑛𝑖𝑡𝑜 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑐𝑖ó𝑛

4 #&! +.)( -&)


𝜎/ = ∗ L #&+ = ∗ L-&+ = 0. 88 ∗ 0.71 = 0.62 𝑎ñ𝑜𝑠
√! √)

Las características de la distribución muestral se resumen en las siguientes condiciones:


1) Cuando el muestreo se realiza a partir de una población distribuida normalmente con una
varianza de población conocida:
a. 𝜇/ = 𝜇
4
b. 𝜎/ = !

c. 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒 𝑥 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙

2) El muestreo se efectúa a partir de una población que sigue una distribución no normal, con una
variancia de población conocida:
a. 𝜇/ = 𝜇
4 !
b. 𝜎/ = , 𝑑𝑜𝑛𝑑𝑒 # > 0.05
√!
4 #&!
𝜎/ = * L #&+
√!
c. 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑥 𝑒𝑠 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑛𝑜𝑟𝑚𝑎𝑙 (2).

Bibliografía
1. L. K. inec.cr. [Online].; 2021 [cited 2021 junio 20. Available from:
https://www.inec.cr/sites/default/files/_book/M.html.
2. Wayne W. D. Bioestdística. Base para el análisis de las ciencias de la salud. Tercera ed. Editores GN,
editor. México: Limusa; 2008.
3. Otzen T, Manterola C. Técnicas de muestreo sobre una población de estudio. Int. J. Morphol.
2017;(35(1):227-232, 2017).
4. Matemáticas.unex.es. Matemáticas.unex.es. [Online]. [cited 2021 junio 20. Available from:
http://matematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf.
5. Walpole M. Probabilidad y estadística para ingeniería y ciencias. Novena ed. López G, editor.
México: Pearson Educación; 2012.

8
U.D. Bioestadística Ciclo: 2023

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA Documento elaborado por

FACULTAD DE CIENCIAS MÉDICAS -CUM- Dra. Olivia de Higueros

ÁREA DE INVESTIGACIÓN
U.D. BIOESTADÍSTICA

GUÍA PARA ELABORACIÓN DE


BASES DE DATOS

I. INTRODUCCIÓN

Una vez que se ha terminado con el proceso de recopilación de la información, el investigador se encuentra
con un cúmulo de información que necesita “vaciar” de alguna forma, utilizando algún programa, para poder
organizar y analizar dicha información, en otras palabras, necesita elaborar una base de datos.
Se define una base datos como un banco de datos o una serie de datos organizados y relacionados entre sí,
pertenecientes a un mismo contexto, los cuales son recolectados y almacenados de forma sistemática para
ser explorados por programas estadísticos.

El programa Excel es una hoja electrónica amigable y útil para la elaboración de bases de datos, de
diferente índole y con diferentes propósitos, por lo que se convierte en una herramienta valiosa en el proceso
de análisis de datos. Se ha vuelto tan útil y amigable, que los formularios de Google, entre otros, pueden ser
descargados en este programa.
Una base de datos puede ser leída por programas especiales que faciliten todo el proceso estadístico, como
por ejemplo: EpiInfo, Stata, SPSS, Epidat, entre otros.

II. PROCESO PARA ELABORACIÓN DE UNA BASE DE DATOS


Es de hacer notar que esta guía se enfoca principalmente al procedimiento que se deberá realizar si la
recopilación de la información se hace en forma presencial, sin embargo, también hay aspectos útiles si se
utiliza alguna herramienta virtual para recopilar la información.

El programa Excel consta de una serie de filas y una serie de columnas; para la elaboración de la base de
datos utilizando dicho programa, se debe proceder de la siguiente forma:
a. Identificación de boletas: cada boleta debe tener un número que la identifique, es recomendable
que dicho número sea colocado en la esquina superior derecha de la carátula o primera hoja del
instrumento (si constara de varias páginas), el propósito es facilitar la ubicación, por si fuere
necesario verificar algún dato.

b. En la primera columna se colocará la identificación de cada boleta (No. de boleta), esto facilitará la
localización del registro, por si fuera necesario, para hacer alguna corrección o confirmación
respecto a los datos.
c. Cada columna de las subsiguientes corresponderá a una variable. En el encabezado de cada
columna se deberá escribir el nombre de la variable, por lo que cada columna contendrá la
información de la variable respectiva.
d. Cada fila corresponderá a la información de una boleta, en otras palabras, a la información de un
sujeto de estudio.

Dra. Olivia Ordóñez de Higueros 1


U.D. Bioestadística Ciclo: 2023

Una vez comprendidos y ejecutados los incisos anteriores, se tiene lista la “plantilla” para ingresar la
información. Desde luego que estos incisos deben realizarse si la recopilación de la información se ha
realizado en forma manuscrita.

Google forms proporciona en formato Excel, un archivo con la información que cada “sujeto de estudio”
colocó al responder un formulario. Para ir transformando el archivo en una base de datos es necesario
revisarlo y editarlo, por lo que se puede tomar como referencia los incisos anteriores así como los que se
van describiendo más adelante.

Ejemplo: La imagen muestra un archivo generado desde Google forms:

Marca temporal: es colocado


automáticamente por el sistema. Cada columna se encuentra Cada fila presenta la
encabezada por el enunciado que información proporcionada
permite recopilar la información. por cada “sujeto de estudio”.

Identificación del
“sujeto de estudio”

III. ALGUNAS CONSIDERACIONES

Si el procedimiento se hace en forma manual, antes de iniciar el ingreso de los datos al programa Excel, se
debe proceder a:

a. Codificación de las variables: Se requiere contar con una copia en blanco, del instrumento
utilizado para la investigación (boleta, encuesta), para codificar las variables.

La codificación consiste en identificar a cada variable con un “nombre” que conste de 8 a 10


caracteres, sin dejar ningún espacio y sin utilizar tildes ni símbolos. También es recomendable que
se escriba todo en letras minúsculas.

Esta codificación debe realizarse para que dicho archivo pueda ser leído por programas estadísticos
como los que se mencionaron anteriormente. Actualmente esto es necesario para la utilización de
algunos programas que aún tienen este tipo de restricciones.

Dra. Olivia Ordóñez de Higueros 2


U.D. Bioestadística Ciclo: 2023

EJEMPLO:

BOLETA DE RECOLECCIÓN DE DATOS CODIFICACIÓN DE VARIABLES

No. De Boleta:___ boleta:___

I. DATOS GENERALES I. DATOS GENERALES


Hospital: _________________________ hospital: _________________________
Edad: ____ Sexo: Masculino__ Femenino edad: __ sexo: Masculino(1)_ Femenino(2)
No. De cama___ Presión Arterial(PA):_____ ncama ___
padiast presión diastólica____
pasist presión sistólica____

II. CARACTERIZACIÓN CLÍNICA II. CARACTERIZACIÓN CLÍNICA


1. Diagnóstico de ingreso al hospital: 1. dxingreso
a. Neumonía c. Epiglotitis a. Neumonía(1) c. Epiglotitis(3)
b. Sepsis d. Otro b. Sepsis(2) d. Otro__(4)

Se puede observar en la columna derecha, que las variables han sido codificadas, todas están
escritas con letras minúsculas y en negrita. Al codificar o colocar nuevos nombres a las variables, se
debe tener el cuidado de que, el nuevo nombre “refleje” la información que contiene.
En el cuadro anterior, se puede observar que, para las primeras 5 variables del ejemplo, no parece
haber ningún problema, está explícita la información que contendrá cada columna; sin embargo,
para la sexta variable: Diagnóstico de ingreso, el nuevo nombre que se ha colocado es dxingreso,
que desglosado correspondería a: dx = diagnóstico, ingreso = de ingreso.
b. Codificación de categorías: Las categorías de las variables también se pueden codificar,
utilizando números. Como se puede observar en las variables sexo y diagnóstico, se ha
colocado un número entre paréntesis, esto se hace con el propósito de facilitar la digitalización o
vaciado de los datos.
La asignación de un número a las categorías de las variables, también está asociado a factor de
riesgo, un número mayor, corresponderá a la categoría con mayor riesgo.

EJEMPLO:

Variable Categorías Codificación


Sexo Masculino 1
Femenino 2
Diagnóstico de ingreso al Neumonía 1
Hospital Sepsis 2
Epiglotitis 3
Otro ____ 4

Observación:
Para la categoría “Otro” se puede proceder de dos formas:
a. Colocar el número “4”(la codificación) y habilitar otra columna para escribir la
respuesta obtenida(otro diagnóstico), porque dicha información podría ser de
importancia para la investigación.
b. Escribir la respuesta obtenida como “otro” en lugar del número “4”

Dra. Olivia Ordóñez de Higueros 3


U.D. Bioestadística Ciclo: 2023

IV. RECOMENDACIONES

Es importante tomar en cuenta las siguientes recomendaciones:

1. Establecer desde la elaboración del instrumento, que la información de las variables numéricas (o
cuantitativas) sea recopilada en sus unidades originales, con el propósito de no perder información,
por ejemplo: peso, talla, edad, niveles de colesterol en sangre, etc.

Se puede observar en la boleta del ejemplo, la variable Presión Arterial (PA). Si al recopilar los
datos, se registra como: normal, hipertenso o hipotenso y no se coloca el valor encontrado durante
la toma, es probable que a futuro, si fuera necesario realizar algún análisis cuantitativo sobre la
presión sistólica, la diastólica o la diferencial, no será posible hacerlo, porque no se contará con la
información necesaria.

Si al final, el interés sobre la variable es solamente cualitativo o categórico, la información se puede


codificar en el mismo programa Excel o en el programa estadístico que se vaya a utilizar para el
análisis de los datos.

2. Como se mencionó anteriormente, las categorías de las variables también se pueden codificar, ya
sea por situación de “riesgo” o con el propósito de facilitar la digitalización de los datos, esto se
refiere a que, por ejemplo es más rápido digitar “1 o 2” que “masculino o femenino”; por otro lado, al
escribir una palabra se corre el riesgo de escribirla de diferente forma, ejemplo: MASCULINO,
Masculino o masculino, las tres palabras dicen lo mismo pero algunas versiones (antiguas) del
programa, al hacer un *recuento de los datos, las podrían reconocer como diferentes y podría
darnos un resultado como este:
*para lo cual se puede utilizar la función contar si de Excel.

Sexo F
(frecuencia)
MASCULINO 50
Masculino 20
masculino 15

Desde luego que al utilizar un formulario de Google, la situación planteada anteriormente, se puede
considerar al momento en que se elabora el formulario, optando por el tipo de ítem en el que el encuestado
solamente pueda seleccionar la opción que le corresponda.

3. Al digitar la información de las categorías de las variables “codificadas”, en otras palabras, utilizando
números: 1(masculino) y 2 (femenino), se debe tener presente que la variable no es numérica, por
lo tanto, se deberá tener el cuidado en cuanto a las indicaciones que se proporcionan al programa
ya que podría realizar cálculos numéricos, al ejecutar lo solicitado.

EJEMPLO:

Sexo Codificación Cálculo solicitado al


programa:
Masculino 1 Media Aritmética = 1.5
Femenino 2 Desviación Estándar = 0.5

Dra. Olivia Ordóñez de Higueros 4


U.D. Bioestadística Ciclo: 2023

Como se puede ver en el ejemplo, el programa realizó los cálculos, sin embargo los resultados
obtenidos no tienen ningún sentido porque las variables son categóricas, por lo que se analizan con
otro tipo de medidas, como las proporciones y los porcentajes.

4. El programa Excel “reconoce” el tipo de información que se está colocando en las celdas, lo
numérico lo coloca hacia la derecha y lo categórico (o alfa numérica) hacia la izquierda, por lo que
se recomienda no centrar los datos, ya que, se suele hacer por “presentación”, pero el programa
estadístico podría tener problemas para reconocer la información del archivo.

5. Si existiera información faltante en la base de datos, se recomienda proceder así:


a. Revisar la boleta (o instrumento) correspondiente, por si se cometió algún error durante la
digitación, para proceder a completar la información.
b. Eliminar el registro de la base de datos, si no existiera la información faltante, luego de la
revisión.
Debido a que luego de la recopilación de información, pueden aparecer instrumentos con datos
faltantes, algunos autores recomiendan que cuando se realiza el cálculo del tamaño de muestra
para una investigación, se tome de un 5% a 10% más, para cubrir las probables pérdidas.

V. EJEMPLO DE UNA BASE DE DATOS

Al elaborar la base de datos utilizando el programa Excel, la información va dispuesta en filas y


columnas como se mencionó anteriormente. Tomando como base la boleta del ejemplo, ya con los
nombres de las variables codificados al igual que las categorías de las variables, quedaría de la
siguiente forma:

En el cuadro se puede observar en la columna de la variable edad, en la boleta No. 2, un valor de


516; pero el valor real podría ser 51, 16 o quizá 56; al estar identificadas las boletas, se puede
regresar a ellas y verificar la información. Esto desde luego si se cuenta con la información en físico.

En la recomendación No. 1, se aconseja colocar los valores encontrados de las variables numéricas,
la variable Presión Arterial está formada por dos valores, correspondientes a la presión sistólica y
diastólica, es por ello que se observa en la base de datos, una columna para cada valor.

Dra. Olivia Ordóñez de Higueros 5


U.D. Bioestadística Ciclo: 2023

NOTA

Ahora se cuenta con Google forms para elaborar la boleta (cuestionarios), se aconseja tomar en cuenta lo
que se detalla en este documento para elaborar el formulario, ya que, consideramos que será de utilidad
para la recopilación adecuada de la información.

Google forms provee una variedad de “ítems” como la de completación, de selección de una sola alternativa,
etc. que permiten recopilar la información de una forma más rápida, solamente se debe tener el cuidado de
elegir el tipo correcto, según la información que se requiere, y desde luego, pensando en la forma en que se
analizará la información.

Ejemplo: archivo Excel generado desde Google forms:

Ejemplo: en la imagen se puede observar el archivo editado.


Columna agregada para cada variable.
Se observa el nuevo nombre y la
Se observa nombre
codificación de las categorías
codificado de la variable

FUENTES CONSULTADAS
1. Daniel WW. Bioestadística, Base para el Análisis de las Ciencias de la Salud. Tercera Ed. México: Limusa
Wiley; 2008. 876 p.
2. http://eprints.rclis.org/14591/1/BD_INVESTIGACION_2010_exit.pdf

Dra. Olivia Ordóñez de Higueros 6


UNIVERSIDAD DE SANCARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
UNIDAD DIDÁCTICA DE BIOESTADISTICA
ÁREA DE INVESTIGACIÓN

TEMA DE ESTUDIO: ESTIMACIÓN CON Z

Competencia: Desarrollar en el estudiante la capacidad de analizar, calcular e interpretar los


datos estadísticos en la solución de problemas de salud. ELABORADO POR LIC. JOEL AVENDAÑO

ESTIMACIÓN

Definición: Es cuando a partir de datos extraídos de una o varias muestras se

aproxima el valor de un parámetro. La estimación puede ser:

I. Puntual o de punto
II. De intervalo o por intervalo

Estimación Puntual: Es aquella en la cual con base en los valores de las


medidas de tendencia central o de dispersión correspondientes a una o varias

muestras, el investigador asume que su valor es igual al del parámetro de la


población que según sea el caso es objeto de estudio. Ej.: para medias
aritméticas.
X  

Estimación de Intervalo o por Intervalo: Es la definición de dos valores, uno


mínimo y uno máximo dentro de los cuales se estima que se encuentra el
verdadero valor del parámetro objeto de interés, o sea la µ

1
Características Principales:

1. El parámetro de la población µ es constante y permanece constante. La


variable aleatoria es el intervalo estimado debido a que su centro la X es

una variable aleatoria.

2. A medida que aumenta el tamaño n de la muestra la X tiene un menor



error estándar n

Y el intervalo de confianza se reduce. Esta exactitud incrementada, es el


valor del tamaño
Aumentado de la muestra.

3. Para comprender de donde proviene el intervalo de confianza, se escribe


de la siguiente forma: μ X  * σx
(1 a )
2
En donde:

µ = Es el parámetro desconocido

X = Es la media muestral
Z = Coeficiente de confiabilidad
(1  a )
2 = nivel de confianza o coeficiente de confianza
a= Es el área total bajo la curva que queda fuera del intervalo y se denomina:
nivel de significancia

O nivel de significación. También se le llama valor alfa, el cual es la


probabilidad de que cualquier intervalo dado no contenga la media poblacional.
La fórmula anterior indica que una estimación por intervalo para µ, se expresa

2
así cuando el muestreo se realiza a partir de una distribución normal con

varianza conocida.
¿Cómo se interpreta este intervalo?

Se puede interpretar de dos formas:

1. Interpretación probabilística e

2. Interpretación práctica

La interpretación probabilística expresa: A partir de una población con


distribución normal, el 100 (1-a) por ciento de todos los intervalos construidos
mediante la fórmula incluirán a la larga, la media de la población µ.
La interpretación práctica expresa: Se dice que se tiene el 95% de confianza
que la media de la población, está entre el rango especificado. (90.40 y 78.22).

Los coeficientes de confianza utilizados con más frecuencias son 0.90; 0.95;

0.99 que corresponden a los coeficientes de confiabilidad: 1.645; 1.96; 2.58

Ej.: Un fisioterapista desea estimar con el 99% de confianza, la media de fuerza


máxima de un musculo particular en cierto grupo de individuos. Se inclina a

suponer que los valores de dicha fuerza muestran una distribución


aproximadamente normal con una varianza de 144. Una muestra de 15
individuos que participaron en el experimento proporcionó una media de 84.3

3
→ IC = 84.3 + 2.58 x 3.10 → 92 .3

→ IC = 84.3 - 2.58 x 3.10 → 76.3

→ R/IC = (92.3; 76.3)

CONTROL DEL ANCHO DE UN INTERVALO

Es preferible un intervalo más estrecho debido a la precisión adicional que


proporciona. Hay dos métodos principales para lograr un intervalo más preciso:

I. Reducir el intervalo de confianza y/o


II. Incrementar el tamaño de la muestra

En el caso 1: Para lograr un intervalo más preciso, este puede obtenerse


aceptando un nivel inferior de confianza.

Intervalo del 99% Intervalo del 95%


84.3 ± 2.58 x 3.10 84.3 ± 1.96 x 3.10

(76.3; 92.3) → R/ = 16 (78.22; 90.40) → R/= 12

Interpretación: El intervalo del 95% es más estrecho y ofrece mayor precisión,

esto es, porque entre más estrecho sea el intervalo, más significativo es. Sin

embargo, la mala noticia es que aunque el intervalo es más preciso, es decir,


estrecho, la probabilidad de que contenga la µ se ha reducido del 99% al 95%

4
lo que quiere decir que para ganar más precisión es necesario abandonar algo

de confianza.

¿Existe alguna forma en la que se pueda reducir el intervalo sin sufrir una
pérdida de confianza? Sí,

R/ la forma es incrementando el tamaño de la muestra. Ya que al incrementar el


tamaño de la muestra se reduce el error estándar. σ
σ x  .
n

Ej. Incrementando el tamaño de la muestra a 25 individuos en lugar de 15, los


resultados serán los siguientes:

Con una confianza de 99% y muestra de 15 Con una confianza de 99% y muestra de 25

84.3 ± 2.58 x 3.10 84.3 ± 2.58 x 2.40


(76.3; 92.3) → R/ = 16 (78.11; 90.49) → R/ = 12.38

Infortunadamente, esta ventaja no se gana sin un precio. El tamaño más


grande de la muestra significa más tiempo y más dinero que deben gastarse al
recolectar y manejar los datos.
EL FUNDAMENTO DE UN INTERVALO DE CONFIANZA

La clave para recordar es; como la media poblacional está a lo más dos errores
estándar para el 95.5% de todas las medias muéstrales, entonces dada una
media muestral cualquiera, se puede estar 95.5% seguro de que el intervalo de
dos errores estándar alrededor de la media muestral contiene la media
poblacional desconocida.

5
DISTRIBUCION T - STUDENT
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MEDICAS
UNIDAD DE BIOESTADISTICA 2023
ING. MIGUEL ANGEL AGUILAR
DISTRIBUCION t – Student

Aspectos importantes a considerar:

1. Se considerará una muestra grande, a una muestra mayor o igual que 30.
(Daniel, 2008, p. 149)
2. Cuando una muestra es grande, la confianza en s como una aproximación de σ es por lo
general sustancial, por lo que se justifica la utilización de la teoría de la distribución normal
para construir un intervalo de confianza para la media de la población. (Daniel, 2008, p183)
3. Cuando se tienen muestras pequeñas es imprescindible encontrar otro procedimiento para
construir un intervalo de confianza. (Daniel, 2008,p183)
4. Como resultado del trabajo de Gosset, escrito bajo el pseudónimo de “student” se dispone de
otra alternativa, conocida como distribución t de Student. (Daniel, 2008, p183)
¿CUANDO UTILIZAR LA DISTRIBUCION T-STUDENT?
• Criterio a seguir para utilizar la distribución t-student en intervalos de
confianza para la media de una población:
Utilizar distribución t –student para intervalos de confianza
únicamente si la muestra es menor a 30 y se desconoce la varianza
poblacional. (σ2 ) (Daniel, 2008, p188)
• Criterios a seguir para utilizar la distribución normal (distribución z)
en intervalos de confianza para la media de una población:
1. Si la muestra es mayor o igual a 30, no importando si la varianza
es poblacional o muestral. (Daniel, 2008, p188)
2. Si la muestra es menor a 30 y sí se conoce la varianza poblacional.
(σ2 ) (Daniel, 2008, p188)
CARACTERISTICAS DE LA DISTRIBUCION t-student

FIGURA 1. Distribución t para diferentes grados de libertad


1. Tiene una media de 0.
2. Es simétrica con respecto a la media.
3. En general, tiene una variancia mayor que 1, pero ésta tiende a 1 a medida que aumenta el tamaño de la muestra.
4. La variable t va de -∞ hasta + ∞
5. La distribución t es una familia de distribuciones, puesto que hay una distribución diferente por cada valor de la muestra de n-1
que es el divisor que se utiliza para calcular S2 . Recuérdese que n-1 representa los grados de libertad. (Ver FIGURA 1)
6. Comparada con la distribución normal, la distribución t, es menos
espigada en el centro y tiene las colas mas largas. En la FIGURA 2,
se compara la distribución t – student con la distribución normal.

7. La distribución t – student se aproxima a la distribución normal


a medida que n – 1 se aproxima al infinito.

FIGURA 2
Comparación entre la distribución normal y la distribución t
INTERVALOS DE CONFIANZA CON DISTRIBUCION t-student
El procedimiento general para construir intervalos de confianza con
distribución t, sigue siendo el mismo que para con z:
Estimador +/- (coeficiente de confiabilidad) X (error estándar)
• Lo que es diferente es el origen del coeficiente de confiabilidad, que
se obtiene a partir de la tabla de la distribución t en lugar de la tabla
de la distribución normal estándar.
Cuando se obtienen muestras a partir de una distribución normal
cuya desviación estándar “σ” , se desconoce, el 100(1-α) por ciento
del intervalo para la media de la población µ, esta dado por:
(Daniel, 2008, p. 185)
PROBLEMA 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso
medio y una desviación estándar de 73 y 10 libras, respectivamente.
Si la población sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
a. El estimador puntual
b. La significancia
c. El coeficiente de confianza
d. El coeficiente de confiabilidad
e. El error estándar
f. El margen de error
g. Construir e interpretar el intervalo
Resolución problema 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso
medio y una desviación estándar de 73 y 10 libras, respectivamente.
Si la población sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
Datos del problema: n = 16 , = 73 libras y s = 10 libras
a. El estimador puntual
Como es un problema relacionado a medias, el estimador puntual será la
media de la muestra = 73 libras
b. La significancia: Como el intervalo es de 95% entonces la
significancia será del 5%. Que en proporción es 0.05.
α = 0.05
Resolución problema 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación
estándar de 73 y 10 libras, respectivamente. Si la población sigue una distribución
aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
c. El coeficiente de confianza:
Como α = 0.05  coeficiente de confianza = 1 – α = 0.95
Coeficiente de confianza = 0.95
d. El coeficiente de confiabilidad :
¿ El coeficiente de confiabilidad debería ser un valor (z ) o un valor(t)?
¿ Lo buscamos en distribución t o distribución z ?
Criterio a seguir:
Como el tamaño de la muestra es n = 16, es una muestra
menor de 30 y nos proporcionan la desviación estándar de
la muestra s=10. Entonces se debe emplear distribución t
Resolución problema 1

Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación estándar de 73 y 10
libras, respectivamente. Si la población sigue una distribución aproximadamente normal.

d. Coeficiente de confiabilidad, a través del criterio tomado anteriormente se determino que es un valor t, el que
se debe encontrar. ¿Como encontrarlo?
Los grados de libertad para encontrarlo serán n – 1 = 16-1 = 15
Como un intervalo de confianza del 95% deja 0.05 del área bajo
la curva “t”, igualmente dividida entre las dos colas, se necesita el
valor de t a la derecha del cual se encuentra el 0.025 de área.
 calcular 1 – α/2 = 1 – 0.05/2 = 1 – 0.025 = 0.975

Buscar en la tabla de distribución t, t(0.975) con 15 grados de libertad.


(Recuerde que el valor que encontrara es el coeficiente de confiabilidad
para un nivel de confianza del 95%)
Resolución problema 1
Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación estándar de 73 y 10
libras, respectivamente. Si la población sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
Buscar en la tabla de distribución t, t(0.975) con 15 grados de libertad.

El valor para t(0.975) con 15 grados de libertad es de 2.1314

Este valor puede encontrarse en su tabla de distribución t


o en Excel a través de la siguiente formula:

El coeficiente de confiabilidad , es el valor de t,


(color azul en la tabla) que corresponde a 2.1314.
Resolución problema 1
Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación estándar de 73 y 10 libras, respectivamente. Si la población
sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:

e. El error estándar, es la relación entre la desviación y la raiz de


la muestra, se calcula así:
= 10/raíz(16) = 10/4 = 2.5

Error estándar es 2.5 libras.

Nota aclaratoria: Si en este problema nos hubieran dado el valor de N, entonces


Debe aplicarse el criterio para utilizar el factor de corrección por población finita,
Si n/N ≤ 0.05 entonces el error estándar queda como se opero anteriormente .

Si n/N > 0.05 entonces el error estándar seria


Resolución de problema 1
f. Margen de error (M.E)
La siguiente expresión se utiliza para calcular los intervalos de confianza en la
distribución t , pero la parte encerrada en rojo es el margen de error.
M.E = (2.1314) (2.5)
M.E = 5.33 libras
g. Construir e interpretar el intervalo:
Ahora al estimador puntual se le suma y resta el margen de error.
Recordemos que la media de la muestra es = 73 libras .
73 (+/-) 5.33  Limite inferior del intervalo 73 – 5.33 = 67.67 libras
Limite superior del intervalo 73 + 5.33 = 78.33 libras
IC: [ 67.67 78.33] libras
INTERPRETACION DE LOS INTERVALOS DE CONFIANZA

• INTERPRETACION PRACTICA: Se tiene el 95% de confianza que la


media de la población µ se encuentre entre 67.67 y 78.33 libras.

• INTERPRETACION PROBABILISTICA: Al repetir el muestreo, el 95% de


las veces todos los intervalos que puedan ser construidos de esta
forma +/- (2.1314) x ( 2.5) incluirían a la media de la población.
PROBLEMA PROPUESTO AL ESTUDIANTE
De una muestra de 9 pacientes con enfermedad renal que fueron internados en un hospital de
enfermedades crónicas que permanecieron en el hospital durante 35 días promedio y la S2 = 81. Si
la población sigue una distribución aproximadamente normal. Construya un intervalo de confianza
al 90% y determine lo siguiente:
a. El estimador puntual
b. La significancia
c. El coeficiente de confianza
d. El coeficiente de confiabilidad
e. El error estándar
f. El margen de error
g. Construir e interpretar el intervalo
RESPUESTAS AL PROBLEMA PROPUESTO AL ESTUDIANTE
De una muestra de 9 pacientes con enfermedad renal que fueron internados en un hospital de
enfermedades crónicas que permanecieron en el hospital durante 35 días promedio, donde la S2 = 81. Si
la población sigue una distribución aproximadamente normal. Construya un intervalo de confianza al 90% y
determine lo siguiente:
a. El estimador puntual : = 35 días
b. La significancia: α = 10% = 0.10
c. El coeficiente de confianza: 0.90
d. El coeficiente de confiabilidad: (recuerde 8 grados de libertad y t(0.95)  t = 1.8595
También puedes hacerlo en Excel: =INV.T( 0.95;15) = 1.8575
e. El error estándar: = 9/ raíz(9) = 9/3 = 3 días
f. El margen de error = = (1.8595) (3) = 5.58 días

g. Construir e interpretar el intervalo: 35 +/- 5.58 = [29.42 -40.58]


Interpretación Práctica: Se tiene el 90% de confianza de que la
la media de la población µ se encuentra entre 29 y 41 días
PROBLEMA No. 2

• En una población del oriente del país se ha encontrado el aumento de las enfermedades coronarias en
los varones de dicha población, pudiendo ser la causa de la enfermedad los malos hábitos dietéticos.
Por lo que se desea conocer el promedio del valor de colesterol en el total de la población. Para lo cual
se acudió a una aldea del sector, evaluando los niveles séricos de colesterol total en los varones de la
aldea. Encontrando los siguientes valores de colesterol total, expresados en mg/dl:

210 187 245 154 189 236 277 371 190 155 293
347 258 115 455 278 137 289 187 301 274 127

• Asumiendo que los datos tienen una distribución casi normal, construya:
a. Intervalo de confianza de 90% para la µ de colesterol del total de la población.
b. Intervalo de confianza de 99% para la µ de colesterol del total de la población.
c. Si la aldea tiene una población de 357 varones, calcule el intervalo de confianza del 90%.
d. Comparar los intervalos de confianza de los incisos a y b. Explique cuales son mas confiables
y cuales mas precisos.
Solución al problema 2

Utilizando Excel o tu calculadora obtienes los siguientes valores:


= 239.77 mg/dl y S = 85.45 mg/dl (recuerda que los datos vienen de una muestra)
a. Intervalo de confianza de 90% para la µ de colesterol del total de la población.
n = 22 Nivel de confianza = 90%  significancia = 10% = 0.10
Por la condiciones del problema  distribución t
α = 0.10  α/2 = 0.05  1 – α/2 = 1 – 0.05 = 0.95
 busco en tabla t(0.95)
con n -1 = 22 -1 = 21 grados de libertad
t = 1.7207
Error estándar: 85.45/ raíz(22) = 18.22
Construyendo el IC: 239.77 +/- (1.7207) (18.22)
239.77 +/- 31.35
IC: [ 208.42 --- 271.12] mg/dl
Solución al problema 2

Datos: n = 22 Nivel de confianza = 99%  significancia = 1% = 0.01


= 239.77 mg/dl y S = 85.45 mg/dl (recuerde que los datos vienen de una muestra)
b. Intervalo de confianza de 99% para la µ de colesterol del total de la población.
α = 0.01  α/2 = 0.005  1 – α/2 = 1 – 0.005 = 0.995
 busco en tabla t(0.995)
con n -1 = 22 -1 = 21 grados de libertad
t = 2.8314
Error estándar: 85.45/ raíz(22) = 18.22
Construyendo el IC: 239.77 +/- (2.8314) (18.22)
239.77 +/- 51.59
IC: [ 188.18 --- 291.36] mg/dl
Solución al problema 2
c. Si la aldea tiene una población de 357. Calcule nuevamente el intervalo de confianza de 90%.
Datos:
n = 22 & N = 357
Cuando tenemos la población, tenemos que utilizar el criterio de factor de corrección por
población finita. Si se aplica el criterio, esto modificará el valor del error estándar.
Si n/N es menor o igual a 0.05 entonces NO APLICAMOS EL FACTOR.
Si n/N es mayor a 0.05 entonces SI APLICAMOS EL FACTOR
Para este problema 22/357 = 0.06  este valor es mayor de 0.05  SI SE APLICA FACTOR

= ERROR ESTANDAR x = 18.22 x RAIZ ((357-22)/(357-1)) = 17.67

El valor del error estándar que era de 18.22 se modifico a 17.67 por aplicar el factor de corrección.
 El valor de t, para el 90% de confianza fue calculado en el inciso a., era de t = 1.7207
Construyendo el IC: 239.77 +/- (1.7207) (17.67)
239.77 +/- 30.40
IC: [ 209.37 --- 270.17] mg/dl
Solución problema 2
d. COMPARACION DE INTERVALOS (realizados en incisos a y b)
IC: 90% [ 208.42 --- 271.12] mg/dl  Amplitud = 62.7 mg/dl
IC: 99% [ 188.18 --- 291.36] mg/dl  Amplitud = 103.18 mg/dl
Amplitud: diferencia entre el limite superior de un intervalo y el
limite inferior
¿Qué diferencias ves entre los intervalos?
El intervalo con menos amplitud es mas preciso pero menos confiable.
El intervalo con mas amplitud es menos preciso pero mas confiable.
Facultad de Ciencias Médicas. USAC
U.D. Bioestadística
Licda. Thelma Soberanis

INTERVALO DE CONFIANZA PARA UNA


PROPORCIÓN DE POBLACIÓN
Qué proporción de recién nacidos
tienen bajo peso?
Qué porcentaje de las señoras
embarazadas que viven en Fraijanes
tienen control prenatal?
Qué proporción de pacientes con
cáncer están siendo tratados con
determinado medicamento?

En muchas ocasiones se tiene interés en determinar que


proporción o que porcentaje de la población está padeciendo
determinada afección.
Algunas consideraciones…

Ahora apliquemos el concepto:



8. De los intervalos de confianza construidos indique, cuál es más confiable y porqué?
El intervalo del 95% es más confiable porque tiene más amplitud, lo cual da más
oportunidad que la verdadera proporción de la población esté incluida en ese intervalo.
PROBLEMA 1
Se realizó un estudio en el Departamento de Ginecología del Hospital
Roosevelth. Se extrajo una muestra al azar de 150 expedientes de las
señoras que dieron a luz en un período de 6 meses. De la muestra 98
madres son menores de 15 años.
Construya un intervalo del 96% para P y determine lo siguiente:
a. ¿Cuál es el valor del estimador puntual?
b. ¿Cuál es el valor de la significancia?
c. ¿Cuál es el valor del coeficiente de confianza?
d. ¿Cuál es el valor del coeficiente de confiabilidad?
e. ¿Cuál es el valor del error estándar?
f. ¿Cuál es el valor de la precisión de la estimación?
g. ¿Construir e interpretar en forma práctica el intervalo de confianza?
RESPUESTAS PROBLEMA 1
a. Estimador puntual 0.65
b. α= 0.04
c. Coeficiente de confianza 1-α = 0.96
d. Coeficiente de confiabilidad α/2 = 0.04/2 = 0.02
1 – 0.02 = 0.98
Z ± 2.05
e. Error estándar = 0.0389
f. Precisión de la estimación = MEE = (2.05)(0.0389) = 0.0797
I DE C DEL 96% PARA P
0.65 ± (2.05)(0.0389)
0.65 ± 0.0797
(0.5703 Y 0.729745)
Con una confianza del 96% la verdadera proporción de señoras que
dieron a luz y son menores de 15 años está entre 0.57 y 0.73)
PROBLEMA 2
Se extrajo una muestra al azar, de las notas del segundo parcial de 50
estudiantes del Curso de Bioestadística de primer año de la Facultad de
Ciencias Médicas de la USAC y se determinó que el 14% lo aprobó.
Construya un intervalo del 97% para P
Responda lo siguiente:
a. Intervalo de confianza de 97% para P
b. Interpretación probabilística.
c. Intervalo de confianza del 90% para P
d. De los dos intervalos construidos cuál es más preciso o significativo
RESPUESTAS PROBLEMA 2
a. I de C del 97% para P
b. 0.14 ± (2.17)(0.049071376)
0.14 ± 0.106484887
(0.033515113 y 0.246484887)
(0.03 y 0.25)
c. I de C del 90% para P
0.14 ± (1.645)(0.049071376)
0.14 ± 0.080722413
(0.059277587 y 0.220722413)
(0.06 y 0.22)
d. El más preciso o significativo es el del 90%.
DETERMINACIÓN DEL TAMAÑO DE LA
MUESTRA PARA:
VARIABLES CUALITATIVAS
Facultad de Ciencias Médicas
Unidad didáctica de Bioestadística
Inga. María Teresa Carazo López
Licda. Claudia Lorena Guzmán Urizar
Lic. Oliver Otzoy
Guatemala, agosto 2023
INTRODUCCIÓN
EI método para estimar el tamaño de la muestra
cuando la variable en estudio es cualitativa, requiere
estimar la proporción de una población, en donde el
procedimiento que se describió para estimar la media
de una población es similar que para una proporción.
Se aprovecha el hecho de que la mitad del intervalo
deseado, “d”, se puede igualar al producto del
coeficiente de confiabilidad y el error estándar.
aproximación no proceda, el valor obtenido se debe
aproximar al siguiente.
Fórmulas para el cálculo de tamaño de la
muestra para una proporción.
Cuando se conoce el tamaño de la población

n =__N (Z)2 pq____


d2 (N-1) + (Z)2 pq
En donde:
n= tamaño de la muestra
N= tamaño de la población
p = es la proporción de la población que tiene la característica en estudio.
q = 1- p
Z= Coeficiente de confiabilidad que tiene su origen en el nivel de confianza
o valor de la significancia.
d = error
ESTIMACIÓN DE “p”:
Como puede observarse, ambas fórmulas
requieren que se conozca p que es la proporción
de la población que posee la característica de
interés.
Obviamente, dado que este es el parámetro que se
desea estimar, será desconocido.

Una solución para este problema consiste en:


1. Tomar una muestra piloto y calcular una
estimación para utilizarla en lugar de p dentro
de la formula para n.
2. Algunas veces el investigador tendrá noción de
algún limite superior para p que podrá utilizar en
la fórmula.
Por ejemplo: si se desea estimar la proporción
de alguna población que presenta cierta
condición, es posible que se crea que la
proporción real no puede ser mayor que,
digamos, 0.30. Se sustituye entonces por 0.30
en la fórmula para n.
3. Si no es imposible obtener una mejor estimación,
se puede igualar p a 0.5 y resolver para n. Dado
que p = 0.5 en la fórmula proporciona el máximo
valor de n, este procedimiento dará una muestra
lo suficientemente grande para alcanzar la
confiabilidad y la dimensión del intervalo deseado.
Sin embargo puede ser más grande de lo
necesario y resultará más costosa que si se
dispusiera de una mejor estimación de p. Este
procedimiento se debe utilizar únicamente si no
se dispone de una mejor estimación de p.
Ejemplo No.1
Preocupados por la actual situación económica que
se encuentra el sector hotelero, el INGUAT quiere
iniciar una campaña para reactivar la economía de
este sector, para ello quiere saber si las personas
estarían dispuestas a viajar y hospedarse en los
diferentes hoteles del país, se cree que dicha
proporción no será mayor de 0.40. Si se desea un
intervalo de confianza del 99% y una d=0.08 ¿De
qué tamaño se deberá seleccionar la muestra?
Solución:

n= Z2 p q
d2

2
n= (2.58) (0.40) (0.60) = 249.62 = 250 personas
(0.08)2
Ejemplo No.2
Como proyecto del Ministerio de Salud, se tiene
contemplado estimar la proporción de familias que aún
no tienen acceso a los servicios de salud en el occidente
del país. Si d=0.02, el nivel de confianza 95% y se
sabe que en regiones similares el porcentaje que no
tiene acceso a salud es del 33%.
¿Qué tamaño de muestra se necesita para estimar la
proporción de familias que aún no tienen servicios de
salud?
Solución:

n= Z2 p q
d2

n= (1.96)2 (0.33) (0.67) = 0.84937776 = 2,123.44 = 2,124 familias


(0.02)2 0.0004
Ejemplo No.3
Un alumno de último año de la carrera de Ciencias Médicas
fue asignado a la aldea Buena Vista del Oriente del País, para
realizar un estudio, sobre la prevalencia de enfermedades
respiratorias, en los habitantes adultos, para el mismo le
solicitaron una confianza del 99% y una magnitud el 3.5%.
A. ¿De qué tamaño deberá ser la muestra a tomar?

n= Z2 p q
d2
n= (2.58)2 (0.5) (0.5) = 1.6641___ = 5,433.80 = 5434
habitantes
(0.0175)2 0.00030625
B. Si se sabe que la población de la aldea Buena Vista es de 9,500 habitantes ¿Cuál
deberá ser el tamaño adecuado de la muestra?

n= N (Z)2 p q___
d2 (N-1) + (Z)2 p q

n= ____9,500 (2.58)2 (0.5) (0.5)______


(0.0175)2 (9499) + (2.58)2 (0.5) (0.5)

= 15,808.95______ = _15,808.95 = 3,456.89 = 3,457 hab.


2.90906875 + 1.6641 4.57316875

Como se puede observar al conocer el tamaño de la población la muestra disminuye.


Ejemplo No.4
De una población de 1,500 estudiantes se desea extraer
una muestra para estimar el porcentaje de los que
practican algún deporte, si se utiliza una confianza del
95%, un error del 5% y se sabe que en poblaciones
similares la proporción es del 32%. ¿De qué tamaño
debería ser la muestra?
n= N (Z)2 p q___
d2 (N-1) + (Z)2 p q
n = _____ 1500 (1.96)2 (0.32) (0.68) _ = 1,253.89824
(0.05)2 (1500-1) + (1.96)2 (0.32)(0.68) 4.58343216
n = 273.57 = 274 estudiantes
Ejemplo No.5
Se desea realizar una encuesta en una población
de 1,440 estudiantes de primer año de medicina,
para conocer qué proporción de ellos está
interesada en estudiar a cerca de las citometrías de
flujo. Se cree que la proporción no puede ser
mayor a 0.25, se decide utilizar un nivel de
confianza del 90% y una dimensión del intervalo de
0.08. ¿A cuántos estudiantes se les debería realzar
la encuesta?
n= __ N (Z)2 p q___
d2 (N-1) + (Z)2 p q

n= 1440 (1.645)2 (0.25) (0.75) _______ = __ 730.62675 ____


(0.04)2 (1440-1) + (1.645)2 (0.25) (0.75) 2.3024 + 0.507379687

n= 730.62675___ = 260.02990 = 261 estudiantes


2.809779688
Ejercicio
Problema No.1
Un epidemiólogo desea saber qué proporción de adultos que viven
en una gran área metropolitana tienen el subtipo ay del virus B de
la hepatitis. Determinar el tamaño de la muestra que pudiera ser
necesario para estimar una proporción real cercana al 0.03, con
una confianza de 95%. Se sabe que en un área metropolitana
similar, la proporción de adultos con esa característica es de 0.20.
Si los datos para otra área metropolitana no estuvieran disponibles
y no se pudiera obtener una muestra piloto, ¿cuál sería el tamaño
requerido de la muestra?
Problema No.2
Se planea realizar una encuesta para determinar que
proporción de los estudiantes de secundaria de un sistema
escolar metropolitano han fumado regularmente. Si no se
cuenta con una estimación de p de estudios anteriores, no se
puede extraer una muestra piloto; se desea un nivel de
confianza del 95% y se decide utilizar el valor de d = 0.04.
a. Determine el tamaño adecuado de la muestra.

b. ¿De que tamaño deberá ser la muestra para obtener un


intervalo de confianza del 99%?
Problema No.3
EI administrador de un hospital desea saber qué proporción
de pacientes dados de alta están inconformes con la
atención recibida durante su hospitalización. Si d = 0.05, el
coeficiente de confianza es de 0.95 y no se dispone de
ninguna otra información,
a. ¿Qué tan grande debe ser la muestra?
b. ¿Qué tamaño debe tener si el valor de p es de
aproximadamente 0.25?
Problema No.4
Una agencia de planificación de la salud desea saber, en
una región geográfica determinada, qué proporción de
pacientes admitidos en hospitales para tratamiento de
traumatismos abandonaron el hospital por defunción. Se
requiere de un intervalo de confianza del 95 por ciento
con una amplitud de 0.06, y a partir de otra evidencia, se
estima que la proporción de la población es de 0.20.
¿Qué tan grande debe ser la muestra?
PRUEBA DE HIPÓTESIS
Ing. Vivian Pérez
U. D. Bioestadística
Facultad de Ciencias Médicas
Guatemala, agosto de 2023
INTRODUCCIÓN
• El propósito de las pruebas de hipótesis es ayudar al médico,
investigador o administrador a tomar una decisión en torno a una
población al examinar una muestra de ella.
• La prueba de hipótesis se refiere a los parámetros de las poblaciones
para las cuales se hace la proposición y es una herramienta analítica
muy efectiva para obtener información valiosa, por ejemplo:
• El administrador de un hospital puede suponer que el período
promedio de permanencia de los pacientes internados en el
hospital es de cinco días.
• Una enfermera del área de salud pública puede suponer que un
determinado programa educativo hará que mejore la
comunicación entre enfermera y paciente.
• Un médico puede suponer que cierto medicamento será eficaz en
el noventa por ciento de los casos en que se utilice.
HIPÓTESIS
• Una hipótesis es una suposición acerca de una o más poblaciones.
• Hipótesis de investigación
• Hipótesis estadísticas
• Hipótesis estadísticas
• Ho es la hipótesis de no diferencia, siempre lleva la igualdad (=, ≥, ≤ )
• Ha generalmente es la hipótesis del investigador, es lo contrario de
Ho (≠, <, >)
• Ho es la hipótesis que se pone a prueba, se plantea con el fin de ser
rechazada. Nunca se acepta, no se rechaza
• Si Ho es rechazada de dice que la prueba es significativa
VALORES CRÍTICOS

VALORES CRÍTICOS Y
ZONAS DE RECHAZO

No rechazar

Zona de Zona de
rechazo cola rechazo cola
izquierda derecha
N.C.

-Z 0 Z
Zona de no rechazo
NIVEL DE SIGNIFICANCIA Y
PROBABILIDAD DE ERROR

Condición de la hipótesis nula


Verdadera Falsa
Rechazar Error tipo I Acción correcta
Acción Ho
posible No rechazar Acción correcta Error tipo II
Ho
PRUEBA DE HIPÓTESIS
Procedimiento
Paso 1: Datos
Paso 2: Planteamiento de las hipótesis
Paso 3: Determinar la regla de decisión con base en los
valores críticos
Paso 4: Cálculo del estadístico de prueba Zcalculado
Paso 5: Decisión
Paso 6: Conclusión
Paso 7: Valor p
PLANTEAMIENTO DE HIPÓTESIS

REGLA DE DECISIÓN

ESTADÍSTICO DE PRUEBA

DECISIÓN
Se rechaza Ho si el
estadístico de prueba,
Zcalculado se encuentra
dentro de cualquiera de
las zonas de rechazo

Zona de Zona de
rechazo cola rechazo cola
izquierda derecha

-Z 0 Z
Zona de no rechazo
CONCLUSIÓN
1. Si se rechaza Ho
• La conclusión dirá que Ha es verdadera
2. Si no se rechaza Ho
• La conclusión dirá que Ho PUEDE SER verdadera.
VALOR P

PRUEBA DE
HIPÓTESIS
PARA UNA µ
BILATERAL
Dos colas
EJEMPLO 1

PRUEBA DE HIPÓTESIS
Procedimiento
Paso 1: Datos
Paso 2: Planteamiento de las hipótesis
Paso 3: Determinar la regla de decisión con base en los
valores críticos
Paso 4: Cálculo del estadístico de prueba Zcalculado
Paso 5: Decisión
Paso 6: Conclusión
Paso 7: Valor p

Zona de Zona de
rechazo No rechazo
cola rechazar cola
izquierda derecha
0.95

-1.96 0 1.96
Paso 5: Decisión
No se rechaza Ho Zona de No Zona de
rechazo rechazar rechazo
cola cola
izquierda derecha
0.95

-1.96 1.96
0
-1.41
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el nivel medio de la enzima en cierta población puede ser de 25
U/mg prot.

-1.41 1.41

0.1586
EJEMPLO 2

Zona de Zona de
rechazo No rechazo
cola rechazar cola
izquierda derecha
0.90

-1.645 1.645

-3.00
36

-3.00
Paso 5: Decisión Zona de Zona de
rechazo No rechazo
Se rechaza Ho cola rechazar cola
izquierda derecha
0.90

-3.00 -1.645 1.645

Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.10, para
decir que el punteo promedio de la población de ratas no es de 95

-3.00

-2.96
-3.00 2.96
-3.00
PRUEBA DE
HIPÓTESIS
PARA UNA µ
UNILATERAL
Una cola
PLANTEAR LAS HIPÓTESIS

Una zona de rechazo


izquierda

Zona de no rechazo

Una zona de rechazo


derecha

Zona de no rechazo
REGLA DE DECISIÓN

VALOR P

UNILATERAL
IZQUIERDA
Una cola izquierda
EJEMPLO 1

22.18

Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95

Zona de no
rechazo
Paso 5: Decisión
Se rechaza Ho Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95

-1.645 Zona de no
rechazo
-1.85
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el punteo promedio de agotamiento emocional en las enfermera
es menor 22.18, por lo que el investigador tiene razón en su hipótesis.

-1.85
EJEMPLO 2


Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95

Zona de no
rechazo
Paso 5: Decisión
Se rechaza Ho Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95

-1.645 Zona de no
rechazo
-5.73
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el diámetro promedio de reacción de la piel a un antígeno es
menor a 30 mm.

-5.73
UNILATERAL
DERECHA
Una cola derecha
EJEMPLO 1


Zona de
No rechazo
rechazar Una cola
derecha
0.95

Zona de no 1.645
rechazo
Paso 5: Decisión Zona de
Se rechaza Ho No rechazo
rechazar Una cola
derecha
0.95

Zona de no 1.645 3.16


rechazo

Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el número de recetas promedio en la población es mayor a 5.
• Zona de
No rechazo
rechazar Una cola
derecha
0.95

Zona de no 1.645
rechazo
3.16

0.0008
EJEMPLO 2


Zona de
rechazo
No Una cola
rechazar derecha
0.98

Zona de no
2.05
rechazo
Zona de
Paso 5: Decisión rechazo
No Una cola
Se rechaza Ho rechazar derecha

0.98

Zona de no 2.05 3.16


rechazo

Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.02, para
decir que el precio promedio de la prueba en la población de laboratorios es
mayor a $10.

No
rechazar
0.98

2.05 3.16
MUCHAS GRACIAS

U.D. Bioestadística Ciclo: 2023

Documento elaborado con fines


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
didácticos por:
FACULTAD DE CIENCIAS MÉDICAS
Licda. Thelma de Monterroso
ÁREA CURRICULAR DE INVESTIGACIÓN
U.D. BIOESTADÍSTICA Dra. Olivia Ordóñez de Higueros

INFERENCIAESTADÍSTICA
INTRODUCCIÓN: La estadística es una herramienta muy útil para el médico. Tanto la estadística
descriptiva como la estadística inferencial son técnicas que el médico puede utilizar como beneficio para
un buen desempeño profesional.

La estadística descriptiva permite organizar y resumir un conjunto de datos, sean estos provenientes de
una muestra o de una población, para poder exponer y/o definir las características encontradas en el
grupo estudiado.

La estadística inferencial es la que permite llegar a conclusiones sobre una población, a través del
estudio de una parte (muestra aleatoria) de dicha población. Esta área de la estadística desempeña un
papel muy importante en los procesos de toma de decisiones, precisamente porque se desea tomarlas
sobre la población, a través del estudio de una muestra representativa. La estadística inferencial abarca
dos campos o áreas: la estimación y la prueba de hipótesis. El presente documento contiene lo referente
a prueba de hipótesis.

El propósito de las pruebas de hipótesis es ayudar al médico, investigador o administrador a tomar una
decisión en torno a una población, al examinar una muestra de ella. En general las hipótesis se refieren
a los parámetros de las poblaciones para las cuales se hace la proposición.

PRUEBA DE HIPÓTESIS

Definición: hipótesis es una suposición, conjetura, posibilidad, presunción, supuesto, sospecha o


proposición que se hace acerca de una o más poblaciones.

Hay dos tipos de hipótesis, las de investigación y las hipótesis estadísticas. Las primeras son las
suposiciones que motivan la investigación, son las que en algunas ocasiones se comprueban a través de
las hipótesis estadísticas. Las hipótesis estadísticas son dos: la Hipótesis nula (Ho) y la hipótesis alterna
(HA). La hipótesis alterna generalmente coincide con la hipótesis de investigación, la hipótesis nula es la
que se pone a prueba y la que se opone a la hipótesis de investigación o alterna.

Lo que el investigador desea demostrar es la hipótesis alternativa y no la hipótesis nula por varias
razones:
Una razón es que parte de una premisa contraria a lo que deseamos demostrar, para luego
encontrar evidencia concreta que conduzca a rechazarla, es un argumento más contundente que
presumir que, lo que se quiere demostrar es cierto, para luego encontrar evidencia que apoya el
reclamo. En este último caso se puede reclamar que se observó esos resultados sencillamente
porque de acuerdo con la premisa (hipótesis), se esperaba que fuera así.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 1


U.D. Bioestadística Ciclo: 2023

Otra razón es que se puede controlar matemáticamente la probabilidad de cometer algunos tipos
de error. Lógicamente hablando, el observar un resultado acorde con la hipótesis nula no
demuestra que sea cierta, solo es evidencia a favor de que sea cierta.

Se dice que es muy difícil demostrar la hipótesis nula de que una persona es inocente de algún
“delito”. Se puede hacer demostrando que no estaba presente durante ese periodo, en la escena
del “delito” o demostrando que otra persona es verdaderamente culpable. Sin embargo, en la
mayoría de los casos eso es imposible de hacer. En estos, la evidencia que se presente a favor de
la inocencia, tal como quela persona nunca había cometido un crimen, que es pacífica, que va a
la iglesia y muchas otras no demuestran la hipótesis nula de que la persona es inocente de lo
que se le acusa. Esta es una de las razones por las cuales a las personas no se les requiere
demostrar su inocencia, y se parte de la premisa de que lo es. Es el fiscal quien tiene la
obligación de demostrar la hipótesis alternativa de que la persona es culpable más allá de duda
razonable.

La realización de una prueba de Hipótesis se lleva a cabo a partir de un estudio en el que se obtienen
datos de una muestra. La hipótesis formulada es desechada si los resultados obtenidos del experimento
no son probables bajo dicha hipótesis. Si los resultados son probables, la hipótesis no es desechada por
falta de evidencia.

PRUEBADE HIPÓTESIS PARA LA MEDIA DE UNA POBLACIÓN (µ)

Para realizar una prueba de hipótesis es recomendable seguir un procedimiento ordenado. Algunos
autores proponen una serie de pasos que oscila entre 3 a 9. Para fines de nuestra U.D. de Bioestadística,
se proponen 6 pasos, los cuales se presentan a continuación.

Paso1. Datos:
Es importante conocer la naturaleza de los datos; si la variable de estudio es cuantitativa o numérica,
significa que la información con la que se cuenta son mediciones, por lo tanto, se podrá trabajar con
promedios, o sea con la media aritmética. Por el contrario, si la variable es cualitativa o categórica, se
estudia entonces alguna característica de interés, por consiguiente, se trabajará con proporciones o
porcentajes.

En conclusión, la prueba a utilizar está determinada por la naturaleza de los datos que se tengan.

EJEMPLO No.1 Se puede observar que la variable de


En una investigación se tiene interés en el promedio de interés para el ejemplo No. 1 es
asistencia diaria, a la consulta externa de un hospital cuantitativa o numérica, ya que se tiene
Nacional. Se tomó una n=36. interés en la Media Aritmética.

Paso2. Planteamiento de las Hipótesis: Se plantean las 2 hipótesis estadísticas.

 La hipótesis nula, se simboliza por “Ho”; es la que se pone a prueba, algunos autores la
han nombrado hipótesis de no diferencia, por lo que se plantea como una igualdad. La
hipótesis nula se plantea con el propósito de ser rechazada.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 2


U.D. Bioestadística Ciclo: 2023

 La hipótesis alternativa o alterna, se simboliza por “HA” (en otras referencias se podría
encontrar como H1); es el complemento de la hipótesis nula, por lo que se plantea en
contradicción con lo expresado en la hipótesis nula.

Existen tres formas de planteamiento de las hipótesis estadísticas. Utilizando el enunciado del EJEMPLO
No.1, se ilustrarán dichos planteamientos. En el ejemplo se puede observar que el parámetro a
investigar es el promedio (µ) de asistencia por día, a la consulta externa de un Hospital Nacional, por lo
que la investigación puede estar orientada de 3 formas:

CASONo.1 CASONo.2 CASONo.3

Se desea saber si en la consulta Se desea saber si en la consulta Se desea saber si en la consulta externa
externa del Hospital Nacional se externa del Hospital Nacional, se del Hospital Nacional, se atiende un
atiende un promedio diferente de atiende un promedio inferior a 500 promedio superior a 500 pacientes al
500 pacientes al día. pacientes al día. día.

Las hipótesis se plantean así: Las hipótesis se plantean así: Las hipótesis se plantean así:
Ho: µ = 500 Ho: µ>500 Ho: µ ≤ 500
HA: µ ≠500 HA: µ<500 HA: µ >500

Este planteamiento conducirá a Este planteamiento conducirá a una Este planteamiento conducirá a una
una prueba de hipótesis prueba de hipótesis unilateral prueba de hipótesis unilateral.
bilateral

De lo anterior se puede concluir que el planteamiento de las hipótesis estadísticas está orientando si la
prueba deberá ser bilateral o unilateral.

Paso3. Regla de Decisión:

Para el planteamiento de la regla de decisión, es necesario ubicar el área de rechazo también llamada
zona crítica. Esta zona o área de rechazo corresponde a la, o a las colas de la distribución normal (curva
normal) o la distribución t de Student, según sea el caso, en cuanto a que la prueba sea unilateral o
bilateral, así como al tamaño de la muestra. Es necesario recordar que la decisión de utilizar distribución
normal (Z) o distribución t de Student (t) depende del tamaño de la muestra y de si se cuenta o no, con
la varianza o desviación estándar de la población (2 o ).

La imagen muestra un ejemplo de las áreas


El área delimitada por el eje horizontal y la curva en la curva:
de la gráfica ya sea ésta la distribución normal o
la distribución t de Student, se divide en dos
regiones, una constituye la zona crítica o zona
derechazo y la otra, la zona de no rechazo.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 3


U.D. Bioestadística Ciclo: 2023

La regla de decisión indica que la hipótesis nula debe ser rechazada, si el valor de la estadística de
prueba, que se calcule con los datos de la muestra, se localiza en la región de rechazo y que no se
rechace si el valor de la estadística de prueba calculado es ubicado en la región de no rechazo.

Los valores de la estadística de prueba que forman la región de rechazo (localizados en el o los
extremos), son los que tienen la menor probabilidad de ocurrir, si la hipótesis nula es falsa; y, los que
forman la región de no rechazo tienen la mayor probabilidad de ocurrir si la hipótesis nula es verdadera.

La forma de establecer los valores que formarán la región de rechazo y de no rechazo se hace con base
al nivel de significación deseado. Este nivel de significancia es conocido como Alfa (α), es por ello que a
las pruebas de hipótesis también se les llama pruebas de significación.

El valor de Alfa indica la probabilidad de rechazar la hipótesis nula verdadera, por lo que debe trabajarse
con valores pequeños, para que la probabilidad de rechazar una hipótesis nula verdadera sea pequeña.
Por ello los valores de alfa más utilizados son: 0.10, 0.05 y 0.01.

Forma de ubicar la región de rechazo y la región de no rechazo:

En primer lugar, se debe tener en cuenta si la prueba es bilateral o unilateral.


La ubicación de la zona de no rechazo y la zona de rechazo se define de acuerdo con el símbolo de la
hipótesis alterna o alternativa.

Tomando en cuenta la información del EJEMPLO No.1, a continuación, se desarrollará el procedimiento


para establecer la regla de decisión, en cada uno de los 3 casos que se pueda presentar.

Para el Caso No.1: El planteamiento de la hipótesis alterna es: HA: µ ≠500.


El signo es de desigualdad (≠), por lo que conduce a una prueba bilateral (de dos colas o dos extremos),
la zona de rechazo se ubicará en las dos colas y la zona de no rechazo, en el centro.

Para encontrar los valores críticos o valores límite entre las dos zonas, para este caso, se hace uso del
conocimiento que se tiene sobre la distribución normal estándar, porque el tamaño de la muestra en el
ejemplo es grande (n ≥ 30). También es necesario establecer el nivel de significancia o valor de alfa;
para el ejemplo se utilizará un nivel de significacióndel5%.(alfa es igual a 0.05).

Si el nivel de significancia es del 5% o sea α= 0.05, en este caso, como la prueba es bilateral o de dos
colas, el nivel de significancia se divide dentro de 2 (corresponde la mitad a cada cola), para localizar los
valores críticos o valores límite que delimitan las zonas.

Para el ejemplo que se viene tratando, el valor crítico, será un valor de Z, este valor se puede localizar de
dos formas, a partir del procedimiento que se describe en el cuadro a continuación:

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 4


U.D. Bioestadística Ciclo: 2023

El valor de se divide dentro de 2, así: Al valor total del área bajo curva, se le resta la mitad
α/2 = 0.05/2 = 0.025 de alfa así:
1-α /2=1-0.05/2=1-0.0250=0.9750
Este valor se busca dentro del cuerpo de la tabla (en
las áreas) para localizar el valor de Z al que Este valor se busca en el cuerpo de la tabla (en las
corresponde dicha área: áreas), para localizar el valor de Z:

Z -0.09-0.08-0.07-0.06.... 0.00 Z Z 0.090.080.070.06.... 0.00Z


- - - -
- - - -
- - - -
-1.96 ............................ 0.0250 1.96 ............................ 0.9750

Se encuentra que el valor de Z para un área de Se encuentra que el valor de Z para un área de
0.0250 es de –1.96, éste corresponderá al valor 0.9750 es 1.96, éste corresponderá al valor
crítico para la cola izquierda. crítico para la cola derecha.

Tomando en cuenta la característica de simetría En estas circunstancias el valor que se


de la distribución normal estándar, el mismo encuentra es el positivo, por lo tanto, será el
valor de Z corresponderá para la cola derecha, mismo para la cola izquierda, solamente que
únicamente que será consigno positivo. será con signo negativo.

En forma gráfica se representa así:

Planteamiento de la regla de decisión:


Una vez encontrados los valores críticos y, ubicadas las regiones o zonas de rechazo y no rechazo, se
establece la regla de decisión.
La regla de decisión dirá:
Se rechaza Ho, si Z calculada es<-1.96ó>1.96.
Se puede plantear también en forma simbólica: Se rechaza Ho si (-1.96>Z>1.96).

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 5


U.D. Bioestadística Ciclo: 2023

Para el Caso No.2, en donde el planteamiento de la hipótesis alterna es: HA:µ<500.


En este caso el signo indica que es menor, se hace referencia únicamente a un extremo de la
distribución, por lo tanto, la prueba de hipótesis es unilateral, y en este caso unilateral de cola
izquierdao simplemente unilateral izquierda.
Para ilustrar este ejemplo, se trabajará con un nivel de significancia del 4.95%.
Como la prueba de hipótesis es de una sola cola, se busca todo el valor de alfa (0.0495) en el cuerpo de
la tabla, encontrando que el valor de Z o valor crítico es: –1.65.

Ubicación del valor de Z en la tabla: En forma gráfica se representa así:

La regla de decisión dirá:


Se rechaza Ho, si Z calculada es menor o igual que –1.65.
Se puede plantear también en forma simbólica: Se rechaza Ho si (Z<-1.65).

Para el Caso No.3, en donde el planteamiento de la hipótesis alterna es: HA:µ>500.


En este caso el signo indica que es mayor, por lo tanto, es una prueba unilateral de cola derecha, de
extremo derecho o simplemente unilateral derecha.

El procedimiento para encontrar el valor crítico o valor de Z, es el siguiente:


Utilizando el mismo nivel de significancia del caso anterior (4.95%), a la unidad, que corresponde al área
total bajo la curva, se le resta el valor de alfa, obteniendo: 1- 0.0495 = 0.9505.
Para localizar el valor de Z, se busca en el cuerpo de la tabla el valor obtenido (0.9505), ya que se trata
de área bajo la curva; el valor crítico es: 1.65.

Ubicación del valor de Z en la tabla: En forma gráfica se representa así:

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 6


U.D. Bioestadística Ciclo: 2023

La regla de decisión dirá:


Se rechaza Ho, si Z calculada es mayor o igual que 1.65.
Se puede plantear también en forma simbólica: Se rechaza Ho si (Z≥1.65).

Paso4. Cálculo del Estadístico de Prueba:

Partiendo del EJEMPLO No.1, que se está desarrollando, la suposición está hecha en relación con la
media poblacional, se trata entonces de una prueba de hipótesis para la media de una población. La
estadística de prueba a utilizar corresponde a un valor de Z o a un valor de t, más adelante se especifica
en qué casos se utiliza cada una.

Z=Número de desviaciones estándar.


Un valor de Z: Un valor de t: σ ó s= Desviación estándar de la población o
Z=x-µo de la muestra.
t=x- µo n=Tamaño de la muestra.
σ/√n s/√n x = Media aritmética de la muestra.
µo= Media hipotética o media supuesta de la
población

Paso5. Decisión:
La decisión se toma luego de comparar el estadístico de prueba calculado con la regla de decisión. Esta
consiste en el rechazo o no rechazo de la hipótesis nula. Se rechaza la hipótesis nula, si el valor del
estadístico de prueba se localiza en la zona o región de rechazo y no se rechaza la hipótesis nula si el
valor del estadístico de prueba se ubica en la región de no rechazo.

Paso6. Conclusión:
Si se rechaza Ho. la conclusión estará de acuerdo con lo planteado en la hipótesis alterna o alternativa.
Si no se rechaza Ho, se concluirá que los datos no presentaron evidencia suficiente que lleve al rechazo
de Ho; es posible que se necesite más información o pudiera ser que en alguno de los casos la Ho. Sea
verdadera y por ello no sea posible rechazarla.

Error tipo I y Error tipo II.

 Error tipo I: es el que se comete cuando se


rechaza una hipótesis nula que es verdadera. Condición
Este error está asociado al valor de alfa, por de la hipótesis
esto se conoce también como Error (alfa).
En otras palabras, es la probabilidad de Verdadera Falsa
cometer un Error tipo I. No Error
Acción
Acción rechazar Correcta TipoII
 Error tipo II: este error se comete cuando posible Ho
no se rechaza una hipótesis nula falsa, la Rechazar Error
Acción
probabilidad de cometer error tipo II es el Ho TipoI Correcta
valor de Beta, por eso también se llama Error
tipo o error de aceptación.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 7


U.D. Bioestadística Ciclo: 2023

En conclusión, siempre que se hace una prueba de hipótesis se corre el riesgo de cometer un
error. Sobre el Error tipo I es posible ejercer control, disminuyendo el nivel o valor de alfa; pero sobre
el Error beta o tipo II, no es posible, aunque se sabe que en la mayoría de situaciones éste
último es mayor que alfa. Es deseable que estas dos probabilidades de error sean pequeñas.

Las probabilidades de cometer errores de tipo I y II se consideran los "riesgos" de decisiones


incorrectas. Al realizar la prueba se toma en cuenta el error de tipo I. Por lo tanto, la prueba es
significativa si se rechaza la hipótesis nula, ya que en este caso se conoce la probabilidad de haber
cometido un error.

Anotaciones importantes
Al resolver problemas de prueba de hipótesis para medias, se debe tomar en consideración:

a. Si el tamaño de la muestra es pequeño (menor de 30 elementos) y se conoce la desviación


estándar de la población, se utilizará Z como estadístico de prueba (distribución normal).

b. Si el tamaño de la muestra es grande (30 elementos o más) y se conoce o no la desviación


estándar poblacional, se utilizará Z como estadístico de prueba (distribución normal). Para
estos casos se aplica el teorema del Limite Central.

c. Si el tamaño de la muestra es pequeño (menor de 30 elementos) y no se conoce la


desviación estándar de la población, se utilizará t como estadístico de prueba (la distribución t
de Student).

En caso de utilizar distribución t de Student, es necesario recordar que la forma de encontrar el


valor crítico es diferente a la distribución normal; se requiere de los grados de libertad (gl = n-1);
y los niveles de significancia solamente pueden ser: 0.01, 0.02, 0.05, 0.10 y 0.20.

El caso del inciso “a”, difícilmente se encontrará en la realidad, porque no es posible tener la
desviación estándar poblacional, ya que precisamente se está haciendo inferencia estadística
sobre los datos de la población, por lo tanto, no se contará condicha información.

Ejemplo

PROBLEMANo.1

Los docentes del curso de Bioestadística, que se imparte en el primer año de la Facultad de
Ciencias Médicas, consideran que el rendimiento de sus alumnos no es satisfactorio y que la
nota promedio es menor que la nota mínima para aprobar el curso. Para determinar lo
anterior seleccionaron una muestra aleatoria de 81 estudiantes. La calificación promedio en
la muestra fue de 59.2 puntos, con una desviación estándar de 12 puntos.

¿Tendrán razón los docentes del curso de Bioestadística?, si decide trabajar con una
confianza del 93.70%.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 8


U.D. Bioestadística Ciclo: 2023

PROCEDIMIENTO:
Paso 1 Paso 2 Paso 3
Datos: Planteamiento de Regla de Decisión:
Hipótesis
n = 81 estudiantes
Ho: µ≥ 61 puntos
X = 59.2 puntos.
S = 12 puntos. HA: µ < 61 puntos
µ = 61 puntos
(nota de aprobación)
α =0.063
Se rechaza Ho, si Z calculada es menor o
igual que –1.53

Paso4. Cálculo del Estadístico de Prueba:

Z = x- µ = 59.2 -61 = -1.8 = -1.8 =-1.35


s/ 12/ 12/9 1.33333

Paso5. Decisión:
Como el valor de Z calculado es de -1.35, es mayor que –1.53, por lo tanto, no se rechaza Ho.

Paso6. Conclusión:
Con una confianza del 93.70%, se concluye que es probable que los profesores estén equivocados.
Los datos recabados no ofrecen información suficiente para rechazar la Ho, por lo tanto, se puede
concluir que es probable que la nota promedio en el curso de Estadística no sea menor de 61puntos.

Valor P de la prueba:
El valor de P es la probabilidad de hallar valores como el encontrado en la muestra, o más extremos
que éste. Se calcula a partir del valor del estadístico de prueba calculado, es decir, que es el área
que se localiza en los extremos de la distribución, dependiendo si la prueba elaborada fue unilateral o
bilateral.

El valor de P es el nivel más bajo de significancia (valor α) al cual se puede rechazar la hipótesis nula.
Es el área en la cola que está más allá del valor del estadístico en la muestra. A menor valor de “ p”,
menor es la credibilidad de Ho.
El planteamiento de la regla de decisión también se puede
establecer en base al valor de P, de la siguiente manera:
 Se rechaza Ho si el valor P es menor o igual que α (nivel de
significancia).

 Para el problema del ejemplo quedaría así:


Se rechaza Ho, si P<0.063.

 Como el valor P = 0.0885, es mayor que el nivel de


significancia (α), no se rechazó Ho.
P (Z≤-1.35) = 0.0885 (área a la izquierda de -1.35) Cuando la prueba es bilateral, el valor P, se multiplica
por 2, ya que la zona de rechazo está en ambas colas.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 9


U.D. Bioestadística Ciclo: 2023

IMPORTANTE para el estudiante:


Este es un documento elaborado con fines de didácticos, contiene lo básico para comprender
el tema, sin embargo, es necesario profundizar en el libro de texto. También se presentan
otras referencias bibliográficas.

Referencias
1. Daniel, Wayne W. Bioestadística: México; Editorial Limusa.1998

2. LevinRechardI,RubinDavidS,ESTADÍSTICAPARAADMINISTRADORES,6ta.EdiciónMéxico
D.F. Prentice–may Hispanoamérica, S.A. 1966

3. Morales Peña, Otto René. Material de Apoyo Para el curso Métodos Cuantitativos I.
Departamento de Publicaciones de la Facultad de Ciencias Económicas. Guatemala,2001

4. Morales Peña, Otto René. Material de Apoyo para el Curso Métodos Cuantitativos II. 2daEdición.
Guatemala;InversionesEducativas.2001

5. Stevenson, William J. Estadística para Administración y Economía. México.Harla.1981

6. Trapp, Robert y Beth Dawson – Saunders. Bioestadística Médica. México. Manual Moderno.1997

7. Webster, Allen L. Estadística Aplicada a los Negocios y Economía. 3era. Edición.


Colombia; MCGraw–Hill 2001.

Licda. Thelma Soberanis de Monterroso, Dra. Olivia Ordóñez de Higueros 10


Universidad de San Carlos de Guatemala
Facultad de Ciencias Médicas
Unidad Didáctica de Bioestadística
Año 2023

Distribución Ji – Cuadrada
Prueba de Independencia

Elaborado por Lic. Ayax Joel Avendaño Estrada


Inga. Patricia Juárez
TEMÁTICA

I. Introducción
1.1 Propiedades de las pruebas no paramétricas Área de
II. Distribución Ji - Cuadrada rechazo
2.1 Propiedades de la Distribución Ji - Cuadrada de Ho
III. Prueba de Independencia
IV. Pasos para Calcular Ji - Cuadrada
V. Ejercicios prácticos
VI. Conclusiones
Anexos Área de no rechazo
Bibliografía de Ho Valor crítico de X²

I. INTRODUCCIÓN

La Distribución Ji-Cuadrada, es una prueba no paramétrica, es decir, que no presupone una distribución de
probabilidad para los datos, por ello se conoce también como de distribución libre. En la mayor parte de ella
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n ≤ 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos
para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal1

1.1 Propiedades de las pruebas no paramétricas


Requieren que las variables se midan con la escala nominal u ordinal
No se relacionan con el estudio de un parámetro de la población

II. DISTRIBUCIÓN JI - CUADRADA

La distribución Ji - Cuadrada, es una distribución de probabilidad que es más adecuada para utilizarse con
variables de clasificación que se han agrupado en categorías como estado civil, cuyos valores son: casado,
soltero, viudo y divorciado. Así también, puede deducirse a partir de la distribución Normal, por tanto, el área
total bajo la curva es 1.0. Se hace uso de la distribución Ji - Cuadrada, para probar hipótesis cuando los datos
disponibles para el análisis están en forma de frecuencias y la justificación para su uso se debe a Karl Pearson,
quien demostró que la distribución Ji-Cuadrada puede emplearse como prueba de la congruencia entre
observación e hipótesis siempre que los datos estén en forma de frecuencias2

1
J.S. Milton, J.O. Tsokos. Estadística para biología y Ciencias de la Salud, Madrid: Interamericana-McGraw Hill, 1989.
2
Wayne Daniel. Bioestadística, 3ª Edición. Editorial UTEHA, Noriega Editores. Pág. 641

1
2.1 Propiedades de la Distribución Ji-Cuadrada
2.1.1 No toma valores negativos, sólo cero o positivos
2.1.2 No es Simétrica, está sesgada hacia la derecha
2.1.3 Todas las pruebas se hacen solo de un extremo, el derecho
2.1.4 El área bajo la curva es igual a uno o el cien por ciento de los casos
2.1.5 Utiliza grados de libertad, los que cuando se trabaja con tablas de
contingencia se Utiliza la siguiente fórmula:
Área de
gl (f 1) (c 1) rechazo
Dónde: de Hipótesis
Nula
f = número de filas
c = número de columnas

III. PRUEBA DE INDEPENDENCIA Área de no rechazo


de hipótesis nula Valor crítico

Esta prueba se utiliza para determinar si dos variables categóricas se relacionan entre sí, es decir, se dice que
dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál
sea la distribución del otro. Si se rechaza la hipótesis nula, se concluye que los dos criterios de clasificación
no son independientes3. Por tanto, La hipótesis nula estará planteada en base a la independencia de los
criterios y la alterna en base a la no independencia. Las características de una prueba de Ji - Cuadrada de
independencia son:
En general se selecciona una sola muestra de la población de interés y las personas u objetos se
clasifican en forma cruzada con base en dos variables de interés.
El razonamiento para calcular las frecuencias esperadas de las celdas está basado en la ley de
probabilidad que establece que si dos eventos (en este caso, los dos criterios de clasificación) son
independientes, la probabilidad de que ocurran conjuntamente es igual al producto de sus
probabilidades individuales.
Las hipótesis y conclusiones se establecen en términos de independencia (o falta de ella) de las dos
variables4

Existen dos tipos de frecuencias en las que centra el interés, el estudio de la Distribución Ji-Cuadrada

1. Frecuencias Observadas y
2. Frecuencias Esperadas

Las frecuencias observadas, son el número de individuos u objetos en la muestra que caen dentro de varias
categorías de la variable de interés. La frecuencia esperada, es el número de individuos u objetos en la muestra
que se esperaría observar si alguna hipótesis nula respecto a la variable es verdadera5.
Se extrae una muestra de tamaño n de la población y la frecuencia de ocurrencia de la muestra que
corresponde a las casillas formadas por la intersección de los renglones y columnas de la tabla.
Para cada celda se calculan las frecuencias esperadas bajo la hipótesis nula de que los dos criterios de
clasificación son independientes.

3
Ibíd. Pág. 657
4
Ibíd. Pág. 665
5
Ibíd. Pág. 641

2
Se comparan las frecuencias esperadas y las frecuencias observadas. Si la diferencia en los valores de
ambas frecuencias es pequeña, puede aceptarse la hipótesis nula, es decir, los criterios de
clasificación son independientes (no tienen relación).
Si hay una congruencia exacta, es decir, no existe diferencia entre los valores de las frecuencias
observadas y los valores de las frecuencias esperadas, el resultado proporciona un valor de X² igual a
cero, por lo que puede aceptarse la hipótesis nula, y los criterios de clasificación son independientes.
(no tienen relación).
Si la diferencia en los valores de las frecuencias observadas y los valores de las frecuencias esperadas
es muy grande, se rechaza la hipótesis nula y se concluye que los dos criterios de clasificación no son
independientes, es decir, (tienen relación).

IV. PASOS PARA CALCULAR JI - CUADRADA

A. Paso 1: PLANTEAMIENTO DE HIPOTESIS

Hₒ: Las variables de clasificación son independientes (no hay relación entre las dos variables)
Hₒ: Las variables de clasificación no son independientes (si hay relación entre las dos variables)

B. Paso 2: ELABORAR TABLA DE CONTINGENCIA 2 X 2 2 Variables


Ver ejemplo 12.4.1 pág. 596 W. Daniel 2 criterios

ELABORAR TABLA DE CONTINGENCIA 2 X 3 2 Variables


Ver ejemplo pág. 591 4ₒ Edición W. Daniel 3 criterios

C. Paso 3: DEFINICIÓN DE LOS CRITERIOS DE PRUEBA Área de rechazo


de hipótesis nula
Proceso para determinar el Valor Crítico:

X² (gl; 1 - α)

VALOR CRÍTICO X²
D. Paso 4: MANEJO DE LA TABLA X² pág. 592
Grados de libertad: gl = (f - 1) (c- 1) f = # filas
c = # columnas
E. Paso 5: FORMULAS PARA CALCULAR JI - CUADRADA
n (ad bc)2
Cuando se utiliza tablas de 2 X 2 X2
(a c) (b d)(a b)(c d )

(Oí Ei)2
Cuando se utiliza tablas de 2 X 3 X2
Ei

Dónde = Frecuencias Observadas


= Frecuencias Esperadas

3
Aceptar H₀
F. Paso 6: COMPARAR X² calculada con X² de la tabla a fin de Rechazar Ha

G. Paso 7: DECISIÓN ESTADISTICA6


Interpretación

V. EJERCICIOS PRÁCTICOS

Ejercicio No 1: TABLA DE CONTINGENCIA DE 2X2

Una muestra de 500 niños de una escuela primaria se clasificó en forma cruzada respecto a su estado de nutrición y
desempeño académico. Los investigadores desean saber si es posible concluir que existe una relación entre el
estado de nutrición y el desempeño académico. La prueba Ji – cuadrada resulta adecuada para tomar una decisión.

SOLUCIÓN:
Paso 1: Planteamiento de Hipótesis
Hₒ: El estado nutricional y el desempeño académico son independientes (no existe relación)
Ha: El estado nutricional y el desempeño académico no son independientes (si existe relación)

Paso 2. Elaborar tabla de contingencia de 2X2


La tabla que se presenta a continuación muestra los resultados.
Estado de Nutrición
Desempeño Académico TOTAL
Malo Bueno
Malo 100 25 125
Satisfactorio 90 320 410
Total 190 345 535

¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.05
Paso 3: Definición de los criterios de prueba
α = 0.05
El valor crítico
X² = (gl; 1 - α) gl = (2 - 1) (2 - 1)
X² = (1; 1 - 0.05) gl = (1) (1)
X² = (1; 0.95) gl = 1

0.95
Área de no rechazo Valor crítico de X² = 3.841

Paso 4: Manejo de la tabla X²

gl X².0005 X².025 X².05 X².90 X².95 X².975 X².99 X².995


1 .0000393 .000982 .00393 2.706 3.841 5.024 6.635 7.879
2 .0100 .0506 .103 4.605 5.991 7.378 9.210 10.597
3 .0717 .216 .352 6.251 7.815 9.348 11.345 12.838

6
Wayne, Daniel. Bioestadística. 3ª Edición. Editorial Limusa.
4
Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X2

2 n (ad bc)2
X
(a c) (b d) (a b) (c d)

X² = 535((100) (320) – (25) (90))² = 140.949 R/ X² = 140.949


(190) (345) (125) (410)

Paso 6: Comparar X² Calculada con X² de la tabla.

Calculada: X² = 140.949

Tabla: X² = 3.841

Paso 7: Decisión estadística: Dado que 140.949 > 3.841, se rechaza Ho. Para esta prueba, p< 0.05

Interpretación: Con un nivel de significación de 0.05 los investigadores pueden concluir que existe una relación
entre el estado nutricional y el desempeño académico.

Ejercicio N 2: TABLA DE CONTINGENCIA DE 2X3

En dos hospitales: Público y privado se compararon los resultados de 675 autopsias con las causas de muerte
anotadas en los certificados de defunción. Certificados exactos, certificados que carecían de información o
contenían inexactitudes, pero no ameritaba que se modificara el registro de la causa de muerte, y certificados
incorrectos que requerían modificación en el registro de la causa de muerte. Asumiendo que necesitamos
determinar los resultados del estudio que se presentan, sugieren que la forma de llevar los certificados y el hospital
son independientes. Utilizar un alfa de 2.5%.

SOLUCIÓN:

Paso 1: Planteamiento de Hipótesis


Hₒ: La forma de llevar los estados de certificado de defunción y el hospital son independientes (no existe relación)
Ha: La forma de llevar los estados de certificado de defunción y el hospital no son independientes (si existe
relación)

Paso 2: Elaborar tabla de contingencia de 2X3


La tabla que se presenta a continuación muestra los resultados siguientes:

CUADRO No 1
RESULTADOS DE 675 AUTOPSIAS CON CAUSAS DE MUERTE EN LOS CERTIFICADOS
DE DEFUNCIÓN, EN DOS HOSPITALES PÚBLICO Y PRIVADO, AGOSTO DE 2022
ESTADO DE CERTIFICADO DE DEFUNCIÓN
HOSPITAL Exactitud Inexactitud sin Incorrecto TOTAL
confirmada cambio modificado
Público 45 40 50 135
Privado 50 20 30 100
TOTAL 95 60 80 235
Fuente: Datos hipotéticos con fines de estudio.

5
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.025.

0.975
Área de no rechazo
Paso 3: Definición de los criterios de prueba.
α = 0.025
El Valor Crítico

X² = (gl; 1 - α) gl = (2 - 1) (3 - 1)

X² = (2; 1 - 0.025) gl = (1) (2)

X² = (2; 0.975) gl = 2

Valor crítico de X² = 7.378

Paso 4: Manejo de la tabla X²

gl X².0005 X².025 X².05 X².90 X².95 X².975 X².99 X².995


1 .0000393 .000982 .00393 2.706 3.841 5.024 6.635 7.879
2 .0100 .0506 .103 4.605 5.991 7.378 9.210 10.597
3 .0717 .216 .352 6.251 7.815 9.348 11.345 12.838

Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X3

Dónde: O ¡= Frecuencias Observadas 2


(Oí Ei)
E ¡= Frecuencias Esperadas X²
Ei

Oi Ei (Oi - Ei) (Oi -Ei) ² (Oi - Ei)² /Ei


-
45 54.5744681 9.57446809 91.6704391 1.67973124
40 34.4680851 5.53191489 30.6020824 0.88783819
50 45.9574468 4.04255319 16.3422363 0.35559496
50 40.4255319 9.57446809 91.6704391 2.26763718
-
20 25.5319149 5.53191489 30.6020824 1.19858156
-
30 34.0425532 4.04255319 16.3422363 0.48005319
6.86943632

Paso 6: Comparar X² Calculada con X² de la tabla.

X² tabla = 7.378

X² Calculada = 6.869

Paso 7: Decisión estadística: Dado que 6.869 < 7.378, No se rechaza Ho

Interpretación: Esto significa que con un nivel de significación de 0.025 se confirma que la forma de llevar los
estados de certificados de defunción y el hospital son eventos independientes. (No existe relación entre ellos)

6
Ejercicios
Problema No 1
La siguiente tabla muestra los resultados de una investigación realizada en una muestra de 485 estudiantes en cierta
área metropolitana. A cada individuo se le pidió que indicara cuál de tres políticas sobre fumar en lugares públicos
preferían.

Cuadro No 2
EL NIVEL MÁXIMO DE EDUCACIÓN CON RELACIÓN A LAS POLÍTICAS SOBRE FUMAR EN LUGARES PÚBLICOS EN UN
ÁREA METROPOLITANA, AÑO 2022
Política Aprobada

Nivel máximo de Sin restricción Fumar solo en Prohibición para Sin opinión
TOTAL
educación para fumar áreas especiales fumar
Graduado de
10 54 15 6 85
universidad
Graduado de
25 200 40 10 275
preparatoria
Graduado de
35 50 20 20 125
primaria
70 304 75 36 485
TOTAL

¿Es posible concluir a partir de estos datos, que en la población muestreada existe una relación entre el nivel máximo
de educación y la actitud hacia el hábito de fumar en lugares públicos? Sea α= 0.05

10
Problema No 2
Una encuesta entre niños menores de 15 años que vivían en el centro fue clasificada de acuerdo con el grupo étnico y el
nivel de hemoglobina. Los resultados son los siguientes:

Cuadro No 3
ESTUDIO EN MENORESDE 15 AÑOS, CON EL GRUPO ÉTNICO Y EL NIVEL DE HEMOGLOBINA, AÑO 2022.

Nivel de hemoglobina (g/100 ml)


Grupo étnico 10.0 o mayor 9.0 – 9.9 ‹ 9.0 TOTAL
A 90 110 30 230
B 299 180 106 585
C 40 40 20 100
TOTAL 429 330 156 915

¿Existe suficiente evidencia para indicar, que con un nivel de significación de 0.05, que las dos variables tienen
relación?

RESPUESTAS
Problema No.1
X² = 54.645 p>0.05
Problema No. 2
X² = 11.45 p>0.05

7
Bibliografía

1. Allen Webster: ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMÍA, Tercera


Edición. Editorial McGraw-Hill.

2. J. Susan Milton. ESTADISTICA PARA BIOLOGÍA Y CIENCIAS DE LA SALUD. Tercera Edición.


Editorial McGraw-Hill. Interamericana.

3. Otto René, Morales Peña. MATERIAL DE APOYO PARA EL CURSO DE METODOS


CUANTITATIVOS II DE LA ESCUELA DE ADMINISTRACIÓN. Colección “Textos Estadísticos”
Departamento de Publicaciones. Facultad de Ciencias Económicas. Universidad de San
Carlos de Guatemala. Nov. 1997.

4. Otto Morales, Oscar Quiñones, Axel Marroquín. ESTADISTICA - INFERENCIAL. Tercera


Edición 2007.

5. Richard Levin. ESTADISTICA PARA ADMINISTRADORES. Segunda Edición. Editorial


Prentice-Hall.

6. Wayne Daniel. BIOESTADISTICA. Tercera Edición. Editorial UTEHA. Noriega Editores.

Correos Electrónicos

c.bioestadistica@Gmail.com
aavendano1964@medicina.usac.edu.gt

8
Universidad de San Carlos de Guatemala
Facultad de Ciencias Médicas
Unidad Didáctica de Bioestadística
Año 2023

Distribución Ji – Cuadrada
Prueba de Independencia

Elaborado por Lic. Ayax Joel Avendaño Estrada


Inga. Patricia Juárez
TEMÁTICA

I. Introducción
1.1 Propiedades de las pruebas no paramétricas Área de
II. Distribución Ji - Cuadrada rechazo
2.1 Propiedades de la Distribución Ji - Cuadrada de Ho
III. Prueba de Independencia
IV. Pasos para Calcular Ji - Cuadrada
V. Ejercicios prácticos
VI. Conclusiones
Anexos Área de no rechazo
Bibliografía de Ho Valor crítico de X²

I. INTRODUCCIÓN

La Distribución Ji-Cuadrada, es una prueba no paramétrica, es decir, que no presupone una distribución de
probabilidad para los datos, por ello se conoce también como de distribución libre. En la mayor parte de ella
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n ≤ 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos
para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal1

1.1 Propiedades de las pruebas no paramétricas


Requieren que las variables se midan con la escala nominal u ordinal
No se relacionan con el estudio de un parámetro de la población

II. DISTRIBUCIÓN JI - CUADRADA

La distribución Ji - Cuadrada, es una distribución de probabilidad que es más adecuada para utilizarse con
variables de clasificación que se han agrupado en categorías como estado civil, cuyos valores son: casado,
soltero, viudo y divorciado. Así también, puede deducirse a partir de la distribución Normal, por tanto, el área
total bajo la curva es 1.0. Se hace uso de la distribución Ji - Cuadrada, para probar hipótesis cuando los datos
disponibles para el análisis están en forma de frecuencias y la justificación para su uso se debe a Karl Pearson,
quien demostró que la distribución Ji-Cuadrada puede emplearse como prueba de la congruencia entre
observación e hipótesis siempre que los datos estén en forma de frecuencias2

1
J.S. Milton, J.O. Tsokos. Estadística para biología y Ciencias de la Salud, Madrid: Interamericana-McGraw Hill, 1989.
2
Wayne Daniel. Bioestadística, 3ª Edición. Editorial UTEHA, Noriega Editores. Pág. 641

1
2.1 Propiedades de la Distribución Ji-Cuadrada
2.1.1 No toma valores negativos, sólo cero o positivos
2.1.2 No es Simétrica, está sesgada hacia la derecha
2.1.3 Todas las pruebas se hacen solo de un extremo, el derecho
2.1.4 El área bajo la curva es igual a uno o el cien por ciento de los casos
2.1.5 Utiliza grados de libertad, los que cuando se trabaja con tablas de
contingencia se Utiliza la siguiente fórmula:
Área de
gl (f 1) (c 1) rechazo
Dónde: de Hipótesis
Nula
f = número de filas
c = número de columnas

III. PRUEBA DE INDEPENDENCIA Área de no rechazo


de hipótesis nula Valor crítico

Esta prueba se utiliza para determinar si dos variables categóricas se relacionan entre sí, es decir, se dice que
dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál
sea la distribución del otro. Si se rechaza la hipótesis nula, se concluye que los dos criterios de clasificación
no son independientes3. Por tanto, La hipótesis nula estará planteada en base a la independencia de los
criterios y la alterna en base a la no independencia. Las características de una prueba de Ji - Cuadrada de
independencia son:
En general se selecciona una sola muestra de la población de interés y las personas u objetos se
clasifican en forma cruzada con base en dos variables de interés.
El razonamiento para calcular las frecuencias esperadas de las celdas está basado en la ley de
probabilidad que establece que si dos eventos (en este caso, los dos criterios de clasificación) son
independientes, la probabilidad de que ocurran conjuntamente es igual al producto de sus
probabilidades individuales.
Las hipótesis y conclusiones se establecen en términos de independencia (o falta de ella) de las dos
variables4

Existen dos tipos de frecuencias en las que centra el interés, el estudio de la Distribución Ji-Cuadrada

1. Frecuencias Observadas y
2. Frecuencias Esperadas

Las frecuencias observadas, son el número de individuos u objetos en la muestra que caen dentro de varias
categorías de la variable de interés. La frecuencia esperada, es el número de individuos u objetos en la muestra
que se esperaría observar si alguna hipótesis nula respecto a la variable es verdadera5.
Se extrae una muestra de tamaño n de la población y la frecuencia de ocurrencia de la muestra que
corresponde a las casillas formadas por la intersección de los renglones y columnas de la tabla.
Para cada celda se calculan las frecuencias esperadas bajo la hipótesis nula de que los dos criterios de
clasificación son independientes.

3
Ibíd. Pág. 657
4
Ibíd. Pág. 665
5
Ibíd. Pág. 641

2
Se comparan las frecuencias esperadas y las frecuencias observadas. Si la diferencia en los valores de
ambas frecuencias es pequeña, puede aceptarse la hipótesis nula, es decir, los criterios de
clasificación son independientes (no tienen relación).
Si hay una congruencia exacta, es decir, no existe diferencia entre los valores de las frecuencias
observadas y los valores de las frecuencias esperadas, el resultado proporciona un valor de X² igual a
cero, por lo que puede aceptarse la hipótesis nula, y los criterios de clasificación son independientes.
(no tienen relación).
Si la diferencia en los valores de las frecuencias observadas y los valores de las frecuencias esperadas
es muy grande, se rechaza la hipótesis nula y se concluye que los dos criterios de clasificación no son
independientes, es decir, (tienen relación).

IV. PASOS PARA CALCULAR JI - CUADRADA

A. Paso 1: PLANTEAMIENTO DE HIPOTESIS

Hₒ: Las variables de clasificación son independientes (no hay relación entre las dos variables)
Hₒ: Las variables de clasificación no son independientes (si hay relación entre las dos variables)

B. Paso 2: ELABORAR TABLA DE CONTINGENCIA 2 X 2 2 Variables


Ver ejemplo 12.4.1 pág. 596 W. Daniel 2 criterios

ELABORAR TABLA DE CONTINGENCIA 2 X 3 2 Variables


Ver ejemplo pág. 591 4ₒ Edición W. Daniel 3 criterios

C. Paso 3: DEFINICIÓN DE LOS CRITERIOS DE PRUEBA Área de rechazo


de hipótesis nula
Proceso para determinar el Valor Crítico:

X² (gl; 1 - α)

VALOR CRÍTICO X²
D. Paso 4: MANEJO DE LA TABLA X² pág. 592
Grados de libertad: gl = (f - 1) (c- 1) f = # filas
c = # columnas
E. Paso 5: FORMULAS PARA CALCULAR JI - CUADRADA
n (ad bc)2
Cuando se utiliza tablas de 2 X 2 X2
(a c) (b d)(a b)(c d )

(Oí Ei)2
Cuando se utiliza tablas de 2 X 3 X2
Ei

Dónde = Frecuencias Observadas


= Frecuencias Esperadas

3
Aceptar H₀
F. Paso 6: COMPARAR X² calculada con X² de la tabla a fin de Rechazar Ha

G. Paso 7: DECISIÓN ESTADISTICA6


Interpretación

V. EJERCICIOS PRÁCTICOS

Ejercicio No 1: TABLA DE CONTINGENCIA DE 2X2

Una muestra de 500 niños de una escuela primaria se clasificó en forma cruzada respecto a su estado de nutrición y
desempeño académico. Los investigadores desean saber si es posible concluir que existe una relación entre el
estado de nutrición y el desempeño académico. La prueba Ji – cuadrada resulta adecuada para tomar una decisión.

SOLUCIÓN:
Paso 1: Planteamiento de Hipótesis
Hₒ: El estado nutricional y el desempeño académico son independientes (no existe relación)
Ha: El estado nutricional y el desempeño académico no son independientes (si existe relación)

Paso 2. Elaborar tabla de contingencia de 2X2


La tabla que se presenta a continuación muestra los resultados.
Estado de Nutrición
Desempeño Académico TOTAL
Malo Bueno
Malo 100 25 125
Satisfactorio 90 320 410
Total 190 345 535

¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.05
Paso 3: Definición de los criterios de prueba
α = 0.05
El valor crítico
X² = (gl; 1 - α) gl = (2 - 1) (2 - 1)
X² = (1; 1 - 0.05) gl = (1) (1)
X² = (1; 0.95) gl = 1

0.95
Área de no rechazo Valor crítico de X² = 3.841

Paso 4: Manejo de la tabla X²

gl X².0005 X².025 X².05 X².90 X².95 X².975 X².99 X².995


1 .0000393 .000982 .00393 2.706 3.841 5.024 6.635 7.879
2 .0100 .0506 .103 4.605 5.991 7.378 9.210 10.597
3 .0717 .216 .352 6.251 7.815 9.348 11.345 12.838

6
Wayne, Daniel. Bioestadística. 3ª Edición. Editorial Limusa.
4
Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X2

2 n (ad bc)2
X
(a c) (b d) (a b) (c d)

X² = 535((100) (320) – (25) (90))² = 140.949 R/ X² = 140.949


(190) (345) (125) (410)

Paso 6: Comparar X² Calculada con X² de la tabla.

Calculada: X² = 140.949

Tabla: X² = 3.841

Paso 7: Decisión estadística: Dado que 140.949 > 3.841, se rechaza Ho. Para esta prueba, p< 0.05

Interpretación: Con un nivel de significación de 0.05 los investigadores pueden concluir que existe una relación
entre el estado nutricional y el desempeño académico.

Ejercicio N 2: TABLA DE CONTINGENCIA DE 2X3

En dos hospitales: Público y privado se compararon los resultados de 675 autopsias con las causas de muerte
anotadas en los certificados de defunción. Certificados exactos, certificados que carecían de información o
contenían inexactitudes, pero no ameritaba que se modificara el registro de la causa de muerte, y certificados
incorrectos que requerían modificación en el registro de la causa de muerte. Asumiendo que necesitamos
determinar los resultados del estudio que se presentan, sugieren que la forma de llevar los certificados y el hospital
son independientes. Utilizar un alfa de 2.5%.

SOLUCIÓN:

Paso 1: Planteamiento de Hipótesis


Hₒ: La forma de llevar los estados de certificado de defunción y el hospital son independientes (no existe relación)
Ha: La forma de llevar los estados de certificado de defunción y el hospital no son independientes (si existe
relación)

Paso 2: Elaborar tabla de contingencia de 2X3


La tabla que se presenta a continuación muestra los resultados siguientes:

CUADRO No 1
RESULTADOS DE 675 AUTOPSIAS CON CAUSAS DE MUERTE EN LOS CERTIFICADOS
DE DEFUNCIÓN, EN DOS HOSPITALES PÚBLICO Y PRIVADO, AGOSTO DE 2022
ESTADO DE CERTIFICADO DE DEFUNCIÓN
HOSPITAL Exactitud Inexactitud sin Incorrecto TOTAL
confirmada cambio modificado
Público 45 40 50 135
Privado 50 20 30 100
TOTAL 95 60 80 235
Fuente: Datos hipotéticos con fines de estudio.

5
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.025.

0.975
Área de no rechazo
Paso 3: Definición de los criterios de prueba.
α = 0.025
El Valor Crítico

X² = (gl; 1 - α) gl = (2 - 1) (3 - 1)

X² = (2; 1 - 0.025) gl = (1) (2)

X² = (2; 0.975) gl = 2

Valor crítico de X² = 7.378

Paso 4: Manejo de la tabla X²

gl X².0005 X².025 X².05 X².90 X².95 X².975 X².99 X².995


1 .0000393 .000982 .00393 2.706 3.841 5.024 6.635 7.879
2 .0100 .0506 .103 4.605 5.991 7.378 9.210 10.597
3 .0717 .216 .352 6.251 7.815 9.348 11.345 12.838

Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X3

Dónde: O ¡= Frecuencias Observadas 2


(Oí Ei)
E ¡= Frecuencias Esperadas X²
Ei

Oi Ei (Oi - Ei) (Oi -Ei) ² (Oi - Ei)² /Ei


-
45 54.5744681 9.57446809 91.6704391 1.67973124
40 34.4680851 5.53191489 30.6020824 0.88783819
50 45.9574468 4.04255319 16.3422363 0.35559496
50 40.4255319 9.57446809 91.6704391 2.26763718
-
20 25.5319149 5.53191489 30.6020824 1.19858156
-
30 34.0425532 4.04255319 16.3422363 0.48005319
6.86943632

Paso 6: Comparar X² Calculada con X² de la tabla.

X² tabla = 7.378

X² Calculada = 6.869

Paso 7: Decisión estadística: Dado que 6.869 < 7.378, No se rechaza Ho

Interpretación: Esto significa que con un nivel de significación de 0.025 se confirma que la forma de llevar los
estados de certificados de defunción y el hospital son eventos independientes. (No existe relación entre ellos)

6
Ejercicios
Problema No 1
La siguiente tabla muestra los resultados de una investigación realizada en una muestra de 485 estudiantes en cierta
área metropolitana. A cada individuo se le pidió que indicara cuál de tres políticas sobre fumar en lugares públicos
preferían.

Cuadro No 2
EL NIVEL MÁXIMO DE EDUCACIÓN CON RELACIÓN A LAS POLÍTICAS SOBRE FUMAR EN LUGARES PÚBLICOS EN UN
ÁREA METROPOLITANA, AÑO 2022
Política Aprobada

Nivel máximo de Sin restricción Fumar solo en Prohibición para Sin opinión
TOTAL
educación para fumar áreas especiales fumar
Graduado de
10 54 15 6 85
universidad
Graduado de
25 200 40 10 275
preparatoria
Graduado de
35 50 20 20 125
primaria
70 304 75 36 485
TOTAL

¿Es posible concluir a partir de estos datos, que en la población muestreada existe una relación entre el nivel máximo
de educación y la actitud hacia el hábito de fumar en lugares públicos? Sea α= 0.05

10
Problema No 2
Una encuesta entre niños menores de 15 años que vivían en el centro fue clasificada de acuerdo con el grupo étnico y el
nivel de hemoglobina. Los resultados son los siguientes:

Cuadro No 3
ESTUDIO EN MENORESDE 15 AÑOS, CON EL GRUPO ÉTNICO Y EL NIVEL DE HEMOGLOBINA, AÑO 2022.

Nivel de hemoglobina (g/100 ml)


Grupo étnico 10.0 o mayor 9.0 – 9.9 ‹ 9.0 TOTAL
A 90 110 30 230
B 299 180 106 585
C 40 40 20 100
TOTAL 429 330 156 915

¿Existe suficiente evidencia para indicar, que con un nivel de significación de 0.05, que las dos variables tienen
relación?

RESPUESTAS
Problema No.1
X² = 54.645 p>0.05
Problema No. 2
X² = 11.45 p>0.05

7
Bibliografía

1. Allen Webster: ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMÍA, Tercera


Edición. Editorial McGraw-Hill.

2. J. Susan Milton. ESTADISTICA PARA BIOLOGÍA Y CIENCIAS DE LA SALUD. Tercera Edición.


Editorial McGraw-Hill. Interamericana.

3. Otto René, Morales Peña. MATERIAL DE APOYO PARA EL CURSO DE METODOS


CUANTITATIVOS II DE LA ESCUELA DE ADMINISTRACIÓN. Colección “Textos Estadísticos”
Departamento de Publicaciones. Facultad de Ciencias Económicas. Universidad de San
Carlos de Guatemala. Nov. 1997.

4. Otto Morales, Oscar Quiñones, Axel Marroquín. ESTADISTICA - INFERENCIAL. Tercera


Edición 2007.

5. Richard Levin. ESTADISTICA PARA ADMINISTRADORES. Segunda Edición. Editorial


Prentice-Hall.

6. Wayne Daniel. BIOESTADISTICA. Tercera Edición. Editorial UTEHA. Noriega Editores.

Correos Electrónicos

c.bioestadistica@Gmail.com
aavendano1964@medicina.usac.edu.gt

También podría gustarte