Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioestadística
INTRODUCCIÓN A LA ESTADÍSTICA
I. HISTORIA DE LA ESTADÍSTICA1
Hechos principales que caracterizan la trayectoria seguida por la estadística, desde su origen hasta su forma
actual.
Los principales datos estadísticos se remontan a épocas lejanas cuando principiaron a esbozarse los
primeros esfuerzos de administración pública, que sugieren la necesidad de hacer inventarios más o menos
regulares de la población y de las otras riquezas existentes en el territorio.
Con la aparición de los diversos sistemas de escritura empiezan a obtenerse datos que pueden merecer el
calificativo de información estadística.
Los egipcios realizaron inscripciones regulares de habitantes y recopilaron datos de catastro. Los chinos
empezaron a levantar censos de población desde el milenio IX antes de J.C. Los hebreos mencionaban en
sus libros sagrados (Pentateuco, Libro de los reyes, etc.) varios censos que hicieron, del pueblo de Israel.
En Asiria también se practicaban censos de población, lo mismo que en la India, en la época del Imperio de
los Gruptas, hacia el sigloV de nuestra era. En la antigua Roma se desarrolló notablemente la institución del
censo, al igual que en Grecia y otras civilizaciones antiguas, en donde hacia más o menos el año 100 se
hizo obligatoria la declaración de los nacimientos y defunciones.
Esta fase de recuentos, que abarca hasta la Edad Media se caracteriza por su carácter pasivo, siendo
notoria la falta de un método de interpretación.
El siglo XVIII marca un período histórico del desarrollo de la estadística, como consecuencia de las ideas
mercantilistas que proliferaron, el aumento de las encuestas y el aumento de las investigaciones estadísticas
en general (sobre las manufacturas, el comercio y la población), es en esta época cuando empiezan a
discutirse e iniciarse teorías, los datos se van clasificando con método, los eventos de la vida pueden ser
objeto de una nueva técnica y la estadística empezó a considerarse como una disciplina autónoma.
El primero en demostrar la regularidad de ciertos fenómenos vitales que aparecían como debidos al azar fue
John Graunt, también demostró el exceso de nacimientos de varones con respecto al de mujeres, la
proporción aproximadamente igual de ambos sexos en la población, el alto coeficiente de mortalidad infantil
y la mortalidad más alta en las zonas urbanas que en las rurales.
El Inglés Halley, fue el primero que construyó una tabla de vida, utilizando las matemáticas para determinar
la expectación de la duración de la vida humana a cualquier edad.
1
Leal Rodríguez, Juan francisco "Estadística Aplicada a la Investigación" Tomo 1 Guatemala C.A. 2000. pp
1-3
Dra. Olivia Ordóñez de Higueros Ciclo -2023- 1
Introducción a la Estadística UD. Bioestadística
Lambert Adolphe Quetelet: (belga) tiene el mérito de haber aplicado por primera
vez las nuevas técnicas a la economía y a la demografía, abriendo así el camino
para buscar “Leyes” en el camino de las ciencias humanas.
El médico es una persona que resuelve problemas de salud en forma individual, en cada uno de sus
pacientes, pero que también debe interesarse por resolver los problemas de un grupo, problemas de interés
para la sociedad. Esto puede realizarlo mediante la aplicación eficiente de principios científicos, por medio
de la investigación.
El médico, podría por ejemplo, a través de la experimentación y por ende de la investigación, perfeccionar el
uso de un producto, de un tratamiento, de una técnica, utilizar técnicas ya existentes buscando mejores
resultados, etc. o ¿por qué no? diseñar o descubrir nuevos procesos; lo que le permitiría formular y resolver
problemas. He aquí el ¿Por qué enseñar estadística?
2
Mendenhall y colaboradores mencionan dos objetivos:
Brindar al estudiante una herramienta que le ayude a planear, organizar, analizar e interpretar los datos
de un experimento (una investigación).
Brindar al estudiante una herramienta para que pueda entender aquellos artículos publicados que hacen
uso en una u otra forma de la estadística.
2
Matute Estadística ……
Con frecuencia se tiene la creencia de que la estadística es una simple recolección de números. De hecho,
éste era su significado original, se trataba de una colección de información económica y de la población vital
para el Estado, útil para la administración. Actualmente la estadística ha sobre pasado esa posición, se ha
convertido en un método científico de análisis ampliamente aplicado en todas las ciencias sociales y
naturales.
1. ESTADÍSTICA:
El New Collegiate Dictionary de Webster, define estadística como una rama de las matemáticas que
trata de la recopilación, el análisis la interpretación y la presentación de una gran cantidad de datos
numéricos.
Para Kendall y Stuart, "la estadística es la rama del método científico que trata de los datos reunidos
al contar o medir las propiedades de alguna población".
Según Fraser: "la estadística trata con métodos para obtener conclusiones a partir de los resultados
de los experimentos o procesos".
Freund dice que "la estadística es algo que abarca el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre".
Mendenhall y otros autores dicen que "la estadística trata del diseño de experimentos o encuestas
mediante muestras para obtener una cantidad determinada de información a un costo mínimo y del
uso óptimo de esta información para hacer inferencias con respecto a una población".
Puede observarse que las definiciones son diferentes, pero casi todas hacen mención de la recopilación
de datos y la inferencia como elementos en común.
De lo anterior se deduce que la estadística se divide en dos grandes campos: la estadística descriptiva y
la estadística inferencial.
2. ESTADÍSTICA DESCRIPTIVA:
La estadística descriptiva incluye diferentes formas, entre las cuales están: tablas o cuadros, gráficas,
medidas numéricas de resumen, como las medidas de tendencia central y otras.
3. ESTADÍSTICA INFERENCIAL:
Es aquella que permite realizar inferencias (deducciones) acerca de una población, mediante los
resultados que se obtienen del estudio de una muestra, extraída de dicha población. En otras palabras,
permite generalizar la información o hacer conclusiones sobre la población, basándose en los datos
aportados por la muestra.
4. VARIABLE:
Se denomina variable a toda aquella característica que puede ser observable y/o medible; y que toma
diferentes valores en diferentes personas, lugares o cosas.
Una misma característica puede tomar diferente valor o aspecto al ser observada (o medida) en
diferentes poseedores de la misma.
Ejemplo:
El Sexo o género, es una variable porque es una característica que puede ser observada y que,
en algunas personas el aspecto puede revelar que pertenecen al sexo femenino, en tanto que
otras al sexo masculino.
La frecuencia cardíaca, al ser medida (latidos por minuto) en una persona adulta, puede
encontrarse, por ejemplo, 68 latidos por minuto, en tanto que en otra, puede encontrarse 70
latidos por minuto; se está midiendo la misma característica en diferente persona.
Por su naturaleza, las variables pueden clasificarse en dos grupos: variables cualitativas o categóricas y
variables cuantitativas o numéricas.
Ejemplo:
La variable religión no requiere de algún instrumento de medición o forma establecida para
registrar la información, solamente se clasifica al sujeto indagando ¿qué creencia o dogma
profesa?
La variable estado civil, tampoco necesita de un instrumento de medición, solamente requiere de
indagar con el sujeto de estudio, ¿cuál es su estado civil?, para luego clasificarlo.
El peso puede ser tomado por medio de un instrumento de medición, que puede ser una balanza
o una báscula, que arroja la información sobre la cantidad en libras, kilos, gramos, etc. (según
sea la unidad de medida que se desee o se esté utilizando), del sujeto en quien se esté
midiendo la característica.
Las variables cuantitativas o numéricas a su vez, se dividen en dos clases o tipos:
Ejemplo:
La frecuencia respiratoria es una variable cuantitativa discreta porque entre los valores que
puede asumir, presenta interrupciones, puede encontrarse: 17, 18, 19, etc. respiraciones por
minuto, pero no podrá encontrarse 17.3, 18.72, 19.035 , etc. respiraciones por minuto, no puede
ocurrir una fracción de respiración.
El número de embarazos es otro ejemplo de variable cuantitativa discreta, ya que no podrá
encontrarse 0.6 de embarazo o 2.85 embarazos, etc.
Ejemplo:
La variable peso es una variable cuantitativa continua porque puede encontrarse una gama de
valores entre un intervalo especificado, por ejemplo entre 110 y 111 libras, puede encontrarse
110.1, 110.25, 110.361, 110.5684, etc, según se posea un instrumento de medición muy
sensible, como una balanza digital.
La estatura es otro ejemplo de variable continua. En una persona podría encontrarse que
posee una estatura de 1mt, 68cm y 6mm.
5. ESCALAS DE MEDICIÓN
MEDICIÓN: Es la asignación de números o signos, a objetos o a eventos, de acuerdo con un conjunto
de reglas preestablecido. Los signos pueden ser letras e inclusive palabras.
Puede decirse entonces que escala de medición es el procedimiento que se utiliza para asignarle una
identificación y ubicación a la característica de interés.
Existen varias escalas de medición, las cuales son consecuencia del hecho de que la medición puede
llevarse a cabo bajo diferentes series de reglas. A continuación se describe cada una de las escalas de
medición.
a. ESCALA NOMINAL:
Es la escala de medición más baja. Consiste en clasificar las observaciones en categorías, que difieren
unas de otras, siendo éstas mutuamente excluyentes y colectivamente exhaustivas. Las categorías
pueden estar dadas según reglas preestablecidas o ser fijadas por el investigador.
Ejemplo:
La variable sexo o género es una variable medible en escala nominal, ésta únicamente permite
clasificar las observaciones de la variable, en dos categorías preestablecidas: femenino y
masculino, categorías que son mutuamente excluyentes, pues un sujeto no puede pertenecer a
ambas categorías a la vez; y colectivamente exhaustivas, porque todos los sujeto podrán ser
clasificados en una de las categorías.
Diagnóstico es otra variable que se mide en escala nominal, pues consiste únicamente en
nombrar la enfermedad encontrada en el sujeto de estudio. En este caso, el investigador puede
fijar las reglas de organización, por ejemplo colocar los diagnósticos, en forma alfabética, según
el sistema afectado, etc.
b. ESCALA ORDINAL:
Esta escala no sólo nombra las categorías de la variable, sino que también las ordena por rangos de
acuerdo a algún criterio fijado, estableciendo una jerarquía entre ellas. La diferencia entre las categorías
no necesariamente será de la misma magnitud.
Ejemplo:
La variable escolaridad es una variable medible en escala ordinal, ésta escala permite clasificar
en forma ordenada las observaciones de la variable, colocando las categorías en orden
jerárquico: Pre-primaria, Primaria, Básicos, Diversificado, etc. y en este ejemplo, puede
observarse que la diferencia entre una categoría y otra, es diferente.
Daño provocado por alguna sustancia química: es otra variable medible en escala ordinal. El
investigador podría proponerse las siguientes categorías: leve, moderado y severo; el
investigador deberá especificar los criterios fijados para la clasificación (dichos criterios podrían
estar preestablecidos).
Como se puede observar, las categorías guardan un orden jerárquico, que puede ser colocado en forma
ascendente o descendente, pero nunca en desorden.
c. ESCALA DE INTERVALO:
Es una escala más especializada, a diferencia de las anteriores, es una escala que utiliza cantidades
numéricas, por lo que se utiliza en variables cuantitativas, ésta no sólo nombra las categorías de la
variable, y las ordena, sino que también es posible conocer la distancia entre dos mediciones
cualesquiera, por ejemplo se sabe que entre una medición de 40 y otra de 45, hay cinco unidades.
Otra característica relevante de esta escala, es que, posee un "cero relativo", un cero no verdadero,
porque no indica "ausencia total de la característica".
Ejemplo:
La Temperatura ambiente es quizá el mejor ejemplo de una variable medible en escala de
intervalo, la unidad de medida es el grado. Generalmente en las radioemisoras del país, por la
mañana informan sobre el estado del tiempo, es aquí donde puede escucharse, por ejemplo,
que en Quetzaltenango amaneció a "cero grados centígrados", pero esto no indica que no haya
temperatura, este "cero" no está indicando ausencia de la característica.
d. ESCALA DE RAZÓN:
Es la escala más especializada, ocupa el nivel más alto, posee un "cero absoluto", un cero
verdadero, que por supuesto, indica "ausencia total de la característica", también es posible conocer
la distancia entre dos mediciones cualesquiera y puede determinarse la igualdad de las razones así
como hacerse comparaciones proporcionales como el doble, el triple, la mitad, etc.
Ejemplo:
La Estatura es un ejemplo de variable medible en escala de razón, la unidad de medida puede
variar, ya que ésta puede ser solicitada en pies, metros, etc.
Al medir a 2 personas, la persona “A” y la persona “B”, se puede encontrar que miden 1.62 y
1.76 mt. respectivamente; se observa que la persona “B” es 14 cm más alta que la persona “A” o
viceversa.
Tanto la escala de intervalo como la de razón son utilizables
para variables cuantitativas o numéricas, aunque si el
investigador tiene información de variables numéricas y
desea trabajarlas solamente organizando los datos en
categorías, puede hacerlo; desde luego que estaría bajando
el nivel de la variable.
6. POBLACIÓN:
Al definir lo que es una población, por lo general se piensa en un grupo de personas, sin embargo en
estadística, se define población como la totalidad de sujetos en los cuales se tiene interés en un
momento determinado, dichos sujetos podrán ser personas, muestras de sangre, plantas, células, etc.
Por lo tanto, las poblaciones se determinan y definen con base en el campo de interés.
Las poblaciones pueden ser denominadas finitas, si consisten de un número determinado de sujetos; o
infinitas, si se trata de una sucesión infinita de valores.
7. MUESTRA:
La muestra es definida simplemente como una parte de la población.
Ejemplo:
Se está interesado en evaluar el peso de los niños inscritos en el presente ciclo escolar, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
La POBLACIÓN está formada por los niños inscritos en dicha escuela, en el presente
ciclo escolar.
Una MUESTRA estaría constituida, por ejemplo, por los alumnos inscritos en el 2o.
grado.
8. PARÁMETRO:
Es una medida descriptiva calculada a partir de los datos de una población.
9. ESTADÍSTICO:
Es una medida descriptiva calculada a partir de los datos de una muestra.
Ejemplo:
Se tiene interés en el promedio de peso de los niños inscritos en el presente ciclo lectivo, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
Si se calcula el promedio con los pesos de todos los niños inscritos en dicha escuela, en
el presente ciclo lectivo, se obtendrá un PARÁMETRO.
En tanto que se obtendrá un ESTADÍSTICO al calcular el promedio solo con los pesos
de, por ejemplo, los alumnos inscritos en el 2o. grado.
REFERENCIAS
1. Leal Rodríguez, Juan Francisco. “ESTADÍSTICA APLICADA A LA INVESTIGACIÒN” Guatemala, C.A.
2000.
2. Levin, Jack “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN SOCIAL” De. Harla. México 1977
3. Spiegel Murray R. “ESTADÍSTICA” Editorial Mc Graw Hill.
4. Pagano, Marcello. “FUNDAMENTOS DE BIOESTADÍSTICA” 2ª. ed. Edit. Math Learning. 2001
5. Daniel, Wayne. “BIOESTADÍSTICA”. 4ª. Ed. Edit. Limusa Wiley. 2002
6. Wonnacott T.H. “INT-RODUCCIÓN A LA ESTADÍSTICA” 5ª. Ed. Edit. Limusa1997.
INTRODUCCIÓN A LA ESTADÍSTICA
I. HISTORIA DE LA ESTADÍSTICA1
Hechos principales que caracterizan la trayectoria seguida por la estadística, desde su origen hasta su forma
actual.
Los principales datos estadísticos se remontan a épocas lejanas cuando principiaron a esbozarse los
primeros esfuerzos de administración pública, que sugieren la necesidad de hacer inventarios más o menos
regulares de la población y de las otras riquezas existentes en el territorio.
Con la aparición de los diversos sistemas de escritura empiezan a obtenerse datos que pueden merecer el
calificativo de información estadística.
Los egipcios realizaron inscripciones regulares de habitantes y recopilaron datos de catastro. Los chinos
empezaron a levantar censos de población desde el milenio IX antes de J.C. Los hebreos mencionaban en
sus libros sagrados (Pentateuco, Libro de los reyes, etc.) varios censos que hicieron, del pueblo de Israel.
En Asiria también se practicaban censos de población, lo mismo que en la India, en la época del Imperio de
los Gruptas, hacia el sigloV de nuestra era. En la antigua Roma se desarrolló notablemente la institución del
censo, al igual que en Grecia y otras civilizaciones antiguas, en donde hacia más o menos el año 100 se
hizo obligatoria la declaración de los nacimientos y defunciones.
Esta fase de recuentos, que abarca hasta la Edad Media se caracteriza por su carácter pasivo, siendo
notoria la falta de un método de interpretación.
El siglo XVIII marca un período histórico del desarrollo de la estadística, como consecuencia de las ideas
mercantilistas que proliferaron, el aumento de las encuestas y el aumento de las investigaciones estadísticas
en general (sobre las manufacturas, el comercio y la población), es en esta época cuando empiezan a
discutirse e iniciarse teorías, los datos se van clasificando con método, los eventos de la vida pueden ser
objeto de una nueva técnica y la estadística empezó a considerarse como una disciplina autónoma.
El primero en demostrar la regularidad de ciertos fenómenos vitales que aparecían como debidos al azar fue
John Graunt, también demostró el exceso de nacimientos de varones con respecto al de mujeres, la
proporción aproximadamente igual de ambos sexos en la población, el alto coeficiente de mortalidad infantil
y la mortalidad más alta en las zonas urbanas que en las rurales.
El Inglés Halley, fue el primero que construyó una tabla de vida, utilizando las matemáticas para determinar
la expectación de la duración de la vida humana a cualquier edad.
1
Leal Rodríguez, Juan francisco "Estadística Aplicada a la Investigación" Tomo 1 Guatemala C.A. 2000. pp
1-3
Dra. Olivia Ordóñez de Higueros Ciclo -2023- 1
Introducción a la Estadística UD. Bioestadística
Lambert Adolphe Quetelet: (belga) tiene el mérito de haber aplicado por primera
vez las nuevas técnicas a la economía y a la demografía, abriendo así el camino
para buscar “Leyes” en el camino de las ciencias humanas.
El médico es una persona que resuelve problemas de salud en forma individual, en cada uno de sus
pacientes, pero que también debe interesarse por resolver los problemas de un grupo, problemas de interés
para la sociedad. Esto puede realizarlo mediante la aplicación eficiente de principios científicos, por medio
de la investigación.
El médico, podría por ejemplo, a través de la experimentación y por ende de la investigación, perfeccionar el
uso de un producto, de un tratamiento, de una técnica, utilizar técnicas ya existentes buscando mejores
resultados, etc. o ¿por qué no? diseñar o descubrir nuevos procesos; lo que le permitiría formular y resolver
problemas. He aquí el ¿Por qué enseñar estadística?
2
Mendenhall y colaboradores mencionan dos objetivos:
Brindar al estudiante una herramienta que le ayude a planear, organizar, analizar e interpretar los datos
de un experimento (una investigación).
Brindar al estudiante una herramienta para que pueda entender aquellos artículos publicados que hacen
uso en una u otra forma de la estadística.
2
Matute Estadística ……
Con frecuencia se tiene la creencia de que la estadística es una simple recolección de números. De hecho,
éste era su significado original, se trataba de una colección de información económica y de la población vital
para el Estado, útil para la administración. Actualmente la estadística ha sobre pasado esa posición, se ha
convertido en un método científico de análisis ampliamente aplicado en todas las ciencias sociales y
naturales.
1. ESTADÍSTICA:
El New Collegiate Dictionary de Webster, define estadística como una rama de las matemáticas que
trata de la recopilación, el análisis la interpretación y la presentación de una gran cantidad de datos
numéricos.
Para Kendall y Stuart, "la estadística es la rama del método científico que trata de los datos reunidos
al contar o medir las propiedades de alguna población".
Según Fraser: "la estadística trata con métodos para obtener conclusiones a partir de los resultados
de los experimentos o procesos".
Freund dice que "la estadística es algo que abarca el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre".
Mendenhall y otros autores dicen que "la estadística trata del diseño de experimentos o encuestas
mediante muestras para obtener una cantidad determinada de información a un costo mínimo y del
uso óptimo de esta información para hacer inferencias con respecto a una población".
Puede observarse que las definiciones son diferentes, pero casi todas hacen mención de la recopilación
de datos y la inferencia como elementos en común.
De lo anterior se deduce que la estadística se divide en dos grandes campos: la estadística descriptiva y
la estadística inferencial.
2. ESTADÍSTICA DESCRIPTIVA:
La estadística descriptiva incluye diferentes formas, entre las cuales están: tablas o cuadros, gráficas,
medidas numéricas de resumen, como las medidas de tendencia central y otras.
3. ESTADÍSTICA INFERENCIAL:
Es aquella que permite realizar inferencias (deducciones) acerca de una población, mediante los
resultados que se obtienen del estudio de una muestra, extraída de dicha población. En otras palabras,
permite generalizar la información o hacer conclusiones sobre la población, basándose en los datos
aportados por la muestra.
4. VARIABLE:
Se denomina variable a toda aquella característica que puede ser observable y/o medible; y que toma
diferentes valores en diferentes personas, lugares o cosas.
Una misma característica puede tomar diferente valor o aspecto al ser observada (o medida) en
diferentes poseedores de la misma.
Ejemplo:
El Sexo o género, es una variable porque es una característica que puede ser observada y que,
en algunas personas el aspecto puede revelar que pertenecen al sexo femenino, en tanto que
otras al sexo masculino.
La frecuencia cardíaca, al ser medida (latidos por minuto) en una persona adulta, puede
encontrarse, por ejemplo, 68 latidos por minuto, en tanto que en otra, puede encontrarse 70
latidos por minuto; se está midiendo la misma característica en diferente persona.
Por su naturaleza, las variables pueden clasificarse en dos grupos: variables cualitativas o categóricas y
variables cuantitativas o numéricas.
Ejemplo:
La variable religión no requiere de algún instrumento de medición o forma establecida para
registrar la información, solamente se clasifica al sujeto indagando ¿qué creencia o dogma
profesa?
La variable estado civil, tampoco necesita de un instrumento de medición, solamente requiere de
indagar con el sujeto de estudio, ¿cuál es su estado civil?, para luego clasificarlo.
El peso puede ser tomado por medio de un instrumento de medición, que puede ser una balanza
o una báscula, que arroja la información sobre la cantidad en libras, kilos, gramos, etc. (según
sea la unidad de medida que se desee o se esté utilizando), del sujeto en quien se esté
midiendo la característica.
Las variables cuantitativas o numéricas a su vez, se dividen en dos clases o tipos:
Ejemplo:
La frecuencia respiratoria es una variable cuantitativa discreta porque entre los valores que
puede asumir, presenta interrupciones, puede encontrarse: 17, 18, 19, etc. respiraciones por
minuto, pero no podrá encontrarse 17.3, 18.72, 19.035 , etc. respiraciones por minuto, no puede
ocurrir una fracción de respiración.
El número de embarazos es otro ejemplo de variable cuantitativa discreta, ya que no podrá
encontrarse 0.6 de embarazo o 2.85 embarazos, etc.
Ejemplo:
La variable peso es una variable cuantitativa continua porque puede encontrarse una gama de
valores entre un intervalo especificado, por ejemplo entre 110 y 111 libras, puede encontrarse
110.1, 110.25, 110.361, 110.5684, etc, según se posea un instrumento de medición muy
sensible, como una balanza digital.
La estatura es otro ejemplo de variable continua. En una persona podría encontrarse que
posee una estatura de 1mt, 68cm y 6mm.
5. ESCALAS DE MEDICIÓN
MEDICIÓN: Es la asignación de números o signos, a objetos o a eventos, de acuerdo con un conjunto
de reglas preestablecido. Los signos pueden ser letras e inclusive palabras.
Puede decirse entonces que escala de medición es el procedimiento que se utiliza para asignarle una
identificación y ubicación a la característica de interés.
Existen varias escalas de medición, las cuales son consecuencia del hecho de que la medición puede
llevarse a cabo bajo diferentes series de reglas. A continuación se describe cada una de las escalas de
medición.
a. ESCALA NOMINAL:
Es la escala de medición más baja. Consiste en clasificar las observaciones en categorías, que difieren
unas de otras, siendo éstas mutuamente excluyentes y colectivamente exhaustivas. Las categorías
pueden estar dadas según reglas preestablecidas o ser fijadas por el investigador.
Ejemplo:
La variable sexo o género es una variable medible en escala nominal, ésta únicamente permite
clasificar las observaciones de la variable, en dos categorías preestablecidas: femenino y
masculino, categorías que son mutuamente excluyentes, pues un sujeto no puede pertenecer a
ambas categorías a la vez; y colectivamente exhaustivas, porque todos los sujeto podrán ser
clasificados en una de las categorías.
Diagnóstico es otra variable que se mide en escala nominal, pues consiste únicamente en
nombrar la enfermedad encontrada en el sujeto de estudio. En este caso, el investigador puede
fijar las reglas de organización, por ejemplo colocar los diagnósticos, en forma alfabética, según
el sistema afectado, etc.
b. ESCALA ORDINAL:
Esta escala no sólo nombra las categorías de la variable, sino que también las ordena por rangos de
acuerdo a algún criterio fijado, estableciendo una jerarquía entre ellas. La diferencia entre las categorías
no necesariamente será de la misma magnitud.
Ejemplo:
La variable escolaridad es una variable medible en escala ordinal, ésta escala permite clasificar
en forma ordenada las observaciones de la variable, colocando las categorías en orden
jerárquico: Pre-primaria, Primaria, Básicos, Diversificado, etc. y en este ejemplo, puede
observarse que la diferencia entre una categoría y otra, es diferente.
Daño provocado por alguna sustancia química: es otra variable medible en escala ordinal. El
investigador podría proponerse las siguientes categorías: leve, moderado y severo; el
investigador deberá especificar los criterios fijados para la clasificación (dichos criterios podrían
estar preestablecidos).
Como se puede observar, las categorías guardan un orden jerárquico, que puede ser colocado en forma
ascendente o descendente, pero nunca en desorden.
c. ESCALA DE INTERVALO:
Es una escala más especializada, a diferencia de las anteriores, es una escala que utiliza cantidades
numéricas, por lo que se utiliza en variables cuantitativas, ésta no sólo nombra las categorías de la
variable, y las ordena, sino que también es posible conocer la distancia entre dos mediciones
cualesquiera, por ejemplo se sabe que entre una medición de 40 y otra de 45, hay cinco unidades.
Otra característica relevante de esta escala, es que, posee un "cero relativo", un cero no verdadero,
porque no indica "ausencia total de la característica".
Ejemplo:
La Temperatura ambiente es quizá el mejor ejemplo de una variable medible en escala de
intervalo, la unidad de medida es el grado. Generalmente en las radioemisoras del país, por la
mañana informan sobre el estado del tiempo, es aquí donde puede escucharse, por ejemplo,
que en Quetzaltenango amaneció a "cero grados centígrados", pero esto no indica que no haya
temperatura, este "cero" no está indicando ausencia de la característica.
d. ESCALA DE RAZÓN:
Es la escala más especializada, ocupa el nivel más alto, posee un "cero absoluto", un cero
verdadero, que por supuesto, indica "ausencia total de la característica", también es posible conocer
la distancia entre dos mediciones cualesquiera y puede determinarse la igualdad de las razones así
como hacerse comparaciones proporcionales como el doble, el triple, la mitad, etc.
Ejemplo:
La Estatura es un ejemplo de variable medible en escala de razón, la unidad de medida puede
variar, ya que ésta puede ser solicitada en pies, metros, etc.
Al medir a 2 personas, la persona “A” y la persona “B”, se puede encontrar que miden 1.62 y
1.76 mt. respectivamente; se observa que la persona “B” es 14 cm más alta que la persona “A” o
viceversa.
Tanto la escala de intervalo como la de razón son utilizables
para variables cuantitativas o numéricas, aunque si el
investigador tiene información de variables numéricas y
desea trabajarlas solamente organizando los datos en
categorías, puede hacerlo; desde luego que estaría bajando
el nivel de la variable.
6. POBLACIÓN:
Al definir lo que es una población, por lo general se piensa en un grupo de personas, sin embargo en
estadística, se define población como la totalidad de sujetos en los cuales se tiene interés en un
momento determinado, dichos sujetos podrán ser personas, muestras de sangre, plantas, células, etc.
Por lo tanto, las poblaciones se determinan y definen con base en el campo de interés.
Las poblaciones pueden ser denominadas finitas, si consisten de un número determinado de sujetos; o
infinitas, si se trata de una sucesión infinita de valores.
7. MUESTRA:
La muestra es definida simplemente como una parte de la población.
Ejemplo:
Se está interesado en evaluar el peso de los niños inscritos en el presente ciclo escolar, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
La POBLACIÓN está formada por los niños inscritos en dicha escuela, en el presente
ciclo escolar.
Una MUESTRA estaría constituida, por ejemplo, por los alumnos inscritos en el 2o.
grado.
8. PARÁMETRO:
Es una medida descriptiva calculada a partir de los datos de una población.
9. ESTADÍSTICO:
Es una medida descriptiva calculada a partir de los datos de una muestra.
Ejemplo:
Se tiene interés en el promedio de peso de los niños inscritos en el presente ciclo lectivo, en la
Escuela Rural Mixta 15 de Septiembre, del municipio de Fraijanes del departamento de Guatemala.
Si se calcula el promedio con los pesos de todos los niños inscritos en dicha escuela, en
el presente ciclo lectivo, se obtendrá un PARÁMETRO.
En tanto que se obtendrá un ESTADÍSTICO al calcular el promedio solo con los pesos
de, por ejemplo, los alumnos inscritos en el 2o. grado.
REFERENCIAS
1. Leal Rodríguez, Juan Francisco. “ESTADÍSTICA APLICADA A LA INVESTIGACIÒN” Guatemala, C.A.
2000.
2. Levin, Jack “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN SOCIAL” De. Harla. México 1977
3. Spiegel Murray R. “ESTADÍSTICA” Editorial Mc Graw Hill.
4. Pagano, Marcello. “FUNDAMENTOS DE BIOESTADÍSTICA” 2ª. ed. Edit. Math Learning. 2001
5. Daniel, Wayne. “BIOESTADÍSTICA”. 4ª. Ed. Edit. Limusa Wiley. 2002
6. Wonnacott T.H. “INT-RODUCCIÓN A LA ESTADÍSTICA” 5ª. Ed. Edit. Limusa1997.
ÁREA DE INVESTIGACIÓN
U.D. BIOESTADÍSTICA
I. INTRODUCCIÓN
Una vez que se ha terminado con el proceso de recopilación de la información, el investigador se encuentra
con un cúmulo de información que necesita “vaciar” de alguna forma, utilizando algún programa, para poder
organizar y analizar dicha información, en otras palabras, necesita elaborar una base de datos.
Se define una base datos como un banco de datos o una serie de datos organizados y relacionados entre sí,
pertenecientes a un mismo contexto, los cuales son recolectados y almacenados de forma sistemática para
ser explorados por programas estadísticos.
El programa Excel es una hoja electrónica amigable y útil para la elaboración de bases de datos, de
diferente índole y con diferentes propósitos, por lo que se convierte en una herramienta valiosa en el proceso
de análisis de datos. Se ha vuelto tan útil y amigable, que los formularios de Google, entre otros, pueden ser
descargados en este programa.
Una base de datos puede ser leída por programas especiales que faciliten todo el proceso estadístico, como
por ejemplo: EpiInfo, Stata, SPSS, Epidat, entre otros.
El programa Excel consta de una serie de filas y una serie de columnas; para la elaboración de la base de
datos utilizando dicho programa, se debe proceder de la siguiente forma:
a. Identificación de boletas: cada boleta debe tener un número que la identifique, es recomendable
que dicho número sea colocado en la esquina superior derecha de la carátula o primera hoja del
instrumento (si constara de varias páginas), el propósito es facilitar la ubicación, por si fuere
necesario verificar algún dato.
b. En la primera columna se colocará la identificación de cada boleta (No. de boleta), esto facilitará la
localización del registro, por si fuera necesario, para hacer alguna corrección o confirmación
respecto a los datos.
c. Cada columna de las subsiguientes corresponderá a una variable. En el encabezado de cada
columna se deberá escribir el nombre de la variable, por lo que cada columna contendrá la
información de la variable respectiva.
d. Cada fila corresponderá a la información de una boleta, en otras palabras, a la información de un
sujeto de estudio.
Una vez comprendidos y ejecutados los incisos anteriores, se tiene lista la “plantilla” para ingresar la
información. Desde luego que estos incisos deben realizarse si la recopilación de la información se ha
realizado en forma manuscrita.
Google forms proporciona en formato Excel, un archivo con la información que cada “sujeto de estudio”
colocó al responder un formulario. Para ir transformando el archivo en una base de datos es necesario
revisarlo y editarlo, por lo que se puede tomar como referencia los incisos anteriores así como los que se
van describiendo más adelante.
Identificación del
“sujeto de estudio”
Si el procedimiento se hace en forma manual, antes de iniciar el ingreso de los datos al programa Excel, se
debe proceder a:
a. Codificación de las variables: Se requiere contar con una copia en blanco, del instrumento
utilizado para la investigación (boleta, encuesta), para codificar las variables.
Esta codificación debe realizarse para que dicho archivo pueda ser leído por programas estadísticos
como los que se mencionaron anteriormente. Actualmente esto es necesario para la utilización de
algunos programas que aún tienen este tipo de restricciones.
EJEMPLO:
Se puede observar en la columna derecha, que las variables han sido codificadas, todas están
escritas con letras minúsculas y en negrita. Al codificar o colocar nuevos nombres a las variables, se
debe tener el cuidado de que, el nuevo nombre “refleje” la información que contiene.
En el cuadro anterior, se puede observar que, para las primeras 5 variables del ejemplo, no parece
haber ningún problema, está explícita la información que contendrá cada columna; sin embargo,
para la sexta variable: Diagnóstico de ingreso, el nuevo nombre que se ha colocado es dxingreso,
que desglosado correspondería a: dx = diagnóstico, ingreso = de ingreso.
b. Codificación de categorías: Las categorías de las variables también se pueden codificar,
utilizando números. Como se puede observar en las variables sexo y diagnóstico, se ha
colocado un número entre paréntesis, esto se hace con el propósito de facilitar la digitalización o
vaciado de los datos.
La asignación de un número a las categorías de las variables, también está asociado a factor de
riesgo, un número mayor, corresponderá a la categoría con mayor riesgo.
EJEMPLO:
Observación:
Para la categoría “Otro” se puede proceder de dos formas:
a. Colocar el número “4”(la codificación) y habilitar otra columna para escribir la
respuesta obtenida(otro diagnóstico), porque dicha información podría ser de
importancia para la investigación.
b. Escribir la respuesta obtenida como “otro” en lugar del número “4”
IV. RECOMENDACIONES
1. Establecer desde la elaboración del instrumento, que la información de las variables numéricas (o
cuantitativas) sea recopilada en sus unidades originales, con el propósito de no perder información,
por ejemplo: peso, talla, edad, niveles de colesterol en sangre, etc.
Se puede observar en la boleta del ejemplo, la variable Presión Arterial (PA). Si al recopilar los
datos, se registra como: normal, hipertenso o hipotenso y no se coloca el valor encontrado durante
la toma, es probable que a futuro, si fuera necesario realizar algún análisis cuantitativo sobre la
presión sistólica, la diastólica o la diferencial, no será posible hacerlo, porque no se contará con la
información necesaria.
2. Como se mencionó anteriormente, las categorías de las variables también se pueden codificar, ya
sea por situación de “riesgo” o con el propósito de facilitar la digitalización de los datos, esto se
refiere a que, por ejemplo es más rápido digitar “1 o 2” que “masculino o femenino”; por otro lado, al
escribir una palabra se corre el riesgo de escribirla de diferente forma, ejemplo: MASCULINO,
Masculino o masculino, las tres palabras dicen lo mismo pero algunas versiones (antiguas) del
programa, al hacer un *recuento de los datos, las podrían reconocer como diferentes y podría
darnos un resultado como este:
*para lo cual se puede utilizar la función contar si de Excel.
Sexo F
(frecuencia)
MASCULINO 50
Masculino 20
masculino 15
Desde luego que al utilizar un formulario de Google, la situación planteada anteriormente, se puede
considerar al momento en que se elabora el formulario, optando por el tipo de ítem en el que el encuestado
solamente pueda seleccionar la opción que le corresponda.
3. Al digitar la información de las categorías de las variables “codificadas”, en otras palabras, utilizando
números: 1(masculino) y 2 (femenino), se debe tener presente que la variable no es numérica, por
lo tanto, se deberá tener el cuidado en cuanto a las indicaciones que se proporcionan al programa
ya que podría realizar cálculos numéricos, al ejecutar lo solicitado.
EJEMPLO:
Como se puede ver en el ejemplo, el programa realizó los cálculos, sin embargo los resultados
obtenidos no tienen ningún sentido porque las variables son categóricas, por lo que se analizan con
otro tipo de medidas, como las proporciones y los porcentajes.
4. El programa Excel “reconoce” el tipo de información que se está colocando en las celdas, lo
numérico lo coloca hacia la derecha y lo categórico (o alfa numérica) hacia la izquierda, por lo que
se recomienda no centrar los datos, ya que, se suele hacer por “presentación”, pero el programa
estadístico podría tener problemas para reconocer la información del archivo.
En la recomendación No. 1, se aconseja colocar los valores encontrados de las variables numéricas,
la variable Presión Arterial está formada por dos valores, correspondientes a la presión sistólica y
diastólica, es por ello que se observa en la base de datos, una columna para cada valor.
NOTA
Ahora se cuenta con Google forms para elaborar la boleta (cuestionarios), se aconseja tomar en cuenta lo
que se detalla en este documento para elaborar el formulario, ya que, consideramos que será de utilidad
para la recopilación adecuada de la información.
Google forms provee una variedad de “ítems” como la de completación, de selección de una sola alternativa,
etc. que permiten recopilar la información de una forma más rápida, solamente se debe tener el cuidado de
elegir el tipo correcto, según la información que se requiere, y desde luego, pensando en la forma en que se
analizará la información.
FUENTES CONSULTADAS
1. Daniel WW. Bioestadística, Base para el Análisis de las Ciencias de la Salud. Tercera Ed. México: Limusa
Wiley; 2008. 876 p.
2. http://eprints.rclis.org/14591/1/BD_INVESTIGACION_2010_exit.pdf
1. Presentación de datos
En la investigación, la información que se recopile en la recolección de la información, se puede presentar
de las tres formas siguientes:
a. En forma escrita (con palabras).
b. En cuadros o tablas.
c. En gráficas.
(1) YS. BUREAU OF THE GENGUS. Burcean of the Census Manual of Tabular Presentation by Brunce L. Jenkinson. Washington D.C.: U.S. Government.
Printing office, 1950.
Cada uno de los componentes de un cuadro estadístico deben de cumplir con ciertas reglas relativas,
encontrándose entre las más importantes:
Para esto es necesario llenar los cuadros de acuerdo al orden de aparición dentro del estudio, por ejemplo,
si la tabla o cuadro es la primera de un documento con tres capítulos y aparece en el primer capítulo será
el cuadro No. 1.1., el primer valor indica el número del capítulo y el segundo el número del cuadro; si luego
en el mismo estudio aparecen más tablas; por ejemplo, otra numerada 3.5 indica que es la tabla No. 5 del
capítulo número 3. Cuando aparece únicamente una tabla en el reparto o estudio puede omitirse el
número.
2
Presentación Tabular y Gráfica de la Variable Cualitativa.
En algunas ocasiones las notas de encabezado se utilizan para definir algún término del título, o para indicar
las unidades en que se está trabajando la información que aparece en el cuadro.
Estas notas deben escribirse con letra minúscula, van entre paréntesis y abajo del título. Ejemplo: Cuadro
No. 1 (Sólo se tomaron en cuenta los establecimientos que están funcionando).
• FILA MATRIZ
Es la primera fila, cumple un propósito diferente a las demás filas ya que, en ella se colocan las diferentes
subdivisiones de la clasificación o encabezados de los datos expuestos en el cuerpo del cuadro. Ejemplo
Cuadro No. 1.
• COLUMNA MATRIZ
Cumple el mismo propósito de la fila matriz únicamente que en ella se colocan los encabezados de los datos
de las diferentes filas. Ejemplo: Cuadro No. 1
MUNICIPIOS
CUILAPA
NUEVA SANTA ROSA
PUEBLO NUEVO VIÑAS
TAXISCO
o ALFABETICA
Facilita la localización de la información, ejemplo:
o GEOGRAFICA
Es aplicable cuando los usuarios están muy familiarizados con la clasificación. Ejemplo.
o CRONOLÓGICO
Por años que puede ser del más antiguo al más cercano o viceversa o bien por meses. Ejemplo:
AÑO MESES
1995 ENERO
2000 FEBRERO
2005 MARZO
2010
ABRIL
2015
MAYO
2020
JUNIO
o USUAL
Cuando la información se presenta según clases ya establecidas. Ejemplo:
ESTADO CIVIL
SOLTERO
CASADO
UNIDO
VIUDO
DIVORCIADO
o NUMÉRICO
Cuando tiene que enumerarse las clases. Ejemplo: Las zonas de las diferentes ciudades del Departamento
de Guatemala.
ZONIFICACION
1
2
3
4
5
4
Presentación Tabular y Gráfica de la Variable Cualitativa.
• CELDAS
Es el espacio que encierra cada dato individual; proporcionando información tanto de la columna como de
la fila, son estos los que se consideran el cuerpo del cuadro, ya que aquí está considerada toda la
información numérica. Ejemplo: Cuadro No. 1.
ESTABLECIMIENTOS DE SALUD
MUNICIPIO PUESTO DE CENTRO DE HOSPITALES TOTAL
SALUD SALUD
CUILAPA CELDA CELDA CELDA CELDA
3 1 1 5
NUEVA SANTA ROSA CELDA CELDA CELDA CELDA
5 1 0 6
PUEBLO NUEVO VIÑAS CELDA CELDA CELDA0 CELDA
6 1 0 7
TAXISCO CELDA CELDA CELDA CELDA
4 1 0 5
SANTA CRUZ NARANJO CELDA CELDA CELDA CELDA
3 1 0 4
SANTA ROSA DE LIMA CELDA CELDA CELDA CELDA
1 1 0 2
BARBERENA CELDA CELDA CELDA CELDA
1 1 0 2
ORATORIO CELDA CELDA CELDA0 CELDA
3 1 4
SAN JUAN TECUACO CELDA CELDA CELDA CELDA
1 1 0 2
CHIQUIMULILLA CELDA CELDA CELDA CELDA
10 1 0 11
GUAZACAPAN CELDA CELDA CELDA CELDA
4 1 0 5
TOTAL 41 11 1 53
Si son explicaciones que se localizan en la columna matriz, o fila matriz se identifican con números 1, 2, 3…,
las referencias a cifras en particular se señalan con letras minúsculas: a, b, c, o con asteriscos (*) para evitar
que se confundan con las cifras del cuadro.
La utilización de la nota de pie tiende a desaparecer siempre que la nota de encabezado llene esta función.
Ejemplo cuadro No. 1 (los datos expuestos en el cuadro están actualizados a la fecha indicada).
También es importante el indicar por quien fue recabada la información y la técnica utilizada para la
recopilación de la misma. Si los datos fueron obtenidos de algún reporte o libro, la referencia al margen de
la información siguiendo las reglas convencionales de las citas bibliográficas. Ejemplo: Cuadro No. 1 Fuente:
(Boletín del Ministerio de Salud Pública).
o RAYADO
Se usa línea doble horizontal sólo para abrir el cuadro. Las líneas horizontales se usan únicamente para
abrir y cerrar y para subrayar totales y subtotales.
Las líneas verticales se usan únicamente para separar columnas. El cuadro se puede dejar abierto en sus
lados izquierdo y derecho.
o TIPO DE LETRA
Sólo el título se pone con letras mayúsculas, el resto de rótulos con minúsculas del mismo tipo, excepto la
palabra total que debe ir con mayúsculas. Se utiliza tipo más pequeño de minúsculas, para las notas de
encabezamiento, pie, o fuente informativa. Todos los rótulos o leyendas deben de escribirse
horizontalmente.
o CIFRAS
Las cifras escritas en el cuerpo del cuadro deben de ir separadas en sus millares y millones con una coma y
para separar decimales se utiliza punto. 2,161.05.
o SIGNOS CONVENCIONALES
Cifras es cero. (-) guión
No hay información. (.) punto
Existe información, pero no ha sido recibida o publicada. (…) tres puntos
Cifra tan pequeña que no se puede expresar en la unidad mencionada (o) cero.
Con fines de estudio, los cuadros de uso específico se clasifican: cuadros de investigación, cuadros
expositivos o presentativos y tablas de trabajo.
o CUADROS DE INVESTIGACION
Estos son de carácter interno, generalmente no son publicados, muchas veces sirven para labores previas a
la presentación.
Los cuadros de investigación utilizados son: Cuadro dicotómico simple y cuadro dicotómico de doble
entrada
Tienen como objetivo mostrar cifras estadísticas relacionadas con los temas de trabajo. Estos aparecen en
trabajos de investigación, reportes, publicaciones, estudios descriptivos, et.
Este tipo de cuadros deben cumplir obligadamente con todos los requisitos de elaboración de un cuadro
estadístico ya que establecen la base para cualquier análisis.
6
Presentación Tabular y Gráfica de la Variable Cualitativa.
Para una presentación más adecuada de los datos y sobre todo para un mejor análisis, es conveniente
estudiar ésta, desde el punto de vista de las variables evaluadas; por lo que se consideran dos situaciones.
Si la variable o variables en estudio son de naturaleza cualitativa: los datos se agrupan en una o varias
escalas cualitativas, llamadas clases o categorías. o Si la variable o las variables en estudio son de naturaleza
cuantitativa, los datos se agrupan en una o varias escalas cuantitativas llamadas clases o intervalos de clase.
CUADRO No. 4
ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA ROSA,
GUATEMALA. 2009.
TIPO DE ESTABLECIMIENTO No.
HOSPITALES 1
PUESTOS DE SALUD 54
CENTROS DE SALUD 14
TOTAL 69
Fuente: Boletín del Ministerio de Salud Pública.
Según los datos del cuadro No. 4, se observa que la variable tipo de establecimientos es una variable
cualitativa y el número de establecimientos es una cuantificación de la variable en estudio.
ANÁLISIS
La información de la variable cualitativa al presentarse, habitualmente se analiza mediante el cálculo de
frecuencias relativas o tantos por ciento. Para ilustrar el concepto de frecuencia relativa y tanto por ciento,
consideremos la siguiente situación.
Supóngase que una variable toma los valores A,B y C. Valores observados de la variable y que el número de
casos o frecuencias son FA, FB y FC respectivamente, siendo N = FA + FB + FC la frecuencia total o el número
total de observaciones, esto es:
VARIABLE FRECUENCIAS
A FA
B FB
C FC
TOTAL N = FA + FB + FC
Podemos comparar las FRECUENCIAS ABSOLUTAS (FA, FB, FC) contra la frecuencia total (N), obteniendo las
correspondientes FRECUENCIAS RELATIVAS (Fra, F rb), las cuales se definen como:
Fra. = FA/N
Frb = FB/N
Frc = FC/N
Ya que:
FA/N + FB/N + FC/N = FA + FB + FC/N = N/N = 1
Se puede generalizar que la suma de las frecuencias relativas es igual a uno, lo cual puede servir como un
criterio de verificación de las operaciones efectuadas. Un tanto por ciento es una frecuencia relativa,
multiplicada por 100: en este caso, los respectivos tantos por ciento son:
%A = FA / N x 100
El análisis en una distribución simple de frecuencias de una variable cualitativa consiste en incluir en dicha
tabla una columna para las frecuencias relativas y otra para los tantos por ciento. En la práctica la columna
de frecuencia relativa suele omitirse, presentando únicamente los tantos por ciento. En este caso
tendremos:
CUADRO No. 5
PRIMERAS VEINTE CAUSAS DE MORTALIDAD EN GUATEMALA.
GUATEMALA, 2009.
(En cifras absolutas y relativas)
Con fines de análisis es conveniente colocar la columna de tanto por ciento, ya que facilita la visión del tema
en estudio.
8
Presentación Tabular y Gráfica de la Variable Cualitativa.
En este tipo de cuadros las observaciones se agrupan de acuerdo a dos escalas de clasificación, se dice que
los datos están asociados.
En estos cuadros una escala va en la vertical y la otra en la horizontal. Por facilidad de comparar números
dispuestos en fila que en columna: en la vertical deberá colocarse la escala que tenga más subdivisiones o
que sea más importante que la otra.
La fila y la columna de TOTALES puede colocarse al principio o al final del cuadro indistintamente.
Los cuadros de asociación deben de cumplir con todos los requisitos de elaboración de un cuadro
estadístico. Ejemplo:
CUADRO No. 6
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
ANÁLISIS
El análisis de estos cuadros, exactamente igual que en las distribuciones simples de frecuencias cualitativas,
es mediante el cálculo de porcentajes. Toda vez que la tabla tiene una fila y una columna de totales, además
de un total general, hay tres formas diferentes como pueden calcularse los porcentajes.
Con propósitos de presentación y análisis, no es conveniente, en este tipo de tablas, exhibir los porcentajes
incorporados al cuerpo del cuadro, sino más bien presentar tablas derivadas o secundarias en las cuales se
encuentran únicamente los porcentajes, pero indicando con claridad cuál o cuáles son los totales con
respecto a los cuales se calculó, pues en caso contrario, dicho porcentaje carecería de significación como
CUADRO No. 7
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
-cifras relativas-
Porcentajes sobre el total general, n = 43,945.
De los 4,852 casos de las muertes en el departamento de Guatemala el 44.89% son mujeres (2178/4852 X
100) y el 55.11% son hombres (2674/4852). (Ver cuadro No. 8).
10
Presentación Tabular y Gráfica de la Variable Cualitativa.
CUADRO No. 8
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras r elativas
(Porcentajes con relación a los totales de la columna)
Con relación a los totales de las columnas, de los 25024 casos de mortalidad del sexo masculino 1463 Vivian
en Quiché, lo que representa un 5.85%. (Ver cuadro No. 9).
DEPARTAMENTO SEXO
FEMENINO MASCULINO
GUATEMALA 11.52 10.68
SAN MARCOS 8.41 8.66
HUEHUETENANGO 8.13 7.94
ALTA VERAPAZ 7.46 6.01
ESCUINTLA 5.42 6.74
QUICHE 6.56 5.85
QUETZALTENANGO 6.19 5.71
JUTIAPA 4.12 4.38
SUCHITEPEQUEZ 4.25 4.38
TOTONICAPAN 4.40 4.22
CHIQUIMULA 3.79 4.20
CHIMALTENANGO 3.86 3.76
SANTA ROSA 3.26 3.62
JALAPA 3.06 3.21
PETEN 2.53 3.50
IZABAL 2.79 3.17
SOLOLA 3.04 2.60
RETALHULEU 2.70 2.69
SACATEPEQUEZ 2.89 2.53
ZACAPA 2.15 2.36
BAJA VERAPAZ 2.17 2.10
EL PROGRESO 1.35 1.43
TOTAL 100 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.
12
Presentación Tabular y Gráfica de la Variable Cualitativa.
Las gráficas constituyen un instrumento estadístico de mucha importancia, ya que una gráfica bien
elaborada, en la presentación de datos ayuda a un análisis más rápido del problema; aunque se tenga el
inconveniente de que no son tan exactas, pues sólo se presentan valores aproximados. William Playfair a
quien se le atribuye la iniciación del método gráfico, escribió: “La ventaja del método propuesto no es dar
una expresión más exacta que la de las cifras, sino dar una idea más simple y permanente del proceso
gradual y de cantidades comparables en períodos diferentes presentando a la vista una figura gráfica, cuyas
proporciones corresponden al monto de las cantidades que intenta expresar”.
o Número, título y fuente, que deben de seguir los lineamientos generales para la construcción de
cuadros.
o Las magnitudes se muestran mediante la longitud de las barras que se trazan con referencia a
una escala horizontal o vertical, según el caso.
o Los valores de la escala se muestran en la parte superior y también abajo en el retículo o superficie
del trazado de la gráfica y se unen mediante líneas verticales.
o En lo que respecta a la ordenación de las barras es importante: Las barras difieren únicamente
en longitud y no en ancho.
o Se deja el mismo espacio entre barra y barra, para poder identificarlas fácilmente con el título.
o Las barras se ordenan por magnitud por facilidad de análisis, el orden puede ser creciente o
decreciente.
o Si se incluye la categoría –otros- ésta se muestra en la posición más baja. Esta posición podría no
ser la más adecuada de la ordenación por magnitud; sin embargo, es preferible dicha posición,
toda vez que la categoría –otros- generalmente incluye clases poco importantes.
o Las barras pueden hacerse verticalmente, si así se desea o bien horizontalmente dependiendo
del título, el cual debe colocarse por aparte.
o Línea cero. Una gráfica diseñada para mostrar magnitudes absolutas debe tener definida una
línea cero y una escala ininterrumpida, para facilitar el análisis de la gráfica o bien de la
comparación entre dos o más gráficas, ya que si no utilizamos la línea cero es muy difícil
establecer comparaciones.
Son excelentes para la representación gráfica de los datos presentados en un cuadro de distribuciones
simples de frecuencias; a escala cualitativa, para este tipo de representación se puede utilizar cifras
absolutas o bien cifras relativas; se presenta a continuación este tipo de gráfica, con su respectivo cuadro.
BCG 24425
PENTAVALENTE 21547
OPV (Polio) 21533
SPR 6021
DPT 3669
TOTAL 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social
Con los datos del cuadro anterior, se presenta la gráfica de barras simples.
GRAFICA No. 1
VACUNACION PRACTICADA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000
25000
20000
15000
10000
5000
0
BCG PENTAVALENTEOPV (Polio) SPR DPT
Tipo de vacuna
Se coloca una información seguida de otra; este tipo de gráfica presenta la dificultad de no ser tan clara, ya
que sólo la primera información principia en la línea cero, pero no las demás, es conveniente no utilizar más
de tres variables, ya que se presta a mucha confusión, para dar ejemplo de esta gráfica, se presenta el
siguiente cuadro.
CUADRO No. 11
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
14
Presentación Tabular y Gráfica de la Variable Cualitativa.
GRAFICA No. 2
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000
25000
20000
15000
Sexo Masculino
10000 Sexo Femenino
5000
0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna
o La claridad y simplicidad, en estas gráficas indica que no se debe mostrar mucha información en la
misma gráfica. Se puede utilizar barras dobles, triples en barras agrupadas, pero si son más barras
resulta una gráfica confusa o sin utilidad.
GRAFICA No. 3
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
16000
14000
12000
10000
8000
Sexo Femenino
6000
Sexo Masculino
4000
2000
0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna
GRAFICA No. 4
VACUNACION PRACTICADA EN NIÑOS AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
Para su construcción (manual) se hace uso de un círculo y como éste tiene 360o , al representar la
información hay que establecer la relación, se toma como ejemplo los datos del cuadro No. 10.
Los 77195 niños vacunados forman el 100%, esto equivale a representarlos en un círculo.
77195-------------100%-------------360o
Para el porcentaje:
77195 100%
(244255 X 100)/77195 = 31.64%
24425 X
Para el grado:
100 360%
(31.64 X 360)/100 = 113.904%
31.64% X
16
Presentación Tabular y Gráfica de la Variable Cualitativa.
Teniendo ya los datos se procede a graficar, con la ayuda de un transportador, para poder buscar los
grados correspondientes a cada variable involucrada.
GRAFICA No. 4
VACUNACION PRACTICADA AL TOTAL DE NIÑOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
BIBLIOGRAFIA:
TDEM/tdem
1. Presentación de datos
En la investigación, la información que se recopile en la recolección de la información, se puede presentar
de las tres formas siguientes:
a. En forma escrita (con palabras).
b. En cuadros o tablas.
c. En gráficas.
(1) YS. BUREAU OF THE GENGUS. Burcean of the Census Manual of Tabular Presentation by Brunce L. Jenkinson. Washington D.C.: U.S. Government.
Printing office, 1950.
Cada uno de los componentes de un cuadro estadístico deben de cumplir con ciertas reglas relativas,
encontrándose entre las más importantes:
Para esto es necesario llenar los cuadros de acuerdo al orden de aparición dentro del estudio, por ejemplo,
si la tabla o cuadro es la primera de un documento con tres capítulos y aparece en el primer capítulo será
el cuadro No. 1.1., el primer valor indica el número del capítulo y el segundo el número del cuadro; si luego
en el mismo estudio aparecen más tablas; por ejemplo, otra numerada 3.5 indica que es la tabla No. 5 del
capítulo número 3. Cuando aparece únicamente una tabla en el reparto o estudio puede omitirse el
número.
2
Presentación Tabular y Gráfica de la Variable Cualitativa.
En algunas ocasiones las notas de encabezado se utilizan para definir algún término del título, o para indicar
las unidades en que se está trabajando la información que aparece en el cuadro.
Estas notas deben escribirse con letra minúscula, van entre paréntesis y abajo del título. Ejemplo: Cuadro
No. 1 (Sólo se tomaron en cuenta los establecimientos que están funcionando).
FILA MATRIZ
Es la primera fila, cumple un propósito diferente a las demás filas ya que, en ella se colocan las diferentes
subdivisiones de la clasificación o encabezados de los datos expuestos en el cuerpo del cuadro. Ejemplo
Cuadro No. 1.
COLUMNA MATRIZ
Cumple el mismo propósito de la fila matriz únicamente que en ella se colocan los encabezados de los datos
de las diferentes filas. Ejemplo: Cuadro No. 1
MUNICIPIOS
CUILAPA
NUEVA SANTA ROSA
PUEBLO NUEVO VIÑAS
TAXISCO
o ALFABETICA
Facilita la localización de la información, ejemplo:
o GEOGRAFICA
Es aplicable cuando los usuarios están muy familiarizados con la clasificación. Ejemplo.
o CRONOLÓGICO
Por años que puede ser del más antiguo al más cercano o viceversa o bien por meses. Ejemplo:
AÑO MESES
1995 ENERO
2000 FEBRERO
2005 MARZO
2010
ABRIL
2015
MAYO
2020
JUNIO
o USUAL
Cuando la información se presenta según clases ya establecidas. Ejemplo:
ESTADO CIVIL
SOLTERO
CASADO
UNIDO
VIUDO
DIVORCIADO
o NUMÉRICO
Cuando tiene que enumerarse las clases. Ejemplo: Las zonas de las diferentes ciudades del Departamento
de Guatemala.
ZONIFICACION
1
2
3
4
5
4
Presentación Tabular y Gráfica de la Variable Cualitativa.
CELDAS
Es el espacio que encierra cada dato individual; proporcionando información tanto de la columna como de
la fila, son estos los que se consideran el cuerpo del cuadro, ya que aquí está considerada toda la
información numérica. Ejemplo: Cuadro No. 1.
ESTABLECIMIENTOS DE SALUD
MUNICIPIO PUESTO DE CENTRO DE HOSPITALES TOTAL
SALUD SALUD
CUILAPA CELDA CELDA CELDA CELDA
3 1 1 5
NUEVA SANTA ROSA CELDA CELDA CELDA CELDA
5 1 0 6
PUEBLO NUEVO VIÑAS CELDA CELDA CELDA0 CELDA
6 1 0 7
TAXISCO CELDA CELDA CELDA CELDA
4 1 0 5
SANTA CRUZ NARANJO CELDA CELDA CELDA CELDA
3 1 0 4
SANTA ROSA DE LIMA CELDA CELDA CELDA CELDA
1 1 0 2
BARBERENA CELDA CELDA CELDA CELDA
1 1 0 2
ORATORIO CELDA CELDA CELDA0 CELDA
3 1 4
SAN JUAN TECUACO CELDA CELDA CELDA CELDA
1 1 0 2
CHIQUIMULILLA CELDA CELDA CELDA CELDA
10 1 0 11
GUAZACAPAN CELDA CELDA CELDA CELDA
4 1 0 5
TOTAL 41 11 1 53
Si son explicaciones que se localizan en la columna matriz, o fila matriz se identifican con números 1, 2, 3…,
las referencias a cifras en particular se señalan con letras minúsculas: a, b, c, o con asteriscos (*) para evitar
que se confundan con las cifras del cuadro.
La utilización de la nota de pie tiende a desaparecer siempre que la nota de encabezado llene esta función.
Ejemplo cuadro No. 1 (los datos expuestos en el cuadro están actualizados a la fecha indicada).
También es importante el indicar por quien fue recabada la información y la técnica utilizada para la
recopilación de la misma. Si los datos fueron obtenidos de algún reporte o libro, la referencia al margen de
la información siguiendo las reglas convencionales de las citas bibliográficas. Ejemplo: Cuadro No. 1 Fuente:
(Boletín del Ministerio de Salud Pública).
o RAYADO
Se usa línea doble horizontal sólo para abrir el cuadro. Las líneas horizontales se usan únicamente para
abrir y cerrar y para subrayar totales y subtotales.
Las líneas verticales se usan únicamente para separar columnas. El cuadro se puede dejar abierto en sus
lados izquierdo y derecho.
o TIPO DE LETRA
Sólo el título se pone con letras mayúsculas, el resto de rótulos con minúsculas del mismo tipo, excepto la
palabra total que debe ir con mayúsculas. Se utiliza tipo más pequeño de minúsculas, para las notas de
encabezamiento, pie, o fuente informativa. Todos los rótulos o leyendas deben de escribirse
horizontalmente.
o CIFRAS
Las cifras escritas en el cuerpo del cuadro deben de ir separadas en sus millares y millones con una coma y
para separar decimales se utiliza punto. 2,161.05.
o SIGNOS CONVENCIONALES
Cifras es cero. (-) guión
No hay información. (.) punto
Existe información, pero no ha sido recibida o publicada. (…) tres puntos
Cifra tan pequeña que no se puede expresar en la unidad mencionada (o) cero.
Con fines de estudio, los cuadros de uso específico se clasifican: cuadros de investigación, cuadros
expositivos o presentativos y tablas de trabajo.
o CUADROS DE INVESTIGACION
Estos son de carácter interno, generalmente no son publicados, muchas veces sirven para labores previas a
la presentación.
Los cuadros de investigación utilizados son: Cuadro dicotómico simple y cuadro dicotómico de doble
entrada
Tienen como objetivo mostrar cifras estadísticas relacionadas con los temas de trabajo. Estos aparecen en
trabajos de investigación, reportes, publicaciones, estudios descriptivos, et.
Este tipo de cuadros deben cumplir obligadamente con todos los requisitos de elaboración de un cuadro
estadístico ya que establecen la base para cualquier análisis.
6
Presentación Tabular y Gráfica de la Variable Cualitativa.
Para una presentación más adecuada de los datos y sobre todo para un mejor análisis, es conveniente
estudiar ésta, desde el punto de vista de las variables evaluadas; por lo que se consideran dos situaciones.
Si la variable o variables en estudio son de naturaleza cualitativa: los datos se agrupan en una o varias
escalas cualitativas, llamadas clases o categorías. o Si la variable o las variables en estudio son de naturaleza
cuantitativa, los datos se agrupan en una o varias escalas cuantitativas llamadas clases o intervalos de clase.
CUADRO No. 4
ESTABLCECIMIENTOS DE SALUD POR MUNICIPIO DEL DEPARTAMENTO DE SANTA ROSA,
GUATEMALA. 2009.
TIPO DE ESTABLECIMIENTO No.
HOSPITALES 1
PUESTOS DE SALUD 54
CENTROS DE SALUD 14
TOTAL 69
Fuente: Boletín del Ministerio de Salud Pública .
Según los datos del cuadro No. 4, se observa que la variable tipo de establecimientos es una variable
cualitativa y el número de establecimientos es una cuantificación de la variable en estudio.
ANÁLISIS
La información de la variable cualitativa al presentarse, habitualmente se analiza mediante el cálculo de
frecuencias relativas o tantos por ciento. Para ilustrar el concepto de frecuencia relativa y tanto por ciento,
consideremos la siguiente situación.
Supóngase que una variable toma los valores A,B y C. Valores observados de la variable y que el número de
casos o frecuencias son FA, FB y FC respectivamente, siendo N = FA + FB + FC la frecuencia total o el número
total de observaciones, esto es:
VARIABLE FRECUENCIAS
A FA
B FB
C FC
TOTAL N = FA + FB + FC
Podemos comparar las FRECUENCIAS ABSOLUTAS (FA, FB, FC) contra la frecuencia total (N), obteniendo las
correspondientes FRECUENCIAS RELATIVAS (Fra, F rb), las cuales se definen como:
Fra. = FA/N
Frb = FB/N
Frc = FC/N
Ya que:
FA/N + FB/N + FC/N = FA + FB + FC/N = N/N = 1
Se puede generalizar que la suma de las frecuencias relativas es igual a uno, lo cual puede servir como un
criterio de verificación de las operaciones efectuadas. Un tanto por ciento es una frecuencia relativa,
multiplicada por 100: en este caso, los respectivos tantos por ciento son:
%A = FA / N x 100
El análisis en una distribución simple de frecuencias de una variable cualitativa consiste en incluir en dicha
tabla una columna para las frecuencias relativas y otra para los tantos por ciento. En la práctica la columna
de frecuencia relativa suele omitirse, presentando únicamente los tantos por ciento. En este caso
tendremos:
CUADRO No. 5
PRIMERAS VEINTE CAUSAS DE MORTALIDAD EN GUATEMALA.
GUATEMALA, 2009.
(En cifras absolutas y relativas)
Con fines de análisis es conveniente colocar la columna de tanto por ciento, ya que facilita la visión del tema
en estudio.
8
Presentación Tabular y Gráfica de la Variable Cualitativa.
En este tipo de cuadros las observaciones se agrupan de acuerdo a dos escalas de clasificación, se dice que
los datos están asociados.
En estos cuadros una escala va en la vertical y la otra en la horizontal. Por facilidad de comparar números
dispuestos en fila que en columna: en la vertical deberá colocarse la escala que tenga más subdivisiones o
que sea más importante que la otra.
La fila y la columna de TOTALES puede colocarse al principio o al final del cuadro indistintamente.
Los cuadros de asociación deben de cumplir con todos los requisitos de elaboración de un cuadro
estadístico. Ejemplo:
Cuadro No. 6
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
ANÁLISIS
El análisis de estos cuadros, exactamente igual que en las distribuciones simples de frecuencias cualitativas,
es mediante el cálculo de porcentajes. Toda vez que la tabla tiene una fila y una columna de totales, además
de un total general, hay tres formas diferentes como pueden calcularse los porcentajes.
Con propósitos de presentación y análisis, no es conveniente, en este tipo de tablas, exhibir los porcentajes
incorporados al cuerpo del cuadro, sino más bien presentar tablas derivadas o secundarias en las cuales se
encuentran únicamente los porcentajes, pero indicando con claridad cuál o cuáles son los totales con
respecto a los cuales se calculó, pues en caso contrario, dicho porcentaje carecería de significación como
CUADRO No. 7
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
-cifras relativas-
Porcentajes sobre el total general, n = 43,945.
De los 4,852 casos de las muertes en el departamento de Guatemala el 44.89% son mujeres (2178/4852 X
100) y el 55.11% son hombres (2674/4852). (Ver cuadro No. 8).
10
Presentación Tabular y Gráfica de la Variable Cualitativa.
CUADRO No. 8
CASOS DE MORTALIDAD POR SEXO EN LOS DEPARTAMENTO DE GUATEMALA
DURANTE EL AÑO 2009.
Cifras r elativas
(Porcentajes con relación a los totales de la columna)
Con relación a los totales de las columnas, de los 25024 casos de mortalidad del sexo masculino 1463 Vivian
en Quiché, lo que representa un 5.85%. (Ver cuadro No. 9).
DEPARTAMENTO SEXO
FEMENINO MASCULINO
GUATEMALA 11.52 10.68
SAN MARCOS 8.41 8.66
HUEHUETENANGO 8.13 7.94
ALTA VERAPAZ 7.46 6.01
ESCUINTLA 5.42 6.74
QUICHE 6.56 5.85
QUETZALTENANGO 6.19 5.71
JUTIAPA 4.12 4.38
SUCHITEPEQUEZ 4.25 4.38
TOTONICAPAN 4.40 4.22
CHIQUIMULA 3.79 4.20
CHIMALTENANGO 3.86 3.76
SANTA ROSA 3.26 3.62
JALAPA 3.06 3.21
PETEN 2.53 3.50
IZABAL 2.79 3.17
SOLOLA 3.04 2.60
RETALHULEU 2.70 2.69
SACATEPEQUEZ 2.89 2.53
ZACAPA 2.15 2.36
BAJA VERAPAZ 2.17 2.10
EL PROGRESO 1.35 1.43
TOTAL 100 100
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social.
12
Presentación Tabular y Gráfica de la Variable Cualitativa.
Las gráficas constituyen un instrumento estadístico de mucha importancia, ya que una gráfica bien
elaborada, en la presentación de datos ayuda a un análisis más rápido del problema; aunque se tenga el
inconveniente de que no son tan exactas, pues sólo se presentan valores aproximados. William Playfair a
quien se le atribuye la iniciación del método gráfico, escribió: “La ventaja del método propuesto no es dar
una expresión más exacta que la de las cifras, sino dar una idea más simple y permanente del proceso
gradual y de cantidades comparables en períodos diferentes presentando a la vista una figura gráfica, cuyas
proporciones corresponden al monto de las cantidades que intenta expresar”.
o Número, título y fuente, que deben de seguir los lineamientos generales para la construcción de
cuadros.
o Las magnitudes se muestran mediante la longitud de las barras que se trazan con referencia a
una escala horizontal o vertical, según el caso.
o Los valores de la escala se muestran en la parte superior y también abajo en el retículo o superficie
del trazado de la gráfica y se unen mediante líneas verticales.
o En lo que respecta a la ordenación de las barras es importante: Las barras difieren únicamente
en longitud y no en ancho.
o Se deja el mismo espacio entre barra y barra, para poder identificarlas fácilmente con el título.
o Las barras se ordenan por magnitud por facilidad de análisis, el orden puede ser creciente o
decreciente.
o Si se incluye la categoría –otros- ésta se muestra en la posición más baja. Esta posición podría no
ser la más adecuada de la ordenación por magnitud; sin embargo, es preferible dicha posición,
toda vez que la categoría –otros- generalmente incluye clases poco importantes.
o Las barras pueden hacerse verticalmente, si así se desea o bien horizontalmente dependiendo
del título, el cual debe colocarse por aparte.
o Línea cero. Una gráfica diseñada para mostrar magnitudes absolutas debe tener definida una
línea cero y una escala ininterrumpida, para facilitar el análisis de la gráfica o bien de la
comparación entre dos o más gráficas, ya que si no utilizamos la línea cero es muy difícil
establecer comparaciones.
Son excelentes para la representación gráfica de los datos presentados en un cuadro de distribuciones
simples de frecuencias; a escala cualitativa, para este tipo de representación se puede utilizar cifras
absolutas o bien cifras relativas; se presenta a continuación este tipo de gráfica, con su respectivo cuadro.
CUADRO No. 10
BCG 24425
PENTAVALENTE 21547
OPV (Polio) 21533
SPR 6021
DPT 3669
TOTAL 77195
Fuente: Red de Servicios de Salud del Ministerio de Salud Pública y Asistencia Social
Con los datos del cuadro anterior, se presenta la gráfica de barras simples.
GRAFICA No. 1
VACUNACION PRACTICADA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000
25000
20000
15000
10000
5000
0
BCG PENTAVALENTEOPV (Polio) SPR DPT
Tipo de vacuna
Se coloca una información seguida de otra; este tipo de gráfica presenta la dificultad de no ser tan clara, ya
que sólo la primera información principia en la línea cero, pero no las demás, es conveniente no utilizar más
de tres variables, ya que se presta a mucha confusión, para dar ejemplo de esta gráfica, se presenta el
siguiente cuadro.
CUADRO No. 11
VACUNACION PRACTICA EN NIÑOS DE AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
14
Presentación Tabular y Gráfica de la Variable Cualitativa.
GRAFICA No. 2
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
30000
25000
20000
15000
Sexo Masculino
10000 Sexo Femenino
5000
0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna
o La claridad y simplicidad, en estas gráficas indica que no se debe mostrar mucha información en la
misma gráfica. Se puede utilizar barras dobles, triples en barras agrupadas, pero si son más barras
resulta una gráfica confusa o sin utilidad.
GRAFICA No. 3
VACUNACION PRACTICADA EN NIÑOS POR SEXO EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
16000
14000
12000
10000
8000
Sexo Femenino
6000
Sexo Masculino
4000
2000
0
BCG PENTAVALENTE OPV (Polio) SPR DPT
Tipo de vacuna
GRAFICA No. 4
VACUNACION PRACTICADA EN NIÑOS AMBOS SEXOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
Para su construcción (manual) se hace uso de un círculo y como éste tiene 360o , al representar la
información hay que establecer la relación, se toma como ejemplo los datos del cuadro No. 10.
Los 77195 niños vacunados forman el 100%, esto equivale a representarlos en un círculo.
77195-------------100%-------------360o
Para el porcentaje:
77195 100%
(244255 X 100)/77195 = 31.64%
24425 X
Para el grado:
100 360%
(31.64 X 360)/100 = 113.904%
31.64% X
Vacunados BCG 24425 31.64% 113.904o
16
Presentación Tabular y Gráfica de la Variable Cualitativa.
Teniendo ya los datos se procede a graficar, con la ayuda de un transportador, para poder buscar los
grados correspondientes a cada variable involucrada.
GRAFICA No. 4
VACUNACION PRACTICADA AL TOTAL DE NIÑOS EN LA CIUDAD CAPITAL. GUATEMALA, 2009.
BIBLIOGRAFIA:
TDEM/tdem
Introducción
En la vida diaria constantemente se hace uso de operaciones matemáticas, es
necesario comparar cosas, ya que algunos enunciados que involucran números,
tienen un significado muy restringido y poco útil si no son comparados con otros, o
con otras cantidades.
A continuación se desarrollará el tema de medidas de punto o medidas puntuales,
denominadas así por algunos autores, en virtud de que constan de un solo valor que
identifica o que provee información sobre la característica de interés. Éstas medidas
de punto son: las Razones, las Proporciones, y los Porcentajes.
Medidas de punto
Las medidas de punto son procedimientos matemáticos utilizados para el análisis e
interpretación de datos provenientes de variables cualitativas, también llamadas
categóricas.
Las más utilizadas son: las proporciones, los porcentajes y las razones
1. PROPORCIONES
Una proporción es la relación o comparación entre dos grupos, en donde uno es
una parte del todo y el otro es el todo (total o universo). Está representada por
una fracción en donde, el numerador es una parte del denominador y el
denominador es el todo (total o universo).
Ejemplo:
Durante el mes de diciembre del año anterior, fueron atendidos 276 niños con
quemaduras, en la emergencia de pediatría, del Hospital Roosevelt. 165 de los niños
presentaron quemaduras grado I, 96 presentaron quemaduras grado II y los
restantes presentaron quemaduras grado III, (datos hipotéticos con fines de estudio).
Cálculo: Interpretación:
El total de atendidos fue de 276. De los niños atendidos por quemaduras
La cantidad de niños que presentó en la emergencia del Hospital Roosevelt,
quemaduras grado II es de 96.
durante el mes de diciembre del año
anterior, 0.35 presentó quemaduras
96 / 276 = 0.3478 ≈ 0.35 grado II.
Nota: Generalmente la respuesta final se trabaja
con 2 decimales.
2. PORCENTAJES
Un porcentaje es una proporción multiplicada por cien.
Generalmente es más sencillo interpretar números enteros o números mayores a
uno, que números decimales. Las proporciones ofrecen cifras decimales como
resultado; por tal razón, con los porcentajes se facilita la interpretación y
comprensión de resultados, porque en cierta manera permiten una mejor
comprensión de la magnitud en que ocurre el evento o característica de interés.
Ejemplo:
Durante el mes de diciembre del año anterior, fueron atendidos 276 niños con
quemaduras, en la emergencia de pediatría del Hospital Roosevelt. 165 de los niños
presentaron quemaduras grado I, 96 presentaron quemaduras grado II y los
restantes presentaron quemaduras grado III.
Cálculo: Interpretación:
El total de atendidos fue de 276.
De los niños atendidos por quemaduras en
La cantidad de niños que
presentó quemaduras grado II la emergencia del Hospital Roosevelt,
es de 96. durante el mes de diciembre del año
anterior, el 34.78% presentó quemaduras
grado II.
96 / 276 x 100 = 34.7826
El porcentaje de niños que presentó
Aproximando: ≈ 34.78
quemaduras grado II, de los atendidos por
o bien: ≈ 35 quemaduras en la emergencia del Hospital
Roosevelt, durante el mes de diciembre del
Nota: Generalmente la respuesta final se año anterior, fue de 34.78.
trabaja con 2 decimales.
3. RAZONES
Una razón es la relación o comparación que se hace entre dos grupos diferentes,
que pueden ser de igual o diferente naturaleza, para determinar si ellas son
iguales o si una es mayor que la otra.
Por ejemplo:
Se puede comparar un grupo de Médicos con un grupo de Agrónomos, en este
ejemplo, son dos grupos diferentes pero de igual naturaleza, ambos grupos están
conformados por personas y en este caso profesionales.
Donde:
Fórmula:
C = total del primer grupo
C.k d = total del segundo grupo
d k = es una base, una unidad seguida de ceros (10, 1000, etc.).
Esta base puede obviarse. Habitualmente se utiliza para evitar los
decimales o hacer más grandes las cantidades muy pequeñas,
propiciando de esta manera una interpretación más comprensible.
Para la interpretación de una razón por lo general, se parte del
denominador.
Si se hubiere utilizado la base (K), ésta hace referencia al
grupo mencionado en el denominador.
Ejemplo:
Cálculo: Interpretación:
Ejercicios:
Nota: Los dos últimos ejemplos ilustran los casos de aproximación del número "5":
Si el número que antecede al 5 es par, no aproxima al inmediato superior.
Si el número que antecede al 5 es impar, se aproximará al inmediato superior.2
Referencias
http://tabarefernandez.tripod.com/ficha11.pdf
https://www.youtube.com/watch?v=l6p-gnvBz-Y
1
Spieguel, Murray R. “Estadística” Editorial Mc Graw Hill. pp 2
2
Spiegel R, Murray "ESTADISTICA" Serie Schawn, publicaciones en español. Editorial Mc graw Hill.
INTRODUCCION
La estadística es una herramienta indispensable para la investigación; sin embargo, según
mencionan algunos autores, se debe tener cuidado con su uso para no caer en el “abuso” de la
información, en el transcurso de su análisis e interpretación.
“Según acaba de publicar una reciente estadística, más del 80% de los hombres obesos
del mundo están gordos”.1
“Según las últimas estadísticas, de cada tres niños que nacen en el mundo dos son
chinos. Menos en China que son los tres”.1
1
“Según recientes estadísticas, el 99% de los hombres le da una mala reputación al resto..”
PRESENTACIÓN TABULAR
DE VARIABLE CUANTITATIVA
Luego de la recopilación de información (datos), es muy importante el ordenamiento y
presentación de la misma.
Para presentar la información en forma tabular (cuadros), en nuestra UD se trabajarán dos formas:
Al presentar la información en una serie simple, los datos no pierden su individualidad, es decir, se
cuenta con la información directa (tal como se obtuvo), para la realización de cálculos y análisis.
Es aconsejable utilizar esta presentación cuando se tiene menos de 30 datos.
__________________________
1
http://www.makmakmak.co m/6-CURiOSiDADES/ LiNK.php?Id=126
CUADRO No. 1
NOTAS DEL PRIMER PARCIAL DE BIOESTADISTICA,
DE UN GRUPO DE ESTUDIANTES DE PRIMER AÑO
DE LA FACULTAD DE CIENCIAS MÉDICAS DE LA USAC.
GUATEMALA, MARZO DE 2022
Notas (punteos)
1.6 4.8 6.4 7.6
1.6 4.8 6.8 7.6
2.8 5.6 6.8 8
2.8 5.6 7.2 8.4
3.2 5.6 7.2 8.4
4.4 6.4 7.6 8.8
La ponderación del 1er. parcial fue de 10 puntos.
Fuente: notas proporcionadas por la unidad de evaluación.
Este tipo de presentación es aconsejable utilizarla cuando se cuenta con 30 datos o más.
La presentación consiste en agrupar los datos en clases o intervalos; acompañados de sus
respectivas frecuencias.
Para elaborar una Distribución en Intervalos de Clase es necesario establecer el número de clases
o intervalos a utilizar así como la amplitud que tendrán dichos intervalos. El procedimiento incluye
varios cálculos, que se detallan a continuación:
Límites de clase:
Luego de haber calculado el número de clases y la amplitud de las mismas, se procede a la
elaboración de los intervalos (o clases).
Antes de continuar con el procedimiento, es necesario aclarar que al valor menor de cada clase o
intervalo se le denomina límite inferior y al mayor, límite superior.
Para construir los intervalos se recomienda iniciar con el valor más bajo (o el menor) de los datos
observados, como el límite inferior para el primer intervalo. Para continuar simplemente se va
sumando la amplitud de intervalo calculada ( i ) para ir formando los límites inferiores de las clases
o intervalos siguientes. Para calcular los límites superiores de cada clase, solamente se resta uno
al límite inferior de la clase siguiente.
Ejemplo:
Información necesaria Límites de cada intervalo o clase
Límites absolutos:
Cuando los intervalos son elaborados en forma discreta, los límites permiten espacio entre una
clase y otra, con ello se evidencia la discreción de la variable y los límites son denominados
absolutos.
Ejemplo:
Edad (años) No. de Pacientes.
15–19 18 Nota: La variable edad es de naturaleza
continua pero para el ejemplo y por lo
20–24 20 general se trabaja en forma discreta.
25–29 9
30–34 8
Si estos límites son colocados sobre una recta numérica podríamos observar lo siguiente:
15 19 20 24 25 29 30 34
19 + 20
Edad (años) No. de Pacientes. 𝐿𝑅 = = 𝟏𝟗. 𝟓
2
15–19 18
20–24 20 24 + 25
25–29 9 𝐿𝑅 = = 𝟐𝟒. 𝟓
2
30–34 8
29 + 30
𝐿𝑅 = = 𝟐𝟗. 𝟓
2
Al colocar los valores de los límites de las clases sobre una recta numérica, se puede
observar:
Límites absolutos
15 19 20 24 25 29 30 34
Límites aparentes:
Se dice que los límites de una clase son aparentes cuando éstos no permiten espacio entre un
límite y otro; los intervalos han sido elaborados en forma continua. Ejemplo:
Estatura (cms) No. de Pacientes.
150 – 155 15
155 – 160 13
160 – 165 6
165 – 170 7
Al colocar los valores de los límites de las clases sobre una recta numérica, se puede
evidenciar la continuidad de la variable:
Cuando se elaboran los intervalos en forma continua y se procede a la tabulación de los datos,
surge la duda de que, por ejemplo, si se tiene una estatura de 155 cm, ¿en dónde se colocará, si
en la 1ª. o en la 2ª. Clase? En virtud de que los límites son aparentes, el valor 155 aparentemente
es límite superior de la 1ª. Clase, sin embargo, la primera clase contendrá datos desde 150 hasta
154.9999…; por lo que el valor de 155 cm deberá ser tabulado en el 2º. Intervalo.
Ejemplo:
Los intervalos de amplitud variable se utilizan cuando los valores de la distribución que se está
estudiando se encuentran muy dispersos, por lo que al agruparlos con intervalos constantes, existe
la probabilidad de que algunos de ellos queden con frecuencia de cero. Si no es importante
evidenciar la ausencia de valores se puede optar por utilizar intervalos de diferente amplitud.
Ejemplo:
La misma información se puede presentar en distinta forma sin cambiar el sentido y desde luego,
a criterio del investigador.
56 61 55 62 55 64 73 68 71 72 79 81
60 57 61 67 67 68 66 65 60 65 55 66
65 72 65 68 62 75 75 72 73 73 68 73
66 61 69 72 68 81 69 74 74 68 65 67
69 64 66 65 58 65 65 67 56 67 63 63
OBSERVACIÓN:
El número de clases se aproxima al entero superior, aunque no aplique la regla de
aproximación, porque, como se puede observar en el ejemplo, no es posible colocar 6
intervalos completos y 0.9 del siguiente intervalo.
Para la amplitud de las clases o intervalos, es necesario aplicar las reglas de aproximación. Recordar
que, si el número que antecede al 5 es par, no se aproxima al inmediato superior; pero si es
impar si se aproxima.
Para unificar criterios, al calcular la amplitud o recorrido de la variable se debe utilizar la mayor
cantidad de decimales que presenten los datos recopilados, cuando la variable sea continua.
NOTA
Sin embargo, la aproximación de la amplitud de la clase queda a criterio del investigador, ya que
es quien decide si desea evidenciar la naturaleza de la variable (de ser continua), trabajando con
decimales o bien puede eliminarlos, para evitar la complejidad que los decimales pudieran causar.
Tabulación de la información:
Una vez que se ha calculado la cantidad de intervalos necesarios y la amplitud que estos deben
tener, se procede a la tabulación de los datos.
La tabulación de los datos se debe realizar en un cuadro denominado tabla de trabajo, en la cual
se pueden colocar, las frecuencias absolutas, acumuladas, relativas, marcas de clase, etc.
Toda la información contenida en ésta tabla no debe incluirse en el cuadro de presentación, ésta
información puede ser necesaria para realizar cálculos como medidas descriptivas, que se verán
más adelante o para la elaboración de gráficas.
Frecuencia Absoluta:
Es el número de veces que aparece un determinado valor. Se simboliza con una f o fi. La suma de
las frecuencias absolutas da como resultado el total de datos que corresponde al tamaño de la
muestra (n) o de la población (N) que se estudia.
Frecuencia relativa:
Es el cociente entre una frecuencia absoluta y el número total de los datos. Se simboliza con una
fr. Una frecuencia relativa es una proporción, porque expresa la relación que hay entre una parte y
el todo. La frecuencia relativa también puede multiplicarse por 100 para expresarla en porcentaje.
Frecuencia acumulada:
Es la suma acumulativa de las frecuencias absolutas. Se simboliza con una fa.
Marca de clase:
Se conoce también como punto medio, es
el valor que representa a cada clase o Mc = marca de clase
intervalo y se localiza justo al centro del 𝐿𝐼(𝑖) + 𝐿𝑆(𝑖)
intervalo, de allí su nombre. 𝑀𝑐 = LI (i) = límite inferior de la clase (i)
2
Su cálculo es muy sencillo ya que es igual
LS (i) = límite superior de la clase (i)
a la suma de los límites ya sean reales o
absolutos de cada clase, dividido dentro
de 2. Sus símbolos: Mc, Xi, Pm.
TABLA DE TRABAJO
El cuadro No. 2 es el cuadro de presentación para los datos de glucosa de los 60 niños. Al cuadro
de presentación se le puede agregar una tercera columna que puede contener las frecuencias
relativas o los porcentajes, según sean los objetivos del investigador.
El Cuadro No. 3 es otro cuadro de presentación para la misma información pero incluye una
columna con los porcentajes.
CUADRO No. 2
NIVEL DE GLUCOSA DE 60 NIÑOS
DE LA CLÍNICA FAMILIAR “SANTA MARTA”, DE LA USAC.
GUATEMALA FEBRERO, 2022
Nivel de Glucosa No. Niños
55 – 58 7
59 – 62 7
63 – 66 16
67 – 70 14
71 – 74 11
75 – 78 2
79 – 82 3
TOTAL 60
Fuente: Datos hipotéticos con fines didácticos.
CUADRO No. 3
NIVEL DE GLUCOSA DE 60 NIÑOS
DE LA CLÍNICA FAMILIAR “SANTA MARTA”, DE LA USAC.
GUATEMALA FEBRERO, 2022
Nivel de Glucosa No. Niños Porcentaje
55 – 58 7 11.67
59 – 62 7 11.67
63 – 66 16 26.67
67 – 70 14 23.33
71 – 74 11 18.33
75 – 78 2 3.33
79 – 82 3 5
TOTAL 60 100%
Fuente: Datos hipotéticos con fines didácticos.
Referencias
Spieguel R, Murray "ESTADISTICA" Serie Schawn, publicaciones en español. Editorial Mc
graw Hill.
En el siguiente enlace encuentras un tutorial que puede ser de utilidad para la elaboración
de tablas utilizando Excel:
https://www.youtube.com/watch?v=lvChXgnkV60
INTRODUCCION
“Según acaba de publicar una reciente estadística, más del 80% de los hombres obesos
del mundo están gordos”.1
“Según las últimas estadísticas, de cada tres niños que nacen en el mundo dos son
chinos. Menos en China que son los tres”.1
1
“Según recientes estadísticas, el 99% de los hombres le da una mala reputación al resto..”
PRESENTACIÓN GRÁFICA
DE VARIABLE CUANTITATIVA
Los cuadros o tablas proporcionan información importante; pero un análisis visual ayuda a
comprender más fácilmente la información que se desea transmitir.
Los tipos de gráfica más comunes para representar datos de variables cuantitativas son:
1. Histograma.
2. Polígono de frecuencias.
3. Ojiva o polígono de frecuencias acumuladas
1. Histograma
Es una gráfica que consiste en una serie de rectángulos unidos, que tienen su base sobre un eje
horizontal (eje X), cuyo ancho está determinado por la amplitud del intervalo, que representa los
datos de la variable en estudio y su altura (eje Y) dependerá de las frecuencias que pueden ser las
absolutas, las relativas, o los porcentajes.
__________________________
1
http://www.makmakmak.co m/6-CURiOSiDADES/ LiNK.php?Id=126
Para construir un histograma es necesario utilizar los límites reales en el eje X, porque al dibujar
los rectángulos, estos deben estar unidos uno junto al otro.
Si los datos de la variable que se va a graficar no inician en cero, se debe indicar dibujando una
línea de corte sobre el eje X, para evitar la pérdida del espacio al no encontrar información en esa
parte de la recta numérica. En el eje Y, no se recomienda hacer lo mismo, porque distorsiona la
magnitud de los rectángulos en la gráfica.
Como toda gráfica, para su presentación, debe cumplir con número, título y fuente. También debe
identificarse cada eje, indicando en el eje “X” la variable en estudio y los datos de la misma, que
para este tipo de gráfica corresponde a los límites reales ; y en el eje “Y” el número de sujetos de
estudio (# de pacientes, # de estudiantes, etc).
CUADRO No. 4
EDAD DE PACIENTES ATENDIDOS EN
LA CLÍNICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023
Se tomarán los datos del cuadro No. 4 para elaborar un histograma, como ejemplo.
X f LR
Edad (años) (No. de pacientes) Limites reales
10–19 10 9.5 – 19.5
20–29 18 19.5 – 29.5
30–39 10 29.5 – 39.5
40–49 13 39.5 – 49.5
50–59 4 49.5 – 59.5
60–69 5 59.5 – 69.5
70–79 2 69.5 – 79.5
TOTAL 62
En el Eje “X” o eje de las abscisas, se deberán colocar los datos de la variable, representados
por los límites reales, como se mencionara en párrafos anteriores.
En el Eje “Y” o eje de las ordenadas, se colocarán las frecuencias absolutas, las relativas o los
porcentajes. Para establecer la escala se debe tomar en cuenta el valor más alto registrado en
las frecuencias (absolutas, relativas o en los porcentajes). Por cuestiones de atracción visual, los
rectángulos del histograma se pueden pintar, pero todos deberán ser un mismo color, teniendo el
cuidado de marcar con claridad cada rectángulo.
GRÁFICA No. 1
EDAD DE PACIENTES ATENDIDOS EN
LA CLÍNICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023
2. Polígono de frecuencias
Es una gráfica de línea. Para su construcción sobre el eje " X " o eje de las abscisas se utilizan las
marcas de clase, que corresponden a los datos de la variable en estudio y en el eje "Y " o eje de
las ordenadas, se colocan las frecuencias (absolutas, relativas o porcentajes).
Para elaborar el trazo en forma manual sobre un plano de coordenadas, se localiza para cada
marca de clase su respectiva frecuencia, señalándolo con un punto, seguidamente se procede a
unir los puntos con segmentos de línea recta continua. Para cerrar el polígono se calculan las
marcas de clase anterior y posterior de la distribución y se cierra con línea punteada.
Como toda grafica debe cumplir con los requisitos de número, titulo y fuente
GRÁFICA NO. 2
EDAD DE PACIENTES ATENDIDOS EN
LA CLINICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023
20
18
16
14
No. de pacientes
12
10
8
6
4
2
0
4.5 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5
Edad en años
3. Ojiva de Gálton:
Se le llama también polígono de frecuencias acumuladas y es una gráfica de línea que muestra las
frecuencias acumuladas y es útil para analizar en un punto determinado cuantos elementos están
arriba o debajo de un valor determinado.
Para su construcción se usan los limites reales como datos de la variable sobre el eje “X” y las
frecuencias acumuladas, que pueden ser las absolutas, las relativas o los porcentajes, en el eje
“Y”. Como toda grafica debe cumplir con los requisitos de número, titulo y fuente.
GRÁFICA No. 3
EDAD DE PACIENTES ATENDIDOS EN
LA CLINICA MÉDICA IXIMCHÉ. GUATEMALA, ENERO 2023
No. de
pacientes
Edad en años
Fuente: Datos del cuadro No. 4.
NOTA
Las gráficas descritas anteriormente pueden ser elaboradas rápidamente en el programa Excel, sin
embargo, es indispensable tener claro los siguientes aspectos:
1. El tipo de variable que se está manejando.
2. Los tipos de gráficas que se recomienda para los datos que se tienen.
3. Saber utilizar el programa Excel para elaborar las gráficas de forma adecuada.
El programa Excel ofrece una variedad de gráficas, es el usuario quien debe tomar la decisión de la que
utilizará, dicha decisión depende del tipo de datos con los que cuenta, así como lo que se quiere presentar.
Es importante recordar que un programa hará lo que se le solicite, por lo tanto, se debe saber ¿qué
información colocar? y ¿en qué forma hacerlo?, porque de lo contrario “hará lo que pueda”, aunque no sea
lo adecuado.
Las medidas de tendencia central son medidas descriptivas. Son valores numéricos que
tienden a localizar, en algún sentido, la parte central de un conjunto de datos, algo así
como la zona en donde los mismos tienden a concentrarse. Una medida de tendencia
central es un solo valor representativo de todo el conjunto de datos, que pueden provenir
de una muestra o una población.
Moda
Su símbolo es: Mo, que se utiliza indistintamente para un parámetro o un estadístico.
Propiedades:
Ejemplo:
Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24
pacientes jóvenes con la enfermedad de
Duchenne*
*Datos tomados de: “Estadística para Biología y Ciencias de la Salud”. J.Susan Milton, 3ª. Ed.
Editorial McGraw. Pp 31.
** Datos tomados de: “Bioestadística” Wayne W, Daniel 3ª. Ed. Editorial Limusa. Pp. 142. Con
objeto de estudio se asumirá que estos datos corresponden a una población.
Mediana
Su símbolo es: Me o Md, cualquiera de los dos puede utilizarse, y es indistinto para
parámetro o estadístico.
La mediana es el valor que divide al conjunto de datos en dos partes iguales, de tal forma
que el número de valores mayor o igual a la mediana es igual al número de valores
menores o iguales a ella.
Propiedades:
Es simple de cálculo y sencilla de interpretación. En una distribución en intervalos
su cálculo es más laborioso. En su momento se desarrollara la formula.
Es única, solamente existe una mediana para cada distribución.
2
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020
Ejemplo:
Como la mediana también es una medida de posición, el primer paso es calcular
precisamente esa posición; lo que se hace de la siguiente forma:
Me (posición) = (n+1)/2 (en la formula N=si es población o n= si es muestra)
Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.
Media Aritmética
_
Su símbolo es: μ cuando se trate de un parámetro y x cuando sea un estadístico.
Por lo general, al hablar de un promedio sin especificar el tipo, lo más seguro es que se
está haciendo referencia a la media aritmética. La media es la medida de tendencia
central más conocida, y a la que con más frecuencia se reconoce con el nombre de
promedio, principalmente para su interpretación.
Propiedades:
1
Jack Levin “Fundamentos de Estadística en la Investigación Social” 2ª. Edición, Editorial Harla, México.
pp. 45.
3
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020
Ejemplo:
Para calcular la media aritmética se utilizaran las siguientes formulas:
Media = =
n
El numerador es la sumatoria de cada dato de la variable (x) y el denominador es el total de datos (N
o n).
Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.
_
X = 76911/24 = 3204.625
4
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2020
Luego de calcular las medidas de tendencia central, surge la pregunta ¿Cuál será la más
apropiada a utilizar para describir la distribución?
EL TIPO DE VARIABLE
La moda por ejemplo, puede utilizarse para cualquier tipo de variable, porque requiere
solamente de un conteo, solamente se trata de localizar el dato que más se repite o el
dato con mayor frecuencia.
La mediana es para variables cuantitativas o numéricas al igual que la media aritmética.
Es importante recordar que la media aritmética es influenciada por valores extremos, por
lo que, si la distribución cuenta con este tipo de valores, ésta medida no será la mejor
opción.
FORMA DE LA DISTRTIBUCIÓN
2
Jack Levin “Fundamentos de Estadística en la Investigación Social” 2ª. Edición, Editorial Harla, México.
pp. 45
5
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
EL OBJETIVO DE LA INVESTIGACIÓN
Para una medida precisa de las distribuciones simétricas, se tiende a preferir la media
aritmética, ya que, puede utilizarse en el análisis estadístico más avanzado. Otra
característica importante de la media es que, es más estable que la mediana, esto
significa que, al tomar varias muestras de una misma población, y calcularles la media y
la mediana a cada una, el valor de la mediana tenderá a variar más de una muestra a
otra, que el valor de la media aritmética.
MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central permiten resumir una serie de datos a un solo valor.
Sin embargo cuando se utiliza una de ellas, puede proporcionar un cuadro incompleto del
conjunto de datos, por lo que podría conducir tanto a conclusiones erróneas o
distorsionadas, como a una posible aclaración.
Por ejemplo, podría decirse que se están realizando un estudio con dos medicamentos
para el tratamiento de cefalea4; se ha encontrado que el medicamento “xx” ha mostrado
una media de duración del efecto, de 6 horas y el medicamento “YY” ha mostrado
también una media de 6 horas. ¿Podría concluirse entonces que los dos medicamentos
presentan la misma duración del efecto? ¿Podría entonces un médico, recetar cualquiera
de los dos medicamentos?, etc.
Se considera que simplemente con la media no es posible llegar a esas conclusiones,
porque, que tal si los datos recopilados para el medicamento “XX” son más variados que
los datos recolectados con el medicamento “YY”. Se necesita entonces, además de una
medida de tendencia central, una medida que indique ¿Cómo están diseminados los
datos?, se necesita una medida de dispersión.
3
“Métodos Estadísticos Aplicados”. Norville M. Downie. 5a. Edición. Editorial Harla. México.
4
Cefalea: se nombra así al dolor de cabeza.
6
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
Las medidas de dispersión5 son las que miden la variedad que muestran los datos de una
distribución. Una medida de dispersión conlleva información respecto a la cantidad total
de variabilidad presente en un conjunto de datos. Si en una distribución se encuentra
que todos los datos son iguales, esto indica que no hay dispersión; pero si no son
iguales, entonces existe dispersión. Si los datos de una distribución son cercanos entre
sí, la magnitud de la dispersión será pequeña; por el contrario, si los datos están
ampliamente esparcidos, la dispersión será mayor.
Su fórmula es: R = XL – XS
Ejemplo:
Arreglo ordenado o
Serie Simple
Niveles séricos de creatinina cinasa (en
unidades por litro) medidos en 24 pacientes
jóvenes con la enfermedad de Duchenne.
En los datos ordenados, el cálculo es fácil.
5
Sinónimos de dispersión: variación, expansión, esparcimiento, fluctuación.
7
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
Se utiliza sólo cuando hay urgencia, para dar una idea de la dispersión, pero no
como una medida definitiva de dispersión. Es útil también para detectar si se ha
cometido algún error en el cálculo de la desviación estándar, ya que ésta última, es
“aproximadamente” la sexta parte del rango (ésta regla empírica es aplicable cuando el
número de datos es grande).
Varianza o Variancia
Su símbolo es: σ2 cuando se trate de un parámetro y s2 cuando sea un estadístico.
Para su cálculo:
Se mide la distancia existente entre cada uno de los datos y la media aritmética
de la distribución.
Cada una de las distancias se eleva al cuadrado; luego se suman todas las
distancias.
El producto de la sumatoria se divide entre N (para datos de una población) o
entre n-1 (para datos de una muestra).
El resultado presenta entonces, es una media de las distancias6.
Debido a que las distancias se elevan al cuadrado, para evitar una sumatoria de
“cero”, el resultado que la varianza ofrece es en unidades al cuadrado, lo que la
hace una medida de dispersión inadecuada si se pretende expresar el resultado
en unidades originales, en otras palabras, esta situación impide su interpretación.
Ejemplo:
Varianza = S2 = Ʃ
El numerador es la sumatoria de cada dato de la variable (x) menos la media
aritmética, elevado al cuadrado y el denominador es el total de datos menos 1 si los datos
provienen de una muestra
8
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
6
“Fundamentos de Estadística en la Investigación Social”. Jack Levin. 2ª. Edición. Editorial Harla. México.
pp. 59.
9
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
7
“Métodos Estadísticos Aplicados” Norville M. Downie. 5ª. Edición. Editorial Harla. México. pp.58.
10
Dra. Olivia de Higueros
Medidas de Tendencia Central y de Dispersión Ciclo 2019
Coeficiente de Variación
Su símbolo es: C.V. indistintamente para parámetro o estadístico.
11
Dra. Olivia de Higueros
MEDIDAS DESCRIPTIVAS
DATOS AGRUPADOS
BIOESTADISTICA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
MEDIA MEDIANA MODA
Una media aritmética resulta al Es una medida de tendencia Es el valor con mayor frecuencia
efectuar una serie determinada central y de posición que parte en las distribuciones de datos.
de operaciones con un conjunto a la distribución en dos partes
de números y que, en iguales. Como medida de
determinadas condiciones posición esta representado por
puede representar por si solo a el cuartil dos, decil cinco y
todo el conjunto. percentil cincuenta.
CARACTERISTICAS PRINCIPALES CARACTERISTICA PRINCIPALES CARACTERISTICAS PRINCIPALES
1. Es única 1. Es única 1. Puede existir mas de una
2. Se toman en cuenta todos los datos 2. En cálculo no se incluyen todos los 2. No es afectada por valores extremos
de la variable valores de la variable 3. El tamaño y variabilidad del
3. Su valor se ve afectado por valores 3. Su valor no se ve afectado por intervalo puede afectar su valor.
extremos valores extremos
Estadístico
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER” CÁLCULO DE LA MEDIA EN
GUATEMALA, FEBRERO DE 2021 DATOS AGRUPADOS
Niveles de f Mc fMc FORMULA A EMPLEAR:
glucosa
(mg/dl)
80 -- 100 5 90 450
101 –115 20 108 2160
Mc = marca de clase
116 -- 135 35 125.5 4392.5
136 -- 150 45 143 6435 µ = 37375/ 230
151 -- 172 15 161.5 2422.5
µ = 162.5 mg / dl
173 -- 190 60 181.5 10890
191 – 210 30 200.5 6015
Interpretación: El promedio
211 -- 250 20 230.5 4610
de los niveles de glucosa
N = 230 ∑ 37375 sérica del grupo de pacientes
FUENTE: Datos Hipotéticos es de 162.5 mg/dl
MEDIANA EN DATOS AGRUPADOS
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES Fórmula
DIABÉTICOS, HOSPITAL “RENACER” a emplear
GUATEMALA, FEBRERO DE 2021
Paso 1: Encontrar en que intervalo se
Niveles f Mc f(X) fa
encuentra la mediana: N/2 = 230/2 = 115
de glucosa (X)
Buscar en frecuencia acumulada (fa) de
(mg/dl)
arriba hacia abajo el intervalo que contiene
80 -- 100 5 90 450 5 a 115, el quinto Intervalo contiene a 115.
101 –115 20 108 2160 25 (línea verde). Cálculo de i = 173-151 = 22
116 -- 135 35 125.5 4392.5 60 Paso 2: Utilizar la fórmula:
136 -- 150 45 143 6435 105
= 165.17
151 -- 172 15 161.5 2422.5 120
173 -- 190 60 181.5 10890 180
191 – 210 30 200.5 6015 210 Me = 165.17 mg/dl
211 -- 250 20 230.5 4610 230 INTERPRETACION: El valor que divide a la
N = 230 ∑ 37375 distribución en dos partes iguales es 165.17
FUENTE: Datos Hipotéticos
mg/dl
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2021 CÁLCULO DE LA MODA EN DATOS AGRUPADOS
Fórmula a emplear:
Niveles f Mc f(X) fa
de glucosa (X) PASO 1.
(mg/dl) En que intervalo se encuentra la moda??
80 -- 100 5 90 450 5 Observe el intervalo donde se encuentra la mayor
101 –115 20 108 2160 25 Frecuencia absoluta y allí se encuentra la moda.
En este caso es el intervalo 6 (fila color verde)
116 -- 135 35 125.5 4392.5 60
136 -- 150 45 143 6435 105 PASO 2.
Utilice la formula: Mo = 172.5 + ( 45 / (45 + 30)) (18)
151 -- 172 15 161.5 2422.5 120
Δ1 = 60 – 15 = 45
173 -- 190 60 181.5 10890 180 Δ2 = 60 - 30 = 30
191 – 210 30 200.5 6015 210 i = 191 – 173 = 18
211 -- 250 20 230.5 4610 230 MODA = 183.3 mg/dl
Interpretación: El valor mas frecuente es 183.3 mg/dl
N = 230 ∑ 37375
FUENTE: Datos Hipotéticos
PARTE PRACTICA DEL ESTUDIANTE
MEDIDAS DE TENDENCIA CENTRAL
Realizar los siguientes cálculos
en relación al cuadro No. 2.
1. Calcule la media
2. Calcule la mediana
3. Calcule la moda
4. Explique si es simétrica
la distribución.
RESPUESTAS AL EJERCICIO ANTERIOR
Clase de la Mediana
1. MEDIA 2.MEDIANA
= 699.7 / 64 = 10.93 mg/dl = 10.4 mg/dl
3. MODA
= 13.88 mg/dl 4. NO ES SIMETRICA LA DISTRIBUCION
MEDIDAS DE POSICION
DATOS AGRUPADOS
CUARTILES DECILES PERCENTILES
Son valores que dividen una Son valores que dividen a una Son valores que dividen a una
distribución estadística en distribución estadística en 10 distribución estadística en 100
cuatro partes iguales. partes iguales. Corresponde partes iguales. Corresponde a
Correspondiendo cada una de cada parte de la distribución un cada parte el 1% de la
ellas al 25% de la distribución. 10%. Solamente existen 9 distribución. Solamente existen
Solamente existen 3 cuartiles, deciles, el D1, D2, D3,…..D9. 99 percentiles, el P1, P2,..P99.
el Q1, Q2 y Q3.
División en cuartiles División en Deciles División en percentiles
=13.97 mg/dl
MEDIDAS DE DISPERSION
DATOS AGRUPADOS
VARIANZA DESVIACION ESTANDAR COEFICIENTE DE VARIACION
Representa la variabilidad La desviación estándar indica la Es la relación entre la desviación
medida en unidades al cuadrado variabilidad en unidades típica y su media. El coeficiente
de una serie de datos respecto a absolutas de los datos respecto a de variación permite comparar
su media. La desviación estándar su media. Mientras mayor es la las dispersiones de dos
al cuadrado equivale a la desviación estándar mayor es la distribuciones distintas y
varianza. dispersión de la población. determinar cual tiene mayor
dispersión. A mayor valor
porcentual del coeficiente de
variación mayor dispersión.
FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS FORMULAS DATOS AGRUPADOS
parámetro parámetro
parámetro
CÁLCULO DE LA VARIANZA EN DATOS AGRUPADOS
CUADRO No1 SEGUIR LOS PASOS SIGUIENTES:
PASO 1
NIVELES DE GLUCOSA SERICA DE LOS PACIENTES
A cada marca de clase se le resta la
DIABÉTICOS, HOSPITAL “RENACER” media, nuestra media es µ = 162.5
GUATEMALA, FEBRERO DE 2021 (vea columna verde, Mc - µ )
σ = 36.61 mg/dl
INTERPRETACION: La variabilidad en
unidades absolutas corresponde a 36.61
mg/dl
CÁLCULO DEL COEFICIENTE DE VARIACION
CUADRO No1
NIVELES DE GLUCOSA SÉRICA DE LOS PACIENTES
DIABÉTICOS, HOSPITAL “RENACER”
GUATEMALA, FEBRERO DE 2021 PASO UNICO
Valor de la media = 161.2 mg/dl
Valor de la σ = 34.36 mg/dl
CV = (σ/µ) X 100
CV = (36.61/162.5) X 100
CV = 22.53%
Note que el coeficiente de variación del hospital la Esperanza es menor que el coeficiente de
variación del hospital “Renacer”, por lo tanto es mas homogénea la distribución de datos del
hospital la Esperanza.
Conclusión:
Es mas homogéneo el grupo de datos del hospital “La Esperanza”. Esto quiere decir que existe
menos dispersión en la distribución de datos del hospital “La Esperanza” con respecto a la
distribución del hospital “Renacer”.
Ejemplo adicional del coeficiente de variación.
El cóndor de los Andes tiene una extensión media (alas extendidas) de 285 Cms. con una
desviación estándar de 30 Cms., mientras que una especie de murciélago tiene una
extensión media (alas extendidas) de 10 Cms. y su población presenta una desviación
estándar de 3 Cms.
¿Cuál de las dos poblaciones presenta una mayor dispersión en lo que se refiere a la
extensión de sus alas?
Primera impresión Pareciera que hay mayor dispersión en el cóndor
por el valor mayor de su desviación estándar.
MURCIELAGO CONDOR
CV = (3/10) X 100 CV = (30/285) X100
CV = 30% CV = 10.53%
1. Muestra probabilística: Es una muestra extraída de una población, de tal forma que cada
elemento tuvo una probabilidad conocida de estar incluido en esa muestra.
2. Muestra aleatoria simple: Se considera muestra aleatoria simple si una muestra de tamaño n,
extraída de una población de tamaño N, tiene la misma probabilidad de ser seleccionada y sus
elementos son elegidos al azar.
3. Marco muestral: Consiste en descripciones disponibles con anterioridad del material en forma
de mapas, listas, directorios, etc., a partir de los cuales las unidades de la muestra se pueden
construir y se puede seleccionar un conjunto de elementos o sujetos (1). Es la población de donde
se tomarán los datos de la muestra según el tipo de muestreo a realizar.
Antes de hablar del muestreo probabilístico, vemos la situación de muestrear con reemplazo y sin
reemplazo:
● Muestreo con reemplazo: Cuando se utiliza una muestra con reemplazo cada elemento de la
población está disponible para cada extracción. Ejemplo: De los expedientes clínicos de pacientes
que asisten a la clínica de salud integral del Centro Universitario Metropolitano (CUM), se elige
un expediente al azar para conocer sus características sociodemográficas, se toman sus datos y
luego es devuelto al archivo, para cuando se elija otro expediente éste pueda ser tomado en
cuenta nuevamente. Es decir, un mismo elemento puede aparecer varias veces en la muestra.
1
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
La fórmula para calcular la cantidad de muestras posibles de extraer en el Muestreo con reemplazo
es: 𝑁 !
Ejemplo: Al tener una población N=28 y se toman muestras n=4. ¿Cuántas muestras es posible
extraer si se realiza un muestreo con reemplazo?
28" = 614,656 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
● Muestreo sin reemplazo: En este muestreo siguiendo con el ejemplo, el expediente extraído no
es devuelto al archivo después de tomar los datos, sino que se separa hasta extraer toda la
muestra. Con este procedimiento un elemento debe aparecer sólo una vez. En la práctica,
generalmente el muestreo se hace sin reemplazo.
La fórmula para la calcular la cantidad de muestras posibles de extraer en Muestreo sin reemplazo
es: 𝑁 𝐶 𝑛
Ejemplo cuando se desglosa la fórmula: Al tener una población N=5 y se toman muestras n=2.
¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo?
5 𝐶 2 = !!(#&!)! =
#! (! (∗"∗-∗)∗+
()∗+)∗ (-∗)∗+)
= = 10 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
)!-!
Ejemplo cuando se utiliza la calculadora: Al tener una población N=5 y se toman muestras n=2.
¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo?
5 𝐶 2 = 10 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
2
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
4.2.1 Muestreo aleatorio simple: Es el sistema de extracción al azar de los elementos de una
muestra aleatoria simple. Se caracteriza porque otorga la misma probabilidad de ser elegidos
a todos los elementos de la población y garantiza que todos los individuos tienen la misma
oportunidad de ser incluidos en la muestra (3). Los elementos se pueden extraer con
reemplazo y sin reemplazo.
El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente
video para visualizar el paso a paso: https://youtu.be/Movj5ujvSWM
Se requiere lo siguiente:
1) Calcular la cantidad de muestras que pueden ser extraídas con reemplazo.
2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la
muestra extraída.
3) El cálculo de los estadísticos (media y desviación estándar).
Solución:
1) 15( = 759,375 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por
la aleatorización):
Número del Número Valores de
paciente en la aleatorio glucosa en
muestra ayunas
1 12 105 Observa que los elementos
pueden aparecer más de una vez.
2 12 105
3 13 88
4 08 105
5 08 105
3
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
Se requiere lo siguiente:
1) Calcular la cantidad de muestras que pueden ser extraídas sin reemplazo.
2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la
muestra extraída.
3) El cálculo de los estadísticos (media y desviación estándar).
Solución:
1) 15 𝐶 5 = 3,003 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por
la aleatorización):
Número del Número Valores de
paciente en la aleatorio glucosa en ayuna
muestra Observa que ninguno de los elementos
puede aparecer más de una vez. Si al
1 12 105 generar los números aleatorios sugiere uno
2 13 88 que ya está en el listado, se debe
seleccionar el siguiente hasta no tener
3 08 105 repetidos en el listado de números
aleatorios.
4 04 85
5 10 103
4
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
Ejemplo: Consideramos una población de 5,000 pacientes con las dos dosis de la vacuna AstraZeneca
pertenecientes a determinada zona y de la que se pretende extraer una muestra sistemática de 10
agricultores. El procedimiento a seguir es el siguiente (4):
1) Definir el tamaño del salto sistemático k= 5000/10= 500
2) Selecciona un número aleatorio r entre 1 y 500, (por ejemplo 96)
3) Seleccionar los restantes elementos de la muestra, 96, 96+500=596, 596+500=1096, 1596,
2096, 2596, 3096, 3596, 4096, 4596.
El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente
video para visualizar el paso a paso: https://youtu.be/4a2KR_nccZs
5
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
Distribución muestral: Es la distribución de todos los valores posibles que puede asumir una
estadística, calculados a partir de muestras del mismo tamaño, extraídas aleatoriamente de la
misma población.
Ejemplo:
Población= 3
Muestra= 2
Muestreo con reemplazo 3) = 9 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑢𝑒𝑑𝑒𝑛 𝑒𝑥𝑡𝑟𝑎𝑒𝑟
N Edad Muestras que Elementos de las Medias de las 𝑥 − 𝜇! "
%𝑥 − 𝜇! &
pueden muestras muestras
extraerse 𝑥
1 17 1 17, 17 17 -1.33333333 1.77777778
2 18 2 17, 18 17.5 -0.83333333 0.69444444
3 20 3 17, 20 18.5 0.166666667 0.02777778
4 18, 17 17.5 -0.83333333 0.69444444
5 18, 18 18 -0.33333333 0.11111111
6 18, 20 19 0.666666667 0.44444444
7 20, 17 18.5 0.166666667 0.02777778
8 20, 18 19 0.666666667 0.44444444
9 20, 20 20 1.666666667 2.77777778
∑ 55 165 7.000000
Cálculo de la media muestral: Es la media de todas las posibles muestras que se calculan de una
población. Es interesante ver que la media de la población es igual a las medias de todas las
muestras.
./ ((
𝜇 = ! 𝜇 = - = 18.33 años
./ +0(
𝜇/ = # ! 𝜇/ = = 18.33 años
-"
6
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
Cálculo de la desviación estándar muestral (llamado también error estándar de la media o sólo
ERROR ESTÁNDAR): Es la desviación estándar de todas las posibles muestras que se calculan de una
población. Es interesante notar que la varianza de la distribución muestral es igual a la varianza de
la población dividida entre el tamaño de la muestra.
.(/&1# )" 2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝜎/) = = = 0.78
#! 3
4" +.(0
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑖𝑣𝑖𝑑𝑖𝑑𝑎 𝑒𝑛𝑡𝑟𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 = = 0.78 =
! )
𝜎 1.25
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 (𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟) = L𝜎/) = 𝜎/ = = = 0.88 𝑎ñ𝑜𝑠
√𝑛 √2
La utilidad de lo anterior es comprender que cuando se desea generalizar los datos de una muestra
extraída de una población con distribución normal:
1) La distribución de la media será normal.
2) La media muestral será igual a la media de la población.
3) La desviación muestral será igual a la desviación de la población dividida entre el tamaño de la
muestra.
Ahora bien, cuando el muestreo se realiza en una población que no sigue una distribución normal,
se utiliza el Teorema de Límite Central.
Teorema de límite central: El Teorema del Límite Central permite tomar muestras a partir de
poblaciones con distribución no normal y garantizar que se obtengan aproximadamente los mismos
resultados que si la población tuviera una distribución normal, siempre que se tome una muestra
grande.
Factor finito de corrección para población finita: Si el tamaño de la muestra es muy grande, el
teorema del límite central es aplicable y el muestreo de la media tendrá una distribución
aproximadamente normal.
#&!
● El factor L#&+ se llama corrección por población finita y se puede aplicar cuando el tamaño de
la muestra es grande en comparación con el tamaño de la población. Es decir sí se aplica cuando
!
>0.05.
#
● Esta multiplicación, además, permite disminuir el error estándar.
7
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MÉDICAS
ÁREA CURRICULAR DE INVESTIGACIÓN
UNIDAD DIDÁCTICA DE BIOESTADÍSTICA
PRIMER AÑO
Ejemplo:
● Error estándar con factor finito de corrección
)
Si - > 0.66 𝑠𝑖 𝑠𝑒 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑐𝑎 𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑓𝑖𝑛𝑖𝑡𝑜 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑐𝑖ó𝑛
2) El muestreo se efectúa a partir de una población que sigue una distribución no normal, con una
variancia de población conocida:
a. 𝜇/ = 𝜇
4 !
b. 𝜎/ = , 𝑑𝑜𝑛𝑑𝑒 # > 0.05
√!
4 #&!
𝜎/ = * L #&+
√!
c. 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑥 𝑒𝑠 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑛𝑜𝑟𝑚𝑎𝑙 (2).
Bibliografía
1. L. K. inec.cr. [Online].; 2021 [cited 2021 junio 20. Available from:
https://www.inec.cr/sites/default/files/_book/M.html.
2. Wayne W. D. Bioestdística. Base para el análisis de las ciencias de la salud. Tercera ed. Editores GN,
editor. México: Limusa; 2008.
3. Otzen T, Manterola C. Técnicas de muestreo sobre una población de estudio. Int. J. Morphol.
2017;(35(1):227-232, 2017).
4. Matemáticas.unex.es. Matemáticas.unex.es. [Online]. [cited 2021 junio 20. Available from:
http://matematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf.
5. Walpole M. Probabilidad y estadística para ingeniería y ciencias. Novena ed. López G, editor.
México: Pearson Educación; 2012.
8
U.D. Bioestadística Ciclo: 2023
ÁREA DE INVESTIGACIÓN
U.D. BIOESTADÍSTICA
I. INTRODUCCIÓN
Una vez que se ha terminado con el proceso de recopilación de la información, el investigador se encuentra
con un cúmulo de información que necesita “vaciar” de alguna forma, utilizando algún programa, para poder
organizar y analizar dicha información, en otras palabras, necesita elaborar una base de datos.
Se define una base datos como un banco de datos o una serie de datos organizados y relacionados entre sí,
pertenecientes a un mismo contexto, los cuales son recolectados y almacenados de forma sistemática para
ser explorados por programas estadísticos.
El programa Excel es una hoja electrónica amigable y útil para la elaboración de bases de datos, de
diferente índole y con diferentes propósitos, por lo que se convierte en una herramienta valiosa en el proceso
de análisis de datos. Se ha vuelto tan útil y amigable, que los formularios de Google, entre otros, pueden ser
descargados en este programa.
Una base de datos puede ser leída por programas especiales que faciliten todo el proceso estadístico, como
por ejemplo: EpiInfo, Stata, SPSS, Epidat, entre otros.
El programa Excel consta de una serie de filas y una serie de columnas; para la elaboración de la base de
datos utilizando dicho programa, se debe proceder de la siguiente forma:
a. Identificación de boletas: cada boleta debe tener un número que la identifique, es recomendable
que dicho número sea colocado en la esquina superior derecha de la carátula o primera hoja del
instrumento (si constara de varias páginas), el propósito es facilitar la ubicación, por si fuere
necesario verificar algún dato.
b. En la primera columna se colocará la identificación de cada boleta (No. de boleta), esto facilitará la
localización del registro, por si fuera necesario, para hacer alguna corrección o confirmación
respecto a los datos.
c. Cada columna de las subsiguientes corresponderá a una variable. En el encabezado de cada
columna se deberá escribir el nombre de la variable, por lo que cada columna contendrá la
información de la variable respectiva.
d. Cada fila corresponderá a la información de una boleta, en otras palabras, a la información de un
sujeto de estudio.
Una vez comprendidos y ejecutados los incisos anteriores, se tiene lista la “plantilla” para ingresar la
información. Desde luego que estos incisos deben realizarse si la recopilación de la información se ha
realizado en forma manuscrita.
Google forms proporciona en formato Excel, un archivo con la información que cada “sujeto de estudio”
colocó al responder un formulario. Para ir transformando el archivo en una base de datos es necesario
revisarlo y editarlo, por lo que se puede tomar como referencia los incisos anteriores así como los que se
van describiendo más adelante.
Identificación del
“sujeto de estudio”
Si el procedimiento se hace en forma manual, antes de iniciar el ingreso de los datos al programa Excel, se
debe proceder a:
a. Codificación de las variables: Se requiere contar con una copia en blanco, del instrumento
utilizado para la investigación (boleta, encuesta), para codificar las variables.
Esta codificación debe realizarse para que dicho archivo pueda ser leído por programas estadísticos
como los que se mencionaron anteriormente. Actualmente esto es necesario para la utilización de
algunos programas que aún tienen este tipo de restricciones.
EJEMPLO:
Se puede observar en la columna derecha, que las variables han sido codificadas, todas están
escritas con letras minúsculas y en negrita. Al codificar o colocar nuevos nombres a las variables, se
debe tener el cuidado de que, el nuevo nombre “refleje” la información que contiene.
En el cuadro anterior, se puede observar que, para las primeras 5 variables del ejemplo, no parece
haber ningún problema, está explícita la información que contendrá cada columna; sin embargo,
para la sexta variable: Diagnóstico de ingreso, el nuevo nombre que se ha colocado es dxingreso,
que desglosado correspondería a: dx = diagnóstico, ingreso = de ingreso.
b. Codificación de categorías: Las categorías de las variables también se pueden codificar,
utilizando números. Como se puede observar en las variables sexo y diagnóstico, se ha
colocado un número entre paréntesis, esto se hace con el propósito de facilitar la digitalización o
vaciado de los datos.
La asignación de un número a las categorías de las variables, también está asociado a factor de
riesgo, un número mayor, corresponderá a la categoría con mayor riesgo.
EJEMPLO:
Observación:
Para la categoría “Otro” se puede proceder de dos formas:
a. Colocar el número “4”(la codificación) y habilitar otra columna para escribir la
respuesta obtenida(otro diagnóstico), porque dicha información podría ser de
importancia para la investigación.
b. Escribir la respuesta obtenida como “otro” en lugar del número “4”
IV. RECOMENDACIONES
1. Establecer desde la elaboración del instrumento, que la información de las variables numéricas (o
cuantitativas) sea recopilada en sus unidades originales, con el propósito de no perder información,
por ejemplo: peso, talla, edad, niveles de colesterol en sangre, etc.
Se puede observar en la boleta del ejemplo, la variable Presión Arterial (PA). Si al recopilar los
datos, se registra como: normal, hipertenso o hipotenso y no se coloca el valor encontrado durante
la toma, es probable que a futuro, si fuera necesario realizar algún análisis cuantitativo sobre la
presión sistólica, la diastólica o la diferencial, no será posible hacerlo, porque no se contará con la
información necesaria.
2. Como se mencionó anteriormente, las categorías de las variables también se pueden codificar, ya
sea por situación de “riesgo” o con el propósito de facilitar la digitalización de los datos, esto se
refiere a que, por ejemplo es más rápido digitar “1 o 2” que “masculino o femenino”; por otro lado, al
escribir una palabra se corre el riesgo de escribirla de diferente forma, ejemplo: MASCULINO,
Masculino o masculino, las tres palabras dicen lo mismo pero algunas versiones (antiguas) del
programa, al hacer un *recuento de los datos, las podrían reconocer como diferentes y podría
darnos un resultado como este:
*para lo cual se puede utilizar la función contar si de Excel.
Sexo F
(frecuencia)
MASCULINO 50
Masculino 20
masculino 15
Desde luego que al utilizar un formulario de Google, la situación planteada anteriormente, se puede
considerar al momento en que se elabora el formulario, optando por el tipo de ítem en el que el encuestado
solamente pueda seleccionar la opción que le corresponda.
3. Al digitar la información de las categorías de las variables “codificadas”, en otras palabras, utilizando
números: 1(masculino) y 2 (femenino), se debe tener presente que la variable no es numérica, por
lo tanto, se deberá tener el cuidado en cuanto a las indicaciones que se proporcionan al programa
ya que podría realizar cálculos numéricos, al ejecutar lo solicitado.
EJEMPLO:
Como se puede ver en el ejemplo, el programa realizó los cálculos, sin embargo los resultados
obtenidos no tienen ningún sentido porque las variables son categóricas, por lo que se analizan con
otro tipo de medidas, como las proporciones y los porcentajes.
4. El programa Excel “reconoce” el tipo de información que se está colocando en las celdas, lo
numérico lo coloca hacia la derecha y lo categórico (o alfa numérica) hacia la izquierda, por lo que
se recomienda no centrar los datos, ya que, se suele hacer por “presentación”, pero el programa
estadístico podría tener problemas para reconocer la información del archivo.
En la recomendación No. 1, se aconseja colocar los valores encontrados de las variables numéricas,
la variable Presión Arterial está formada por dos valores, correspondientes a la presión sistólica y
diastólica, es por ello que se observa en la base de datos, una columna para cada valor.
NOTA
Ahora se cuenta con Google forms para elaborar la boleta (cuestionarios), se aconseja tomar en cuenta lo
que se detalla en este documento para elaborar el formulario, ya que, consideramos que será de utilidad
para la recopilación adecuada de la información.
Google forms provee una variedad de “ítems” como la de completación, de selección de una sola alternativa,
etc. que permiten recopilar la información de una forma más rápida, solamente se debe tener el cuidado de
elegir el tipo correcto, según la información que se requiere, y desde luego, pensando en la forma en que se
analizará la información.
FUENTES CONSULTADAS
1. Daniel WW. Bioestadística, Base para el Análisis de las Ciencias de la Salud. Tercera Ed. México: Limusa
Wiley; 2008. 876 p.
2. http://eprints.rclis.org/14591/1/BD_INVESTIGACION_2010_exit.pdf
ESTIMACIÓN
I. Puntual o de punto
II. De intervalo o por intervalo
1
Características Principales:
µ = Es el parámetro desconocido
X = Es la media muestral
Z = Coeficiente de confiabilidad
(1 a )
2 = nivel de confianza o coeficiente de confianza
a= Es el área total bajo la curva que queda fuera del intervalo y se denomina:
nivel de significancia
2
así cuando el muestreo se realiza a partir de una distribución normal con
varianza conocida.
¿Cómo se interpreta este intervalo?
1. Interpretación probabilística e
2. Interpretación práctica
Los coeficientes de confianza utilizados con más frecuencias son 0.90; 0.95;
3
→ IC = 84.3 + 2.58 x 3.10 → 92 .3
esto es, porque entre más estrecho sea el intervalo, más significativo es. Sin
4
lo que quiere decir que para ganar más precisión es necesario abandonar algo
de confianza.
¿Existe alguna forma en la que se pueda reducir el intervalo sin sufrir una
pérdida de confianza? Sí,
Con una confianza de 99% y muestra de 15 Con una confianza de 99% y muestra de 25
La clave para recordar es; como la media poblacional está a lo más dos errores
estándar para el 95.5% de todas las medias muéstrales, entonces dada una
media muestral cualquiera, se puede estar 95.5% seguro de que el intervalo de
dos errores estándar alrededor de la media muestral contiene la media
poblacional desconocida.
5
DISTRIBUCION T - STUDENT
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE CIENCIAS MEDICAS
UNIDAD DE BIOESTADISTICA 2023
ING. MIGUEL ANGEL AGUILAR
DISTRIBUCION t – Student
1. Se considerará una muestra grande, a una muestra mayor o igual que 30.
(Daniel, 2008, p. 149)
2. Cuando una muestra es grande, la confianza en s como una aproximación de σ es por lo
general sustancial, por lo que se justifica la utilización de la teoría de la distribución normal
para construir un intervalo de confianza para la media de la población. (Daniel, 2008, p183)
3. Cuando se tienen muestras pequeñas es imprescindible encontrar otro procedimiento para
construir un intervalo de confianza. (Daniel, 2008,p183)
4. Como resultado del trabajo de Gosset, escrito bajo el pseudónimo de “student” se dispone de
otra alternativa, conocida como distribución t de Student. (Daniel, 2008, p183)
¿CUANDO UTILIZAR LA DISTRIBUCION T-STUDENT?
• Criterio a seguir para utilizar la distribución t-student en intervalos de
confianza para la media de una población:
Utilizar distribución t –student para intervalos de confianza
únicamente si la muestra es menor a 30 y se desconoce la varianza
poblacional. (σ2 ) (Daniel, 2008, p188)
• Criterios a seguir para utilizar la distribución normal (distribución z)
en intervalos de confianza para la media de una población:
1. Si la muestra es mayor o igual a 30, no importando si la varianza
es poblacional o muestral. (Daniel, 2008, p188)
2. Si la muestra es menor a 30 y sí se conoce la varianza poblacional.
(σ2 ) (Daniel, 2008, p188)
CARACTERISTICAS DE LA DISTRIBUCION t-student
FIGURA 2
Comparación entre la distribución normal y la distribución t
INTERVALOS DE CONFIANZA CON DISTRIBUCION t-student
El procedimiento general para construir intervalos de confianza con
distribución t, sigue siendo el mismo que para con z:
Estimador +/- (coeficiente de confiabilidad) X (error estándar)
• Lo que es diferente es el origen del coeficiente de confiabilidad, que
se obtiene a partir de la tabla de la distribución t en lugar de la tabla
de la distribución normal estándar.
Cuando se obtienen muestras a partir de una distribución normal
cuya desviación estándar “σ” , se desconoce, el 100(1-α) por ciento
del intervalo para la media de la población µ, esta dado por:
(Daniel, 2008, p. 185)
PROBLEMA 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso
medio y una desviación estándar de 73 y 10 libras, respectivamente.
Si la población sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
a. El estimador puntual
b. La significancia
c. El coeficiente de confianza
d. El coeficiente de confiabilidad
e. El error estándar
f. El margen de error
g. Construir e interpretar el intervalo
Resolución problema 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso
medio y una desviación estándar de 73 y 10 libras, respectivamente.
Si la población sigue una distribución aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
Datos del problema: n = 16 , = 73 libras y s = 10 libras
a. El estimador puntual
Como es un problema relacionado a medias, el estimador puntual será la
media de la muestra = 73 libras
b. La significancia: Como el intervalo es de 95% entonces la
significancia será del 5%. Que en proporción es 0.05.
α = 0.05
Resolución problema 1
• Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación
estándar de 73 y 10 libras, respectivamente. Si la población sigue una distribución
aproximadamente normal.
Construya un intervalo de confianza al 95% y determine lo siguiente:
c. El coeficiente de confianza:
Como α = 0.05 coeficiente de confianza = 1 – α = 0.95
Coeficiente de confianza = 0.95
d. El coeficiente de confiabilidad :
¿ El coeficiente de confiabilidad debería ser un valor (z ) o un valor(t)?
¿ Lo buscamos en distribución t o distribución z ?
Criterio a seguir:
Como el tamaño de la muestra es n = 16, es una muestra
menor de 30 y nos proporcionan la desviación estándar de
la muestra s=10. Entonces se debe emplear distribución t
Resolución problema 1
Una muestra de 16 niños de diez años de edad proporcionó un peso medio y una desviación estándar de 73 y 10
libras, respectivamente. Si la población sigue una distribución aproximadamente normal.
d. Coeficiente de confiabilidad, a través del criterio tomado anteriormente se determino que es un valor t, el que
se debe encontrar. ¿Como encontrarlo?
Los grados de libertad para encontrarlo serán n – 1 = 16-1 = 15
Como un intervalo de confianza del 95% deja 0.05 del área bajo
la curva “t”, igualmente dividida entre las dos colas, se necesita el
valor de t a la derecha del cual se encuentra el 0.025 de área.
calcular 1 – α/2 = 1 – 0.05/2 = 1 – 0.025 = 0.975
• En una población del oriente del país se ha encontrado el aumento de las enfermedades coronarias en
los varones de dicha población, pudiendo ser la causa de la enfermedad los malos hábitos dietéticos.
Por lo que se desea conocer el promedio del valor de colesterol en el total de la población. Para lo cual
se acudió a una aldea del sector, evaluando los niveles séricos de colesterol total en los varones de la
aldea. Encontrando los siguientes valores de colesterol total, expresados en mg/dl:
210 187 245 154 189 236 277 371 190 155 293
347 258 115 455 278 137 289 187 301 274 127
• Asumiendo que los datos tienen una distribución casi normal, construya:
a. Intervalo de confianza de 90% para la µ de colesterol del total de la población.
b. Intervalo de confianza de 99% para la µ de colesterol del total de la población.
c. Si la aldea tiene una población de 357 varones, calcule el intervalo de confianza del 90%.
d. Comparar los intervalos de confianza de los incisos a y b. Explique cuales son mas confiables
y cuales mas precisos.
Solución al problema 2
El valor del error estándar que era de 18.22 se modifico a 17.67 por aplicar el factor de corrección.
El valor de t, para el 90% de confianza fue calculado en el inciso a., era de t = 1.7207
Construyendo el IC: 239.77 +/- (1.7207) (17.67)
239.77 +/- 30.40
IC: [ 209.37 --- 270.17] mg/dl
Solución problema 2
d. COMPARACION DE INTERVALOS (realizados en incisos a y b)
IC: 90% [ 208.42 --- 271.12] mg/dl Amplitud = 62.7 mg/dl
IC: 99% [ 188.18 --- 291.36] mg/dl Amplitud = 103.18 mg/dl
Amplitud: diferencia entre el limite superior de un intervalo y el
limite inferior
¿Qué diferencias ves entre los intervalos?
El intervalo con menos amplitud es mas preciso pero menos confiable.
El intervalo con mas amplitud es menos preciso pero mas confiable.
Facultad de Ciencias Médicas. USAC
U.D. Bioestadística
Licda. Thelma Soberanis
n= Z2 p q
d2
2
n= (2.58) (0.40) (0.60) = 249.62 = 250 personas
(0.08)2
Ejemplo No.2
Como proyecto del Ministerio de Salud, se tiene
contemplado estimar la proporción de familias que aún
no tienen acceso a los servicios de salud en el occidente
del país. Si d=0.02, el nivel de confianza 95% y se
sabe que en regiones similares el porcentaje que no
tiene acceso a salud es del 33%.
¿Qué tamaño de muestra se necesita para estimar la
proporción de familias que aún no tienen servicios de
salud?
Solución:
n= Z2 p q
d2
n= Z2 p q
d2
n= (2.58)2 (0.5) (0.5) = 1.6641___ = 5,433.80 = 5434
habitantes
(0.0175)2 0.00030625
B. Si se sabe que la población de la aldea Buena Vista es de 9,500 habitantes ¿Cuál
deberá ser el tamaño adecuado de la muestra?
n= N (Z)2 p q___
d2 (N-1) + (Z)2 p q
No rechazar
Zona de Zona de
rechazo cola rechazo cola
izquierda derecha
N.C.
-Z 0 Z
Zona de no rechazo
NIVEL DE SIGNIFICANCIA Y
PROBABILIDAD DE ERROR
•
Zona de Zona de
rechazo cola rechazo cola
izquierda derecha
-Z 0 Z
Zona de no rechazo
CONCLUSIÓN
1. Si se rechaza Ho
• La conclusión dirá que Ha es verdadera
2. Si no se rechaza Ho
• La conclusión dirá que Ho PUEDE SER verdadera.
VALOR P
•
PRUEBA DE
HIPÓTESIS
PARA UNA µ
BILATERAL
Dos colas
EJEMPLO 1
•
PRUEBA DE HIPÓTESIS
Procedimiento
Paso 1: Datos
Paso 2: Planteamiento de las hipótesis
Paso 3: Determinar la regla de decisión con base en los
valores críticos
Paso 4: Cálculo del estadístico de prueba Zcalculado
Paso 5: Decisión
Paso 6: Conclusión
Paso 7: Valor p
•
•
Zona de Zona de
rechazo No rechazo
cola rechazar cola
izquierda derecha
0.95
-1.96 0 1.96
Paso 5: Decisión
No se rechaza Ho Zona de No Zona de
rechazo rechazar rechazo
cola cola
izquierda derecha
0.95
-1.96 1.96
0
-1.41
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el nivel medio de la enzima en cierta población puede ser de 25
U/mg prot.
•
-1.41 1.41
0.1586
EJEMPLO 2
•
•
Zona de Zona de
rechazo No rechazo
cola rechazar cola
izquierda derecha
0.90
-1.645 1.645
-3.00
36
-3.00
Paso 5: Decisión Zona de Zona de
rechazo No rechazo
Se rechaza Ho cola rechazar cola
izquierda derecha
0.90
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.10, para
decir que el punteo promedio de la población de ratas no es de 95
•
-3.00
-2.96
-3.00 2.96
-3.00
PRUEBA DE
HIPÓTESIS
PARA UNA µ
UNILATERAL
Una cola
PLANTEAR LAS HIPÓTESIS
•
Zona de no rechazo
Zona de no rechazo
REGLA DE DECISIÓN
•
VALOR P
•
UNILATERAL
IZQUIERDA
Una cola izquierda
EJEMPLO 1
•
22.18
•
•
Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95
Zona de no
rechazo
Paso 5: Decisión
Se rechaza Ho Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95
-1.645 Zona de no
rechazo
-1.85
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el punteo promedio de agotamiento emocional en las enfermera
es menor 22.18, por lo que el investigador tiene razón en su hipótesis.
•
-1.85
EJEMPLO 2
•
•
•
Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95
Zona de no
rechazo
Paso 5: Decisión
Se rechaza Ho Zona de
No
rechazo
rechazar
Una cola
izquierda 0.95
-1.645 Zona de no
rechazo
-5.73
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el diámetro promedio de reacción de la piel a un antígeno es
menor a 30 mm.
•
-5.73
UNILATERAL
DERECHA
Una cola derecha
EJEMPLO 1
•
•
•
Zona de
No rechazo
rechazar Una cola
derecha
0.95
Zona de no 1.645
rechazo
Paso 5: Decisión Zona de
Se rechaza Ho No rechazo
rechazar Una cola
derecha
0.95
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.05, para
decir que el número de recetas promedio en la población es mayor a 5.
• Zona de
No rechazo
rechazar Una cola
derecha
0.95
Zona de no 1.645
rechazo
3.16
0.0008
EJEMPLO 2
•
•
•
Zona de
rechazo
No Una cola
rechazar derecha
0.98
Zona de no
2.05
rechazo
Zona de
Paso 5: Decisión rechazo
No Una cola
Se rechaza Ho rechazar derecha
0.98
Paso 6: Conclusión
Se tiene suficiente evidencia estadística, con una significancia de 0.02, para
decir que el precio promedio de la prueba en la población de laboratorios es
mayor a $10.
•
No
rechazar
0.98
2.05 3.16
MUCHAS GRACIAS
☺
U.D. Bioestadística Ciclo: 2023
INFERENCIAESTADÍSTICA
INTRODUCCIÓN: La estadística es una herramienta muy útil para el médico. Tanto la estadística
descriptiva como la estadística inferencial son técnicas que el médico puede utilizar como beneficio para
un buen desempeño profesional.
La estadística descriptiva permite organizar y resumir un conjunto de datos, sean estos provenientes de
una muestra o de una población, para poder exponer y/o definir las características encontradas en el
grupo estudiado.
La estadística inferencial es la que permite llegar a conclusiones sobre una población, a través del
estudio de una parte (muestra aleatoria) de dicha población. Esta área de la estadística desempeña un
papel muy importante en los procesos de toma de decisiones, precisamente porque se desea tomarlas
sobre la población, a través del estudio de una muestra representativa. La estadística inferencial abarca
dos campos o áreas: la estimación y la prueba de hipótesis. El presente documento contiene lo referente
a prueba de hipótesis.
El propósito de las pruebas de hipótesis es ayudar al médico, investigador o administrador a tomar una
decisión en torno a una población, al examinar una muestra de ella. En general las hipótesis se refieren
a los parámetros de las poblaciones para las cuales se hace la proposición.
PRUEBA DE HIPÓTESIS
Hay dos tipos de hipótesis, las de investigación y las hipótesis estadísticas. Las primeras son las
suposiciones que motivan la investigación, son las que en algunas ocasiones se comprueban a través de
las hipótesis estadísticas. Las hipótesis estadísticas son dos: la Hipótesis nula (Ho) y la hipótesis alterna
(HA). La hipótesis alterna generalmente coincide con la hipótesis de investigación, la hipótesis nula es la
que se pone a prueba y la que se opone a la hipótesis de investigación o alterna.
Lo que el investigador desea demostrar es la hipótesis alternativa y no la hipótesis nula por varias
razones:
Una razón es que parte de una premisa contraria a lo que deseamos demostrar, para luego
encontrar evidencia concreta que conduzca a rechazarla, es un argumento más contundente que
presumir que, lo que se quiere demostrar es cierto, para luego encontrar evidencia que apoya el
reclamo. En este último caso se puede reclamar que se observó esos resultados sencillamente
porque de acuerdo con la premisa (hipótesis), se esperaba que fuera así.
Otra razón es que se puede controlar matemáticamente la probabilidad de cometer algunos tipos
de error. Lógicamente hablando, el observar un resultado acorde con la hipótesis nula no
demuestra que sea cierta, solo es evidencia a favor de que sea cierta.
Se dice que es muy difícil demostrar la hipótesis nula de que una persona es inocente de algún
“delito”. Se puede hacer demostrando que no estaba presente durante ese periodo, en la escena
del “delito” o demostrando que otra persona es verdaderamente culpable. Sin embargo, en la
mayoría de los casos eso es imposible de hacer. En estos, la evidencia que se presente a favor de
la inocencia, tal como quela persona nunca había cometido un crimen, que es pacífica, que va a
la iglesia y muchas otras no demuestran la hipótesis nula de que la persona es inocente de lo
que se le acusa. Esta es una de las razones por las cuales a las personas no se les requiere
demostrar su inocencia, y se parte de la premisa de que lo es. Es el fiscal quien tiene la
obligación de demostrar la hipótesis alternativa de que la persona es culpable más allá de duda
razonable.
La realización de una prueba de Hipótesis se lleva a cabo a partir de un estudio en el que se obtienen
datos de una muestra. La hipótesis formulada es desechada si los resultados obtenidos del experimento
no son probables bajo dicha hipótesis. Si los resultados son probables, la hipótesis no es desechada por
falta de evidencia.
Para realizar una prueba de hipótesis es recomendable seguir un procedimiento ordenado. Algunos
autores proponen una serie de pasos que oscila entre 3 a 9. Para fines de nuestra U.D. de Bioestadística,
se proponen 6 pasos, los cuales se presentan a continuación.
Paso1. Datos:
Es importante conocer la naturaleza de los datos; si la variable de estudio es cuantitativa o numérica,
significa que la información con la que se cuenta son mediciones, por lo tanto, se podrá trabajar con
promedios, o sea con la media aritmética. Por el contrario, si la variable es cualitativa o categórica, se
estudia entonces alguna característica de interés, por consiguiente, se trabajará con proporciones o
porcentajes.
En conclusión, la prueba a utilizar está determinada por la naturaleza de los datos que se tengan.
La hipótesis nula, se simboliza por “Ho”; es la que se pone a prueba, algunos autores la
han nombrado hipótesis de no diferencia, por lo que se plantea como una igualdad. La
hipótesis nula se plantea con el propósito de ser rechazada.
La hipótesis alternativa o alterna, se simboliza por “HA” (en otras referencias se podría
encontrar como H1); es el complemento de la hipótesis nula, por lo que se plantea en
contradicción con lo expresado en la hipótesis nula.
Existen tres formas de planteamiento de las hipótesis estadísticas. Utilizando el enunciado del EJEMPLO
No.1, se ilustrarán dichos planteamientos. En el ejemplo se puede observar que el parámetro a
investigar es el promedio (µ) de asistencia por día, a la consulta externa de un Hospital Nacional, por lo
que la investigación puede estar orientada de 3 formas:
Se desea saber si en la consulta Se desea saber si en la consulta Se desea saber si en la consulta externa
externa del Hospital Nacional se externa del Hospital Nacional, se del Hospital Nacional, se atiende un
atiende un promedio diferente de atiende un promedio inferior a 500 promedio superior a 500 pacientes al
500 pacientes al día. pacientes al día. día.
Las hipótesis se plantean así: Las hipótesis se plantean así: Las hipótesis se plantean así:
Ho: µ = 500 Ho: µ>500 Ho: µ ≤ 500
HA: µ ≠500 HA: µ<500 HA: µ >500
Este planteamiento conducirá a Este planteamiento conducirá a una Este planteamiento conducirá a una
una prueba de hipótesis prueba de hipótesis unilateral prueba de hipótesis unilateral.
bilateral
De lo anterior se puede concluir que el planteamiento de las hipótesis estadísticas está orientando si la
prueba deberá ser bilateral o unilateral.
Para el planteamiento de la regla de decisión, es necesario ubicar el área de rechazo también llamada
zona crítica. Esta zona o área de rechazo corresponde a la, o a las colas de la distribución normal (curva
normal) o la distribución t de Student, según sea el caso, en cuanto a que la prueba sea unilateral o
bilateral, así como al tamaño de la muestra. Es necesario recordar que la decisión de utilizar distribución
normal (Z) o distribución t de Student (t) depende del tamaño de la muestra y de si se cuenta o no, con
la varianza o desviación estándar de la población (2 o ).
La regla de decisión indica que la hipótesis nula debe ser rechazada, si el valor de la estadística de
prueba, que se calcule con los datos de la muestra, se localiza en la región de rechazo y que no se
rechace si el valor de la estadística de prueba calculado es ubicado en la región de no rechazo.
Los valores de la estadística de prueba que forman la región de rechazo (localizados en el o los
extremos), son los que tienen la menor probabilidad de ocurrir, si la hipótesis nula es falsa; y, los que
forman la región de no rechazo tienen la mayor probabilidad de ocurrir si la hipótesis nula es verdadera.
La forma de establecer los valores que formarán la región de rechazo y de no rechazo se hace con base
al nivel de significación deseado. Este nivel de significancia es conocido como Alfa (α), es por ello que a
las pruebas de hipótesis también se les llama pruebas de significación.
El valor de Alfa indica la probabilidad de rechazar la hipótesis nula verdadera, por lo que debe trabajarse
con valores pequeños, para que la probabilidad de rechazar una hipótesis nula verdadera sea pequeña.
Por ello los valores de alfa más utilizados son: 0.10, 0.05 y 0.01.
Para encontrar los valores críticos o valores límite entre las dos zonas, para este caso, se hace uso del
conocimiento que se tiene sobre la distribución normal estándar, porque el tamaño de la muestra en el
ejemplo es grande (n ≥ 30). También es necesario establecer el nivel de significancia o valor de alfa;
para el ejemplo se utilizará un nivel de significacióndel5%.(alfa es igual a 0.05).
Si el nivel de significancia es del 5% o sea α= 0.05, en este caso, como la prueba es bilateral o de dos
colas, el nivel de significancia se divide dentro de 2 (corresponde la mitad a cada cola), para localizar los
valores críticos o valores límite que delimitan las zonas.
Para el ejemplo que se viene tratando, el valor crítico, será un valor de Z, este valor se puede localizar de
dos formas, a partir del procedimiento que se describe en el cuadro a continuación:
El valor de se divide dentro de 2, así: Al valor total del área bajo curva, se le resta la mitad
α/2 = 0.05/2 = 0.025 de alfa así:
1-α /2=1-0.05/2=1-0.0250=0.9750
Este valor se busca dentro del cuerpo de la tabla (en
las áreas) para localizar el valor de Z al que Este valor se busca en el cuerpo de la tabla (en las
corresponde dicha área: áreas), para localizar el valor de Z:
Se encuentra que el valor de Z para un área de Se encuentra que el valor de Z para un área de
0.0250 es de –1.96, éste corresponderá al valor 0.9750 es 1.96, éste corresponderá al valor
crítico para la cola izquierda. crítico para la cola derecha.
Partiendo del EJEMPLO No.1, que se está desarrollando, la suposición está hecha en relación con la
media poblacional, se trata entonces de una prueba de hipótesis para la media de una población. La
estadística de prueba a utilizar corresponde a un valor de Z o a un valor de t, más adelante se especifica
en qué casos se utiliza cada una.
Paso5. Decisión:
La decisión se toma luego de comparar el estadístico de prueba calculado con la regla de decisión. Esta
consiste en el rechazo o no rechazo de la hipótesis nula. Se rechaza la hipótesis nula, si el valor del
estadístico de prueba se localiza en la zona o región de rechazo y no se rechaza la hipótesis nula si el
valor del estadístico de prueba se ubica en la región de no rechazo.
Paso6. Conclusión:
Si se rechaza Ho. la conclusión estará de acuerdo con lo planteado en la hipótesis alterna o alternativa.
Si no se rechaza Ho, se concluirá que los datos no presentaron evidencia suficiente que lleve al rechazo
de Ho; es posible que se necesite más información o pudiera ser que en alguno de los casos la Ho. Sea
verdadera y por ello no sea posible rechazarla.
En conclusión, siempre que se hace una prueba de hipótesis se corre el riesgo de cometer un
error. Sobre el Error tipo I es posible ejercer control, disminuyendo el nivel o valor de alfa; pero sobre
el Error beta o tipo II, no es posible, aunque se sabe que en la mayoría de situaciones éste
último es mayor que alfa. Es deseable que estas dos probabilidades de error sean pequeñas.
Anotaciones importantes
Al resolver problemas de prueba de hipótesis para medias, se debe tomar en consideración:
El caso del inciso “a”, difícilmente se encontrará en la realidad, porque no es posible tener la
desviación estándar poblacional, ya que precisamente se está haciendo inferencia estadística
sobre los datos de la población, por lo tanto, no se contará condicha información.
Ejemplo
PROBLEMANo.1
Los docentes del curso de Bioestadística, que se imparte en el primer año de la Facultad de
Ciencias Médicas, consideran que el rendimiento de sus alumnos no es satisfactorio y que la
nota promedio es menor que la nota mínima para aprobar el curso. Para determinar lo
anterior seleccionaron una muestra aleatoria de 81 estudiantes. La calificación promedio en
la muestra fue de 59.2 puntos, con una desviación estándar de 12 puntos.
¿Tendrán razón los docentes del curso de Bioestadística?, si decide trabajar con una
confianza del 93.70%.
PROCEDIMIENTO:
Paso 1 Paso 2 Paso 3
Datos: Planteamiento de Regla de Decisión:
Hipótesis
n = 81 estudiantes
Ho: µ≥ 61 puntos
X = 59.2 puntos.
S = 12 puntos. HA: µ < 61 puntos
µ = 61 puntos
(nota de aprobación)
α =0.063
Se rechaza Ho, si Z calculada es menor o
igual que –1.53
Paso5. Decisión:
Como el valor de Z calculado es de -1.35, es mayor que –1.53, por lo tanto, no se rechaza Ho.
Paso6. Conclusión:
Con una confianza del 93.70%, se concluye que es probable que los profesores estén equivocados.
Los datos recabados no ofrecen información suficiente para rechazar la Ho, por lo tanto, se puede
concluir que es probable que la nota promedio en el curso de Estadística no sea menor de 61puntos.
Valor P de la prueba:
El valor de P es la probabilidad de hallar valores como el encontrado en la muestra, o más extremos
que éste. Se calcula a partir del valor del estadístico de prueba calculado, es decir, que es el área
que se localiza en los extremos de la distribución, dependiendo si la prueba elaborada fue unilateral o
bilateral.
El valor de P es el nivel más bajo de significancia (valor α) al cual se puede rechazar la hipótesis nula.
Es el área en la cola que está más allá del valor del estadístico en la muestra. A menor valor de “ p”,
menor es la credibilidad de Ho.
El planteamiento de la regla de decisión también se puede
establecer en base al valor de P, de la siguiente manera:
Se rechaza Ho si el valor P es menor o igual que α (nivel de
significancia).
Referencias
1. Daniel, Wayne W. Bioestadística: México; Editorial Limusa.1998
2. LevinRechardI,RubinDavidS,ESTADÍSTICAPARAADMINISTRADORES,6ta.EdiciónMéxico
D.F. Prentice–may Hispanoamérica, S.A. 1966
3. Morales Peña, Otto René. Material de Apoyo Para el curso Métodos Cuantitativos I.
Departamento de Publicaciones de la Facultad de Ciencias Económicas. Guatemala,2001
4. Morales Peña, Otto René. Material de Apoyo para el Curso Métodos Cuantitativos II. 2daEdición.
Guatemala;InversionesEducativas.2001
6. Trapp, Robert y Beth Dawson – Saunders. Bioestadística Médica. México. Manual Moderno.1997
Distribución Ji – Cuadrada
Prueba de Independencia
I. Introducción
1.1 Propiedades de las pruebas no paramétricas Área de
II. Distribución Ji - Cuadrada rechazo
2.1 Propiedades de la Distribución Ji - Cuadrada de Ho
III. Prueba de Independencia
IV. Pasos para Calcular Ji - Cuadrada
V. Ejercicios prácticos
VI. Conclusiones
Anexos Área de no rechazo
Bibliografía de Ho Valor crítico de X²
I. INTRODUCCIÓN
La Distribución Ji-Cuadrada, es una prueba no paramétrica, es decir, que no presupone una distribución de
probabilidad para los datos, por ello se conoce también como de distribución libre. En la mayor parte de ella
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n ≤ 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos
para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal1
La distribución Ji - Cuadrada, es una distribución de probabilidad que es más adecuada para utilizarse con
variables de clasificación que se han agrupado en categorías como estado civil, cuyos valores son: casado,
soltero, viudo y divorciado. Así también, puede deducirse a partir de la distribución Normal, por tanto, el área
total bajo la curva es 1.0. Se hace uso de la distribución Ji - Cuadrada, para probar hipótesis cuando los datos
disponibles para el análisis están en forma de frecuencias y la justificación para su uso se debe a Karl Pearson,
quien demostró que la distribución Ji-Cuadrada puede emplearse como prueba de la congruencia entre
observación e hipótesis siempre que los datos estén en forma de frecuencias2
1
J.S. Milton, J.O. Tsokos. Estadística para biología y Ciencias de la Salud, Madrid: Interamericana-McGraw Hill, 1989.
2
Wayne Daniel. Bioestadística, 3ª Edición. Editorial UTEHA, Noriega Editores. Pág. 641
1
2.1 Propiedades de la Distribución Ji-Cuadrada
2.1.1 No toma valores negativos, sólo cero o positivos
2.1.2 No es Simétrica, está sesgada hacia la derecha
2.1.3 Todas las pruebas se hacen solo de un extremo, el derecho
2.1.4 El área bajo la curva es igual a uno o el cien por ciento de los casos
2.1.5 Utiliza grados de libertad, los que cuando se trabaja con tablas de
contingencia se Utiliza la siguiente fórmula:
Área de
gl (f 1) (c 1) rechazo
Dónde: de Hipótesis
Nula
f = número de filas
c = número de columnas
Esta prueba se utiliza para determinar si dos variables categóricas se relacionan entre sí, es decir, se dice que
dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál
sea la distribución del otro. Si se rechaza la hipótesis nula, se concluye que los dos criterios de clasificación
no son independientes3. Por tanto, La hipótesis nula estará planteada en base a la independencia de los
criterios y la alterna en base a la no independencia. Las características de una prueba de Ji - Cuadrada de
independencia son:
En general se selecciona una sola muestra de la población de interés y las personas u objetos se
clasifican en forma cruzada con base en dos variables de interés.
El razonamiento para calcular las frecuencias esperadas de las celdas está basado en la ley de
probabilidad que establece que si dos eventos (en este caso, los dos criterios de clasificación) son
independientes, la probabilidad de que ocurran conjuntamente es igual al producto de sus
probabilidades individuales.
Las hipótesis y conclusiones se establecen en términos de independencia (o falta de ella) de las dos
variables4
Existen dos tipos de frecuencias en las que centra el interés, el estudio de la Distribución Ji-Cuadrada
1. Frecuencias Observadas y
2. Frecuencias Esperadas
Las frecuencias observadas, son el número de individuos u objetos en la muestra que caen dentro de varias
categorías de la variable de interés. La frecuencia esperada, es el número de individuos u objetos en la muestra
que se esperaría observar si alguna hipótesis nula respecto a la variable es verdadera5.
Se extrae una muestra de tamaño n de la población y la frecuencia de ocurrencia de la muestra que
corresponde a las casillas formadas por la intersección de los renglones y columnas de la tabla.
Para cada celda se calculan las frecuencias esperadas bajo la hipótesis nula de que los dos criterios de
clasificación son independientes.
3
Ibíd. Pág. 657
4
Ibíd. Pág. 665
5
Ibíd. Pág. 641
2
Se comparan las frecuencias esperadas y las frecuencias observadas. Si la diferencia en los valores de
ambas frecuencias es pequeña, puede aceptarse la hipótesis nula, es decir, los criterios de
clasificación son independientes (no tienen relación).
Si hay una congruencia exacta, es decir, no existe diferencia entre los valores de las frecuencias
observadas y los valores de las frecuencias esperadas, el resultado proporciona un valor de X² igual a
cero, por lo que puede aceptarse la hipótesis nula, y los criterios de clasificación son independientes.
(no tienen relación).
Si la diferencia en los valores de las frecuencias observadas y los valores de las frecuencias esperadas
es muy grande, se rechaza la hipótesis nula y se concluye que los dos criterios de clasificación no son
independientes, es decir, (tienen relación).
Hₒ: Las variables de clasificación son independientes (no hay relación entre las dos variables)
Hₒ: Las variables de clasificación no son independientes (si hay relación entre las dos variables)
X² (gl; 1 - α)
VALOR CRÍTICO X²
D. Paso 4: MANEJO DE LA TABLA X² pág. 592
Grados de libertad: gl = (f - 1) (c- 1) f = # filas
c = # columnas
E. Paso 5: FORMULAS PARA CALCULAR JI - CUADRADA
n (ad bc)2
Cuando se utiliza tablas de 2 X 2 X2
(a c) (b d)(a b)(c d )
(Oí Ei)2
Cuando se utiliza tablas de 2 X 3 X2
Ei
3
Aceptar H₀
F. Paso 6: COMPARAR X² calculada con X² de la tabla a fin de Rechazar Ha
V. EJERCICIOS PRÁCTICOS
Una muestra de 500 niños de una escuela primaria se clasificó en forma cruzada respecto a su estado de nutrición y
desempeño académico. Los investigadores desean saber si es posible concluir que existe una relación entre el
estado de nutrición y el desempeño académico. La prueba Ji – cuadrada resulta adecuada para tomar una decisión.
SOLUCIÓN:
Paso 1: Planteamiento de Hipótesis
Hₒ: El estado nutricional y el desempeño académico son independientes (no existe relación)
Ha: El estado nutricional y el desempeño académico no son independientes (si existe relación)
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.05
Paso 3: Definición de los criterios de prueba
α = 0.05
El valor crítico
X² = (gl; 1 - α) gl = (2 - 1) (2 - 1)
X² = (1; 1 - 0.05) gl = (1) (1)
X² = (1; 0.95) gl = 1
0.95
Área de no rechazo Valor crítico de X² = 3.841
6
Wayne, Daniel. Bioestadística. 3ª Edición. Editorial Limusa.
4
Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X2
2 n (ad bc)2
X
(a c) (b d) (a b) (c d)
Calculada: X² = 140.949
Tabla: X² = 3.841
Paso 7: Decisión estadística: Dado que 140.949 > 3.841, se rechaza Ho. Para esta prueba, p< 0.05
Interpretación: Con un nivel de significación de 0.05 los investigadores pueden concluir que existe una relación
entre el estado nutricional y el desempeño académico.
En dos hospitales: Público y privado se compararon los resultados de 675 autopsias con las causas de muerte
anotadas en los certificados de defunción. Certificados exactos, certificados que carecían de información o
contenían inexactitudes, pero no ameritaba que se modificara el registro de la causa de muerte, y certificados
incorrectos que requerían modificación en el registro de la causa de muerte. Asumiendo que necesitamos
determinar los resultados del estudio que se presentan, sugieren que la forma de llevar los certificados y el hospital
son independientes. Utilizar un alfa de 2.5%.
SOLUCIÓN:
CUADRO No 1
RESULTADOS DE 675 AUTOPSIAS CON CAUSAS DE MUERTE EN LOS CERTIFICADOS
DE DEFUNCIÓN, EN DOS HOSPITALES PÚBLICO Y PRIVADO, AGOSTO DE 2022
ESTADO DE CERTIFICADO DE DEFUNCIÓN
HOSPITAL Exactitud Inexactitud sin Incorrecto TOTAL
confirmada cambio modificado
Público 45 40 50 135
Privado 50 20 30 100
TOTAL 95 60 80 235
Fuente: Datos hipotéticos con fines de estudio.
5
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.025.
0.975
Área de no rechazo
Paso 3: Definición de los criterios de prueba.
α = 0.025
El Valor Crítico
X² = (gl; 1 - α) gl = (2 - 1) (3 - 1)
X² = (2; 0.975) gl = 2
X² tabla = 7.378
X² Calculada = 6.869
Interpretación: Esto significa que con un nivel de significación de 0.025 se confirma que la forma de llevar los
estados de certificados de defunción y el hospital son eventos independientes. (No existe relación entre ellos)
6
Ejercicios
Problema No 1
La siguiente tabla muestra los resultados de una investigación realizada en una muestra de 485 estudiantes en cierta
área metropolitana. A cada individuo se le pidió que indicara cuál de tres políticas sobre fumar en lugares públicos
preferían.
Cuadro No 2
EL NIVEL MÁXIMO DE EDUCACIÓN CON RELACIÓN A LAS POLÍTICAS SOBRE FUMAR EN LUGARES PÚBLICOS EN UN
ÁREA METROPOLITANA, AÑO 2022
Política Aprobada
Nivel máximo de Sin restricción Fumar solo en Prohibición para Sin opinión
TOTAL
educación para fumar áreas especiales fumar
Graduado de
10 54 15 6 85
universidad
Graduado de
25 200 40 10 275
preparatoria
Graduado de
35 50 20 20 125
primaria
70 304 75 36 485
TOTAL
¿Es posible concluir a partir de estos datos, que en la población muestreada existe una relación entre el nivel máximo
de educación y la actitud hacia el hábito de fumar en lugares públicos? Sea α= 0.05
10
Problema No 2
Una encuesta entre niños menores de 15 años que vivían en el centro fue clasificada de acuerdo con el grupo étnico y el
nivel de hemoglobina. Los resultados son los siguientes:
Cuadro No 3
ESTUDIO EN MENORESDE 15 AÑOS, CON EL GRUPO ÉTNICO Y EL NIVEL DE HEMOGLOBINA, AÑO 2022.
¿Existe suficiente evidencia para indicar, que con un nivel de significación de 0.05, que las dos variables tienen
relación?
RESPUESTAS
Problema No.1
X² = 54.645 p>0.05
Problema No. 2
X² = 11.45 p>0.05
7
Bibliografía
Correos Electrónicos
c.bioestadistica@Gmail.com
aavendano1964@medicina.usac.edu.gt
8
Universidad de San Carlos de Guatemala
Facultad de Ciencias Médicas
Unidad Didáctica de Bioestadística
Año 2023
Distribución Ji – Cuadrada
Prueba de Independencia
I. Introducción
1.1 Propiedades de las pruebas no paramétricas Área de
II. Distribución Ji - Cuadrada rechazo
2.1 Propiedades de la Distribución Ji - Cuadrada de Ho
III. Prueba de Independencia
IV. Pasos para Calcular Ji - Cuadrada
V. Ejercicios prácticos
VI. Conclusiones
Anexos Área de no rechazo
Bibliografía de Ho Valor crítico de X²
I. INTRODUCCIÓN
La Distribución Ji-Cuadrada, es una prueba no paramétrica, es decir, que no presupone una distribución de
probabilidad para los datos, por ello se conoce también como de distribución libre. En la mayor parte de ella
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n ≤ 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos
para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal1
La distribución Ji - Cuadrada, es una distribución de probabilidad que es más adecuada para utilizarse con
variables de clasificación que se han agrupado en categorías como estado civil, cuyos valores son: casado,
soltero, viudo y divorciado. Así también, puede deducirse a partir de la distribución Normal, por tanto, el área
total bajo la curva es 1.0. Se hace uso de la distribución Ji - Cuadrada, para probar hipótesis cuando los datos
disponibles para el análisis están en forma de frecuencias y la justificación para su uso se debe a Karl Pearson,
quien demostró que la distribución Ji-Cuadrada puede emplearse como prueba de la congruencia entre
observación e hipótesis siempre que los datos estén en forma de frecuencias2
1
J.S. Milton, J.O. Tsokos. Estadística para biología y Ciencias de la Salud, Madrid: Interamericana-McGraw Hill, 1989.
2
Wayne Daniel. Bioestadística, 3ª Edición. Editorial UTEHA, Noriega Editores. Pág. 641
1
2.1 Propiedades de la Distribución Ji-Cuadrada
2.1.1 No toma valores negativos, sólo cero o positivos
2.1.2 No es Simétrica, está sesgada hacia la derecha
2.1.3 Todas las pruebas se hacen solo de un extremo, el derecho
2.1.4 El área bajo la curva es igual a uno o el cien por ciento de los casos
2.1.5 Utiliza grados de libertad, los que cuando se trabaja con tablas de
contingencia se Utiliza la siguiente fórmula:
Área de
gl (f 1) (c 1) rechazo
Dónde: de Hipótesis
Nula
f = número de filas
c = número de columnas
Esta prueba se utiliza para determinar si dos variables categóricas se relacionan entre sí, es decir, se dice que
dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál
sea la distribución del otro. Si se rechaza la hipótesis nula, se concluye que los dos criterios de clasificación
no son independientes3. Por tanto, La hipótesis nula estará planteada en base a la independencia de los
criterios y la alterna en base a la no independencia. Las características de una prueba de Ji - Cuadrada de
independencia son:
En general se selecciona una sola muestra de la población de interés y las personas u objetos se
clasifican en forma cruzada con base en dos variables de interés.
El razonamiento para calcular las frecuencias esperadas de las celdas está basado en la ley de
probabilidad que establece que si dos eventos (en este caso, los dos criterios de clasificación) son
independientes, la probabilidad de que ocurran conjuntamente es igual al producto de sus
probabilidades individuales.
Las hipótesis y conclusiones se establecen en términos de independencia (o falta de ella) de las dos
variables4
Existen dos tipos de frecuencias en las que centra el interés, el estudio de la Distribución Ji-Cuadrada
1. Frecuencias Observadas y
2. Frecuencias Esperadas
Las frecuencias observadas, son el número de individuos u objetos en la muestra que caen dentro de varias
categorías de la variable de interés. La frecuencia esperada, es el número de individuos u objetos en la muestra
que se esperaría observar si alguna hipótesis nula respecto a la variable es verdadera5.
Se extrae una muestra de tamaño n de la población y la frecuencia de ocurrencia de la muestra que
corresponde a las casillas formadas por la intersección de los renglones y columnas de la tabla.
Para cada celda se calculan las frecuencias esperadas bajo la hipótesis nula de que los dos criterios de
clasificación son independientes.
3
Ibíd. Pág. 657
4
Ibíd. Pág. 665
5
Ibíd. Pág. 641
2
Se comparan las frecuencias esperadas y las frecuencias observadas. Si la diferencia en los valores de
ambas frecuencias es pequeña, puede aceptarse la hipótesis nula, es decir, los criterios de
clasificación son independientes (no tienen relación).
Si hay una congruencia exacta, es decir, no existe diferencia entre los valores de las frecuencias
observadas y los valores de las frecuencias esperadas, el resultado proporciona un valor de X² igual a
cero, por lo que puede aceptarse la hipótesis nula, y los criterios de clasificación son independientes.
(no tienen relación).
Si la diferencia en los valores de las frecuencias observadas y los valores de las frecuencias esperadas
es muy grande, se rechaza la hipótesis nula y se concluye que los dos criterios de clasificación no son
independientes, es decir, (tienen relación).
Hₒ: Las variables de clasificación son independientes (no hay relación entre las dos variables)
Hₒ: Las variables de clasificación no son independientes (si hay relación entre las dos variables)
X² (gl; 1 - α)
VALOR CRÍTICO X²
D. Paso 4: MANEJO DE LA TABLA X² pág. 592
Grados de libertad: gl = (f - 1) (c- 1) f = # filas
c = # columnas
E. Paso 5: FORMULAS PARA CALCULAR JI - CUADRADA
n (ad bc)2
Cuando se utiliza tablas de 2 X 2 X2
(a c) (b d)(a b)(c d )
(Oí Ei)2
Cuando se utiliza tablas de 2 X 3 X2
Ei
3
Aceptar H₀
F. Paso 6: COMPARAR X² calculada con X² de la tabla a fin de Rechazar Ha
V. EJERCICIOS PRÁCTICOS
Una muestra de 500 niños de una escuela primaria se clasificó en forma cruzada respecto a su estado de nutrición y
desempeño académico. Los investigadores desean saber si es posible concluir que existe una relación entre el
estado de nutrición y el desempeño académico. La prueba Ji – cuadrada resulta adecuada para tomar una decisión.
SOLUCIÓN:
Paso 1: Planteamiento de Hipótesis
Hₒ: El estado nutricional y el desempeño académico son independientes (no existe relación)
Ha: El estado nutricional y el desempeño académico no son independientes (si existe relación)
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.05
Paso 3: Definición de los criterios de prueba
α = 0.05
El valor crítico
X² = (gl; 1 - α) gl = (2 - 1) (2 - 1)
X² = (1; 1 - 0.05) gl = (1) (1)
X² = (1; 0.95) gl = 1
0.95
Área de no rechazo Valor crítico de X² = 3.841
6
Wayne, Daniel. Bioestadística. 3ª Edición. Editorial Limusa.
4
Paso 5: Fórmula para calcular Ji - Cuadrada con tabla de contingencia de 2X2
2 n (ad bc)2
X
(a c) (b d) (a b) (c d)
Calculada: X² = 140.949
Tabla: X² = 3.841
Paso 7: Decisión estadística: Dado que 140.949 > 3.841, se rechaza Ho. Para esta prueba, p< 0.05
Interpretación: Con un nivel de significación de 0.05 los investigadores pueden concluir que existe una relación
entre el estado nutricional y el desempeño académico.
En dos hospitales: Público y privado se compararon los resultados de 675 autopsias con las causas de muerte
anotadas en los certificados de defunción. Certificados exactos, certificados que carecían de información o
contenían inexactitudes, pero no ameritaba que se modificara el registro de la causa de muerte, y certificados
incorrectos que requerían modificación en el registro de la causa de muerte. Asumiendo que necesitamos
determinar los resultados del estudio que se presentan, sugieren que la forma de llevar los certificados y el hospital
son independientes. Utilizar un alfa de 2.5%.
SOLUCIÓN:
CUADRO No 1
RESULTADOS DE 675 AUTOPSIAS CON CAUSAS DE MUERTE EN LOS CERTIFICADOS
DE DEFUNCIÓN, EN DOS HOSPITALES PÚBLICO Y PRIVADO, AGOSTO DE 2022
ESTADO DE CERTIFICADO DE DEFUNCIÓN
HOSPITAL Exactitud Inexactitud sin Incorrecto TOTAL
confirmada cambio modificado
Público 45 40 50 135
Privado 50 20 30 100
TOTAL 95 60 80 235
Fuente: Datos hipotéticos con fines de estudio.
5
¿Proporcionan estos datos evidencia suficiente como para concluir que hay relación entre los dos criterios de
clasificación? Sea un alfa de 0.025.
0.975
Área de no rechazo
Paso 3: Definición de los criterios de prueba.
α = 0.025
El Valor Crítico
X² = (gl; 1 - α) gl = (2 - 1) (3 - 1)
X² = (2; 0.975) gl = 2
X² tabla = 7.378
X² Calculada = 6.869
Interpretación: Esto significa que con un nivel de significación de 0.025 se confirma que la forma de llevar los
estados de certificados de defunción y el hospital son eventos independientes. (No existe relación entre ellos)
6
Ejercicios
Problema No 1
La siguiente tabla muestra los resultados de una investigación realizada en una muestra de 485 estudiantes en cierta
área metropolitana. A cada individuo se le pidió que indicara cuál de tres políticas sobre fumar en lugares públicos
preferían.
Cuadro No 2
EL NIVEL MÁXIMO DE EDUCACIÓN CON RELACIÓN A LAS POLÍTICAS SOBRE FUMAR EN LUGARES PÚBLICOS EN UN
ÁREA METROPOLITANA, AÑO 2022
Política Aprobada
Nivel máximo de Sin restricción Fumar solo en Prohibición para Sin opinión
TOTAL
educación para fumar áreas especiales fumar
Graduado de
10 54 15 6 85
universidad
Graduado de
25 200 40 10 275
preparatoria
Graduado de
35 50 20 20 125
primaria
70 304 75 36 485
TOTAL
¿Es posible concluir a partir de estos datos, que en la población muestreada existe una relación entre el nivel máximo
de educación y la actitud hacia el hábito de fumar en lugares públicos? Sea α= 0.05
10
Problema No 2
Una encuesta entre niños menores de 15 años que vivían en el centro fue clasificada de acuerdo con el grupo étnico y el
nivel de hemoglobina. Los resultados son los siguientes:
Cuadro No 3
ESTUDIO EN MENORESDE 15 AÑOS, CON EL GRUPO ÉTNICO Y EL NIVEL DE HEMOGLOBINA, AÑO 2022.
¿Existe suficiente evidencia para indicar, que con un nivel de significación de 0.05, que las dos variables tienen
relación?
RESPUESTAS
Problema No.1
X² = 54.645 p>0.05
Problema No. 2
X² = 11.45 p>0.05
7
Bibliografía
Correos Electrónicos
c.bioestadistica@Gmail.com
aavendano1964@medicina.usac.edu.gt