Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conceptos y clasificación
CONCEPTOS BÁSICOS
Es importante señalar que la estadística no es una ciencia exacta, por lo tanto, el objetivo de la
estadística no es conocer con exactitud el comportamiento de una variable en la población, sino
obtener aproximaciones fundamentadas, razonables y honestas que, si bien pueden diferir en cierto
grado de la realidad, proporcionan un marco de referencia confiable para la toma de decisiones.
Estadística inferencial:
Es la parte de la estadística que busca identificar asociaciones causales o relaciones entre diferentes
variables de estudio, auxiliándose del uso de herramientas de inferencia e inducción. Esta rama de la
estadística busca, a partir de una serie de parámetros, deducir el comportamiento de las características
de una población estudiada, a partir de datos obtenidos de forma directa o mediante una o varias
muestras; esto quiere decir que no sólo recolecta y resume los datos, sino que busca explicar ciertas
dinámicas a través de la interacción de las variables estudiadas, con base en los datos obtenidos
La estadística es una ciencia que apoya y se aplica en otras disciplinas del quehacer humano, entre
las que podemos mencionar la economía, la administración, la ingeniería, la agronomía, la zootecnia,
el urbanismo y, muy especialmente, las ciencias de la salud. Cuando la estadística se aplica a las
áreas de las ciencias de la vida, donde la variabilidad no es la excepción, sino la regla, recibe la
denominación de bioestadística.
Tomando en cuenta las clasificaciones de la estadística, notarás que existen una serie de conceptos
clave que es necesario abordar:
Población: Es la totalidad de individuos, elementos u objetos que poseen la o las características de
un fenómeno que nos interesa describir, analizar, entender o predecir.
¡Población!
Si se desea determinar la estructura de edades de los habitantes de la Ciudad de México,
la población de estudio estaría constituida por la totalidad de personas vivas que tienen su residencia
en la Ciudad de México; es decir, todos los seres humanos que presentan las dos características de
interés: un tiempo de vida transcurrido desde su nacimiento y su lugar de residencia en la Ciudad de
México.
Muestra: Subconjunto de la población que está conformado por individuos en los que las
características de estudio reflejan, en un escenario ideal, la misma distribución que en la población.
¡Muestra!
De acuerdo con el Censo de Población 2015 del Instituto Nacional de Estadística y Geografía (INEGI),
la Ciudad de México tiene alrededor de 8 918 653 habitantes (más los que hayan nacido o cambiado
su residencia a la CDMX en estos años). Realizar un estudio en la totalidad de individuos de esta
población puede ser un proceso muy largo y complicado, dado el elevado número de elementos que
las constituyen, el área geográfica en la que se distribuyen y el proceso que debe realizarse para
obtener la información. Para evitar que los resultados sean poco pertinentes, dado que pueden llevar
mucho tiempo y recursos, muchos estudios se realizan en un subconjunto de la población, conformado
por individuos en los que las características de estudio reflejan la misma distribución que en la
población.
Como puedes notar, el estudio específico de este problema de salud requiere del estudio de una
población abundante, donde es casi imposible observar la totalidad de los elementos de interés, por lo
que generalmente se analiza sólo una parte representativa de la totalidad. Observa los siguientes
ejemplos de problemáticas de salud, de los que se ha tomado una muestra representativa de una
población determinada para su adecuado estudio:
Ejemplo 1
El equipo formado por la red de expertos en nutrición, que proporciona datos rigurosos sobre los
factores de riesgo de enfermedades no transmisibles, analizó 3000 estudios de más de 100 millones
de adultos para evaluar los cambios en el IMC, entre 1980 y 2000, en 150 países.
Población y muestra
En este ejemplo la población corresponde a los 100 millones de adultos en los que se pretendía
evaluar el cambio de IMC.
La muestra es igual a los 3000 adultos seleccionados para analizar sus estudios, respecto al cambio
de IMC.
Ejemplo 2
De acuerdo con el artículo “La Hipertensión Arterial de la población en México, una de las más altas
del Mundo”, publicado por el Instituto Mexicano del Seguro Social (IMSS), en 2017, uno de cada tres
mexicanos mayores de edad padece hipertensión arterial, enfermedad crónica degenerativa
cardiovascular, que registra 7 millones de casos de los 129.2 millones de habitantes mexicanos y
provoca más de 50 mil muertes al año, por lo que el IMSS invita a sus derechohabientes a realizarse
revisiones preventivas periódicas para detectarla de manera oportuna.
Población y muestra
En este ejemplo la población corresponde a los 129.2 millones de habitantes mexicanos.
La muestra son los 7 millones de personas que padecen de hipertensión arterial.
VARIABLES
Otro elemento fundamental para el estudio detallado de las problemáticas de salud pública, desde la
perspectiva de la estadística descriptiva, son las variables, ya que a partir de ellas podemos observar
o medir características específicas.
Variable: Las características que se estudian dentro de las poblaciones y muestras, al tratarse de
propiedades, características o procesos, pueden adquirir diferentes valores en los individuos o
elementos que conforman la población de estudio.
Dicho de otro modo, cuando una persona o un investigador tiene interés en conocer o estudiar las
características de un determinado proceso o fenómeno, generalmente y dependiendo del enfoque de
estudio, centra su atención en una serie de características inherentes al fenómeno, que le es posible
percibir, estimar, medir o contar. Cada una de estas características, presentes en cada uno de los
elementos de la población a estudiar, son las variables.
En estudios estadísticos, entenderemos como variable a toda aquella característica o propiedad de un
elemento, proceso o fenómeno, al que le puede ser asignado un valor y que fluctúa cuando se mide,
percibe o estima en cada uno de los elementos de la población o muestra.
En estadística, al conjunto de valores posibles que puede adquirir una variable se les
llama modalidades.
De tal forma que una variable puede tener solo 2 valores:
Sí No
Verdadero Falso
Encendido Apagado
0 1
Etcétera…
Otra variable puede tener cinco modalidades, considerando una escala de valores:
Ejemplo 4
La ENSANUT elabora un indicador de estudio acerca de las condiciones de vida de cada individuo de
una población, el índice de condiciones de bienestar, a partir de características de la vivienda, posesión
de bienes y servicios en el hogar.
Variables
Las variables de estudio para este ejemplo son:
1.- La primera variable que se considera es características de la vivienda.
2.- La segunda, posesión de bienes.
3.- La tercera, servicios en el hogar.
4.- La última variable es el índice de condiciones de bienestar.
Ejemplo 5
En un estudio acerca del tabaquismo participaron 200 estudiantes universitarios, donde se
consideraron diversas características demográficas. Como resultados se obtuvieron que el 58 % de
los estudiantes fueron hombres y el 42 % fueron mujeres; el promedio de edad fue de 23 años, el 7.7
% de los estudiantes se encuentran entre los 26 y 30 años, el 45 % de los estudiantes pertenecen a la
Facultad de Ciencias y el resto a la Facultad de Ingeniería; el 60 % son fumadores habituales y el 40
% son fumadores esporádicos.
Variables
Las diversas variables de estudio correspondientes a este ejemplo son:
1.- Variable sexo, se le asocian dos valores (modalidades): Femenino o Masculino.
2.- Variable edad, se vincula con los años que ha vivido cada participante.
3.- A la variable facultad de procedencia, se le relacionan dos valores (modalidades): Facultad de
Ciencias o Facultad de Ingeniería.
4.- Variable tabaquismo, se ligan dos valores (modalidades): fumadores habituales o esporádicos.
En el último ejemplo “Ejemplo 5”, se distinguen variables que reflejan cualidades o cantidades: al
ser estudiantes universitarios, a la variable Edad se le asigna información numérica que va de los 18
años en adelante; por su característica numérica esta variable se puede catalogar como cuantitativa.
Por otro lado, a la variable Condición se le asignó una cualidad o atributo: fumador habitual o
esporádico, por su condición de describir cualidades, a esa variable se le denomina como cualitativa.
TIPOS DE VARIABLES
Como puedes observar, en estadística descriptiva realizamos la clasificación de variables en distintos
tipos.
Cuando una variable adquiere un valor al ser al ser medida o contada, se dice que se trata de una
variable cuantitativa (refiriéndose a cantidades); si, por el contrario, el valor que adquiere se debe a
una característica que puede ser observada, estimada o percibida, puede clasificarse como una
variable cualitativa (refiriéndose a cualidades).
Variable cualitativa
• Expresan sus valores utilizando palabras, frases o categorías para determinar el valor que
adquieren estas variables; es necesario percibirlo o estimarlo.
Por ejemplo:
Nacionalidad: Esta variable adquiere su valor al apreciar una serie de características visibles o
apreciables en los individuos participantes; al ser percibidas y no tener un sentido de orden implícito
(ninguna nacionalidad es más importante que otra).
Como puede apreciar, la clasificación depende de si las características que nos interesa estudiar se
pueden observar, percibir, estimar, contar o medir, en función de esto podemos encontrar algunas
subcategorías de las variables cuantitativas y cualitativas.
En la tabla anterior, la variable peso y la variable estatura son necesarias para determinar el IMC
(kg⁄m^2), lo que permite establecer si el paciente tiene sobrepeso u obesidad.
Nota que los valores peso, estatura e IMC tienen una parte entera y una parte fraccionaria, es decir,
entre dos valores (por ejemplo 89 y 90) existe un número infinito de valores intermedios (89.1,
89.11, 89.321, 89.999, etc.), cuya medida obedece a una escala de medición estandarizada, cuando
se tiene este tipo de variables se dicen que son variables cuantitativas continuas.
Variable cuantitativa continua: Adquiere un valor dentro de un intervalo que puede ser expresado
con una escala que presenta una infinidad de valores intermedios entre dos puntos de medición. Dicho
valor puede registrar un mayor número de subunidades al incrementar la precisión de la medición de
la variable (.777, .7774, .77746, 777465…).
Por su parte, la variable edad (años cumplidos) muestra un conteo del número de años transcurridos
desde el nacimiento, hasta la fecha actual. Observa que el número de años es un número entero y
cuando se tiene esta característica se le llama variable cuantitativa discreta.
Variable cuantitativa discreta: Adquiere un valor que puede expresarse a través de un número
entero, por ejemplo, número de accidentes, cantidad de sillas en un aula, número de alumnos
aprobados, profesores con aula virtual, etc.
Otros ejemplos de variables cuantitativas discretas y continuas, en el área de la salud, pueden ser
los siguientes:
Variables cuantitativas continuas
Estatura de un metro sesenta y dos centímetros, dos milímetros, tres
micrómetros.
• Se toman valores intermedios entre un metro y otro.
• Se registran varias subunidades (centímetros, dos milímetros, tres
micrómetros).
Variable cualitativa nominal: Presenta modalidades que nombran características específicas sin
mostrar una categoría de orden.
En algunos casos, el valor que puede adquirir una característica proviene de una escala de valores no
numéricos, pero que tienen una componente de orden, en este sentido, tendremos una variable
ordinal (proveniente del latín ‘ordinālis’, relativo al “orden”). La principal diferencia entre las variables
cuantitativas y las ordinales radica en que la escala utilizada para asignar el valor, en el caso de
las variables ordinales, no está basada en el uso de unidades, ni las categorías son equidistantes
entre sí.
Variable cualitativa ordinal: Presenta modalidades no numéricas expresadas con un componente
de orden.
Las variables cualitativas también nos permiten acercarnos más al estudio de nuestra problemática de
salud; retomando los parámetros asignados por la Organización Mundial de la Salud (OMS), el
sobrepeso y la obesidad en un adulto, hombre o mujer, se determina según los siguientes valores de
referencia:
• Sobrepeso, si 25 ≤ IMC < 0; es decir, existe sobrepeso si el IMC está en un rango mayor o igual
a 25, pero menor a 30.
• Obesidad, si IMC ≥ 30; es decir, existe obesidad si el IMC es mayor o igual a 30.
A partir de estos valores podemos considerar la variable padecimiento y asignarle alguna de estas
dos modalidades: “Sobrepeso” u “Obesidad”; de acuerdo con los valores de referencia, tienen un
orden. A este tipo de variables se le denomina variable cualitativa ordinal.
Por otro lado, podríamos considerar la variable sexo, que se categoriza como “Hombre” o “Mujer”, las
cuales no tienen una disposición que los obligue a tomar un cierto orden; de este modo es indiferente
la categorización, por lo que a esta variable se le denomina variable cualitativa nominal.
PERSPECTIVA ESTADÍSTICA
Como has observado, para el estudio detallado de las problemáticas de salud: sobrepeso y obesidad,
es indispensable considerar la perspectiva de la estadística descriptiva, retomando elementos clave
que permitan su análisis y seguimiento. Para ello, considera:
Representación De Datos
REPRESENTACIÓN DE DATOS
Para continuar con el estudio de las problemáticas de salud: sobrepeso y obesidad, es necesario poder
identificar cómo abordar los datos y la información que arrojen. Para lograrlo, debemos distinguir entre
estos dos conceptos de suma importancia en estadística: datos e información.
El uso de las tablas es de suma importancia, pues ayuda a minimizar la cantidad de información que
se describe en el texto, evita tener que discutir sobre variables poco significativas y presenta en forma
resumida y visual la información relevante acerca del fenómeno o proceso de estudio, en función de
las variables consideradas.
Los elementos y estructura básica para la construcción de una tabla son:
Título de la tabla
Notas al pie
Fuentes
Título de la tabla: debe hacer una descripción clara y precisa de los datos. Debe responder las
tres preguntas “que”, “donde” y “cuando”. Por ejemplo, índice de masa corporal de estudiantes del
IRC,2019. Este texto da toda la información necesaria para comprender utilizar los daos
correctamente.
Encabezados de las columnas: expuestos en la parte superior de la tabla, deben indicar que
datos hay presentes en cada columna de la tabla y proporcionar la descripción necesaria. Por ejemplo,
grado de estudio, estatura, peso o índice de masa corporal.
Notas al pie: en la parte inferior de la tabla se puede proporcionar cualquier información adicional,
necesaria para comprender y utilizar correctamente los datos. Por ejemplo, definiciones y abreviaturas.
Fuentes: en la parte inferior de la tabla se debe indicar la fuente de los datos, es decir, quien elaboro
los datos, la dirección URL de procedencia y el método de colecta de datos.
Para que las tablas sean efectivas, como parte de un estudio, toma en cuenta las siguientes
recomendaciones:
1. Organiza las variables a representar en filas; la variable que se controla o mide (causa) y, en
columnas, las variables resultado de las observaciones (efecto).
2. Procura que el número de filas y columnas sea el exacto, con el fin de facilitar la localización y
el entendimiento de los números en las tablas.
3. Diseña, de manera discreta y sencilla, tanto el formato, como el título de las tablas, de forma
que la atención se centre en los puntos sustanciales expresados por los datos y no en la
estructura de la tabla.
4. Las tablas se deben presentar en solitario, ya sean publicadas en un informe, un artículo, una
publicación o en una página web.
5. Cada tabla debe incluir los elementos suficientes para su comprensión de forma aislada, de
manera que si un lector la revisa entienda su contenido, independientemente de si ha revisado
el documento o no.
Ahora que conoces un poco más sobre la importancia y la organización de datos, podemos
acercarnos al estudio de las problemáticas de salud pública: sobrepeso y obesidad infantil.
Como ejemplo, para la organización de datos retomemos la revista de divulgación científica y
tecnológica de la Universidad Autónoma de Nuevo León, donde se publicó un artículo acerca
de la prevalencia de sobrepeso y obesidad en escolares de educación básica de Nuevo León,
México. En dicho artículo se obtuvo la siguiente muestra:
• Al momento del estudio había 25 581 escolares, en los tres niveles educativos que conformaban
la población de interés.
• Al visitar las escuelas que corresponden a la zona delimitada del estudio, 714 educandos se
habían dado de baja.
• El día que se obtuvieron los datos del estudio 3263 alumnos no asistieron a clases.
• Por lo tanto, se obtuvieron un total de 21 604 estudiantes examinados.
La distribución por nivel y sexo de los escolares que formaron parte del estudio se presenta en
la Tabla I
Tabla I. Alumnos por género, según nivel de escolaridad:
Hombres Mujeres Total
Para que los gráficos sean pertinentes y efectivos, toma en cuenta las siguientes recomendaciones:
¿Nivel de complejidad?
¿Deseas comparar elementos, mostrar tendencias temporales o analizar relaciones entre los
datos?
Uso correcto de gráficos
Los gráficos presentados son claros, concretos, prácticos y proporcionan información clara del
fenómeno que representan.
Uso incorrecto de gráficos
Estas gráficas son poco prácticas, confusas y brindan información poca clara del fenómeno que
representan.
TIPOS DE GRÁFICOS
Dependiendo del tipo de información que se represente, el público objetivo y la cantidad de datos a
representar, existen diferentes tipos de gráficas, cada una con características propias y mayor utilidad
para ciertos tipos de información; entre las más importantes podemos mencionar:
GRÁFICAS DE BARRAS
Este gráfico consiste en una serie de rectángulos, ubicados por lo general verticalmente, cuya altura
indica la cantidad del elemento en estudio. Son especialmente útiles para comparar diferencias
numéricas entre las distintas modalidades de una variable, también permite comparar dos o más
variables respecto a la ocurrencia de sus modalidades.
GRÁFICO CIRCULAR
También llamado gráfico de pastel, o de sectores, está basado en una circunferencia donde el tamaño
de cada sector (rebanada) está en función del porcentaje que representa cada modalidad de la
variable de estudio. Son especialmente útiles cuando se busca representar diferencias porcentuales
entre las modalidades de una variable.
PICTOGRAMA
Este gráfico es similar al gráfico de barras, con la diferencia de que, en lugar de utilizar rectángulos,
utiliza imágenes relacionadas con la variable que se está representando. Son recomendados cuando
el gráfico está dirigido a personas que no están familiarizadas con datos numéricos y son muy
utilizados en materiales de divulgación.
GRÁFICO DE LÍNEA
Los datos en este tipo de gráfico están representados por puntos unidos por una línea, a lo largo de
una escala de tiempo. Es el típico gráfico que se ve comúnmente en diarios y revistas para representar
tendencias, avance en el tiempo, variaciones económicas, etc. Este tipo de gráfico es ideal cuando lo
que se busca representar es el comportamiento de una o varias variables, a través de un periodo de
tiempo determinado.
Con base en las respuestas a estas interrogantes se obtuvieron las siguientes representaciones
gráficas:
Gráfica 1. Respuestas a la interrogante “a”
¿Cuál de las siguientes instituciones públicas te brinda atención médica?
¿Qué sucederá con el sistema de salud pública durante este sexenio (2018- 2024)?
Este tipo de gráficas (como las que nos ayudaron a representar las repuestas a las interrogantes a y
b) se categorizan como graficas de barras, ya que indican a través de barras la frecuencia de una
categoría.
Gracias a la representación, resumen y acomodo los datos que nos proporciona la Gráfica 3, donde
se muestran los resultados de la interrogante c, podemos observar que nos encontramos frente a
una variable cualitativa que, de acuerdo con la proporción de sus categorías, se puede deducir que:
• El 33 % de la muestra opina que la calidad del sistema de salud pública no es “ni buena ni
mala”.
• El 31 % de los encuestados opina que la calidad del sistema de salud es “mala”.
• El 18 % piensa que es “buena” la calidad de nuestro sistema de salud pública.
A este tipo de grafico (como el que nos ayudó a representar la respuesta a la interrogante c) se le
llama gráfica circular, de pastel o pay, su nombre se relaciona con su forma circular que corresponde
al 100% de la información.
CIERRE
Las gráficas y tablas son herramientas estadísticas indispensables para representar, visualizar o
ilustrar los datos emanados de una problemática de salud pública, ya que nos permiten organizar y
resumir todos los datos que se retoman para el estudio y seguimiento de las diversas situaciones que
se ven involucradas en dichas problemáticas.
Tabla:
Presenta ordenadamente datos (cuantitativos o cualitativos), organizada en filas y columnas, presenta
en forma resumida información acerca del comportamiento de una o más variables.
Gráficos:
Representación visual que muestra rápidamente ciertas tendencias que se pueden estar dando en la
tabla, pero que, al estar agrupadas en solo números, no nos es tan fácil ver.
Gráficas de barras:
Consiste en una serie de rectángulos, cuya altura indica la cantidad del elemento en estudio. Son
especialmente útiles para comparar diferencias numéricas entre las distintas modalidades de una
variable.
Gráfico circular:
También llamado gráfico de pastel, o de sectores, está basado en una circunferencia donde el tamaño
de cada sector (rebanada) está en función del porcentaje que representa cada modalidad de la
variable de estudio.
Pictograma:
Este gráfico es similar al gráfico de barras, con la diferencia de que, en lugar de utilizar rectángulos,
utiliza imágenes relacionadas con la variable que se está representando.
Gráfico de línea:
Los datos en este tipo de gráfico están representados por puntos unidos por una línea a lo largo de
una escala de tiempo. Es el típico gráfico que se ve comúnmente en diarios y revistas para representar
tendencias, avance en el tiempo, variaciones económicas, etc.
FUENTES DE CONSULTA
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. Granada, España:
Facultad de Ciencias de la Educación, Universidad de Granada
García, A. (2008). Estadística aplicada: conceptos básicos (2.ª ed.). Madrid, España: Educación
permanente/Universidad Nacional de Educación a Distancia.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud (2.ª ed.). Editorial Médica
Panamericana, S. A.
Wackerly, D., Mendenhall III, W. y Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México: Cengage learning editores, S. A.
Tema 3.
Frecuencia
FRECUENCIA
Frecuencia: Número de repeticiones del valor de una variable dentro del número total de mediciones
que se realizan en un estudio.
Apliquemos los conceptos anteriores a nuestro problema de salud pública. Retomemos la publicación
acerca de la prevalencia de sobrepeso y obesidad en escolares de educación básica en Nuevo León,
México, artículo que aparece en la revista de divulgación científica y tecnológica de la Universidad
Autónoma de Nuevo León.
Nuevamente, observemos la Tabla I donde se presenta la distribución por “nivel” y “sexo” de los
escolares que formaron parte del estudio.
Escolaridad Núm. %
También podemos realizar una tabla simple asociada a la información recabada para el caso de las
mujeres:
Mujeres
Escolaridad Núm. %
Para realizar un análisis de frecuencia, los valores que toma la variable en estudio deben ordenarse
del valor más bajo al más alto (en el caso de variables cuantitativas u ordinales) o bien, en orden
alfabético (en el caso de variables nominales).
En nuestro ejemplo, la variable “No. de bebidas consumidas semanalmente” tiene seis modalidades,
que deberán ser ordenas de forma ascendente: 5, 6, 7, 8, 9 y 10.
En cualquier caso, al recuperar y organizar los datos para el estudio estadístico de un problema de
salud pública, es importante que en la elaboración de una tabla de frecuencias consideres las
siguientes columnas:
No. de
bebidas
consumidas Frecuencia Frecuencia Frecuencia relativa
semanalmente absoluta acumulada Frecuencia relativa acumulada
5 2 2 2/10 = .20 = 20 % 20 %
6 1 3 1/10 = .10 = 10 % 10 % + 20 % = 30 %
7 2 5 2/10 = .20 = 20 % 20 % + 30 % = 50 %
8 2 7 2/10 = .20 = 20 % 20 % + 50 % = 70 %
9 2 9 2/10 = .20 = 20 % 20 % + 70 % = 90 %
10 1 10 1/10 = .10 = 10 % 10 % + 90 % = 100 %
Frecuencia absoluta: número neto de repeticiones de un valor dentro del conjunto de datos; se
obtiene realizando un conteo directo de los valores que toma la variable dentro del estudio
Frecuencia acumulada: es el numero de repeticiones de un valor, sumando a los valores previos que
aparecen en la tabla; se obtiene añadiendo a la frecuencia del valor actual, las frecuencias de los
valores que aparecen previamente en la tabla.
Frecuencia relativa: es el porcentaje que representa la frecuencia absoluta de un valor respecto al
total de mediciones realizadas; se obtiene dividiendo la frecuencia absoluta entre el numero total de
mediciones en el estudio.
Frecuencia relativa acumulada: representa el porcentaje que se alcanza en un determinado valor
sumado a sus predecesores; se obtiene ordenando los valores de mayor a menor y sumando para
cada valor su frecuencia relativa mas las frecuencias relativas de sus predecesores
FRECUENCIA ABSOLUTA, RELATIVA Y RELATIVA ACUMULADA
Ahora que conoces la estructura y componentes básicos de una tabla de frecuencias, conozcamos
cómo determinar los valores que formarán parte de cada columna.
• Frecuencia absoluta
Como pudiste observar en la tabla de frecuencias anterior, la frecuencia absoluta se refiere a la
cantidad total de veces que aparece un valor dentro de un conjunto de datos; para saber cuál es la
frecuencia absoluta de cada dato, realiza un conteo directo de los valores que toma la variable dentro
del estudio.
• Frecuencia relativa
Observa detenidamente la tabla anterior, nota que en la columna de frecuencia relativa se divide el
valor de frecuencia absoluta entre el total de valores en el estudio (10 estudiantes), de forma que, en
la primera fila se tiene:
2/10 = 0.20
Es posible utilizar este valor; sin embargo, es usual expresar la frecuencia relativa como
un porcentaje, por ello, este valor se multiplica por 100, de forma que tenemos que
Frecuencia relativa = 2 / 10 = 0.20
5 2 20 % 20 %
6 1 10 % 30 %
7 2 20 % 50 %
8 2 20 % 70 %
9 2 20 % 90 %
10 1 10 % 100 %
CLASES O GRUPOS
Cuando el número de datos trabajados en una problemática de salud es pequeño, las tablas de
frecuencia obtenidas son, generalmente, de tamaño pequeño y fáciles de revisar; pero conforme el
número de datos aumenta, las tablas pueden hacerse cada vez más grandes y difíciles de interpretar,
de forma que, si se trabaja, por ejemplo, con 10 000 datos, podemos tener una tabla de frecuencia
directa de varios cientos de filas. Para evitar que las tablas crezcan de manera indiscriminada, en
estadística es usual agrupar los datos de forma que la tabla tenga un número de filas que faciliten su
construcción y, sobre todo, su interpretación. Como regla empírica, una tabla debe tener entre 2 y 20
filas de datos.
Por ejemplo, al realizar una tabla de frecuencia de la edad en años cumplidos de los participantes de
un estudio clínico que recaba datos sobre técnicas diagnósticas y terapéuticas relacionadas con
el sobrepeso y la obesidad, en la que están considerados 100 pacientes, podemos obtener una tabla
como la siguiente:
Edad Frecuencia
18 2
19 4
20 1
21 3
22 4
24 3
25 3
26 2
27 3
28 4
29 3
30 0
31 2
32 4
33 1
34 2
35 3
36 1
37 3
38 0
39 3
40 2
41 3
42 3
43 1
44 2
45 3
46 0
47 1
48 3
49 2
50 2
51 4
52 1
53 1
54 2
55 4
56 2
57 2
58 3
59 4
Edad Frecuencia
60 2
A pesar de que la tabla muestra la forma en que las edades se presentan en los pacientes, existen
filas que tienen valores de cero o uno; además de que la tabla resulta ser larga y difícil de interpretar.
Para facilitar la interpretación de este tipo de tablas, recurrimos al uso de clases o grupos.
Clases o grupos: En estadística, una clase o grupos se define como un conjunto de modalidades (o
valores) en que se divide un conjunto de datos obtenidos de la población o muestra, de forma que la
longitud de clase de cada uno sea exactamente la misma.
El uso de clases permite resumir, de una manera más entendible, un conjunto de datos que contiene
una gran cantidad de modalidades y permite presentar información general descriptiva equivalente.
Para entender mejor esta técnica de análisis es necesario familiarizarse con una serie de conceptos
de suma importancia.
En un conjunto de datos, que se ordena de menor a mayor, el valor más bajo se conoce como límite
inferior, mientras que el más alto se conoce como límite superior. La distancia que existe entre estos
dos valores se conoce como rango.
Matemáticamente, el rango se obtiene restando el valor menor del valor mayor, es decir:
Rango = Límite superior - Límite inferior
101 82
123 34
75 82
12 107
116 118
25 122
28 30
83 115
50 45
92 107
48 40
Valor Valor
60 84
126 118
106 28
99 75
87 54
20 9
108 86
41 89
76 26
49 112
83 70
20 121
58 42
61 130
Nota que el límite inferior es 10 (el valor más bajo) y el límite superior es 130 (el valor más alto), por
lo que el valor del rango se obtiene realizando:
Rango = límite superior - límite inferior
Rango = 130 – 10
Rango = 120
De donde se obtiene que la distancia que separa al valor más alto del más bajo es de 120 unidades.
Rango: Distancia que separa el valor más bajo del más alto del conjunto de datos que se desea
analizar; provee el insumo para calcular el número de clases en que se ha de dividir el conjunto de
datos.
Si en el ejemplo anterior se desea dividir el conjunto en 6 clases, debemos dividir 120 entre 6, es decir:
H= 120/6 = 20
El número de clases se identifica con la letra K; existen diversas formas para definir cuántas clases
se deben considerar, revisemos tres de ellas:
Tablas guía para definir el número de clases:
Una de las formas más comunes para determinar el número de clases, es considerar una tabla guía.
Diversos autores han propuesto tablas para la selección de números de clases; por ejemplo, la
propuesta por Roberto Behar y Pere Grima, la cual propone:
Cantidad de datos Número de clases
20-50 7
50-75 10
75-100 12
Más de 100 15
Otros autores sugieren:
Cantidad de datos Número de clases
0-50 4
50-100 7
100-150 10
150-200 12
Más de 200 14
Donde:
K = Número de clases N = Número de datos
Variables continuas:
adquiere un valor dentro de un intervalo que puede ser expresado con una escala que representa
una infinidad de valores intermedios entre dos puntos de medición. Dicho valor pueden registrar un
mayor numero de subunidades al incrementar la precisión de la medición de la variable (.777, .7774,
.77746, .777465…)
Histograma: Tipo particular de gráfico de barras utilizado para representar las frecuencias
de variables cuantitativas continúas; su principal característica es que las barras se presentan de forma
continua, tocándose los límites de cada una. En este tipo de gráficos se muestran, a través de la
anchura de las barras, los intervalos que reflejan el límite inferior y superior de las clases. A demás, la
altura de cada barra representa la frecuencia relativa de cada categoría.
Los gráficos de barras y los histogramas, aunque aparentemente son muy similares, presentan
características particulares que se especifican a continuación:
Gráfico de barras:
1. Se utiliza para resumir el comportamiento de variables cualitativas ordinales o variables
cuantitativas discretas.
2. En el eje horizontal (eje ‘X’ de las abscisas) se representan las diferentes categorías y sobre él
se levantan unas columnas o barras, cuya altura es proporcional a la frecuencia de cada
categoría, la cual aparece representada en el eje vertical (eje ‘Y’ de las ordenadas).
3. El diagrama de barras es especialmente útil para expresar la magnitud de las diferencias entre
las diferentes modalidades que presenta la variable.
4. Cabe señalar que los diagramas de este tipo NO se emplean para variables cualitativas
nominales.
Histograma
• Gráfico con un significado profundo.
• Representar la frecuencia de variables cuantitativas continuas.
• No es la altura, sino el área de la barra lo que es proporcional a la frecuencia de cada conjunto
de datos.
• Estos conjuntos de datos que dividen de manera homogénea la distribución de valores se
conocen como intervalo.
• Todas las áreas están juntas y el punto medio es el que da el nombre al intervalo.
• Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre
tendrán un área mayor aquellos intervalos con mayor frecuencia.
Los histogramas son de suma utilidad para el estudio de problemáticas de salud pública, pues resumen
y muestran en forma de gráfica los resultados de las tablas de frecuencia, haciendo evidentes los
valores más altos y bajos de la distribución; además, permiten comparar frecuencias de diferentes
clases dentro del estudio. Por ejemplo, en una de las secciones que componen el estudio ENSAUT se
realizó un estudio de sobrepeso y obesidad en niños de entre 6 y 17 años, de donde resulta el siguiente
histograma.
Observa el histograma e interpreta la información que arroja, tratando de resolver las siguientes
preguntas:
a. ¿Cuál es el peso más frecuente?
b. ¿Cuál es el peso menos frecuente?
c. ¿Cuál es el peso más alto encontrado?
d. ¿Cuál es el peso más bajo?
e. ¿Cuántos grupos (clases) se consideraron en la construcción del histograma?
Como te habrás dado cuenta con el ejemplo anterior, si un histograma está construido correctamente
provee de información útil, aunque no conozcamos el contexto detallado del proceso que aborda. Por
ello, debe incluir datos completos en su estructura:
• Título del gráfico
• Título de los ejes
• Unidades de medida
• Fuente de los datos (tiempo y lugar de procedencia de los datos)
A estos elementos se les conoce como documentación de la gráfica y consiste en incluir la
información suficiente para su correcta interpretación.
DESARROLLO DE HISTOGRAMAS
Al realizar un histograma es importante que consideres algunos puntos básicos para su desarrollo:
• Paso 1
Realizar el acopio (colecta) de datos que se van a analizar, ya sea a través de cuestionarios,
mediciones directas o consulta de otras fuentes (bases de datos, historias clínicas, estudios
previos, etc.).
• Paso 2
Determinar el rango. Recuerda que el rango se define como la resta entre el valor más alto con
el valor más bajo de los existentes en el conjunto de datos obtenido.
• Paso 3
Determinar el número de clases que ha de considerar el histograma. Una clase se define como
un subconjunto de elementos (generalmente del mismo tamaño) en los que se dividen los datos
ordenados provenientes de la población o muestra y que presentan características comunes.
• Paso 4
Determinar el intervalo o amplitud de clase. Para determinar la amplitud de clase debemos
dividir el rango entre el número de clases (K), definido en el paso anterior. Si se obtiene un
número decimal, se debe redondear al entero superior más cercano.
• Paso 5
Definir las clases. Una vez que se tiene el rango, el número de clases (K), el límite inferior de
clase y el intervalo de clase (h) se procede a determinar las clases. Se toma el valor más
pequeño de la distribución y se le suma la amplitud de clase (h). Se repite la operación tantas
veces como número de clases se tenga.
• Paso 6
Elaborar una tabla de frecuencia con base en los intervalos de clase definidos, esto es, se deben
agrupar los datos en la clase que les corresponda, de acuerdo con su valor. Esta operación
dará como resultado la frecuencia de cada clase.
• Paso 7
Construir el histograma:
• En el eje x ubica los intervalos de clase.
• En el eje y ubica la frecuencia.
• Traza un rectángulo cuyo lado izquierdo sea el límite inferior de clase, el lado derecho
el límite superior de clase y la altura esté dada por la frecuencia de clase.
• Paso 8
Interpretar el histograma. Analiza aspectos como la tendencia, la variabilidad y la forma de
distribución de los datos.
Es momento de aplicar este proceso a nuestro problema de salud pública, para ello, consideremos
algunos datos antropométricos recuperados de un estudio dirigido a estudiantes de primaria donde se
obtuvieron los siguientes datos:
Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg)
1 23 26 24 51 41 76 36
2 54 27 43 52 17 77 46
3 55 28 43 53 36 78 35
4 27 29 34 54 39 79 48
5 54 30 20 55 32 80 39
6 41 31 29 56 29 81 44
7 38 32 41 57 32 82 31
8 30 33 36 58 36 83 21
9 52 34 47 59 59 84 35
10 32 35 18 60 46 85 20
11 41 36 32 61 26 86 40
Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg)
12 39 37 54 62 59 87 54
13 34 38 54 63 23 88 53
14 54 39 53 64 38 89 20
15 39 40 52 65 24 90 33
16 16 41 53 66 34 91 30
17 59 42 35 67 41 92 25
18 43 43 29 68 44 93 43
19 50 44 54 69 23 94 27
20 22 45 47 70 42 95 58
21 31 46 30 71 32 96 29
22 19 47 28 72 57 97 33
23 47 48 59 73 33 98 41
24 43 49 54 74 59 99 45
25 42 50 42 75 36 100 32
• Paso 1:
Para determinar el rango, ubica el valor más bajo (16) y el valor más alto (59>), una vez hecho
esto, obtén el rango resolviendo la ecuación:
Rango = Límite superior - Límite inferior
Rango = 59 -16
Rango = 43
• Paso 2
Determina el número de clases:
• Considerando la técnica de tablas guía para determinar el número de clases,
tendríamos 12 clases.
• Considerando la técnica de raíz cuadrada, tendríamos:
• Paso 4
Primera clase = 16 + 6 = 22
Segunda clase = 22 + 6 = 28
Tercera clase = 28 + 6 = 34
Cuarta clase = 34 + 6 = 40
Quinta clase = 40 + 6 = 46
Sexta clase = 46 + 6 = 52
Séptima clase = 52 + 6 = 58
Octava clase = 58 + 6 = 64
• Paso 5
• Paso 6
El trazo del histograma con los datos obtenidos en la tabla es:
• Paso 7
Interpreta los datos:
1. ¿Cuál es la clase que tiene un mayor número de representantes?
2. ¿Cuál es la clase que tiene menos?
3. ¿Cuáles serían los pesos menos frecuentes en la muestra?
4. ¿Cuáles serían los pesos más frecuentes?
5. ¿Qué información adicional puedes interpretar analizando detenidamente el histograma?
Con el fin de validar la importancia y función de esta herramienta gráfica en el estudio y resolución de
problemas de salud pública, te invitamos a visualizar otro ejemplo de la aplicación del histograma en
una afección muchas veces emanada del sobrepeso y la obesidad: diabetes tipo II.
La diabetes, según la OMS, es una enfermedad crónica que se desarrolla cuando el páncreas no
produce insulina suficiente o cuando el organismo no es capaz de utilizar eficazmente la que produce.
El sobrepeso y la obesidad son dos padecimientos que facilitan el desarrollo de la diabetes tipo II,
agravando el problema de salud pública. Según proyecciones de la OMS, para 2030 la diabetes será
la séptima causa de mortalidad a nivel mundial, en la página “México, principales causas de mortalidad,
1938-2017” publican información histórica correspondiente a todas las casusas de muerte en México,
en particular se tiene la siguiente gráfica sobre la causa de muerte por diabetes durante los sexenios
presidenciales de 1935 hasta 2018, donde el último sexenio corresponde a cifras estimadas.
Ranking, mortalidad, fin de sexenio por diabetes mellitus, tasa por 100 m habitantes [gráfica].
CIERRE
En resumen, las tablas de frecuencia son una de las herramientas de análisis exploratorio de datos
que debemos aplicar, en primer término, para describir el comportamiento de las variables de interés
en un estudio tipo estadístico, enfocado en problemáticas de salud pública.
El resultado de este análisis permitirá comprender y visualizar mejor las características de la población,
así como identificar los valores que más se presentan en la distribución, el valor más alto y el más
bajo.
Una tabla de frecuencia, además, proporcionará información útil para la toma de decisiones y proveerá
los insumos para el cálculo de estadísticas más complejas que permitan entender el fenómeno
estudiado.
Frecuencia:
Número de repeticiones del valor de una variable dentro del número total de mediciones que se
realizan en un estudio.
Tabla de frecuencia:
Representan el comportamiento de una sola variable de estudio, por lo que algunos autores también
les otorgan la denominación de tablas simples.
Frecuencia absoluta:
Número neto de repeticiones de un valor dentro del conjunto de datos; se obtiene realizando un conteo
directo de los valores que toma la variable dentro del estudio.
Frecuencia relativa:
Es el porcentaje que representa la frecuencia absoluta de un valor respecto al total de mediciones
realizadas; se obtiene dividiendo la frecuencia absoluta entre el número total de mediciones en el
estudio.
Frecuencia relativa acumulada:
Representa el porcentaje que se alcanza en un determinado valor sumado a sus predecesores; se
obtiene ordenando los valores de mayor a menor y sumando para cada valor su frecuencia relativa
más las frecuencias relativas de sus predecesores.
Límite superior:
En un conjunto de datos que se ordena de menor a mayor, el valor más alto se conoce como límite
superior.
Límite inferior:
En un conjunto de datos que se ordena de menor a mayor, el valor más bajo se conoce como límite
inferior.
Rango:
La distancia que existe entre límite inferior y límite superior de un conjunto de datos.
Clases o grupos:
En estadística, una clase o grupo se define como un conjunto de modalidades (o valores) en que se
divide un conjunto de datos obtenidos de la población o muestra, de forma que la longitud de clase de
cada uno sea exactamente la misma.
Intervalo de clase:
Se define como intervalo a la distancia que existe entre el límite superior e inferior de una clase; se
identifica con la con la letra h.
Histograma:
Tipo particular de gráfico de barras utilizado para representar las frecuencias de variables cuantitativas
continúas, siendo su principal característica que las barras se presentan de forma continua, tocándose
los límites de cada una. En este tipo de gráficos se muestran, a través de la anchura de las barras,
los intervalos que reflejan el límite inferior y superior de las clases. A demás, la altura de cada barra
representa la frecuencia relativa de cada categoría.
Documentación gráfica:
Información pertinente para la correcta interpretación de un gráfico:
1.- Título del gráfico
2.- Título de los ejes
3.- Unidades de medida
4.- Fuente de los datos (tiempo y lugar de procedencia de los datos)
FUENTES DE CONSULTA
Bibliografía
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. Granada, España:
Facultad de Ciencias de la Educación, Universidad de Granada.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud. (2.ª ed.). Editorial Médica
Panamericana, S. A.
García, A. (2008). Estadística aplicada: conceptos básicos (2.ª ed.). Madrid, España: Educación
permanente / Universidad Nacional de Educación a Distancia.
Wackerly, D., Mendenhall III, W. y Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México: Cengage Learning Editores, S. A.
Sitios electrónicos
Encuesta Nacional de Salud y Nutrición (ENSAUT) (2012). [Página web]. Consultado
de https://ensanut.insp.mx/
Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. Consultado el 16 de febrero
de 2018 de: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight
Tema 4.
Fuente: https://ensanut.insp.mx/encuestas/ensanut100k2018/descargas.php
Los datos de antropometría que utilizaremos para el estudio de nuestra problemática de salud son
el peso medido en kilogramos de una muestra constituida por de 20 personas representantes de
diferentes regiones del país: zona norte, zona centro y zona sur de la República mexicana.
PESO REGION
167.2 2
83.9 2
102.5 1
83.9 1
83.9 1
74.8 4
74.8 4
90.85 4
128.7 2
74.8 2
74.8 2
102.5 1
74.8 1
83.9 2
74.8 2
74.8 2
90.85 4
90.85 1
102.5 2
74.8 2
74.8 2
83.9 2
Fuente: https://ensanut.insp.mx/encuestas/ensanut100k2018/descargas.php
Donde las variables son:
• PESO. Medida en kilogramos.
• REGION. Categorizada en: 1 representa el Norte
2 representa el Centro
4 representa el Sur
Los datos de la tabla anterior se trabajarán en su forma original, es decir, sin orden, tal cual como
fueron extraídos para así obtener información directa de ellos; a esta forma de tratarlos se le
denomina Datos no agrupados. Para comenzar a trabajar en ellos organicemos los datos recopilados
en una tabla de frecuencia:
Conteo Peso Frecuencia
• Paso 5
• Paso 6
Elaborar una tabla de frecuencia. Ya definidas las clases, podemos proceder a calcular las
frecuencias de cada clase, con lo que tenemos:
Intervalo de Frecuencia Frecuencia Frecuencia relativa
Clase clase absoluta relativa acumulada
1 0 - 13.9 1657 9.62% 9.62%
2 13.9 - 27.8 3208 18.63% 28.25%
3 27.8 - 41.7 1765 10.25% 38.49%
4 41.7 - 55.6 3038 17.64% 56.13%
5 55.6 - 69.5 3805 22.09% 78.22%
6 65.9 - 83.4 2429 14.10% 92.32%
7 83.4 - 97.3 900 5.23% 97.55%
8 97.3 - 111.2 288 1.67% 99.22%
9 111.2 - 125.1 65 0.38% 99.60%
10 125.1 – 139.0 12 0.07% 99.67%
11 139.0 - 152.9 3 0.02% 99.69%
12 152.9 - 166.8 0 0.00% 99.69%
13 166.8 - 180.7 1 0.01% 99.69%
14 180.7 - 194.6 0 0.00% 99.69%
15 194 - 208.5 0 0.00% 99.69%
16 208 - 222.4 53 0.31% 100.00%
• Paso 7
Es usual que, en tablas de frecuencia de datos agrupados, cada una de las clases se identifiquen
por su centro de clase, el cual se obtiene de la siguiente manera:
De forma que, para la Clase 1 con intervalo de 0 kg a 13.9 kg, el centro de clase está definido por:
Y así sucesivamente.
• Paso 8
La tabla de frecuencias considerando centros de clase quedaría así:
Como puedes advertir, el tiempo invertido para realizar esta tabla puede ser muy alto, aún más si se
realiza de forma manual, además, la información que provee es valiosa pero limitada. Por lo que, para
poder interpretar eficazmente todos esos números es necesario aplicar una serie de cálculos
numéricos simples que nos permitan resumir numéricamente las características de este tipo de
conjunto de datos. Dichos cálculos sencillos y eficaces, reciben el nombre de:
• Medidas de tendencia central
• Medidas de dispersión
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central definen un punto central en torno al cual se concentra el conjunto
de los datos. Las medidas de tendencia central más utilizadas son:
Media: Resultado de la suma de todos los valores numéricos dividido entre el número total de datos,
en otras palabras, es el promedio aritmético de los valores.
Mediana: Dato que ocupa en lugar central de un conjunto ordenado de valores (ascendente o
descendente), tanto a su izquierda como a su derecha se encuentra el 50 % de los datos.
Moda: Dato de mayor frecuencia, el que más se repite en el conjunto de datos.
Media
La media (se expresa como 𝒙 ̅ ) es el promedio aritmético del conjunto de datos, puede obtenerse
siempre y cuando se trabaje con variables cuantitativas.
Para obtener la media debemos obtener la suma de todos los valores numéricos asociados a cada
dato y dividirlos entre el número total de datos.
Supongamos que tenemos datos y son los valores numéricos correspondientes a cada uno de esos
datos, entonces la media aritmética se expresa como:
La expresión anterior se puede representar de forma compacta utilizando la notación sigma, es decir:
Sigma:
signo matemático que significa o representa una sumatoria
Retomando los datos del peso de 20 personas obtenidos de la muestra del cuestionario aplicado por
ENSANUT 2018, obtengamos la media aritmética:
Sustituyendo los valores en la expresión matemática de la media, se tiene:
Es posible obtener la media partiendo de una tabla de frecuencias, para ello debemos realizar el
siguiente procedimiento:
Empleando el procedimiento para cálculo de la media a partir de una tabla de frecuencia organizada
en clases, se tiene:
1 45.5
2 52.5
3 40.0
4 50.0
5 51.5
6 55.5
7 60.0
8 42.5
9 57.0
10 56.5
11 58.0
Supongamos que, en ese mismo conjunto de datos, el tercer valor en lugar de ser 40.0 kg fuera 150,
en ese caso tendríamos:
MEDIANA
La mediana se define como el dato central de un conjunto ordenado de valores (ascendente o
descendente).
Retomando los datos de nuestro ejemplo anterior, y de acuerdo al procedimiento para obtener
la mediana, ordenemos de forma ascendente el conjunto de datos:
Valor 40.0 42.5 45.5 50.0 51.5 52.5 55.5 56.5 57.9 58.0 60.0
Posición 1 2 3 4 5 6 7 8 9 10 11
↑
En este ejemplo, la mediana que es el dato que se ubica en el centro del conjunto de datos es el
número 52.5, que se ubica en la sexta posición.
Como puedes observar, los datos pueden variar, pero la mediana sigue correspondiendo al dato que
ocupa la posición central (la sexta posición en el ejemplo), es decir, la mediana depende de la
posición central y no del valor de los datos, con lo que podemos afirmar que no es sensible a valores
extremos.
Para determinar la mediana existen dos posibilidades:
1. Si la cantidad de datos es impar, como en el ejemplo anterior, la mediana es el valor
intermedio que queda después de ir descartando los valores que van quedando en los
extremos.
2. Si la cantidad de datos es par, la mediana es el promedio de los dos valores que ocupan las
posiciones centrales del conjunto ordenado de datos, si tuviéramos solamente 10 datos
tendríamos:
Valor 40.0 42.5 45.5 50.0 51.5 52.5 55.5 56.5 57.9 58.0
Posición 1 2 3 4 5 6 7 8 9 10
↑ ↑
En este caso, los datos que ocupan las posiciones centrales son 51.5 y 52.5 (posiciones 5 y 6 en el
arreglo ordenado de valores), por lo que se procede a calcular el promedio de los dos para obtener la
mediana, es decir:
𝒏
Cuando el número de datos es par y por lo tanto el resultado de es un número entero, se aplica la
𝟐
fórmula:
Por ejemplo:
Si se tiene un conjunto de 10 datos, aplicamos el algoritmo y fórmula correspondientes:
Al tener un número entero, el valor de la mediana está dado por:
En este caso, debemos localizar el dato que ocupa la posición 5, sumarle el dato que ocupa la posición
6 y al resultado dividirlo entre dos.
𝒏
Cuando el número de datos es impar y por lo tanto el resultado de es un número fraccionario, se
𝟐
aplica la fórmula:
Por ejemplo:
Si tenemos un conjunto de 11 datos, aplicamos el algoritmo y fórmula correspondientes:
Lo que indica que debemos consultar el dato que ocupa la sexta posición para conocer el valor de la
mediana.
Nuevamente podemos corroborar que el cálculo de la mediana depende solamente de los valores
centrales del conjunto de datos.
Realicemos el cálculo de la mediana con los datos del peso de 20 personas obtenidos de
la muestra del cuestionario aplicado por ENSANUT 2018:
Ordenados de forma ascendente
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
En este caso la cantidad de datos es par, n = 20 por lo que:
La mediana será el promedio de los dos valores centrales (dato en posición 10 y dato en posición
11), sustituyendo valores tenemos:
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
↑ ↑
Sustituyendo valores en la ecuación:
Moda
En estadística, se conoce como moda al dato que tiene la mayor frecuencia, es decir, el dato que
más se repite en el conjunto de datos. Cabe señalar que, coloquialmente, cuando existe una canción
que es escuchada por un amplio sector de la población, una prenda o color de ropa que es utilizado
por la mayor parte de la gente o existe un dispositivo que usa un amplio sector de la población, se
utiliza la expresión “está de moda”, haciendo referencia a que es un evento de alta frecuencia en la
población.
Con base en la tabla de frecuencias correspondiente a los datos (peso) de la muestra de 20 personas
que retomó ENSANUT 2018, a través del cuestionario previamente explorado, obtengamos la moda:
Peso (x) Frecuencia (f)
74.8 7
83.9 5
102.5 1
90.85 3
102.5 3
128.7 1
167.2 1
Total 20
Observa que para obtener la moda se debe determinar el dato con mayor frecuencia, en este caso la
frecuencia más alta es de 7 y su dato asociado es de 74.8 kg. Por lo tanto, la moda = 74.8.
Frecuentemente podemos encontrar conjuntos de datos en los que se presentan varios datos que se
repiten más que los demás, cuando esto se presenta, se dice que se tienen poblaciones o muestras
multimodales, es decir, que tienen varias modas.
• Cuando un conjunto de datos tiene dos modas, se dice que es bimodal.
• Si un conjunto de datos tiene tres modas, se le llama trimodal.
• Con cuatro modas tendremos un tetramodal.
• Si tiene cinco el conjunto es pentamodal y así, sucesivamente.
• Cabe señalar que cuando se tienen más de tres modas, se llama al conjunto de
datos multimodal de forma genérica.
Si tomamos los datos ENSANUT 2018 correspondientes al peso de la misma muestra de 20 personas,
tenemos las tres medidas de tendencia central representadas en la siguiente gráfica:
En este caso la media y mediana están a la derecha de la moda, por lo que nuestros datos
están sesgados a la derecha, sesgo positivo. Nota que las medidas están en donde se agrupan la
mayor concentración de datos, por eso su nombre de medidas de tendencia central.
MEDIDAS DE DISPERSIÓN
Así como existen medidas estadísticas que nos indican la forma en que los datos se concentran en
torno a un valor central de la distribución, existen medidas que nos indican la forma en que los datos
se dispersan del valor de la media o de la mediana o de la moda, a estas medidas se les conoce
como medidas de dispersión.
Medidas de dispersión:
Nos indican que tan dispersos o alejados están los datos respecto del centro de la distribución.
El rango tiene como principal característica que para determinarlo sólo considera los valores extremos,
es debido a esto que, al igual que la media, es sensible a la presencia de valores extremos (mediciones
atípicas inusualmente altas o bajas).
Si recurrimos al ejemplo de peso en Kg, aportado por la muestra de personas que se ha recuperado
de la encuesta ENSANUT 2018, tenemos las tres medidas de tendencia central representadas en el
siguiente ejemplo:
Ordenados de forma ascendente
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
Donde:
xmáx = 167.2
xmín =74.8
Percentiles
Un percentil es una medida que da idea de la distribución porcentual de los datos en un conjunto
ordenado. Si identificamos el percentil con la letra P, podemos afirmar que el percentil P indica el valor
en que a la izquierda se localiza el P % de los datos del conjunto, es decir, si buscamos el percentil 10
(P10 o P 10 %) buscamos un valor debajo del cual se localice el 10 % de los datos del conjunto; si se
busca el percentil 34 (P34 ó P 34 %) se busca el valor debajo del cual encontramos el 34 % de los
datos y, por ejemplo, si buscamos el percentil 90, debemos encontrar el valor debajo del cual se
encuentre el 90 % de los datos.
Pareciera una tarea complicada, sin embargo, existe un algoritmo que nos permite ubicar la posición
de cualquier percentil P entre 0 y 100. Para ello tenemos que resolver la siguiente ecuación:
Al resolver la ecuación, podemos tener dos escenarios:
a. Obtener un valor i entero: En este caso, el percentil buscado es el resultado del promedio
de los valores de los datos ubicados en las posiciones i e i+1
b. Obtener un valor i fraccionario: En este caso la posición del percentil está dada por
el entero inmediato superior al valor obtenido de i.
Valor i entero:
Promedio de los valores de los datos ubicados en las posiciones i e i+1
Por ejemplo:
Ubiquemos el percentil 35 de un conjunto ordenado de 240 datos, la posición del percentil 35
(P35) estaría dada por:
Como obtuvimos un valor entero, el percentil 35 estaría dado por el promedio de los valores ubicado
en la posición 84 y 85 (84 +1) del conjunto de datos, es decir:
Valor i fraccionario:
El entero inmediato superior al valor obtenido de i.
Por ejemplo:
Supongamos que buscamos el percentil 10 de un conjunto ordenado de 15 datos, la posición del
percentil 10 (P10) estaría dado por:
Como es un número fraccionario, redondeamos al entero inmediato superior, con lo que tenemos
La posición del percentil 10 (P10) se localiza en el elemento que ocupa la posición 2 del conjunto
ordenado de datos.
Cuartiles
Son un conjunto especial de percentiles, se caracterizan por dividir en cuatro partes iguales el
conjunto ordenado de datos. Esto quiere decir que cada cuartil contiene aproximadamente el 25 % de
los valores que conforman el conjunto de datos. Debido a que cada percentil de este tipo contiene
la cuarta parte de los datos analizados, se les conoce con el nombre de cuartiles.
Los cuartiles se identifican de la siguiente manera:
• Q1 = Primer cuartil = Percentil 25 = P25
• Q2 = Segundo cuartil = Percentil 50 = P 50 = mediana
• Q3 = tercer cuartil = percentil 75 = P 75
• Q4 = Cuarto cuartil = percentil 100 = P100
El tercer cuartil (P75) corresponde al valor ubicado en la posición 53 del arreglo de datos.
Para reforzar la obtención de estas medidas de dispersión, tomemos como ejemplo el siguiente
conjunto de datos constituido por un número par:
Datos 20 35 50 23 42 28 44 30 31 31 35 49 40 26 43 29 44 48 23 23
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Obtengamos los cuartiles:
Observar si los datos están ordenados: En este caso, como no hay un orden, es necesario
ordenar el conjunto de valores:
Datos 20 23 23 23 26 28 29 30 31 31 35 35 40 42 43 44 44 48 49 50
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
P = 25 y n = 20, sustituyendo:
Como obtuvimos un número entero, tenemos que:
P = 50 y n = 20, sustituyendo:
P = 75 y n = 20, sustituyendo:
Paso 6: Resultados
Q1 = P25 = 27
Q2 = P50 = MEDIANA = 33
Q3 = P75 = 43.5
Q4 = P1
0 = 50
Con la finalidad de continuar reforzando conocimientos y practicar para obtener medidas de dispersión,
trabajemos ahora con un conjunto de datos con número impar de elementos:
Datos 20 35 50 23 42 28 44 30 31 31 35 49 40 26 43 29 44 48 23 23 55
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Observar si los datos están ordenados: En este caso, como no hay un orden, es necesario
ordenar el conjunto de valores:
Datos 20 23 23 23 26 28 29 30 31 31 35 35 40 42 43 44 44 48 49 50 55
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
El primer cuartil (Q1) tiene el valor del elemento que ocupa la posición 6 del conjunto ordenado
de datos, esto quiere decir que:
Q1 = P25 = 28
El segundo cuartil (Q2) tiene el valor del elemento que ocupa la posición 11 del conjunto
ordenado de datos, esto quiere decir que:
Q2 = P50 = 35
El tercer cuartil (Q3) tiene el valor del elemento que ocupa la posición 16 del conjunto ordenado
de datos, esto quiere decir que:
Q3 = P75 = 44
Paso 6: Resultados
Q1 = P25 = 28
Q2 = P50 = 35
Q3 = P75 = 44
Q4 = P100 = 55
RANGO INTERCUARTÍLICO
El rango intercuartílico se define como el intervalo contenido entre el primer y tercer cuartil, es
decir, es la distancia que separa a Q1 de Q3. Esta medida de dispersión de los datos permite conocer
los valores entre los cuales se localiza el 50 % de los valores centrales del conjunto de datos,
omitiendo el 50 % de datos extremos. Entre más pequeño el rango intercuartílico, los datos tienden a
concentrarse respecto de la media y mediana, entre más grande los datos tienden a estar alejados de
la media y la mediana; en este último caso se dice que existe dispersión de los datos.
El rango intercuartílico es una medida de la dispersión de datos que resulta menos sensible a la
presencia de valores extremos, por lo que resulta especialmente útil pare definir los valores
atípicos, que son esencialmente los que se ubican por debajo del primer cuartil y por encima
del tercero.
Conociendo el valor de los cuartiles, el rango Intercuartílico (denotado como RI o IQR del inglés Inter
Quartilic Range) se calcula:
Y gráficamente estaría ubicado:
Además, nos indica que desde el valor 27 hasta el valor 43.5 se encuentran contenidos el 50 % de
los datos agrupados cercanos a la mediana.
Varianza
La varianza de un conjunto de valores es una medida de variación total del conjunto de datos
respecto de la media. Como hemos podido apreciar, la variación de los datos respecto de la media se
da en dos sentidos, los que son menores y los que son mayores. Las diferencias menores tienen signo
negativo, mientras que las mayores, tienen signo positivo.
Si sumáramos las diferencias de forma directa, se presentaría un efecto de amortiguamiento, pues
cantidades positivas se verían reducidas por cantidades negativas, lo que impediría apreciar la
variabilidad total del conjunto de datos.
Para evitar la presencia del efecto de amortiguamiento, se elevan las diferencias de cada valor al
cuadrado, con lo que tenemos varias ventajas:
a. El resultado siempre es positivo.
b. Las diferencias pequeñas al elevarse al cuadrado se vuelven más pequeñas.
c. Las diferencias grandes, al elevarse al cuadrado, se vuelven más evidentes.
d. Permite obtener una medición de la variabilidad total del conjunto de datos; mientras más
grande sea la varianza, el conjunto de datos será más disperso. Por el contrario, si la varianza es más
pequeña, el conjunto de datos tenderá a ser homogéneo y a presentar poca variabilidad.
La varianza puede obtenerse a partir de los datos de una población (en cuyo caso se representa
con s2) o a partir de los datos de una muestra (en cuyo caso se representa con una S2).
1 76
2 98
3 74
4 87
5 115
6 119
7 94
8 54
9 104
10 119
Para poder determinar la varianza es necesario saber si los datos corresponden a trata una muestra
o población. Por el número de elementos, entendemos que se trata de una muestra, a menos que
existiera un planteamiento o indicación de que se trata de una población.
Para poder aplicar la fórmula correspondiente, será necesario determinar el valor de n y la media.
Ya que el conjunto de datos que tenemos está conformado por 10 valores, sabemos que n =10.
Determinemos el valor de la media:
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
Representación gráfica
A partir de la tabla de frecuencias de los pesos obtenidos de la muestra de 20 personas ENSANUT
2018 obtendremos dos representaciones gráficas, las más usuales a partir de la tabla de frecuencias:
Peso (x) Frecuencia (f)
74.8 7
83.9 5
90.85 3
102.5 3
128.7 1
167.2 1
Total 20
A partid ella, construimos el histograma:
• El eje “x” de nuestra gráfica será representada por nuestra variable “peso”, en nuestro caso las
categorías son variables cuantitativas, 74.8, 83.9, 90.85, etcétera.
• El eje “y” de nuestra gráfica será representada por la frecuencia de cada categoría, es decir, la
altura de nuestra barra será la frecuencia.
Así nuestra representación gráfica es la siguiente:
Donde nos indica que el 35% del total de la muestra pesan 74.8 y el 25% pesan 83.9.
Otro ejemplo de nuestra grafica circular es retomando la variable región de la muestra de 20 personas
de la zona norte, centro y sur de la república mexicana. Recordemos los datos recuperados de dicha
muestra:
PESO REGION
167.2 2
83.9 2
102.5 1
83.9 1
83.9 1
74.8 4
74.8 4
90.85 4
128.7 2
74.8 2
74.8 2
102.5 1
74.8 1
83.9 2
PESO REGION
74.8 2
90.85 4
90.85 1
102.5 2
74.8 2
83.9 2
2 Centro
2 Centro
1 Norte
1 Norte
1 Norte
4 Sur
4 Sur
4 Sur
2 Centro
2 Centro
2 Centro
1 Norte
1 Norte
2 Centro
2 Centro
4 Sur
1 Norte
PESO REGION
2 Centro
2 Centro
2 Centro
Al observar la gráfica podemos observar que de la muestra obtenida el 50% provienen del Centro, el
20% proviene del Sur y el 30% del Norte.
CIERRE
Al trabajar problemas de salud pública con datos no agrupados, es indispensable visualizar las medias
de tendencia central y medidas de dispersión con la finalidad de analizar el comportamiento de dichos
datos y así visualizar la información que arrojan. Al visualizar el comportamiento de los datos respecto
a su ubicación y tendencia podemos establecer referencias para realizar un análisis e interpretación
que nos permita la toma de decisiones informada y justificada para favorecer la solución o disminución
de dichos problemas de salud.
Para utilizar adecuadamente estás herramientas, recuerda aplicar las fórmulas apropiadas y tener
presente sus definiciones y características.
Datos no agrupados
Conjunto de datos que no ha recibido un tratamiento estadístico, por lo que no se encuentran
agrupados ni clasificados. Se presenta su valor individual en orden aleatorio
Media
Resultado de la suma de todos los valores numéricos dividido entre el número total de datos. Promedio
aritmético de los valores. Para su cálculo se aplica cualquiera de estas dos fórmulas:
Mediana
Dato que ocupa en lugar central de un conjunto ordenado de valores (ascendente o descendente),
tanto a su izquierda como a su derecha se encuentra el 50 % de los datos.
𝒏
Posición de la mediana =
𝟐
Cuando el número de datos es par y por lo tanto el Cuando el número de datos es
𝒏 impar y por lo tanto el resultado
resultado de es un número entero, se aplica la 𝒏
𝟐 de es un número fraccionario, se
fórmula: 𝟐
aplica la fórmula:
Moda
Dato de mayor frecuencia, el que más se repite en el conjunto de datos.
Distribución de frecuencias
Medidas de dispersión
Nos indican que tan dispersos o alejados están los datos respecto del centro de la distribución.
Las medidas de dispersión más comunes en estadística descriptiva son:
Rango
Rango intercuartílico
Varianza
Desviación estándar o desviación típica
Rango
en un conjunto de valores es la diferencia entre el valor máximo y el valor mínimo.
rango = xmáx - xmín
Percentiles
Una medida que da idea de la distribución de porcentajes de los datos en un conjunto ordenado.
Promedio de los valores de los datos ubicados en las El entero inmediato superior al valor
posiciones i e i+1 obtenido de i.
Cuartiles
Se caracterizan por dividir en cuatro partes iguales el conjunto ordenado de datos. Son un conjunto
especial de percentiles.
Se calculan utilizando la fórmula para percentiles considerando que:
• Q1 = Primer cuartil = Percentil 25 = P25
• Q2 = Segundo cuartil = Percentil 50 = P 50 = mediana
• Q3 = tercer cuartil = percentil 75 = P 75
• Q4 = Cuarto cuartil = percentil 100 = P100
Rango intercuartílico
Intervalo contenido entre el primer y tercer cuartil, es decir, es la distancia que separa a Q_1 de Q_3.
Varianza
Medida de variación total del conjunto de datos respecto de la media.
σ2 S2
El cálculo de la varianza poblacional se realiza a través El cálculo de la varianza
de la siguiente ecuación: muestral está dado por:
Desviación estándar
Medida de variación de los valores respecto a la media aritmética. Raíz cuadrada de la varianza.
FUENTES DE CONSULTA
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. (c. Batanero, & c.
Díaz, eds.) Granada, España: Facultad de Ciencias de la Educación, Universidad de Granada.
Encuesta Nacional de Salud Y Nutrición (ENSAUT) (2012). https://ensanut.insp.mx/
García, A. (2008). Estadística aplicada: conceptos básicos (2a edición ed.). Madrid, España:
Educación permanente / Universidad Nacional de Educación a Distancia.
Wackerly, D., Mendenhall iii, W., Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México, D.F., México: Cengage learning editores, S.A.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud. 2ª edición. Editorial Médica
Panamericana, S.A.
Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. 16/02/2018, de OMS Sitio
web: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight
Tema 5.
El estudio de problemas de salud pública en muchas ocasiones nos remite al trabajo con una cantidad
relativamente pequeña de datos (hasta 50 o 100 datos), bajo esta circunstancia se realiza un
tratamiento estadístico para datos no agrupados. Pero muchos de los estudios realizados en el área
de las ciencias de la salud, específicamente en el área de salud pública, se realizan en poblaciones
muy grandes, incluso existen muestras donde la cantidad de datos involucrados pueden ser cientos o
miles. Cuando se trabaja con grandes cantidades de datos, estos se agrupan en clases y se siguen
técnicas que permiten el cálculo de los estadísticos descriptivos (tendencia central y dispersión) que
en conjunto se conocen como técnicas de análisis de datos agrupados .
Lo primero que debemos hacer para poder trabajar con datos agrupados , es construir es una tabla
de frecuencias , a la cual se le llamará “tabla de frecuencias agrupadas”, estás tablas se usan para
resumir grandes cantidades de datos y facilitar el cálculo de las medidas de tendencia central y de
dispersión.
Cuando se construye una tabla de frecuencias agrupada, es necesario considerar colocar todos los
elementos que la constituyen:
Nombre de la Frecuencia Frecuencia Frecuencia Marca de
variable absoluta relativa Acumulada clase
(Intervalo de clase) 𝒇𝒌 𝒇𝒓𝒌 𝒇𝒂𝒌 𝑴𝑪𝒌
[a1, a2)
[a2, a3)
⋮
[ak, ak+1)
Entendemos que el valor extremo 11 está incluido en el intervalo y el valor extremo 16 queda
excluido.
Observamos que el valor extremo 16 está incluido y el 21 queda excluido. A este tipo de clases se
les llama abierta por la izquierda y cerrada por la derecha.
Además de la correcta notación, recuerda que para definir los intervalos de clase puedes seguir estos
sencillos pasos:
• Identifica el valor mínimo (xmin) y máximo (xmax) de los datos observados.
• Define el número total de intervalos de clases mediante el criterio de la Regla de Sturges,
trabajada en temas anteriores y cuya fórmula es:
k = 𝟏 + 𝟑.𝟑𝟐𝟐𝒍𝒐𝒈(𝒏)
Después de determinar el número de clases será necesario calcular la amplitud de intervalo (h) el
cual se obtiene mediante la fórmula:
h = 21.3 = 3.0428 ≈ 𝟒
7
Con esta amplitud (4), que considera el redondeo del resultado al entero inmediato superior, los
intervalos de clase quedarían:
Clase Intervalo de clase
1 18.73 a 22.73
2 22.73 a 26.73
3 26.73 a 30.73
4 30.73 a 34.73
5 34.73 a 38.73
6 38.73 a 42.73
7 42.73 a 46.73
En este caso, la última clase excede por completo el valor máximo, esto se debe que el valor decimal
está mucho más cercano al entero inferior que al superior. En estos casos es preferible redondear a
dos decimales, considerando la décima y centésima más cercanos al valor obtenido, en este ejemplo
tendríamos:
Como puedes notar, este arreglo de clases distribuye de mejor manera los valores en el número de
clases y asegura que el valor máximo esté contenido en la última clase. Con lo que podemos
armamos los intervalos de la siguiente manera:
Observa que al obtener el k intervalo, [ak , ak+1], el valor ak+1 debe ser igual o mayor, necesariamente,
al valor observado Xmax..
Una vez construidos los intervalos, los datos observados se condensarán en cada intervalo
de clase que le corresponda y se calculará el punto medio de cada clase , o sea la marca de clase o
centro de clase (MCk , ), la cual se obtiene resolviendo la ecuación:
Retomando nuestra problemática de salud, recurramos un caso en el que una nutrióloga desea
conocer el número de días que pasan para que al menos 19 de sus pacientes reduzcan su peso en
2kg, para lo cual, cuenta con la siguiente tabla:
Intervalo de clase Frecuencia
(# dias) absoluta
[1 - 3) 1
[3 - 5) 8
[5 - 7) 10
[7 - 9) 9
De acuerdo con la tabla, los intervalos de clase representan el número de días que tardaron los
pacientes observados en bajar 2kg. Por ejemplo:
• Sólo un paciente tardó de 1 a 3 días en bajar 2kg.
• 8 pacientes tardaron de 3 a 5 días en bajar 2kg.
• 10 pacientes necesitaron de 5 a 7 días para poder bajar 2kg.
• Finalmente, sabemos que 9 pacientes tardaron de 7 a 9 días en bajar 2kg.
El interés de la nutrióloga es verificar en cuántos días, 19 de sus pacientes, bajaron los 2kg y para
ello necesitamos sumar la frecuencia de esa misma clase y de las frecuencias que la preceden, esto
es, obtener la frecuencia acumulada. Obtengamos la frecuencia acumulada de nuestro ejemplo.
Frecuencia Frecuencia
Intervalo de clase (# dias)
absoluta acumulada
[1 - 3) 1 1
[3 - 5) 8 1+8=9
[5 - 7) 10 1+8+10=19
[7 - 9) 9 1+8+10+9=28
Para dar tratamiento a estos datos construiremos primero la tabla de frecuencias agrupadas, para
ello, será necesario seguir estos pasos:
Número de clases:
• Aplicando la Regla de Sturges, determina el número total de intervalos que se consideraran:
k = 1 + 3.322 log(n)
h = 84 - 15 = 69 = 9.8571 ≈ 10
7 7
h = 10
• Construcción de intervalos
La construcción de los intervalos se realiza tomando en cuenta la agrupación de los datos en
7 clases, cada una de ellas con una amplitud de clase igual a 10, por lo que los intervalos que
obtenemos son:
Para validar si la amplitud de clase es adecuada, verificamos que el valor máximo esté
contenido en la última clase, matemáticamente, podemos escribirlo como:
Lo que significa que, el valor máximo, que es igual a 84, pertenece a la clase con el intervalo
que va del 75 al 85. Por lo tanto, la amplitud de clase resulta pertinente.
Frecuencia relativa
• Recuerda que para calcular la frecuencia relativa, es necesario aplicar la fórmula:
Nota: cuando se dice "cumplidos", significa que 15 años se incluye en el intervalo; mientras
que al decir "antes de cumplirlos”, indica que 65 años queda excluido en el intervalo.
• Determinación de frecuencia relativa acumulada
• Para calcular la frecuencia relativa acumulada que representa el porcentaje que se alcanza en
un determinado valor sumado a sus predecesores; se retoman los valores de la
columna Frecuencia relativa ordenandos y se va sumando para cada valor su frecuencia
relativa más las frecuencias relativas de sus predecesores.
• Cuando agregamos la columna, frecuencia relativa acumulada, tenemos como resultado la
siguiente tabla:
Frecuencia
Frecuencia Frecuencia
Frecuencia relativa
Clase Intervalos absoluta acumulada
relativa (fr) acumulada
(f) (fa)
(fra)
1 [15, 25) 3 6% 3 6%
2 [25, 35) 3 6% 6 12%
3 [35, 45) 13 26% 19 38%
4 [45, 55) 20 40% 39 78%
5 [55, 65) 3 6% 42 84%
6 [65, 75) 4 8% 46 92%
7 [75, 85) 4 8% 50 100%
Total: 50
Las medidas de tendencia central que abordaremos cuando se tiene una serie de datos agrupados
son las mismas que se trabajaron en el tema anterior (para datos no agrupados), es decir:
• Media aritmética
• Mediana
• Moda
Recuerda que las medidas de tendencia central ayudan a tener un parámetro que proporciona
información sobre el centro de distribución o centro de gravedad, o sea el punto imaginario de equilibrio
de la distribución que como su nombre indica, se encuentra a la mitad del conjunto de datos.
Para reafirmar este procedimiento repitamos el mismo proceso con un ejemplo más simple retomado
de pacientes diagnosticados con diabetes:
Frecuencia
Frecuencia Marca de
# Intervalos Frecuencia Frecuencia relativa
acumulada clase MC * f
Intervalos de clase absoluta (f) relativa (fr) acumulada
(fa) (MC)
(fra)
1 [15,25) 3 6% 3 6% 20 60
2 [25, 35) 3 6% 6 12% 30 90
3 [35, 45) 13 26% 19 38% 40 520
4 [45, 55) 20 40% 39 78% 50 1,000
5 [55, 65) 3 6% 42 84% 60 180
6 [65, 75) 4 8% 46 92% 70 280
7 [75, 85) 4 8% 50 100% 80 320
Total: 50 100% Total: 2,450
En esta muestra de 50 pacientes, se puede observar que la edad promedio de los pacientes con
diabetes es de 49 años.
Medidas de tendencia central: mediana
Otra medida de tendencia central que nos permite conocer el comportamiento de los datos obtenidos
es la mediana de datos agrupados. De la misma forma que calculamos la media aritmética para
datos agrupados, podemos obtener el valor de la mediana aun cuando ésta se encuentre agrupada
en clases.
Antes de dar paso al cálculo de la mediana, definamos para cada intervalo de clase [ak , ak+1] lo
siguiente:
• L= ak , el límite inferior de la clase.
• U = a(k+1) el límite superior de la clase.
• Rk = U — L el rango, expresado como la diferencia entre el límite superior y el límite inferior de
la clase.
Una vez definidos los valores anteriores, calculamos la mediana aplicando la siguiente fórmula:
Total 50
Como puedes observar, ambas opciones para identificar en qué clase está contenida
la mediana dieron como resultado la clase 4, que corresponde al intervalo [45, 55). Así que, puedes
elegir la opción que se te facilite más, ambas son correctas.
• Una vez ubicada la clase que contiene a la mediana obtén los elementos necesarios para el
cálculo de la fórmula correspondiente a la mediana:
o Lk = límite inferior del intervalo de clase (k).
▪ En nuestro caso, el límite inferior del intervalo [45, 55) es L4 = 45
o ƒak - 1 = frecuencia acumulada anterior a la clase donde se ubica la mediana.
▪ En nuestro caso, el k=4, entonces ƒa4-1 = 19
o ƒk = frecuencia de la clase donde se ubica la mediana.
▪ En nuestro caso, el k=4, entonces la frecuencia ƒ4 = 20
o Rk = rango del intervalo de clase donde se ubica la mediana.
▪ R4 = U4 - L4 = 55 - 45 = 10
• Una vez obtenidos los valores, sustituimos en la fórmula:
• Por lo tanto, en la muestra de 50 personas diagnosticadas con diabetes, la edad que divide al
conjunto de datos en dos partes iguales corresponde a Me = 48.
Ahora calculemos la mediana para el ejemplo correspondiente a la tabla Distribución por grupos
de edad de la población.
Para calcular la mediana, recuerda seguir estos pasos:
1. Localizar en la tabla clase que contiene a la mediana: en este caso corresponde a la clase
8 cuyo intervalo va de 35 a 40 años, ya que tiene una frecuencia relativa acumulada igual a
52.86 % (al no aparecer explícitamente el 50%, recuerda tomar el valor porcentual superior
más cercano).
R 8 = U 8 - L 8 = 40 - 35 = 5
7. Una vez identificados los elementos necesarios, procedemos a aplicar la fórmula para el
cálculo de la mediana para datos agrupados:
Para conocer cómo es preciso hallar la moda en un conjunto de datos agrupados, recuperemos el
problema de salud de nuestro interés (sobrepeso y obesidad) y los ejemplos previamente trabajados.
Comencemos por el estudio de 50 pacientes diagnosticados con diabetes.
• Identifica la clase modal. Busca el intervalo de clase con la frecuencia más alta.
• Sombrea en la tabla el intervalo de clase con mayor frecuencia, que en este caso corresponde
al intervalo [45,55) posicionándonos en el número de intervalo k = 4.
# Intervalos Intervalos de clase Frecuencia (fr) (fa)
1 [15,25) 3 6% 3
2 [25, 35) 3 6% 6
3 [35, 45) 13 26% 19
4 [45, 55) 20 40% 39
5 [55, 65) 3 6% 42
6 [65, 75) 4 8% 46
# Intervalos Intervalos de clase Frecuencia (fr) (fa)
7 [75, 85) 4 8% 50
Total: 50 100%
• Lk será el límite inferior del intervalo de clase con mayor frecuencia absoluta k. En nuestro
caso, el límite inferior del intervalo [45, 55) es L4 = 45
• ƒk corresponde a la frecuencia del intervalo de clase k, clase modal. Si k = 4, entonces ƒ4 = 20
• ƒ(k-1) corresponde a la frecuencia anterior del intervalo de clase k, clase modal. Si k = 4,
entonces ƒ(4-1) = 13
• ƒ(k+1) corresponde a la frecuencia posterior del intervalo de clase k, clase modal. Si k = 4,
entonces ƒ(4+1) = 3 y
• Rk, será el rango del intervalo de clase donde está la clase de la mediana.
R4 = U4 - L4 = 55 - 45 = 10
Nota. Si la clase modal corresponde al primer intervalo, entonces ƒ (k-1) = 0. Si la clase modal está en
el último intervalo, entonces ƒ(k+1) = 0
Al obtener los elementos necesarios, podemos aplicar la fórmula correspondiente para determinar
la moda de nuestro conjunto de datos agrupados:
Por lo que el valor de la moda, considerando una distribución unimodal, correspondiente a 47.92
Sabemos que se trata de una distribución con una sola moda (unimodal) debido a que únicamente
una clase es la que tiene la frecuencia absoluta más alta, si existieran dos clases con el mismo valor
de frecuencia absoluta y estos fueran los más altos, tendremos que calcular la moda para cada
caso y asumiríamos una distribución bimodal, si hubiera tres clases con la frecuencia absoluta más
alta y de igual valor, se calcularían tres modas y asumiríamos una distribución trimodal y así
sucesivamente.
Retomemos la Tabla. Distribución por grupos de edad de la población para practicar el cálculo de
la moda en un grupo de datos mucho más amplio. Comencemos por identificar los elementos
indicados para aplicar la fórmula:
1) Identifica si existe una o varias clases modales con el mismo valor de frecuencia absoluta,
en este caso la clase modal solo es una y corresponde a la Clase 5, con intervalo 20 – 25.
Distribución por grupos de edad de la población Ciudad X
Grupo de Frecuencia Centro de Frecuencia Frecuencia Frecuencia relativa
Clase
edad absoluta clase relativa acumulada acumulada
1 0-5 43969 2.5 4.2 43969 4.2
2 5 - 10 48040 7.5 4.59 92009 4.2
3 10 - 15 53102 12.5 5.07 145111 13.86
4 15 - 20 72077 17.5 6.89 217188 20.75
5 20 - 25 88006 22.5 8.41 305194 29.15
6 25 - 30 84858 27.5 8.11 390052 37.26
7 30 - 35) 84440 32.5 8.07 474492 45.33
8 35 - 40 78868 37.5 7.53 553360 52.86
9 40 - 45 72634 42.5 6.94 625994 59.8
10 45 - 50 69840 47.5 6.67 695834 66.47
11 50 - 55 65948 52.5 6.3 761782 72.77
12 55 - 60 50673 57.5 4.84 812455 77.61
13 60 - 65 57869 62.5 5.53 870324 83.14
14 60 - 70 54981 67.5 5.25 925305 88.39
15 70 - 75 46981 72.5 4.49 972286 92.88
16 75 - 80 74526 77.5 7.12 1046812 100
Población 1046812 100
total
Total: 50 100%
2) Identifica el valor del límite inferior de la clase que contiene la moda (o clase modal), en
este caso tenemos que L5 = 20
3) Identifica el valor de la frecuencia absoluta de la clase muestral, en este caso tenemos
que F5 = 88,006
4) Identifica la frecuencia absoluta de la clase anterior a la clase modal, en este caso se trata
de la clase (5-1), o sea Clase 4, con intervalo de 15 a 20, lo que nos devuelve un valor
de 72,077.
5) Toma la frecuencia absoluta de la clase posterior a la clase modal, en este caso se trata de
la clase (5 + 1), o sea la Clase 6, con intervalo de 25 a 30, lo que nos da un valor de 84,858.
Como la clase modal no es ni la primera ni la última, proseguimos con el algoritmo.
6) Finalmente, tomamos el valor del rango, dado por:
R5 = U5 - L5 = 25 - 20 = 5
Ahora, sustituyamos valores en la fórmula:
S2 = (1/n – 1) ∑ki=1 ƒ i ( MC i - x̅ )2
Mientras que la desviación estándar se obtiene como la raíz cuadrada de la varianza,
matemáticamente se expresa como:
Por lo que al calcular la varianza, obtenemos de inmediato la desviación estándar al calcular la raíz
cuadrada del valor obtenido.
• Posteriormente MCk - x̅ se eleva al cuadrado y una vez elevado al cuadrado se multiplica por su
frecuencia y así obtenemos la suma total.
3 (35,45) 13 40 -9 81 1053
4 (45,55) 20 50 1 1 20
Total: 10650
Nota: Observa que al elevar al cuadrado todos los signos negativos desaparecen y así, es posible
estimar valores de dispersión efectivos.
Varianza: 217.35
Una vez obtenida la varianza, para calcular la desviación estándar, solo es necesario obtener la
raíz cuadrada de dicho resultado:
Ya que esta tabla corresponde a una los datos emanados de una población, es importante que la
notación de las fórmulas es:
• 3) Agrega otra columna en la que eleves al cuadrado los valores obtenidos en la columna MC
- µ:
Frecuencia
Grupo de Frecuencia Frecuencia Frecuencia Centro de
Clase relativa MC-µ (MC-µ)2
edad absoluta relativa acumulada clase
acumulada
1 0-5 43969 4.2 43969 4.2 2.5 -37.34 1394.2756
2 5-10 48040 4.59 92009 8.79 7.5 -32.34 1045.8756
3 10-15 53102 5.07 145111 13.86 12.5 -27.34 747.4756
4 15-20 72077 6.89 217188 20.75 17.5 -22.34 499.0756
5 20-25 88006 8.41 305194 29.15 22.5 -17.34 300.6756
6 25-30 84858 8.11 390052 37.26 27.5 -12.34 152.2756
Frecuencia
Grupo de Frecuencia Frecuencia Frecuencia Centro de
Clase relativa MC-µ (MC-µ)2
edad absoluta relativa acumulada clase
acumulada
7 30-35 84440 8.07 474492 45.33 32.5 -7.34 53.8756
8 35-40 78868 7.53 553360 52.86 37.5 -2.34 5.4756
9 40-45 72634 6.94 625994 59.8 42.5 2.66 7.0756
10 45-50 69840 6.67 695934 66.47 47.5 7.66 58.6756
11 50-55 65948 6.3 761782 72.77 52.5 12.66 160.2756
12 55-60 50673 4.84 812455 77.61 57.5 17.66 311.8756
13 60-65 57869 5.53 870324 83.14 62.5 22.66 513.4756
14 65-70 54981 5.25 925305 88.39 67.5 27.66 765.0756
15 70-75 46981 4.49 972286 92.88 72.5 32.66 1066.6756
16 75-80 74526 7.12 1046812 100 77.5 37.66 1418.2756
Población 1046812 100
total
Grupo Frecuencia
Frecuencia Frecuencia Frecuencia Centro
Clase de relativa MC-µ (MC-µ)2 f-(MC-µ)2
absoluta relativa acumulada de clase
edad acumulada
1 0-5 43969 4.2 43969 4.2 2.5 -37.34 -37.34 1394.275
Ya que estos datos provienen de una población, dividimos entre n (recuerda que si los datos
provienen de una muestra, se debe dividir entre n – 1). Entonces:
Varianza: 468.23
Para obtener la desviación estándar de este conjunto de datos agrupados, una vez calculada la
varianza, basta con obtener su raíz cuadrada, entonces:
Obtengamos el histograma para las edades en los que fueron diagnosticados de diabetes:
Podemos también obtener el histograma con las frecuencias relativas, observa que no varía con
respecto al anterior.
Al observar detenidamente ambos histogramas, podrás darte cuenta que las medidas de tendencia
central se agrupan en el centro en el histograma. Por lo tanto, nuevamente podemos aseverar para
este caso, que en promedio, fue a la edad de 49 años cuando los pacientes fueron diagnosticados
con diabetes.
Cierre
Para resumir este tema anterior, hagamos un repaso rápido de los conceptos y fórmulas de cálculo
más importantes:
• Desarrollo de la tabla de frecuencias agrupadas
• Determinar número de clases, rango , amplitud de clase y marca de clase
• Determinar frecuencias (absoluta, relativa, acumulada, relativa acumulada)
• Medidas de tendencia central (media, mediana y moda)
• Medidas de dispersión (varianza y desviación estándar)
La tabla de frecuencias agrupadas es una herramienta que permite resumir grandes cantidades
de datos para , facilitará el cálculo de las medidas de tendencia central y de dispersión. La tabla
presenta la siguiente estructura:
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. (c. Batanero, & c.
Díaz, eds.) Granada, España: Facultad de Ciencias de la Educación, Universidad de Granada.
García, A. (2008). Estadística aplicada: conceptos básicos (2a edición ed.). Madrid, España:
Educación permanente / Universidad Nacional de Educación a Distancia.
Wackerly, D., Mendenhall iii, W., Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México, D.F., México: Cengage learning editores, S.A.
Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. 16/02/2018, de OMS Sitio
web: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight