Está en la página 1de 122

Tema 1.

Conceptos y clasificación
CONCEPTOS BÁSICOS

De forma cotidiana, médicos y enfermeros deben poner en práctica diversos conocimientos y


habilidades que les permitan atender de forma íntegra a los pacientes, con el fin de favorecer su calidad
de vida y evitar enfermedades. Un aspecto fundamental para que los profesionales de la salud logren
este propósito, es identificar los problemas de salud pública a los que se enfrentan actualmente.
Para acercarnos a dichas problemáticas de salud y contribuir a su cura, tratamiento y prevención, en
este módulo nos apoyaremos en la estadística descriptiva, ciencia que coadyuva a recolectar,
organizar, analizar e interpretar datos de interés emanados de una situación específica.
Para comenzar a trabajar con la estadística aplicada a las ciencias de la salud, definamos qué es la
estadística:
Estadística: ”Ciencia encargada de la colecta, acopio, organización, procesamiento, presentación e
interpretación de datos obtenidos de una muestra, con el objeto de describir su composición, entender
su estructura y emitir predicciones, considerando su comportamiento previo, con cierto grado de
certeza”.

Es importante señalar que la estadística no es una ciencia exacta, por lo tanto, el objetivo de la
estadística no es conocer con exactitud el comportamiento de una variable en la población, sino
obtener aproximaciones fundamentadas, razonables y honestas que, si bien pueden diferir en cierto
grado de la realidad, proporcionan un marco de referencia confiable para la toma de decisiones.

Según el alcance que tenga, la estadística se divide de la siguiente forma:


Estadística descriptiva:
Es la parte de la estadística que se dedica a describir el comportamiento de las variables dentro
de una muestra o población y a presentar de manera resumida (en tablas o gráficas), de forma
cuantitativa (medible), las características estudiadas, con base en el acopio de datos obtenidos de
un proceso de colecta de información.

Estadística inferencial:
Es la parte de la estadística que busca identificar asociaciones causales o relaciones entre diferentes
variables de estudio, auxiliándose del uso de herramientas de inferencia e inducción. Esta rama de la
estadística busca, a partir de una serie de parámetros, deducir el comportamiento de las características
de una población estudiada, a partir de datos obtenidos de forma directa o mediante una o varias
muestras; esto quiere decir que no sólo recolecta y resume los datos, sino que busca explicar ciertas
dinámicas a través de la interacción de las variables estudiadas, con base en los datos obtenidos
La estadística es una ciencia que apoya y se aplica en otras disciplinas del quehacer humano, entre
las que podemos mencionar la economía, la administración, la ingeniería, la agronomía, la zootecnia,
el urbanismo y, muy especialmente, las ciencias de la salud. Cuando la estadística se aplica a las
áreas de las ciencias de la vida, donde la variabilidad no es la excepción, sino la regla, recibe la
denominación de bioestadística.

Tomando en cuenta las clasificaciones de la estadística, notarás que existen una serie de conceptos
clave que es necesario abordar:
Población: Es la totalidad de individuos, elementos u objetos que poseen la o las características de
un fenómeno que nos interesa describir, analizar, entender o predecir.

¡Población!
Si se desea determinar la estructura de edades de los habitantes de la Ciudad de México,
la población de estudio estaría constituida por la totalidad de personas vivas que tienen su residencia
en la Ciudad de México; es decir, todos los seres humanos que presentan las dos características de
interés: un tiempo de vida transcurrido desde su nacimiento y su lugar de residencia en la Ciudad de
México.

Muestra: Subconjunto de la población que está conformado por individuos en los que las
características de estudio reflejan, en un escenario ideal, la misma distribución que en la población.

¡Muestra!
De acuerdo con el Censo de Población 2015 del Instituto Nacional de Estadística y Geografía (INEGI),
la Ciudad de México tiene alrededor de 8 918 653 habitantes (más los que hayan nacido o cambiado
su residencia a la CDMX en estos años). Realizar un estudio en la totalidad de individuos de esta
población puede ser un proceso muy largo y complicado, dado el elevado número de elementos que
las constituyen, el área geográfica en la que se distribuyen y el proceso que debe realizarse para
obtener la información. Para evitar que los resultados sean poco pertinentes, dado que pueden llevar
mucho tiempo y recursos, muchos estudios se realizan en un subconjunto de la población, conformado
por individuos en los que las características de estudio reflejan la misma distribución que en la
población.

Pongamos otro ejemplo:


Se desea realizar un estudio de los hábitos de estudio de los alumnos del Instituto de Estudios
Superiores de la Ciudad de México “Rosario Castellanos”, para lo cual se aplica un cuestionario a 200
estudiantes de cada uno de los turnos (matutino, vespertino y nocturno), de cada uno de los campus
del instituto (Gustavo A. Madero, Coyoacán y Azcapotzalco).
La población de estudio está conformada por el total de individuos que cumplen las características del
estudio, en este caso tener la condición de alumnos y estar inscritos en el instituto; en el ejemplo
tendríamos 13 860 personas que reúnen esas dos características de interés que definen a la población
de estudio.
La muestra está conformada por 1800 alumnos, de los que 600 pertenecen a cada campus (200 turno
matutino, 200 vespertino y 200 nocturno).
EL PROBLEMA: EJEMPLOS DE POBLACIÓN Y MUESTRA
Para iniciar con la aplicación de la estadística descriptiva, como ciencia de apoyo en la resolución de
problemáticas de salud pública, retomemos una de las principales contrariedades a las que se enfrenta
el sector salud: el sobrepeso y la obesidad, hoy catalogadas como uno de los principales enemigos de
la salud, por lo que requieren de un urgente análisis, vigilancia y control.

En México, el último informe (2018) de la Encuesta Nacional de Salud y Nutrición (ENSANUT),


documenta que, desde 1980 a la fecha, el sobrepeso y la obesidad se han triplicado, nuestro país, por
lo tanto, según la Organización para la Cooperación y Desarrollo Económicos (OCDE), ocupe el
segundo lugar con estos padecimientos.
Un 70 % de la población de adultos mexicanos tiene un IMC por arriba de lo recomendado; 7 de cada
10 adultos; 4 de cada 10 adolescentes y 1 de cada 3 niños presentan alguno de estos dos
padecimientos crónicos (sobrepeso u obesidad), colocando a nuestro país en primer lugar en obesidad
infantil, de acuerdo con el Fondo de las Naciones Unidad para la Infancia (UNICEF).
El diagnóstico de estas enfermedades parte de los rangos determinados por el IMC, el cual estima la
cantidad de grasa en el cuerpo.
Las principales causas por las que se desarrolla el sobrepeso y la obesidad refieren al consumo de
alimentos de alto contenido energético y poca o nula actividad física. Desafortunadamente, estos
padecimientos son los principales factores de riesgo para desencadenar enfermedades
cardiovasculares, problemas respiratorios, diabetes tipo II y baja autoestima.

Como puedes notar, el estudio específico de este problema de salud requiere del estudio de una
población abundante, donde es casi imposible observar la totalidad de los elementos de interés, por lo
que generalmente se analiza sólo una parte representativa de la totalidad. Observa los siguientes
ejemplos de problemáticas de salud, de los que se ha tomado una muestra representativa de una
población determinada para su adecuado estudio:

Ejemplo 1
El equipo formado por la red de expertos en nutrición, que proporciona datos rigurosos sobre los
factores de riesgo de enfermedades no transmisibles, analizó 3000 estudios de más de 100 millones
de adultos para evaluar los cambios en el IMC, entre 1980 y 2000, en 150 países.
Población y muestra
En este ejemplo la población corresponde a los 100 millones de adultos en los que se pretendía
evaluar el cambio de IMC.
La muestra es igual a los 3000 adultos seleccionados para analizar sus estudios, respecto al cambio
de IMC.

Ejemplo 2
De acuerdo con el artículo “La Hipertensión Arterial de la población en México, una de las más altas
del Mundo”, publicado por el Instituto Mexicano del Seguro Social (IMSS), en 2017, uno de cada tres
mexicanos mayores de edad padece hipertensión arterial, enfermedad crónica degenerativa
cardiovascular, que registra 7 millones de casos de los 129.2 millones de habitantes mexicanos y
provoca más de 50 mil muertes al año, por lo que el IMSS invita a sus derechohabientes a realizarse
revisiones preventivas periódicas para detectarla de manera oportuna.
Población y muestra
En este ejemplo la población corresponde a los 129.2 millones de habitantes mexicanos.
La muestra son los 7 millones de personas que padecen de hipertensión arterial.

VARIABLES
Otro elemento fundamental para el estudio detallado de las problemáticas de salud pública, desde la
perspectiva de la estadística descriptiva, son las variables, ya que a partir de ellas podemos observar
o medir características específicas.
Variable: Las características que se estudian dentro de las poblaciones y muestras, al tratarse de
propiedades, características o procesos, pueden adquirir diferentes valores en los individuos o
elementos que conforman la población de estudio.

Dicho de otro modo, cuando una persona o un investigador tiene interés en conocer o estudiar las
características de un determinado proceso o fenómeno, generalmente y dependiendo del enfoque de
estudio, centra su atención en una serie de características inherentes al fenómeno, que le es posible
percibir, estimar, medir o contar. Cada una de estas características, presentes en cada uno de los
elementos de la población a estudiar, son las variables.
En estudios estadísticos, entenderemos como variable a toda aquella característica o propiedad de un
elemento, proceso o fenómeno, al que le puede ser asignado un valor y que fluctúa cuando se mide,
percibe o estima en cada uno de los elementos de la población o muestra.
En estadística, al conjunto de valores posibles que puede adquirir una variable se les
llama modalidades.
De tal forma que una variable puede tener solo 2 valores:
Sí No
Verdadero Falso
Encendido Apagado
0 1
Etcétera…
Otra variable puede tener cinco modalidades, considerando una escala de valores:

Nunca - Casi nunca - Frecuentemente - Casi siempre - Siempre

O se puede tener una escala de calificaciones que va de 0 a 10, teniendo 11 modalidades:


0 1 2 3 4 5 6 7 8 9 10

Y también se podría tener la variable “Estados de la República Mexicana”, con 32 modalidades:


Aguascalientes Baja California Norte Baja California Sur Campeche
Chiapas Chihuahua Ciudad de México Coahuila de Zaragoza
Colima Durango Estado de México Guanajuato
Guerrero Hidalgo Jalisco Michoacán
Morelos Nayarit Nuevo León Oaxaca
Puebla Querétaro Quintana Roo San Luis Potosí
Sinaloa Sonora Tabasco Tamaulipas
Tlaxcala Veracruz Yucatán Zacatecas

Revisa algunos ejemplos de variables, correspondientes a problemáticas de salud nacional:


Ejemplo 3
En el artículo “La Hipertensión Arterial de la población en México, una de las más altas del Mundo”, se
señala que los factores de riesgo que contribuyen al desarrollo de hipertensión tienen que ver con el
estilo de vida, tales como consumo de alimentos con exceso de sal y grasas, ingesta de alcohol,
consumo de tabaco, estrés mal controlado, sedentarismo, obesidad, sobrepeso, edad y antecedentes
familiares.
La hipertensión arterial, según este estudio, se define como la elevación constante de la presión en
los vasos sanguíneos; mientras más alta es, más trabajo efectúa el corazón para bombear con
eficiencia la sangre en el organismo.
Se explica, además, que la presión sistólica (alta) es igual o superior a 140 milímetros de mercurio,
unidad de medida para la presión; y la diastólica (baja), igual o superior a 90 milímetros de mercurio.
Sin los niveles normales de presión, será deficiente el funcionamiento de órganos vitales como
corazón, cerebro y riñones.
Variables
Variables de interés:
Presión sistólica: en personas con presión arterial normal corresponde 120 mm de hg; cuando es
igual o supera los 140 mm de hg, se considera alta.
Presión diastólica: en personas con presión normal corresponde a 80 mm; cuando supera los 90
hg, se considera alta.

Ejemplo 4
La ENSANUT elabora un indicador de estudio acerca de las condiciones de vida de cada individuo de
una población, el índice de condiciones de bienestar, a partir de características de la vivienda, posesión
de bienes y servicios en el hogar.
Variables
Las variables de estudio para este ejemplo son:
1.- La primera variable que se considera es características de la vivienda.
2.- La segunda, posesión de bienes.
3.- La tercera, servicios en el hogar.
4.- La última variable es el índice de condiciones de bienestar.

Ejemplo 5
En un estudio acerca del tabaquismo participaron 200 estudiantes universitarios, donde se
consideraron diversas características demográficas. Como resultados se obtuvieron que el 58 % de
los estudiantes fueron hombres y el 42 % fueron mujeres; el promedio de edad fue de 23 años, el 7.7
% de los estudiantes se encuentran entre los 26 y 30 años, el 45 % de los estudiantes pertenecen a la
Facultad de Ciencias y el resto a la Facultad de Ingeniería; el 60 % son fumadores habituales y el 40
% son fumadores esporádicos.
Variables
Las diversas variables de estudio correspondientes a este ejemplo son:
1.- Variable sexo, se le asocian dos valores (modalidades): Femenino o Masculino.
2.- Variable edad, se vincula con los años que ha vivido cada participante.
3.- A la variable facultad de procedencia, se le relacionan dos valores (modalidades): Facultad de
Ciencias o Facultad de Ingeniería.
4.- Variable tabaquismo, se ligan dos valores (modalidades): fumadores habituales o esporádicos.
En el último ejemplo “Ejemplo 5”, se distinguen variables que reflejan cualidades o cantidades: al
ser estudiantes universitarios, a la variable Edad se le asigna información numérica que va de los 18
años en adelante; por su característica numérica esta variable se puede catalogar como cuantitativa.
Por otro lado, a la variable Condición se le asignó una cualidad o atributo: fumador habitual o
esporádico, por su condición de describir cualidades, a esa variable se le denomina como cualitativa.

TIPOS DE VARIABLES
Como puedes observar, en estadística descriptiva realizamos la clasificación de variables en distintos
tipos.
Cuando una variable adquiere un valor al ser al ser medida o contada, se dice que se trata de una
variable cuantitativa (refiriéndose a cantidades); si, por el contrario, el valor que adquiere se debe a
una característica que puede ser observada, estimada o percibida, puede clasificarse como una
variable cualitativa (refiriéndose a cualidades).

Es relativamente sencillo clasificar las variables en función de estas características:


Variable cuantitativa
• Expresan sus valores de forma numérica, este número pertenece a una escala y, además,
tiene un significado físico en el mundo real; para determinar el valor de una variable
cuantitativa se debe contar, medir o calcular.
• Para obtener su valor asociado se tiene que contar con la característica a estudiar (por
ejemplo: número de cigarrillos que se consumen, número de años cumplidos).
• Se tiene que medir utilizando una escala que está conformada por unidades establecidas,
cuyo valor es reconocido y universal, y que entre un valor y otro existen el mismo número de
subunidades de medición que son equidistantes entre sí (por ejemplo: altura en centímetros,
presión arterial, temperatura en grados centígrados); para realizar estas mediciones debe
utilizarse un instrumento graduado con las unidades en cuestión (por ejemplo: flexómetros,
termómetros, baumanómetros, estadímetros, etc.).

Variable cualitativa
• Expresan sus valores utilizando palabras, frases o categorías para determinar el valor que
adquieren estas variables; es necesario percibirlo o estimarlo.
Por ejemplo:
Nacionalidad: Esta variable adquiere su valor al apreciar una serie de características visibles o
apreciables en los individuos participantes; al ser percibidas y no tener un sentido de orden implícito
(ninguna nacionalidad es más importante que otra).

Como puede apreciar, la clasificación depende de si las características que nos interesa estudiar se
pueden observar, percibir, estimar, contar o medir, en función de esto podemos encontrar algunas
subcategorías de las variables cuantitativas y cualitativas.

TIPOS DE VARIABLES CUANTITATIVAS


Analicemos la siguiente tabla, en ella se muestran datos numéricos asociados a cuatro variables
cuantitativas:
No. de Registro Edad Peso (kg) Estatura (cm) IMC

1 23 104.194 1.57 42.19


2 20 99.089 1.51 43.42
3 18 61.628 1.77 419.47
4 24 130.819 1.61 50.15
5 24 129.343 1.65 47.38
6 18 95.567 1.54 40.06
No. de Registro Edad Peso (kg) Estatura (cm) IMC
7 24 75.121 1.62 28.58
8 24 91.143 1.79 28.40
9 24 118.955 1.74 38.97
10 18 81.475 1.60 31.64
11 24 79.944 1.66 28.67
12 19 146.364 1.58 58.48
13 25 68.035 1.79 21.22
14 20 62.455 1.78 19.57
15 22 70.244 1.58 28.04
16 25 133.523 1.51 58.33
17 23 85.805 1.57 34.48
18 24 89.119 1.80 27.47
19 21 102.855 1.69 35.71
20 22 100.162 1.71 34.20
21 25 133.756 1.57 53.96
22 20 90.687 1.70 31.14
23 23 80.01 1.70 27.68
24 19 127.56 1.77 40.54
25 20 68.68 1.74 22.46
26 18 100.828 1.57 40.57
27 25 138.076 1.63 51.94
28 23 91.838 1.76 29.38
29 18 129.785 1.72 43.60
30 23 119.566 1.57 48.28

En la tabla anterior, la variable peso y la variable estatura son necesarias para determinar el IMC
(kg⁄m^2), lo que permite establecer si el paciente tiene sobrepeso u obesidad.
Nota que los valores peso, estatura e IMC tienen una parte entera y una parte fraccionaria, es decir,
entre dos valores (por ejemplo 89 y 90) existe un número infinito de valores intermedios (89.1,
89.11, 89.321, 89.999, etc.), cuya medida obedece a una escala de medición estandarizada, cuando
se tiene este tipo de variables se dicen que son variables cuantitativas continuas.
Variable cuantitativa continua: Adquiere un valor dentro de un intervalo que puede ser expresado
con una escala que presenta una infinidad de valores intermedios entre dos puntos de medición. Dicho
valor puede registrar un mayor número de subunidades al incrementar la precisión de la medición de
la variable (.777, .7774, .77746, 777465…).

Por su parte, la variable edad (años cumplidos) muestra un conteo del número de años transcurridos
desde el nacimiento, hasta la fecha actual. Observa que el número de años es un número entero y
cuando se tiene esta característica se le llama variable cuantitativa discreta.

Variable cuantitativa discreta: Adquiere un valor que puede expresarse a través de un número
entero, por ejemplo, número de accidentes, cantidad de sillas en un aula, número de alumnos
aprobados, profesores con aula virtual, etc.

Otros ejemplos de variables cuantitativas discretas y continuas, en el área de la salud, pueden ser
los siguientes:
Variables cuantitativas continuas
Estatura de un metro sesenta y dos centímetros, dos milímetros, tres
micrómetros.
• Se toman valores intermedios entre un metro y otro.
• Se registran varias subunidades (centímetros, dos milímetros, tres
micrómetros).

Variables cuantitativas discretas


Las pulsaciones del corazón por minuto.
• Para conocer las pulsaciones se realiza un proceso de conteo, tomando
siempre valores numéricos enteros.
• En un adulto las pulsaciones oscilan entre 60 y 100 por minutos.
• Nota que no puede haber 60.5 pulsaciones, ya que el corazón da un
pulso completo o no lo da.
TIPOS DE VARIABLES CUALITATIVAS
En ocasiones, las características que se desea analizar de un elemento de la población no pueden ser
expresadas a través de un valor medible, por ejemplo, cuando se considera el nivel de maduración de
una fruta, el color de una prenda, el grado de mejoría de un paciente durante un tratamiento, el estado
civil de una persona, entre otras muchas cosas.
Las variables cualitativas constituyen este tipo de características que no pueden ser medidas
utilizando un valor numérico obtenido por un proceso de conteo, cálculo o medición. En la
determinación del valor de este tipo de variables se recurre a la percepción, al uso de categorías o
al uso de escalas de categorías que tienen implícito un orden.
Cuando las variables adquieren un valor que corresponde a una característica que no puede ser
contada o medida, sino que es percibida, se clasifican como variables cualitativas.
Dentro de las variables cualitativas tenemos aquéllas a las que se les asigna un valor que describe la
característica percibida a través de una palabra o conjunto de éstas, ya sea una característica
inherente del elemento, o auxiliándose del uso de grupos o categorías sin un componente de orden,
en cuyo caso tendríamos una variable nominal (proveniente del latín ‘nominālis’, relativo
al “nombre”).

Variable cualitativa nominal: Presenta modalidades que nombran características específicas sin
mostrar una categoría de orden.

En algunos casos, el valor que puede adquirir una característica proviene de una escala de valores no
numéricos, pero que tienen una componente de orden, en este sentido, tendremos una variable
ordinal (proveniente del latín ‘ordinālis’, relativo al “orden”). La principal diferencia entre las variables
cuantitativas y las ordinales radica en que la escala utilizada para asignar el valor, en el caso de
las variables ordinales, no está basada en el uso de unidades, ni las categorías son equidistantes
entre sí.
Variable cualitativa ordinal: Presenta modalidades no numéricas expresadas con un componente
de orden.

Variable cualitativa ordinal:


Ejemplos:
• Lugar obtenido en una competencia: primero, segundo, tercero.
• Calificación obtenida en un examen: no acreditado, suficiente,
bien, muy bien.
• Grado de mejoría ante un tratamiento: ninguno, bajo, regular,
alto, muy alto. Etcétera.

Variable cualitativa nominal


Ejemplos:
• Color de ojos.
• Nombre de la escuela donde se estudia.
• Estado civil.
• Licenciatura que estudia un alumno.
• Religión que se profesa. Etcétera.

Las variables cualitativas también nos permiten acercarnos más al estudio de nuestra problemática de
salud; retomando los parámetros asignados por la Organización Mundial de la Salud (OMS), el
sobrepeso y la obesidad en un adulto, hombre o mujer, se determina según los siguientes valores de
referencia:
• Sobrepeso, si 25 ≤ IMC < 0; es decir, existe sobrepeso si el IMC está en un rango mayor o igual
a 25, pero menor a 30.
• Obesidad, si IMC ≥ 30; es decir, existe obesidad si el IMC es mayor o igual a 30.

A partir de estos valores podemos considerar la variable padecimiento y asignarle alguna de estas
dos modalidades: “Sobrepeso” u “Obesidad”; de acuerdo con los valores de referencia, tienen un
orden. A este tipo de variables se le denomina variable cualitativa ordinal.
Por otro lado, podríamos considerar la variable sexo, que se categoriza como “Hombre” o “Mujer”, las
cuales no tienen una disposición que los obligue a tomar un cierto orden; de este modo es indiferente
la categorización, por lo que a esta variable se le denomina variable cualitativa nominal.

PERSPECTIVA ESTADÍSTICA
Como has observado, para el estudio detallado de las problemáticas de salud: sobrepeso y obesidad,
es indispensable considerar la perspectiva de la estadística descriptiva, retomando elementos clave
que permitan su análisis y seguimiento. Para ello, considera:

Estadística descriptiva: Rama de la estadística que se encarga de recolectar, organizar, analizar e


interpretar la información observada.
Población: Conjunto de todos los elementos, individuos u objetos de interés.
Muestra: Subconjunto de elementos de interés de la población a la que pertenece.
Variable: Objeto de análisis, el cual posee una característica de nuestro interés y que podemos medir.
Variable cuantitativa continua: Son aquellas variables que se obtienen mediante un proceso de
medición, la cual puede adquirir cualquier valor dentro de un intervalo.
Variable cuantitativa discreta: Son aquellas variables que se obtienen mediante un proceso de conteo
arrojando siempre un número entero.
Variable cualitativa ordinal: Se habla de este tipo de variables si existe un orden implícito entre sus
valores.
Variable cualitativa nominal: Se habla de este tipo de variables si no existe un sentido de orden implícito
entre sus valores.
FUENTES DE CONSULTA
Bibliografía
Weimer, R. (1996). Estadística Descriptiva: organización de datos. En Estadística (pp. 18-21).
México: CECSA.
Documentos electrónicos
IMSS. (2017). La hipertensión arterial de la población en México, una de las más altas del Mundo.
Consultado el 15 de julio de 2017 de http://www.imss.gob.mx/prensa/archivo/201707/203
Organización Mundial de la Salud. (2018). Obesidad y Sobrepeso. Consultado el 16 de febrero de
2018 de https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight
Shamah-Levy, T., Cuevas-Nasu, L. y Gaona-Pineda, E. (2018). Sobrepeso y obesidad en niños y
adolescentes en México, actualización de la Encuesta Nacional de Salud y Nutrición de Medio
Camino 2016. Consultado el 16 de febrero de 2018
de https://ensanut.insp.mx/encuestas/ensanut2016/doctos/analiticos/Obesidad.pdf
Tema 2.

Representación De Datos
REPRESENTACIÓN DE DATOS

Para continuar con el estudio de las problemáticas de salud: sobrepeso y obesidad, es necesario poder
identificar cómo abordar los datos y la información que arrojen. Para lograrlo, debemos distinguir entre
estos dos conceptos de suma importancia en estadística: datos e información.

El conjunto organizado de datos validados, procesados y organizados constituyen un mensaje que


cambia el estado de conocimiento del individuo o sistema, que recibe dicho mensaje; además,
proporcionan una conceptualización teórica que da significado a las cosas, objetos y entidades del
mundo, a través de códigos y modelos.
Para poder realizar el estudio de una problemática de salud pública desde la perspectiva estadística,
es indispensable considerar los datos, ya que estos son la materia prima que nos permitirá acercarnos
a los valores, características e información de nuestro interés.
Para poder comprender con claridad un problema de salud pública es indispensable acomodar dichos
datos en forma útil para evidenciar sus características principales y simplificar la información. En
estadística este acomodo se realiza mediante tablas.
Tabla: Presenta ordenadamente datos (cuantitativos o cualitativos). Está organizada en filas y
columnas, que presentan en forma resumida información acerca del comportamiento de una o más
variables. Las tablas hacen evidente el comportamiento de los datos de una forma más comprensible
y didáctica.

El uso de las tablas es de suma importancia, pues ayuda a minimizar la cantidad de información que
se describe en el texto, evita tener que discutir sobre variables poco significativas y presenta en forma
resumida y visual la información relevante acerca del fenómeno o proceso de estudio, en función de
las variables consideradas.
Los elementos y estructura básica para la construcción de una tabla son:

Título de la tabla

Encabezados de Encabezados de Encabezados de Encabezados de


las columnas las columnas las columnas las columnas

Encabezados de las filas Datos Datos Datos Datos

Encabezados de las filas Datos Datos Datos Datos

Encabezados de las filas Datos Datos Datos Datos

Notas al pie
Fuentes

Título de la tabla: debe hacer una descripción clara y precisa de los datos. Debe responder las
tres preguntas “que”, “donde” y “cuando”. Por ejemplo, índice de masa corporal de estudiantes del
IRC,2019. Este texto da toda la información necesaria para comprender utilizar los daos
correctamente.

Encabezados de las columnas: expuestos en la parte superior de la tabla, deben indicar que
datos hay presentes en cada columna de la tabla y proporcionar la descripción necesaria. Por ejemplo,
grado de estudio, estatura, peso o índice de masa corporal.

Encabezados de las filas: en la primera columna a la izquierda de la tabla se deben identificar


los dados presentes en cada fila.

Notas al pie: en la parte inferior de la tabla se puede proporcionar cualquier información adicional,
necesaria para comprender y utilizar correctamente los datos. Por ejemplo, definiciones y abreviaturas.

Fuentes: en la parte inferior de la tabla se debe indicar la fuente de los datos, es decir, quien elaboro
los datos, la dirección URL de procedencia y el método de colecta de datos.

Para que las tablas sean efectivas, como parte de un estudio, toma en cuenta las siguientes
recomendaciones:
1. Organiza las variables a representar en filas; la variable que se controla o mide (causa) y, en
columnas, las variables resultado de las observaciones (efecto).
2. Procura que el número de filas y columnas sea el exacto, con el fin de facilitar la localización y
el entendimiento de los números en las tablas.
3. Diseña, de manera discreta y sencilla, tanto el formato, como el título de las tablas, de forma
que la atención se centre en los puntos sustanciales expresados por los datos y no en la
estructura de la tabla.
4. Las tablas se deben presentar en solitario, ya sean publicadas en un informe, un artículo, una
publicación o en una página web.
5. Cada tabla debe incluir los elementos suficientes para su comprensión de forma aislada, de
manera que si un lector la revisa entienda su contenido, independientemente de si ha revisado
el documento o no.

Ahora que conoces un poco más sobre la importancia y la organización de datos, podemos
acercarnos al estudio de las problemáticas de salud pública: sobrepeso y obesidad infantil.
Como ejemplo, para la organización de datos retomemos la revista de divulgación científica y
tecnológica de la Universidad Autónoma de Nuevo León, donde se publicó un artículo acerca
de la prevalencia de sobrepeso y obesidad en escolares de educación básica de Nuevo León,
México. En dicho artículo se obtuvo la siguiente muestra:
• Al momento del estudio había 25 581 escolares, en los tres niveles educativos que conformaban
la población de interés.
• Al visitar las escuelas que corresponden a la zona delimitada del estudio, 714 educandos se
habían dado de baja.
• El día que se obtuvieron los datos del estudio 3263 alumnos no asistieron a clases.
• Por lo tanto, se obtuvieron un total de 21 604 estudiantes examinados.
La distribución por nivel y sexo de los escolares que formaron parte del estudio se presenta en
la Tabla I
Tabla I. Alumnos por género, según nivel de escolaridad:
Hombres Mujeres Total

Escolaridad Núm. % Núm. % Núm. %

Preescolar 1682 15.5 1704 15.8 3386 15.7


Primaria 5262 48.6 5218 48.4 10 480 48.5

Secundaria 3888 35.9 3850 35.7 7738 35.8


Total 10 832 100.0 10 772 100.0 21 604 100.0
Fuente: http://cienciauanl.uanl.mx/?p=5504
REPRESENTACIONES
Existen diferentes formas de presentar la información organizada en un estudio estadístico, una de las
más útiles y usuales para visualizar la información contenida en tablas es mediante gráficos; los
gráficos nos ayudan a ver rápidamente ciertas tendencias que se pueden estar dando en la tabla, pero
que, al estar agrupadas en solo números, no nos es tan fácil ver.
La importancia del uso de los gráficos como herramienta para mostrar información resumida, radica
en que se pueden utilizar para ilustrar el comportamiento de un gran número de datos o para comunicar
un hallazgo clave o un mensaje; entre los aspectos que nos permite transmitir un gráfico podemos
mencionar:
• Comparación: ¿Cuánto? ¿Qué elemento es más grande o pequeño?
• Cambios a lo largo del tiempo: ¿Cómo evoluciona una variable?
• Distribución de frecuencia: ¿Cómo se distribuyen los elementos? ¿Cuáles son las diferencias?
• Correlación: ¿Están vinculadas dos variables?
• Parte relativa de un todo: ¿Cómo se encuentra un elemento en comparación con el total?

Para que los gráficos sean pertinentes y efectivos, toma en cuenta las siguientes recomendaciones:

Definir el público objetivo:

¿Qué saben sobre el tema?

¿Nivel de complejidad?

Determinar el mensaje que se quiere comunicar:

¿Qué muestran los datos?

¿Hay más de un mensaje?

Determinar la naturaleza del mensaje:

¿Deseas comparar elementos, mostrar tendencias temporales o analizar relaciones entre los
datos?
Uso correcto de gráficos
Los gráficos presentados son claros, concretos, prácticos y proporcionan información clara del
fenómeno que representan.
Uso incorrecto de gráficos
Estas gráficas son poco prácticas, confusas y brindan información poca clara del fenómeno que
representan.

TIPOS DE GRÁFICOS
Dependiendo del tipo de información que se represente, el público objetivo y la cantidad de datos a
representar, existen diferentes tipos de gráficas, cada una con características propias y mayor utilidad
para ciertos tipos de información; entre las más importantes podemos mencionar:
GRÁFICAS DE BARRAS
Este gráfico consiste en una serie de rectángulos, ubicados por lo general verticalmente, cuya altura
indica la cantidad del elemento en estudio. Son especialmente útiles para comparar diferencias
numéricas entre las distintas modalidades de una variable, también permite comparar dos o más
variables respecto a la ocurrencia de sus modalidades.
GRÁFICO CIRCULAR
También llamado gráfico de pastel, o de sectores, está basado en una circunferencia donde el tamaño
de cada sector (rebanada) está en función del porcentaje que representa cada modalidad de la
variable de estudio. Son especialmente útiles cuando se busca representar diferencias porcentuales
entre las modalidades de una variable.

PICTOGRAMA
Este gráfico es similar al gráfico de barras, con la diferencia de que, en lugar de utilizar rectángulos,
utiliza imágenes relacionadas con la variable que se está representando. Son recomendados cuando
el gráfico está dirigido a personas que no están familiarizadas con datos numéricos y son muy
utilizados en materiales de divulgación.

GRÁFICO DE LÍNEA
Los datos en este tipo de gráfico están representados por puntos unidos por una línea, a lo largo de
una escala de tiempo. Es el típico gráfico que se ve comúnmente en diarios y revistas para representar
tendencias, avance en el tiempo, variaciones económicas, etc. Este tipo de gráfico es ideal cuando lo
que se busca representar es el comportamiento de una o varias variables, a través de un periodo de
tiempo determinado.

FUNCIÓN DE LAS GRÁFICAS


Para ejemplificar la función de las representaciones, gráficas, retomemos la opinión de la población
mexicana sobre nuestro sistema de salud, su alcance y eficiencia; sabemos que es inevitable tener
una sociedad libre de enfermedades y, aunque en México el promedio de vida ha aumentado
considerablemente, (de 57 años en 1960 a 77 años en 2016), la población es cada vez más propensa
a enfermarse, debido al ritmo de vida que tenemos.
Dada la importancia de tener un sistema de salud nacional preparado para subsanar y evitar dichas
enfermedades, a través de tratamientos médicos o medidas de prevención, se realizó una encuesta
basada en una muestra de 1000 personas que respondieron las siguientes interrogantes:

a. ¿Cuál de las siguientes instituciones públicas te brinda atención médica?


b. ¿Qué sucederá con el sistema de salud pública durante este sexenio (2018 - 2024)?
c. ¿Cómo calificarías la calidad del sistema de salud pública en México? ¿Qué tan eficientes o
deficientes son los servicios de salud pública en México?

Con base en las respuestas a estas interrogantes se obtuvieron las siguientes representaciones
gráficas:
Gráfica 1. Respuestas a la interrogante “a”
¿Cuál de las siguientes instituciones públicas te brinda atención médica?

Gráfica 2. Respuestas a la interrogante “b”

¿Qué sucederá con el sistema de salud pública durante este sexenio (2018- 2024)?

Gráfica 3. Respuestas a la interrogante “c”

¿Cómo calificarías la calidad del sistema de salud pública en México?


Retomando la Gráfica 1 que expresa las respuestas a la interrogante a, podemos observar que:
• El IMSS proporciona la mayor atención médica, casi el 70 %.
• El ISSSTE Y el Seguro Popular están por encima del 17.5 %.
• El aproximadamente 15 % de los encuestados no son atendidos por ninguna de las instituciones
públicas que se dieron como opciones de respuesta en el estudio.
Esta pregunta corresponde a una variable cualitativa, la cual se categoriza en las instituciones públicas
más populares y para cada una se le asocia una barra horizontal donde su longitud corresponde a
cierto porcentaje de la población.

A partir de la Gráfica 2 que da respuesta a la interrogante b podemos observar que:


• Casi el 30 % de los encuestados opina que el sistema de salud pública se quedará igual.
• Aproximadamente el 22.5 % opina que el sistema de salud pública mejorará.
• Menos del 15 % de los encuestados piensa que nuestro sistema de salud pública podría
empeorar.
Nuevamente, la pregunta corresponde a una variable cualitativa categorizada en las opiniones de la
muestra y a cada una se le asocia una barra vertical, donde su altura corresponde a cierto porcentaje
de la población.

Este tipo de gráficas (como las que nos ayudaron a representar las repuestas a las interrogantes a y
b) se categorizan como graficas de barras, ya que indican a través de barras la frecuencia de una
categoría.

Gracias a la representación, resumen y acomodo los datos que nos proporciona la Gráfica 3, donde
se muestran los resultados de la interrogante c, podemos observar que nos encontramos frente a
una variable cualitativa que, de acuerdo con la proporción de sus categorías, se puede deducir que:
• El 33 % de la muestra opina que la calidad del sistema de salud pública no es “ni buena ni
mala”.
• El 31 % de los encuestados opina que la calidad del sistema de salud es “mala”.
• El 18 % piensa que es “buena” la calidad de nuestro sistema de salud pública.

A este tipo de grafico (como el que nos ayudó a representar la respuesta a la interrogante c) se le
llama gráfica circular, de pastel o pay, su nombre se relaciona con su forma circular que corresponde
al 100% de la información.
CIERRE
Las gráficas y tablas son herramientas estadísticas indispensables para representar, visualizar o
ilustrar los datos emanados de una problemática de salud pública, ya que nos permiten organizar y
resumir todos los datos que se retoman para el estudio y seguimiento de las diversas situaciones que
se ven involucradas en dichas problemáticas.
Tabla:
Presenta ordenadamente datos (cuantitativos o cualitativos), organizada en filas y columnas, presenta
en forma resumida información acerca del comportamiento de una o más variables.

Gráficos:
Representación visual que muestra rápidamente ciertas tendencias que se pueden estar dando en la
tabla, pero que, al estar agrupadas en solo números, no nos es tan fácil ver.

Gráficas de barras:
Consiste en una serie de rectángulos, cuya altura indica la cantidad del elemento en estudio. Son
especialmente útiles para comparar diferencias numéricas entre las distintas modalidades de una
variable.
Gráfico circular:
También llamado gráfico de pastel, o de sectores, está basado en una circunferencia donde el tamaño
de cada sector (rebanada) está en función del porcentaje que representa cada modalidad de la
variable de estudio.

Pictograma:
Este gráfico es similar al gráfico de barras, con la diferencia de que, en lugar de utilizar rectángulos,
utiliza imágenes relacionadas con la variable que se está representando.

Gráfico de línea:
Los datos en este tipo de gráfico están representados por puntos unidos por una línea a lo largo de
una escala de tiempo. Es el típico gráfico que se ve comúnmente en diarios y revistas para representar
tendencias, avance en el tiempo, variaciones económicas, etc.
FUENTES DE CONSULTA
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. Granada, España:
Facultad de Ciencias de la Educación, Universidad de Granada
García, A. (2008). Estadística aplicada: conceptos básicos (2.ª ed.). Madrid, España: Educación
permanente/Universidad Nacional de Educación a Distancia.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud (2.ª ed.). Editorial Médica
Panamericana, S. A.
Wackerly, D., Mendenhall III, W. y Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México: Cengage learning editores, S. A.
Tema 3.

Frecuencia
FRECUENCIA

Para abordar problemáticas de salud pública desde la perspectiva estadística, es indispensable


realizar un análisis de frecuencias, ya que es una de las herramientas de exploración de datos
básica y, por lo tanto, una de las más utilizadas.

Frecuencia: Número de repeticiones del valor de una variable dentro del número total de mediciones
que se realizan en un estudio.

Apliquemos los conceptos anteriores a nuestro problema de salud pública. Retomemos la publicación
acerca de la prevalencia de sobrepeso y obesidad en escolares de educación básica en Nuevo León,
México, artículo que aparece en la revista de divulgación científica y tecnológica de la Universidad
Autónoma de Nuevo León.
Nuevamente, observemos la Tabla I donde se presenta la distribución por “nivel” y “sexo” de los
escolares que formaron parte del estudio.

Tabla I. Alumnos por género, según nivel de escolaridad:


Hombres Mujeres Total

Escolaridad Núm. % Núm. % Núm. %

Preescolar 1682 15.5 1704 15.8 3386 15.7


Primaria 5262 48.6 5218 48.4 10 480 48.5
Secundaria 3888 35.9 3850 35.7 7738 35.8
Total 10 832 100.0 10 772 100.0 21 604 100.0
Flores, A. et. ál. (2016). Alumnos por género según nivel de escolaridad [tabla]. Tomada de
http://cienciauanl.uanl.mx/?p=5504
Observa que la Tabla I se puede representar en tablas simples, por ejemplo, la información recabada
para el caso de hombres:
Hombres

Escolaridad Núm. %

Preescolar 1682 15.5


Primaria 5262 48.6
Secundaria 3888 35.9
Total 10 832 100.0

También podemos realizar una tabla simple asociada a la información recabada para el caso de las
mujeres:
Mujeres

Escolaridad Núm. %

Preescolar 1704 15.8


Primaria 5218 48.4
Secundaria 3850 35.7
Total 10 772 100.0

La tabla simple de niñas de sexo femenino nos


indica que:
• 10 772 niñas asistieron a clase el día que
se recolectaron los datos.
• 1704 niñas forman parte del nivel
preescolar.
• 5218 niñas forman parte del nivel
primaria.
• 3850 niñas cursan el nivel secundario.
Observa que en la tabla la palabra “Escolaridad” corresponde a una variable cualitativa (categórica) y
la palabra “Mujeres” corresponde a una modalidad de la variable “sexo”, por lo que representa al
número de mujeres que figuran tantas veces en cada modalidad de “Escolaridad”.
Retomemos como ejemplo un cuestionario enfocado al estudio del problema de salud pública,
sobrepeso y obesidad, donde se busca estudiar una de las principales casusas de estos
padecimientos: el consumo excesivo de bebidas gaseosas azucaradas.
Se aplica un cuestionario a un grupo de 10 estudiantes donde se les pregunta el número de bebidas
gaseosas que consumen a la semana y se obtienen los resultados siguientes:
No. de Estudiante No. de bebidas consumidas semanalmente
1 5
2 6
3 7
4 7
5 9
6 10
7 5
8 8
9 8
10 9
No. de estudiante: número de estudiante encuestado
No. De bebidas consumidas semanalmente: esta columna indica la frecuencia de la variable
“números de bebidas consumidas semanalmente”. Indica el número de veces a la semana que cada
estudiante encuestado consume gaseosas azucaradas.

Las frecuencias de la variable “No. de bebidas consumidas semanalmente” consistirán en el número


de repeticiones da cada valor en el conjunto total de mediciones (en este caso, cuestionarios
evaluados). Si se organiza la información en una tabla, se obtendría lo siguiente:
No. de repeticiones
No. de bebidas consumidas semanalmente 5 2
6 1
7 2
8 2
9 2
10 1
A una tabla de este tipo se le conoce como tabla de frecuencia o tabla simple.
Tabla de frecuencia: Es necesario señalar que las tablas de frecuencia representan el
comportamiento de una sola variable de estudio, por lo que algunos autores también les otorgan la
denominación de tablas simples.

Para realizar un análisis de frecuencia, los valores que toma la variable en estudio deben ordenarse
del valor más bajo al más alto (en el caso de variables cuantitativas u ordinales) o bien, en orden
alfabético (en el caso de variables nominales).
En nuestro ejemplo, la variable “No. de bebidas consumidas semanalmente” tiene seis modalidades,
que deberán ser ordenas de forma ascendente: 5, 6, 7, 8, 9 y 10.
En cualquier caso, al recuperar y organizar los datos para el estudio estadístico de un problema de
salud pública, es importante que en la elaboración de una tabla de frecuencias consideres las
siguientes columnas:

No. de
bebidas
consumidas Frecuencia Frecuencia Frecuencia relativa
semanalmente absoluta acumulada Frecuencia relativa acumulada

5 2 2 2/10 = .20 = 20 % 20 %
6 1 3 1/10 = .10 = 10 % 10 % + 20 % = 30 %
7 2 5 2/10 = .20 = 20 % 20 % + 30 % = 50 %
8 2 7 2/10 = .20 = 20 % 20 % + 50 % = 70 %
9 2 9 2/10 = .20 = 20 % 20 % + 70 % = 90 %
10 1 10 1/10 = .10 = 10 % 10 % + 90 % = 100 %
Frecuencia absoluta: número neto de repeticiones de un valor dentro del conjunto de datos; se
obtiene realizando un conteo directo de los valores que toma la variable dentro del estudio
Frecuencia acumulada: es el numero de repeticiones de un valor, sumando a los valores previos que
aparecen en la tabla; se obtiene añadiendo a la frecuencia del valor actual, las frecuencias de los
valores que aparecen previamente en la tabla.
Frecuencia relativa: es el porcentaje que representa la frecuencia absoluta de un valor respecto al
total de mediciones realizadas; se obtiene dividiendo la frecuencia absoluta entre el numero total de
mediciones en el estudio.
Frecuencia relativa acumulada: representa el porcentaje que se alcanza en un determinado valor
sumado a sus predecesores; se obtiene ordenando los valores de mayor a menor y sumando para
cada valor su frecuencia relativa mas las frecuencias relativas de sus predecesores
FRECUENCIA ABSOLUTA, RELATIVA Y RELATIVA ACUMULADA
Ahora que conoces la estructura y componentes básicos de una tabla de frecuencias, conozcamos
cómo determinar los valores que formarán parte de cada columna.

• Frecuencia absoluta
Como pudiste observar en la tabla de frecuencias anterior, la frecuencia absoluta se refiere a la
cantidad total de veces que aparece un valor dentro de un conjunto de datos; para saber cuál es la
frecuencia absoluta de cada dato, realiza un conteo directo de los valores que toma la variable dentro
del estudio.

• Frecuencia relativa
Observa detenidamente la tabla anterior, nota que en la columna de frecuencia relativa se divide el
valor de frecuencia absoluta entre el total de valores en el estudio (10 estudiantes), de forma que, en
la primera fila se tiene:
2/10 = 0.20

Es posible utilizar este valor; sin embargo, es usual expresar la frecuencia relativa como
un porcentaje, por ello, este valor se multiplica por 100, de forma que tenemos que
Frecuencia relativa = 2 / 10 = 0.20

Para presentarlo en porcentaje:


Frecuencia relativa = .20 / 100 = 20 %

• Frecuencia relativa acumulada


La columna de frecuencia relativa acumulada presenta los valores porcentuales de cada valor,
sumados a los valores porcentuales de los valore previos, de forma que para la primera fila tenemos:
Frecuencia relativa acumulada (1) = 20 %
Para la segunda fila tenemos:
Frecuencia relativa acumulada (2) = 10 % (Frecuencia relativa del valor actual) + 20 % (Frecuencia
relativa del valor previo) = 30 %
Para la tercera fila tenemos:
Frecuencia relativa acumulada (3) = 20 % (Frecuencia relativa del valor actual) + 10 % (Frecuencia
relativa del segundo valor) + 20 % (Frecuencia relativa del valor previo) = 50 %
A partir de la tercera fila, es posible obtener el valor sumando a cada fila el valor de la frecuencia
relativa acumulada del valor anterior (que ya considera la suma del valor actual más los previos), con
lo que tenemos:
Frecuencia relativa acumulada (3) = 20% (Frecuencia relativa del valor actual) + 30 % (Frecuencia
relativa del valor previo) = 50 %
Las dos formas de cálculo son correctas, aunque usualmente se utiliza la segunda por involucrar un
menor número de operaciones.
Es importante hacer notar que el valor de la frecuencia relativa acumulada de la última
fila siempre es igual a 100 %.
Al obtener los cálculos, la tabla de frecuencia final quedaría de la siguiente forma:
No. de bebidas Frecuencia
consumidas Frecuencia Frecuencia relativa
semanalmente absoluta relativa acumulada

5 2 20 % 20 %
6 1 10 % 30 %
7 2 20 % 50 %
8 2 20 % 70 %
9 2 20 % 90 %
10 1 10 % 100 %

CLASES O GRUPOS
Cuando el número de datos trabajados en una problemática de salud es pequeño, las tablas de
frecuencia obtenidas son, generalmente, de tamaño pequeño y fáciles de revisar; pero conforme el
número de datos aumenta, las tablas pueden hacerse cada vez más grandes y difíciles de interpretar,
de forma que, si se trabaja, por ejemplo, con 10 000 datos, podemos tener una tabla de frecuencia
directa de varios cientos de filas. Para evitar que las tablas crezcan de manera indiscriminada, en
estadística es usual agrupar los datos de forma que la tabla tenga un número de filas que faciliten su
construcción y, sobre todo, su interpretación. Como regla empírica, una tabla debe tener entre 2 y 20
filas de datos.
Por ejemplo, al realizar una tabla de frecuencia de la edad en años cumplidos de los participantes de
un estudio clínico que recaba datos sobre técnicas diagnósticas y terapéuticas relacionadas con
el sobrepeso y la obesidad, en la que están considerados 100 pacientes, podemos obtener una tabla
como la siguiente:
Edad Frecuencia
18 2
19 4
20 1
21 3
22 4
24 3
25 3
26 2
27 3
28 4
29 3
30 0
31 2
32 4
33 1
34 2
35 3
36 1
37 3
38 0
39 3
40 2
41 3
42 3
43 1
44 2
45 3
46 0
47 1
48 3
49 2
50 2
51 4
52 1
53 1
54 2
55 4
56 2
57 2
58 3
59 4
Edad Frecuencia
60 2

A pesar de que la tabla muestra la forma en que las edades se presentan en los pacientes, existen
filas que tienen valores de cero o uno; además de que la tabla resulta ser larga y difícil de interpretar.
Para facilitar la interpretación de este tipo de tablas, recurrimos al uso de clases o grupos.

Clases o grupos: En estadística, una clase o grupos se define como un conjunto de modalidades (o
valores) en que se divide un conjunto de datos obtenidos de la población o muestra, de forma que la
longitud de clase de cada uno sea exactamente la misma.

El uso de clases permite resumir, de una manera más entendible, un conjunto de datos que contiene
una gran cantidad de modalidades y permite presentar información general descriptiva equivalente.
Para entender mejor esta técnica de análisis es necesario familiarizarse con una serie de conceptos
de suma importancia.
En un conjunto de datos, que se ordena de menor a mayor, el valor más bajo se conoce como límite
inferior, mientras que el más alto se conoce como límite superior. La distancia que existe entre estos
dos valores se conoce como rango.
Matemáticamente, el rango se obtiene restando el valor menor del valor mayor, es decir:
Rango = Límite superior - Límite inferior

Por ejemplo, si tenemos el siguiente grupo de valores:


Valor Valor

101 82

123 34
75 82
12 107
116 118
25 122
28 30
83 115
50 45
92 107
48 40
Valor Valor
60 84
126 118
106 28
99 75
87 54
20 9
108 86
41 89
76 26
49 112
83 70
20 121
58 42
61 130

Nota que el límite inferior es 10 (el valor más bajo) y el límite superior es 130 (el valor más alto), por
lo que el valor del rango se obtiene realizando:
Rango = límite superior - límite inferior
Rango = 130 – 10
Rango = 120
De donde se obtiene que la distancia que separa al valor más alto del más bajo es de 120 unidades.

Rango: Distancia que separa el valor más bajo del más alto del conjunto de datos que se desea
analizar; provee el insumo para calcular el número de clases en que se ha de dividir el conjunto de
datos.

Si en el ejemplo anterior se desea dividir el conjunto en 6 clases, debemos dividir 120 entre 6, es decir:
H= 120/6 = 20

El número de clases se identifica con la letra K; existen diversas formas para definir cuántas clases
se deben considerar, revisemos tres de ellas:
Tablas guía para definir el número de clases:
Una de las formas más comunes para determinar el número de clases, es considerar una tabla guía.
Diversos autores han propuesto tablas para la selección de números de clases; por ejemplo, la
propuesta por Roberto Behar y Pere Grima, la cual propone:
Cantidad de datos Número de clases
20-50 7
50-75 10
75-100 12
Más de 100 15
Otros autores sugieren:
Cantidad de datos Número de clases
0-50 4
50-100 7
100-150 10
150-200 12
Más de 200 14

Raíz cuadrada para definir el número de clases:


En ocasiones se recomienda determinar el número de clases a través de obtener la raíz cuadrada de
la cantidad de datos. El resultado redondeado será el número de clases. La fórmula que debe resolver
es:

Donde:
K = Número de clases N = Número de datos

Regla de Sturges para definir el número de clases


La opción matemáticamente más consistente es conocida como Regla de Sturges, propuesta en el
año de 1926 por el matemático Hebert Sturges. La solución de esta ecuación nos proporciona una
regla práctica para obtener el número de clases:
k=1+3.322log (N)
Donde:
K = Número de clases Log(N) = Logaritmo del número de datos
Cabe señalar que existen otras formas de determinar el número de clases a utilizar, algunas más
complejas, otras más simples. Independientemente de la forma de cálculo seleccionada, lo realmente
importante es la manera en que la información que se refleja permita comprender cómo se presentan
los datos en la población.
Una vez obtenido el rango y número de clases puedes conocer el intervalo de clase, el cual se calcula
dividiendo el rango entre el número de clases.
Intervalo de clase: Se define como intervalo a la distancia que existe entre el límite
superior e inferior de una clase; se identifica con la con la letra h.

GRÁFICA PARA EL ANÁLISIS DE FRECUENCIA: HISTOGRAMA


Otra herramienta valiosa de la estadística descriptiva para la resolución de problemas de salud es la
representación gráfica de las variables; sabemos que las variables cuantitativas discretas se
representan adecuadamente a través de un gráfico de barras; pero cuando las variables que
deseamos representar son variables continuas, en las que entre dos valores pueden existir un
numero infinito de fracciones de los mismos, es necesario utilizar un tipo particular de gráfico de barras:
el histograma.
Variable cuantitativa discreta:
variables que adquieren un valor que puede expresarse a través de un numero entero, por ejemplo, el
número de accidentes, cantidad de sillas en un aula, números de alumnos aprobados, profesores con
aula virtual, etc.

Variables continuas:
adquiere un valor dentro de un intervalo que puede ser expresado con una escala que representa
una infinidad de valores intermedios entre dos puntos de medición. Dicho valor pueden registrar un
mayor numero de subunidades al incrementar la precisión de la medición de la variable (.777, .7774,
.77746, .777465…)

Histograma: Tipo particular de gráfico de barras utilizado para representar las frecuencias
de variables cuantitativas continúas; su principal característica es que las barras se presentan de forma
continua, tocándose los límites de cada una. En este tipo de gráficos se muestran, a través de la
anchura de las barras, los intervalos que reflejan el límite inferior y superior de las clases. A demás, la
altura de cada barra representa la frecuencia relativa de cada categoría.

Los gráficos de barras y los histogramas, aunque aparentemente son muy similares, presentan
características particulares que se especifican a continuación:
Gráfico de barras:
1. Se utiliza para resumir el comportamiento de variables cualitativas ordinales o variables
cuantitativas discretas.
2. En el eje horizontal (eje ‘X’ de las abscisas) se representan las diferentes categorías y sobre él
se levantan unas columnas o barras, cuya altura es proporcional a la frecuencia de cada
categoría, la cual aparece representada en el eje vertical (eje ‘Y’ de las ordenadas).
3. El diagrama de barras es especialmente útil para expresar la magnitud de las diferencias entre
las diferentes modalidades que presenta la variable.
4. Cabe señalar que los diagramas de este tipo NO se emplean para variables cualitativas
nominales.

Histograma
• Gráfico con un significado profundo.
• Representar la frecuencia de variables cuantitativas continuas.
• No es la altura, sino el área de la barra lo que es proporcional a la frecuencia de cada conjunto
de datos.
• Estos conjuntos de datos que dividen de manera homogénea la distribución de valores se
conocen como intervalo.
• Todas las áreas están juntas y el punto medio es el que da el nombre al intervalo.
• Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre
tendrán un área mayor aquellos intervalos con mayor frecuencia.
Los histogramas son de suma utilidad para el estudio de problemáticas de salud pública, pues resumen
y muestran en forma de gráfica los resultados de las tablas de frecuencia, haciendo evidentes los
valores más altos y bajos de la distribución; además, permiten comparar frecuencias de diferentes
clases dentro del estudio. Por ejemplo, en una de las secciones que componen el estudio ENSAUT se
realizó un estudio de sobrepeso y obesidad en niños de entre 6 y 17 años, de donde resulta el siguiente
histograma.

Observa el histograma e interpreta la información que arroja, tratando de resolver las siguientes
preguntas:
a. ¿Cuál es el peso más frecuente?
b. ¿Cuál es el peso menos frecuente?
c. ¿Cuál es el peso más alto encontrado?
d. ¿Cuál es el peso más bajo?
e. ¿Cuántos grupos (clases) se consideraron en la construcción del histograma?

Como te habrás dado cuenta con el ejemplo anterior, si un histograma está construido correctamente
provee de información útil, aunque no conozcamos el contexto detallado del proceso que aborda. Por
ello, debe incluir datos completos en su estructura:
• Título del gráfico
• Título de los ejes
• Unidades de medida
• Fuente de los datos (tiempo y lugar de procedencia de los datos)
A estos elementos se les conoce como documentación de la gráfica y consiste en incluir la
información suficiente para su correcta interpretación.

DESARROLLO DE HISTOGRAMAS
Al realizar un histograma es importante que consideres algunos puntos básicos para su desarrollo:
• Paso 1
Realizar el acopio (colecta) de datos que se van a analizar, ya sea a través de cuestionarios,
mediciones directas o consulta de otras fuentes (bases de datos, historias clínicas, estudios
previos, etc.).
• Paso 2
Determinar el rango. Recuerda que el rango se define como la resta entre el valor más alto con
el valor más bajo de los existentes en el conjunto de datos obtenido.
• Paso 3
Determinar el número de clases que ha de considerar el histograma. Una clase se define como
un subconjunto de elementos (generalmente del mismo tamaño) en los que se dividen los datos
ordenados provenientes de la población o muestra y que presentan características comunes.
• Paso 4
Determinar el intervalo o amplitud de clase. Para determinar la amplitud de clase debemos
dividir el rango entre el número de clases (K), definido en el paso anterior. Si se obtiene un
número decimal, se debe redondear al entero superior más cercano.
• Paso 5
Definir las clases. Una vez que se tiene el rango, el número de clases (K), el límite inferior de
clase y el intervalo de clase (h) se procede a determinar las clases. Se toma el valor más
pequeño de la distribución y se le suma la amplitud de clase (h). Se repite la operación tantas
veces como número de clases se tenga.
• Paso 6
Elaborar una tabla de frecuencia con base en los intervalos de clase definidos, esto es, se deben
agrupar los datos en la clase que les corresponda, de acuerdo con su valor. Esta operación
dará como resultado la frecuencia de cada clase.
• Paso 7
Construir el histograma:
• En el eje x ubica los intervalos de clase.
• En el eje y ubica la frecuencia.
• Traza un rectángulo cuyo lado izquierdo sea el límite inferior de clase, el lado derecho
el límite superior de clase y la altura esté dada por la frecuencia de clase.
• Paso 8
Interpretar el histograma. Analiza aspectos como la tendencia, la variabilidad y la forma de
distribución de los datos.

Es momento de aplicar este proceso a nuestro problema de salud pública, para ello, consideremos
algunos datos antropométricos recuperados de un estudio dirigido a estudiantes de primaria donde se
obtuvieron los siguientes datos:
Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg)

1 23 26 24 51 41 76 36
2 54 27 43 52 17 77 46

3 55 28 43 53 36 78 35
4 27 29 34 54 39 79 48
5 54 30 20 55 32 80 39
6 41 31 29 56 29 81 44

7 38 32 41 57 32 82 31
8 30 33 36 58 36 83 21
9 52 34 47 59 59 84 35
10 32 35 18 60 46 85 20

11 41 36 32 61 26 86 40
Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg) Alumno Peso (kg)
12 39 37 54 62 59 87 54
13 34 38 54 63 23 88 53
14 54 39 53 64 38 89 20

15 39 40 52 65 24 90 33
16 16 41 53 66 34 91 30
17 59 42 35 67 41 92 25
18 43 43 29 68 44 93 43

19 50 44 54 69 23 94 27
20 22 45 47 70 42 95 58
21 31 46 30 71 32 96 29
22 19 47 28 72 57 97 33

23 47 48 59 73 33 98 41
24 43 49 54 74 59 99 45
25 42 50 42 75 36 100 32

• Paso 1:
Para determinar el rango, ubica el valor más bajo (16) y el valor más alto (59>), una vez hecho
esto, obtén el rango resolviendo la ecuación:
Rango = Límite superior - Límite inferior
Rango = 59 -16
Rango = 43
• Paso 2
Determina el número de clases:
• Considerando la técnica de tablas guía para determinar el número de clases,
tendríamos 12 clases.
• Considerando la técnica de raíz cuadrada, tendríamos:

o Considerando la Regla de Sturges, tendríamos:


K= 1+3.322 log (N)
K= 1+3.322 log (100)
K= 1+3.322 *2
K= 1+6.644
K= 7.644
Redondeando: K= 8
Para fines de este ejemplo, toma el resultado de la Regla de Sturges, ya que es
matemáticamente más consistente.
• Paso 3
Determina el intervalo de clase, para lo cual debes resolver la siguiente ecuación:

• Paso 4

Determina las clases, iniciando con el límite inferior de clase tenemos:

Primera clase = 16 + 6 = 22
Segunda clase = 22 + 6 = 28
Tercera clase = 28 + 6 = 34
Cuarta clase = 34 + 6 = 40
Quinta clase = 40 + 6 = 46
Sexta clase = 46 + 6 = 52
Séptima clase = 52 + 6 = 58
Octava clase = 58 + 6 = 64

Las clases definidas son:

Clase Límites de clase


1 16 a 22 kg
2 22 a 28 kg
3 28 a 34 kg
4 34 a 40 kg
5 40 a 46 kg
6 46 a 52 kg
7 52 a 58 kg
Clase Límites de clase
8 58 a 64 kg

• Paso 5

Elabora la tabla de frecuencia agrupando cada dato en su clase correspondiente


Clase Frecuencia
16 - 22 9 9 datos en la clase
22 - 28 10 10 datos en la clase
28 - 34 21 21 datos en la clase
34 - 40 15 15 datos en la clase
40 - 46 19 19 datos en la clase
46 - 52 7 7 datos en la clase
52 - 58 14 14 datos en la clase
58 - 64 5 5 datos en la clase

• Paso 6
El trazo del histograma con los datos obtenidos en la tabla es:

• Paso 7
Interpreta los datos:
1. ¿Cuál es la clase que tiene un mayor número de representantes?
2. ¿Cuál es la clase que tiene menos?
3. ¿Cuáles serían los pesos menos frecuentes en la muestra?
4. ¿Cuáles serían los pesos más frecuentes?
5. ¿Qué información adicional puedes interpretar analizando detenidamente el histograma?
Con el fin de validar la importancia y función de esta herramienta gráfica en el estudio y resolución de
problemas de salud pública, te invitamos a visualizar otro ejemplo de la aplicación del histograma en
una afección muchas veces emanada del sobrepeso y la obesidad: diabetes tipo II.

La diabetes, según la OMS, es una enfermedad crónica que se desarrolla cuando el páncreas no
produce insulina suficiente o cuando el organismo no es capaz de utilizar eficazmente la que produce.
El sobrepeso y la obesidad son dos padecimientos que facilitan el desarrollo de la diabetes tipo II,
agravando el problema de salud pública. Según proyecciones de la OMS, para 2030 la diabetes será
la séptima causa de mortalidad a nivel mundial, en la página “México, principales causas de mortalidad,
1938-2017” publican información histórica correspondiente a todas las casusas de muerte en México,
en particular se tiene la siguiente gráfica sobre la causa de muerte por diabetes durante los sexenios
presidenciales de 1935 hasta 2018, donde el último sexenio corresponde a cifras estimadas.

Ranking, mortalidad, fin de sexenio por diabetes mellitus, tasa por 100 m habitantes [gráfica].

En este histograma se muestran intervalos correspondientes a cada sexenio presidencial, gracias a la


representación de datos del histograma, podemos identificar la siguiente información:
• En cada sexenio la mortalidad por diabetes mellitus tiene una tendencia en aumento.
• El caso menos crítico es para el sexenio 1940 a 1946, donde tan solo el 3.42 % de la población
moría a causa de la diabetes mellitus.
• En el sexenio 2006-2012 la mortalidad por diabetes mellitus aumentó considerablemente, un
73.86 %, es decir, aumentó en 70.44 puntos.

CIERRE
En resumen, las tablas de frecuencia son una de las herramientas de análisis exploratorio de datos
que debemos aplicar, en primer término, para describir el comportamiento de las variables de interés
en un estudio tipo estadístico, enfocado en problemáticas de salud pública.
El resultado de este análisis permitirá comprender y visualizar mejor las características de la población,
así como identificar los valores que más se presentan en la distribución, el valor más alto y el más
bajo.
Una tabla de frecuencia, además, proporcionará información útil para la toma de decisiones y proveerá
los insumos para el cálculo de estadísticas más complejas que permitan entender el fenómeno
estudiado.
Frecuencia:
Número de repeticiones del valor de una variable dentro del número total de mediciones que se
realizan en un estudio.

Tabla de frecuencia:
Representan el comportamiento de una sola variable de estudio, por lo que algunos autores también
les otorgan la denominación de tablas simples.

Frecuencia absoluta:
Número neto de repeticiones de un valor dentro del conjunto de datos; se obtiene realizando un conteo
directo de los valores que toma la variable dentro del estudio.

Frecuencia absoluta acumulada:


Es el número de repeticiones de un valor, sumado a los valores previos que aparecen en la tabla; se
obtiene añadiendo a la frecuencia del valor actual las frecuencias de los valores que aparecen
previamente en la tabla.

Frecuencia relativa:
Es el porcentaje que representa la frecuencia absoluta de un valor respecto al total de mediciones
realizadas; se obtiene dividiendo la frecuencia absoluta entre el número total de mediciones en el
estudio.
Frecuencia relativa acumulada:
Representa el porcentaje que se alcanza en un determinado valor sumado a sus predecesores; se
obtiene ordenando los valores de mayor a menor y sumando para cada valor su frecuencia relativa
más las frecuencias relativas de sus predecesores.

Límite superior:
En un conjunto de datos que se ordena de menor a mayor, el valor más alto se conoce como límite
superior.

Límite inferior:
En un conjunto de datos que se ordena de menor a mayor, el valor más bajo se conoce como límite
inferior.

Rango:
La distancia que existe entre límite inferior y límite superior de un conjunto de datos.

Clases o grupos:
En estadística, una clase o grupo se define como un conjunto de modalidades (o valores) en que se
divide un conjunto de datos obtenidos de la población o muestra, de forma que la longitud de clase de
cada uno sea exactamente la misma.

Intervalo de clase:
Se define como intervalo a la distancia que existe entre el límite superior e inferior de una clase; se
identifica con la con la letra h.

Histograma:
Tipo particular de gráfico de barras utilizado para representar las frecuencias de variables cuantitativas
continúas, siendo su principal característica que las barras se presentan de forma continua, tocándose
los límites de cada una. En este tipo de gráficos se muestran, a través de la anchura de las barras,
los intervalos que reflejan el límite inferior y superior de las clases. A demás, la altura de cada barra
representa la frecuencia relativa de cada categoría.

Documentación gráfica:
Información pertinente para la correcta interpretación de un gráfico:
1.- Título del gráfico
2.- Título de los ejes
3.- Unidades de medida
4.- Fuente de los datos (tiempo y lugar de procedencia de los datos)

FUENTES DE CONSULTA
Bibliografía
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. Granada, España:
Facultad de Ciencias de la Educación, Universidad de Granada.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud. (2.ª ed.). Editorial Médica
Panamericana, S. A.
García, A. (2008). Estadística aplicada: conceptos básicos (2.ª ed.). Madrid, España: Educación
permanente / Universidad Nacional de Educación a Distancia.
Wackerly, D., Mendenhall III, W. y Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México: Cengage Learning Editores, S. A.
Sitios electrónicos
Encuesta Nacional de Salud y Nutrición (ENSAUT) (2012). [Página web]. Consultado
de https://ensanut.insp.mx/
Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. Consultado el 16 de febrero
de 2018 de: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight
Tema 4.

Análisis para datos no agrupados

Al resolver problemáticas de salud pública desde la estadística descriptica, necesitamos reconocer la


importancia de los datos, pues éstos se convierten en la materia prima de trabajo para el análisis y
posible tratamiento del problema, ya que los valores numéricos asociados a dichos datos son los que
empleamos para interpretar la realidad. Es por eso que en cualquier problema de salud en el que
intervenga la aplicación estadística hay que recopilar, describir, presentar, analizar e interpretar los
datos.
Para comenzar a describir, sintetizar e interpretar datos, recuperemos los datos que han sido
recopilados a través de un cuestionario realizado por la Encuesta Nacional de Salud y Nutrición 2018
(ENSANUT). En la siguiente imagen podrás ver la extracción del cuestionario
de antropometría aplicado:

Fuente: https://ensanut.insp.mx/encuestas/ensanut100k2018/descargas.php
Los datos de antropometría que utilizaremos para el estudio de nuestra problemática de salud son
el peso medido en kilogramos de una muestra constituida por de 20 personas representantes de
diferentes regiones del país: zona norte, zona centro y zona sur de la República mexicana.
PESO REGION

167.2 2
83.9 2
102.5 1
83.9 1
83.9 1
74.8 4
74.8 4
90.85 4
128.7 2
74.8 2
74.8 2
102.5 1
74.8 1
83.9 2
74.8 2
74.8 2
90.85 4
90.85 1
102.5 2
74.8 2
74.8 2
83.9 2
Fuente: https://ensanut.insp.mx/encuestas/ensanut100k2018/descargas.php
Donde las variables son:
• PESO. Medida en kilogramos.
• REGION. Categorizada en: 1 representa el Norte
2 representa el Centro
4 representa el Sur
Los datos de la tabla anterior se trabajarán en su forma original, es decir, sin orden, tal cual como
fueron extraídos para así obtener información directa de ellos; a esta forma de tratarlos se le
denomina Datos no agrupados. Para comenzar a trabajar en ellos organicemos los datos recopilados
en una tabla de frecuencia:
Conteo Peso Frecuencia

74.8 74.8 74.8 74.8 74.8 74.8 74.8 74.8 7


83.9 83.9 83.9 83.9 83.9 83.9 5
90.85 90.85 90.85 90.85 3
102.5 102.5 102.5 102.5 3
102.5 102.5 102.5 102.5 3
128.7 128.7 1
167.2 167.2 1
Total 20
Sin embargo, conforme el número de datos va aumentando, trabajar con frecuencias puede ser
sumamente complicado debido a:
1. El tiempo invertido en analizar esa cantidad de datos es considerablemente largo.
2. Las variables pueden tener un número muy grande de modalidades, por lo que la tabla de
frecuencias resultante puede ser extremadamente larga y, aunque proporciona información útil,
esta es difícil de entender y de visualizar.
Por ejemplo, al trabajar con los datos completos del grueso de la población a la que se aplicó el
cuestionario de antropometría de la ENSANUT 2018 te darás cuenta que se realizaron 17, 224
encuestas.
Consulta los resultados completos en la página ENSANUT 2018.
Si deseamos obtener información de estos datos y seguimos los pasos trabajados en el tema anterior
para crear una tabla de frecuencias, debemos seguir los pasos:
• Paso 1
Identificar los datos. En este caso es evidente que son demasiados datos ¡17, 224!
• Paso 2
Determinar clases, para lo cual, utilizamos la Regla de Sturges:
k = 1 + 3.322 log (N )
k = 1 + 3.322 * log (17,224)
k = 1 + 3.322 * 4.236
k = 1 + 14.071
k = 15.071
k = 16
• Paso 3
Determinar el rango.
Considera que el peso más bajo registrado es 0 kg y el más alto es 222.22 Kg:

Rango = límite superior-límite inferior


Rango = 222.22 - 0 = 222.22
• Paso 4
Establecer la amplitud de clase.

• Paso 5

Definir las clases.


Para mantener el uso de decimales, las clases quedarían de la siguiente forma:
Clase Intervalo de clase
1 0-13.9
2 13.9 - 27.8
3 27.8 - 41.7
4 41.7 - 55.6
Clase Intervalo de clase
5 55.6 - 69.5
6 65.9 - 83.4
7 83.4 - 97.3
8 97.3 - 111.2
9 111.2 - 125.1
10 125.1 – 139.0
11 139.0 - 152.9
12 152.9 - 166.8
13 166.8 - 180.7
14 180.7 - 194.6
15 194 - 208.5
16 208 - 222.4

• Paso 6

Elaborar una tabla de frecuencia. Ya definidas las clases, podemos proceder a calcular las
frecuencias de cada clase, con lo que tenemos:
Intervalo de Frecuencia Frecuencia Frecuencia relativa
Clase clase absoluta relativa acumulada
1 0 - 13.9 1657 9.62% 9.62%
2 13.9 - 27.8 3208 18.63% 28.25%
3 27.8 - 41.7 1765 10.25% 38.49%
4 41.7 - 55.6 3038 17.64% 56.13%
5 55.6 - 69.5 3805 22.09% 78.22%
6 65.9 - 83.4 2429 14.10% 92.32%
7 83.4 - 97.3 900 5.23% 97.55%
8 97.3 - 111.2 288 1.67% 99.22%
9 111.2 - 125.1 65 0.38% 99.60%
10 125.1 – 139.0 12 0.07% 99.67%
11 139.0 - 152.9 3 0.02% 99.69%
12 152.9 - 166.8 0 0.00% 99.69%
13 166.8 - 180.7 1 0.01% 99.69%
14 180.7 - 194.6 0 0.00% 99.69%
15 194 - 208.5 0 0.00% 99.69%
16 208 - 222.4 53 0.31% 100.00%

• Paso 7

Es usual que, en tablas de frecuencia de datos agrupados, cada una de las clases se identifiquen
por su centro de clase, el cual se obtiene de la siguiente manera:
De forma que, para la Clase 1 con intervalo de 0 kg a 13.9 kg, el centro de clase está definido por:

El centro de Clase 2 con intervalo de clase 13.9 kg a 27.8 kg, sería:

Y así sucesivamente.

• Paso 8
La tabla de frecuencias considerando centros de clase quedaría así:

Intervalo de Centro de Frecuencia Frecuencia Frecuencia relativa


Clase clase clase absoluta relativa acumulada
1 0 - 13.9 6.95 1657 9.62% 9.62%
2 13.9 - 27.8 20.85 3208 18.63% 28.25%
3 27.8 - 41.7 34.75 1765 10.25% 38.49%
4 41.7 - 55.6 48.65 3038 17.64% 56.13%
5 55.6 - 69.5 62.55 3805 22.09% 78.22%
6 65.9 - 83.4 76.45 2429 14.10% 92.32%
7 83.4 - 97.3 90.35 900 5.23% 97.55%
8 97.3 - 111.2 104.25 288 1.67% 99.22%
9 111.2 - 125.1 118.15 65 0.38% 99.60%
10 125.1 – 139.0 132.05 12 0.07% 99.67%
11 139.0 - 152.9 145.95 3 0.02% 99.69%
12 152.9 - 166.8 159.85 0 0.00% 99.69%
13 166.8 - 180.7 173.75 1 0.01% 99.69%
14 180.7 - 194.6 187.65 0 0.00% 99.69%
15 194 - 208.5 201.55 0 0.00% 99.69%
16 208 - 222.4 215.45 53 0.31% 100.00%

Como puedes advertir, el tiempo invertido para realizar esta tabla puede ser muy alto, aún más si se
realiza de forma manual, además, la información que provee es valiosa pero limitada. Por lo que, para
poder interpretar eficazmente todos esos números es necesario aplicar una serie de cálculos
numéricos simples que nos permitan resumir numéricamente las características de este tipo de
conjunto de datos. Dichos cálculos sencillos y eficaces, reciben el nombre de:
• Medidas de tendencia central
• Medidas de dispersión
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central definen un punto central en torno al cual se concentra el conjunto
de los datos. Las medidas de tendencia central más utilizadas son:
Media: Resultado de la suma de todos los valores numéricos dividido entre el número total de datos,
en otras palabras, es el promedio aritmético de los valores.
Mediana: Dato que ocupa en lugar central de un conjunto ordenado de valores (ascendente o
descendente), tanto a su izquierda como a su derecha se encuentra el 50 % de los datos.
Moda: Dato de mayor frecuencia, el que más se repite en el conjunto de datos.

Medidas de tendencia central:


Cálculos estadísticos cuyo propósito es resumir las características de un conjunto de valores en unos
pocos valores “representativos” del conjunto.

Media
La media (se expresa como 𝒙 ̅ ) es el promedio aritmético del conjunto de datos, puede obtenerse
siempre y cuando se trabaje con variables cuantitativas.
Para obtener la media debemos obtener la suma de todos los valores numéricos asociados a cada
dato y dividirlos entre el número total de datos.
Supongamos que tenemos datos y son los valores numéricos correspondientes a cada uno de esos
datos, entonces la media aritmética se expresa como:

La expresión anterior se puede representar de forma compacta utilizando la notación sigma, es decir:
Sigma:
signo matemático que significa o representa una sumatoria

Retomando los datos del peso de 20 personas obtenidos de la muestra del cuestionario aplicado por
ENSANUT 2018, obtengamos la media aritmética:
Sustituyendo los valores en la expresión matemática de la media, se tiene:

Por lo tanto, la media es:

Es posible obtener la media partiendo de una tabla de frecuencias, para ello debemos realizar el
siguiente procedimiento:

Cada 𝒙𝒊 se multiplica por su frecuencia, que corresponde a la frecuencia absoluta de la clase 𝒙𝒊 .


Después es necesario sumar todos los productos obtenidos. Por ejemplo, el ejemplo:
Producto:
resultado de una multiplicación
Peso (x) Frecuencia (f) x*f Producto x*f

74.8 7 74.8*7 523.6


83.9 5 83.9*5 419.5
90.85 3 90.85*3 272.55
102.5 3 102.5*3 307.5
128.7 1 128.7*1 128.7
167.2 1 167.2*1 167.2
Total 20 1819.05

Empleando el procedimiento para cálculo de la media a partir de una tabla de frecuencia organizada
en clases, se tiene:

Sustituyendo los valores, tenemos:


Consideraciones sobre la media aritmética
La limitación de la media consiste en su sensibilidad a la presencia de valores extremos en el conjunto
de datos, pongamos un ejemplo:
Si tenemos el siguiente conjunto de datos:
Paciente Peso

1 45.5
2 52.5
3 40.0
4 50.0
5 51.5
6 55.5
7 60.0
8 42.5
9 57.0
10 56.5
11 58.0

Al obtener la media tenemos:

La media del conjunto de datos es 51.73 kg

Supongamos que, en ese mismo conjunto de datos, el tercer valor en lugar de ser 40.0 kg fuera 150,
en ese caso tendríamos:

En este caso, la media del conjunto sería 61.73 kg


Ahora supongamos que el valor 40.0 kg fuera 20, en ese caso tendríamos:
En este caso, la media del conjunto sería 49.91 kg
Como puedes observar, el hecho de que un solo valor sea extremo hacia arriba (muy alto) o hacia
abajo (muy bajo) provoca que la media del conjunto de datos se desplace. En estos casos el
investigador debe decidir si la media es la medida de tendencia central más conveniente o debe tomar
como referencia otra medida.

MEDIANA
La mediana se define como el dato central de un conjunto ordenado de valores (ascendente o
descendente).
Retomando los datos de nuestro ejemplo anterior, y de acuerdo al procedimiento para obtener
la mediana, ordenemos de forma ascendente el conjunto de datos:

Valor 40.0 42.5 45.5 50.0 51.5 52.5 55.5 56.5 57.9 58.0 60.0
Posición 1 2 3 4 5 6 7 8 9 10 11

En este ejemplo, la mediana que es el dato que se ubica en el centro del conjunto de datos es el
número 52.5, que se ubica en la sexta posición.

Ahora supongamos que el primer valor el lugar de ser 40.0 kg es 150.0 kg


Valor 42.5 45.5 50.5 51.5 52.5 55.5 56.5 57.0 58.0 60.9 150
Posición 1 2 3 4 5 6 7 8 9 10 11

La mediana sigue siendo el dato que ocupa la sexta posición, aunque ahora el valor es 55.5

Ahora supongamos que el primer valor el lugar de ser 40.0 kg es 20.0 kg


Valor 20.5 42.5 45.5 50.5 51.5 52.5 55.5 56.5 57.0 58.0 60.9
Posición 1 2 3 4 5 6 7 8 9 10 11

La mediana sigue siendo el dato que ocupa la sexta posición, es decir 52.5

Como puedes observar, los datos pueden variar, pero la mediana sigue correspondiendo al dato que
ocupa la posición central (la sexta posición en el ejemplo), es decir, la mediana depende de la
posición central y no del valor de los datos, con lo que podemos afirmar que no es sensible a valores
extremos.
Para determinar la mediana existen dos posibilidades:
1. Si la cantidad de datos es impar, como en el ejemplo anterior, la mediana es el valor
intermedio que queda después de ir descartando los valores que van quedando en los
extremos.
2. Si la cantidad de datos es par, la mediana es el promedio de los dos valores que ocupan las
posiciones centrales del conjunto ordenado de datos, si tuviéramos solamente 10 datos
tendríamos:

Valor 40.0 42.5 45.5 50.0 51.5 52.5 55.5 56.5 57.9 58.0
Posición 1 2 3 4 5 6 7 8 9 10
↑ ↑
En este caso, los datos que ocupan las posiciones centrales son 51.5 y 52.5 (posiciones 5 y 6 en el
arreglo ordenado de valores), por lo que se procede a calcular el promedio de los dos para obtener la
mediana, es decir:

La mediana en este ejemplo sería 52 kg.

Para facilitar la determinación de la mediana, tomemos en cuenta los siguientes procesos:

𝒏
Cuando el número de datos es par y por lo tanto el resultado de es un número entero, se aplica la
𝟐
fórmula:

Por ejemplo:
Si se tiene un conjunto de 10 datos, aplicamos el algoritmo y fórmula correspondientes:
Al tener un número entero, el valor de la mediana está dado por:

En este caso, debemos localizar el dato que ocupa la posición 5, sumarle el dato que ocupa la posición
6 y al resultado dividirlo entre dos.

𝒏
Cuando el número de datos es impar y por lo tanto el resultado de es un número fraccionario, se
𝟐
aplica la fórmula:

Por ejemplo:
Si tenemos un conjunto de 11 datos, aplicamos el algoritmo y fórmula correspondientes:

Al tener un número fraccionario, el valor de la mediana está dado por:

Lo que indica que debemos consultar el dato que ocupa la sexta posición para conocer el valor de la
mediana.

Nuevamente podemos corroborar que el cálculo de la mediana depende solamente de los valores
centrales del conjunto de datos.
Realicemos el cálculo de la mediana con los datos del peso de 20 personas obtenidos de
la muestra del cuestionario aplicado por ENSANUT 2018:
Ordenados de forma ascendente
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
En este caso la cantidad de datos es par, n = 20 por lo que:

Como obtuvimos un valor entero, tenemos:

La mediana será el promedio de los dos valores centrales (dato en posición 10 y dato en posición
11), sustituyendo valores tenemos:
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
↑ ↑
Sustituyendo valores en la ecuación:

En este caso, el valor de la mediana es 83.9 kg.


La importancia de la mediana radica en el hecho de que por encima y por debajo de ese valor se
distribuyen equitativamente los datos, es decir, por encima y por debajo de la mediana se encuentra
en 50 % de los datos.

Moda
En estadística, se conoce como moda al dato que tiene la mayor frecuencia, es decir, el dato que
más se repite en el conjunto de datos. Cabe señalar que, coloquialmente, cuando existe una canción
que es escuchada por un amplio sector de la población, una prenda o color de ropa que es utilizado
por la mayor parte de la gente o existe un dispositivo que usa un amplio sector de la población, se
utiliza la expresión “está de moda”, haciendo referencia a que es un evento de alta frecuencia en la
población.
Con base en la tabla de frecuencias correspondiente a los datos (peso) de la muestra de 20 personas
que retomó ENSANUT 2018, a través del cuestionario previamente explorado, obtengamos la moda:
Peso (x) Frecuencia (f)

74.8 7
83.9 5
102.5 1
90.85 3
102.5 3
128.7 1
167.2 1
Total 20

Observa que para obtener la moda se debe determinar el dato con mayor frecuencia, en este caso la
frecuencia más alta es de 7 y su dato asociado es de 74.8 kg. Por lo tanto, la moda = 74.8.
Frecuentemente podemos encontrar conjuntos de datos en los que se presentan varios datos que se
repiten más que los demás, cuando esto se presenta, se dice que se tienen poblaciones o muestras
multimodales, es decir, que tienen varias modas.
• Cuando un conjunto de datos tiene dos modas, se dice que es bimodal.
• Si un conjunto de datos tiene tres modas, se le llama trimodal.
• Con cuatro modas tendremos un tetramodal.
• Si tiene cinco el conjunto es pentamodal y así, sucesivamente.
• Cabe señalar que cuando se tienen más de tres modas, se llama al conjunto de
datos multimodal de forma genérica.

FORMA DE UNA DISTRIBUCIÓN DE FRECUENCIA


Al trabajar casos y problemas de salud pública las medidas de tendencia central, además de la utilidad
que ha sido descrita, nos permiten conocer la forma de la distribución de frecuencia en una
representación gráfica. A este respecto tendremos tres casos:
Curva asimétrica negativa:
Cuando la media es menor que la moda y la mediana indica que la parte más alta de la distribución
de frecuencia se encuentra desplazada hacia la derecha. A una curva donde la parte más elevada se
encuentra desplazada hacia la derecha se le conoce como curva asimétrica negativa o curva con
sesgo negativo. En esta distribución los datos se concentran hacia los valores más altos; la apariencia
de la gráfica tiene la forma:
Distribución de frecuencias simétrica
Cuando la media, la mediana y la moda tienden a tener el mismo valor (son prácticamente iguales),
se dice que la distribución de frecuencia es simétrica.
En este caso, la distribución de frecuencias simétrica cumple con tres características:
1.- Las tres medidas ocupan prácticamente la misma posición
2.- A la derecha podemos encontrar el 50% de los datos y a la izquierda podemos encontrar el otro
50 %
3.- Exactamente al centro de la distribución se localiza el dato con mayor frecuencia.
Su apariencia gráfica es:

Curva asimétrica positiva


La media es mayor que la moda y la mediana, lo cual indica que la parte más alta de la distribución
de frecuencia se encuentra desplazada hacia la izquierda. A una curva donde la parte más elevada se
encuentra desplazada hacia la derecha se le conoce como curva asimétrica positiva o curva con
sesgo positivo, cuya apariencia gráfica tiene la forma:

Si tomamos los datos ENSANUT 2018 correspondientes al peso de la misma muestra de 20 personas,
tenemos las tres medidas de tendencia central representadas en la siguiente gráfica:

En este caso la media y mediana están a la derecha de la moda, por lo que nuestros datos
están sesgados a la derecha, sesgo positivo. Nota que las medidas están en donde se agrupan la
mayor concentración de datos, por eso su nombre de medidas de tendencia central.
MEDIDAS DE DISPERSIÓN
Así como existen medidas estadísticas que nos indican la forma en que los datos se concentran en
torno a un valor central de la distribución, existen medidas que nos indican la forma en que los datos
se dispersan del valor de la media o de la mediana o de la moda, a estas medidas se les conoce
como medidas de dispersión.
Medidas de dispersión:
Nos indican que tan dispersos o alejados están los datos respecto del centro de la distribución.

Las medidas de dispersión más comúnmente utilizadas en estadística descriptiva son:


• Rango
• Rango intercuartílico
• Varianza
• Desviación estándar o desviación típica
Rango
El término rango, en este punto del curso, nos es un concepto conocido, pues como se revisó en el
tema Frecuencia de datos agrupados, el rango de un conjunto de valores es la diferencia entre
el valor máximo y el valor mínimo existentes en la distribución. Si consideramos que xmáx es el valor
máximo y xmín el valor mínimo, entonces el rango se expresa matemáticamente como:

rango = xmáx - xmín

El rango tiene como principal característica que para determinarlo sólo considera los valores extremos,
es debido a esto que, al igual que la media, es sensible a la presencia de valores extremos (mediciones
atípicas inusualmente altas o bajas).
Si recurrimos al ejemplo de peso en Kg, aportado por la muestra de personas que se ha recuperado
de la encuesta ENSANUT 2018, tenemos las tres medidas de tendencia central representadas en el
siguiente ejemplo:
Ordenados de forma ascendente
74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2
Donde:
xmáx = 167.2
xmín =74.8

Sustituyendo valores en la ecuación, tenemos:


Rango = 167.2 - 74.8 = 92.4
La distancia que separa al valor más alto del más bajo en este conjunto de datos, es decir, el rango es
igual a 92.4 kg.

Percentiles
Un percentil es una medida que da idea de la distribución porcentual de los datos en un conjunto
ordenado. Si identificamos el percentil con la letra P, podemos afirmar que el percentil P indica el valor
en que a la izquierda se localiza el P % de los datos del conjunto, es decir, si buscamos el percentil 10
(P10 o P 10 %) buscamos un valor debajo del cual se localice el 10 % de los datos del conjunto; si se
busca el percentil 34 (P34 ó P 34 %) se busca el valor debajo del cual encontramos el 34 % de los
datos y, por ejemplo, si buscamos el percentil 90, debemos encontrar el valor debajo del cual se
encuentre el 90 % de los datos.
Pareciera una tarea complicada, sin embargo, existe un algoritmo que nos permite ubicar la posición
de cualquier percentil P entre 0 y 100. Para ello tenemos que resolver la siguiente ecuación:
Al resolver la ecuación, podemos tener dos escenarios:

a. Obtener un valor i entero: En este caso, el percentil buscado es el resultado del promedio
de los valores de los datos ubicados en las posiciones i e i+1

b. Obtener un valor i fraccionario: En este caso la posición del percentil está dada por
el entero inmediato superior al valor obtenido de i.

Valor i entero:
Promedio de los valores de los datos ubicados en las posiciones i e i+1
Por ejemplo:
Ubiquemos el percentil 35 de un conjunto ordenado de 240 datos, la posición del percentil 35
(P35) estaría dada por:

Como obtuvimos un valor entero, el percentil 35 estaría dado por el promedio de los valores ubicado
en la posición 84 y 85 (84 +1) del conjunto de datos, es decir:
Valor i fraccionario:
El entero inmediato superior al valor obtenido de i.
Por ejemplo:
Supongamos que buscamos el percentil 10 de un conjunto ordenado de 15 datos, la posición del
percentil 10 (P10) estaría dado por:

Como es un número fraccionario, redondeamos al entero inmediato superior, con lo que tenemos

La posición del percentil 10 (P10) se localiza en el elemento que ocupa la posición 2 del conjunto
ordenado de datos.

Cuartiles
Son un conjunto especial de percentiles, se caracterizan por dividir en cuatro partes iguales el
conjunto ordenado de datos. Esto quiere decir que cada cuartil contiene aproximadamente el 25 % de
los valores que conforman el conjunto de datos. Debido a que cada percentil de este tipo contiene
la cuarta parte de los datos analizados, se les conoce con el nombre de cuartiles.
Los cuartiles se identifican de la siguiente manera:
• Q1 = Primer cuartil = Percentil 25 = P25
• Q2 = Segundo cuartil = Percentil 50 = P 50 = mediana
• Q3 = tercer cuartil = percentil 75 = P 75
• Q4 = Cuarto cuartil = percentil 100 = P100

De estas definiciones, hay que hacer notar algunos aspectos importantes:


a. El segundo cuartil, conocido como percentil 50 (p50), es siempre la mediana del conjunto de
datos.
b. Debajo del primer cuartil se ubica el 25 % de los datos y por encima el 75 % restante de los
datos.
c. Debajo del segundo cuartil se ubica el 50 % de los datos, como consecuencia, a la derecha se
localiza el otro 50 % de los datos.
d. Debajo del tercer cuartil se ubica el 75 % de los datos y por encima el 25 % restante.
e. El cuarto cuartil, o percentil 100 (P100), es siempre el valor más alto del conjunto, es decir,
el último valor ordenado del conjunto debajo del cual se encuentra el 100 % de los datos; no es
necesario realizar cálculos para obtenerlo, simplemente se identifica el último valor ordenado del
conjunto.
Para obtener las posiciones de cada uno de los cuartiles, basta sustituir los valores 25, 50 y 75 en el
cálculo del índice i estudiado en la sección anterior. Por ejemplo:
Calculemos el tercer cuartil de un arreglo de 70 datos. El tercer cuartil corresponde al percentil 75,
por lo que sustituyendo en la ecuación del índice i tenemos:

Como obtuvimos un valor fraccionario, redondeamos al entero inmediato superior.

El tercer cuartil (P75) corresponde al valor ubicado en la posición 53 del arreglo de datos.

Para reforzar la obtención de estas medidas de dispersión, tomemos como ejemplo el siguiente
conjunto de datos constituido por un número par:

Datos 20 35 50 23 42 28 44 30 31 31 35 49 40 26 43 29 44 48 23 23
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Obtengamos los cuartiles:

Paso 1: Ordenar datos

Observar si los datos están ordenados: En este caso, como no hay un orden, es necesario
ordenar el conjunto de valores:

Datos 20 23 23 23 26 28 29 30 31 31 35 35 40 42 43 44 44 48 49 50
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Paso 2: Calcular cuarto cuartil


Te sugerimos comenzar con la obtención cuartil más fácil de identificar. Como el Q 4 es
siempre el valor más alto del conjunto, es decir, el último valor ordenado no es necesario
realizar cálculos para obtenerlo, simplemente se identifica el último valor ordenado del
conjunto.
Última posición del dato de conjuntos = 20
Q 4 = Valor del dato (20)
Q 4 = 50

Paso 3: Calcular primer cuartil


Q 1 = Primer cuartil = Percentil 25

P = 25 y n = 20, sustituyendo:
Como obtuvimos un número entero, tenemos que:

El primer cuartil (Q 1) tiene el valor de 27

Paso 4: Calcular segundo cuartil


Q 2 = segundo cuartil = Percentil 50 = mediana

P = 50 y n = 20, sustituyendo:

Como obtuvimos un número entero, tenemos que:

El segundo cuartil (Q 2) tiene el valor de 33


Paso 5: Calcular tercer cuartil
Q 3 = Tercer cuartil = Percentil 75

P = 75 y n = 20, sustituyendo:

Como obtuvimos un número entero, tenemos que:

El tercer cuartil (Q 3) tiene el valor de 43.5

Paso 6: Resultados
Q1 = P25 = 27
Q2 = P50 = MEDIANA = 33
Q3 = P75 = 43.5
Q4 = P1
0 = 50

Con la finalidad de continuar reforzando conocimientos y practicar para obtener medidas de dispersión,
trabajemos ahora con un conjunto de datos con número impar de elementos:
Datos 20 35 50 23 42 28 44 30 31 31 35 49 40 26 43 29 44 48 23 23 55
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Obtengamos los cuartiles:

Paso 1: Ordenar datos

Observar si los datos están ordenados: En este caso, como no hay un orden, es necesario
ordenar el conjunto de valores:

Datos 20 23 23 23 26 28 29 30 31 31 35 35 40 42 43 44 44 48 49 50 55
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Paso 2: Calcular cuarto cuartil


Comienza con la obtención del cuartil más fácil de identificar. Como el Q 4 es siempre el valor
más alto del conjunto, es decir, el último valor ordenado no es necesario realizar cálculos para
obtenerlo, simplemente se identifica el último valor ordenado del conjunto.

Última posición del dato de conjuntos = 21


Q4 = Valor del dato (21)
Q4 = 55

Paso 3: Calcular primer cuartil

Q1 = Primer cuartil = Percentil 25

Sabemos que P = 25 y n = 20, sustituyendo:


Como obtuvimos un número fraccionario, redondeamos al entero inmediato superior:

El primer cuartil (Q1) tiene el valor del elemento que ocupa la posición 6 del conjunto ordenado
de datos, esto quiere decir que:

Q1 = P25 = 28

Paso 4: Calcular segundo cuartil


Q2 = Segundo cuartil = Percentil 50 = mediana

Como obtuvimos un número fraccionario, redondeamos al entero inmediato superior:

El segundo cuartil (Q2) tiene el valor del elemento que ocupa la posición 11 del conjunto
ordenado de datos, esto quiere decir que:

Q2 = P50 = 35

Paso 5: Calcular tercer cuartil

Q3 = Tercer cuartil = Percentil 75


Como obtuvimos un número fraccionario, redondeamos al entero inmediato superior:

El tercer cuartil (Q3) tiene el valor del elemento que ocupa la posición 16 del conjunto ordenado
de datos, esto quiere decir que:

Q3 = P75 = 44

Paso 6: Resultados

Q1 = P25 = 28
Q2 = P50 = 35
Q3 = P75 = 44
Q4 = P100 = 55

RANGO INTERCUARTÍLICO
El rango intercuartílico se define como el intervalo contenido entre el primer y tercer cuartil, es
decir, es la distancia que separa a Q1 de Q3. Esta medida de dispersión de los datos permite conocer
los valores entre los cuales se localiza el 50 % de los valores centrales del conjunto de datos,
omitiendo el 50 % de datos extremos. Entre más pequeño el rango intercuartílico, los datos tienden a
concentrarse respecto de la media y mediana, entre más grande los datos tienden a estar alejados de
la media y la mediana; en este último caso se dice que existe dispersión de los datos.
El rango intercuartílico es una medida de la dispersión de datos que resulta menos sensible a la
presencia de valores extremos, por lo que resulta especialmente útil pare definir los valores
atípicos, que son esencialmente los que se ubican por debajo del primer cuartil y por encima
del tercero.
Conociendo el valor de los cuartiles, el rango Intercuartílico (denotado como RI o IQR del inglés Inter
Quartilic Range) se calcula:
Y gráficamente estaría ubicado:

En los ejemplos anteriores, el primer RI estaría dado por:


Q1 = P25 = 27
Q3 = P75 = 43.5
RI = Q3 - Q1
RI = 43.5 - 27 = 16.7

Además, nos indica que desde el valor 27 hasta el valor 43.5 se encuentran contenidos el 50 % de
los datos agrupados cercanos a la mediana.

Varianza
La varianza de un conjunto de valores es una medida de variación total del conjunto de datos
respecto de la media. Como hemos podido apreciar, la variación de los datos respecto de la media se
da en dos sentidos, los que son menores y los que son mayores. Las diferencias menores tienen signo
negativo, mientras que las mayores, tienen signo positivo.
Si sumáramos las diferencias de forma directa, se presentaría un efecto de amortiguamiento, pues
cantidades positivas se verían reducidas por cantidades negativas, lo que impediría apreciar la
variabilidad total del conjunto de datos.
Para evitar la presencia del efecto de amortiguamiento, se elevan las diferencias de cada valor al
cuadrado, con lo que tenemos varias ventajas:
a. El resultado siempre es positivo.
b. Las diferencias pequeñas al elevarse al cuadrado se vuelven más pequeñas.
c. Las diferencias grandes, al elevarse al cuadrado, se vuelven más evidentes.
d. Permite obtener una medición de la variabilidad total del conjunto de datos; mientras más
grande sea la varianza, el conjunto de datos será más disperso. Por el contrario, si la varianza es más
pequeña, el conjunto de datos tenderá a ser homogéneo y a presentar poca variabilidad.
La varianza puede obtenerse a partir de los datos de una población (en cuyo caso se representa
con s2) o a partir de los datos de una muestra (en cuyo caso se representa con una S2).

Varianza de una Población


s2
El cálculo de la varianza poblacional se realiza a través de la siguiente ecuación:

Varianza de una Muestra


S2
El cálculo de la varianza muestral está dado por:

Para poner en práctica los conocimientos aprendidos, determinemos la varianza enfocándonos en el


problema de salud –sobrepeso y obesidad-, retomemos los datos recabado sobre el peso en Kg. de
10 alumnos de educación superior que fueron examinados en un estudio clínico sobre nuevas
tendencias nutricionales:
Alumno Peso (kg)

1 76
2 98
3 74
4 87
5 115
6 119
7 94
8 54
9 104
10 119

Para poder determinar la varianza es necesario saber si los datos corresponden a trata una muestra
o población. Por el número de elementos, entendemos que se trata de una muestra, a menos que
existiera un planteamiento o indicación de que se trata de una población.
Para poder aplicar la fórmula correspondiente, será necesario determinar el valor de n y la media.
Ya que el conjunto de datos que tenemos está conformado por 10 valores, sabemos que n =10.
Determinemos el valor de la media:

Por lo que la media muestral es igual a 94 kg.

Determinemos el valor de la media:


Al haber determinado que se trataba de una muestra, utilizamos la fórmula:

Sustituyendo valores tenemos:


De acuerdo con nuestros datos
S = 22.61, entonces elevando al cuadro ambos lados, obtenemos la varianza S2 = (22.61)2
Por lo tanto, la varianza es S2 = 511.24 kg2
Sin embargo, a pesar de que la varianza es una firma matemáticamente precisa de evaluar la
dispersión de los datos respecto de la media, los valores obtenidos serán siempre dados elevados
al cuadrado (kg2 en el ejemplo anterior) lo que puede dificultar su comprensión pues carece de
interpretación física en el mundo real. Debido a lo anterior, se recurre a una de las medidas de
dispersión más ampliamente utilizada: la desviación estándar.

Desviación estándar (desviación típica)


La desviación estándar de un conjunto de valores (muestrales) x1, x2….,xi…., xn. es una medida de
variación de los valores respecto a la media aritmética. Se denota por la letra S y se calcula
utilizando la fórmula:

Si comparamos la fórmula de cálculo de la desviación estándar con la de la varianza, podemos notar


que son muy parecidas, la diferencia radica en que en el caso de la desviación estándar se saca la
raíz cuadral resultado de la suma de las diferencias entre el total de elementos, es por ello
que la desviación estándar se define como la raíz cuadrada de la varianza.
Propiedades de la desviación estándar.
• Es la medida de dispersión o variación más importante y útil.
• La desviación estándar adquiere valores desde 0 hasta infinito (positivos), nunca
encontraremos desviaciones estándar negativas.
• La desviación estándar es igual cero (s=0) cuando todos los valores de los datos son iguales
(valores constantes).
• Un valor grande de S implica que hay una mayor variación o dispersión.
• El valor de S se ve afectada de forma drástica con la inclusión de valores extremos atípicos.
• Las unidades de la desviación estándar deben ser las mismas que las de los datos originales.
• Al tener las mismas unidades que los datos se puede dar una interpretación física y directa al
resultado.
Retomando el ejemplo aportado por la muestra de personas que se ha recuperado de la encuesta
ENSANUT 2018, donde tenemos los siguientes datos sobre su peso, calculemos la desviación
estándar.
Ordenados de forma ascendente

74.8 74.8 74.8 74.8 74.8 74.8 74.8 83.9 83.9 83.9 83.9 83.9 90.85 90.85 90.85 102.5 102.5 102.5 128.7 167.2

De este conjunto de datos, hemos obtenido hasta ahora:


x̅ = 90.95kg
Mediana = 83.9kg
Moda = 74.8
Q1 = 74.8kg
Q2 = 83.9kg
Q3 = 96.68kg
IQR = 21.88
Para calcular la desviación estándar aplicamos la fórmula:

Por lo tanto, la desviación estándar es S = 22.61 kg

Representación gráfica
A partir de la tabla de frecuencias de los pesos obtenidos de la muestra de 20 personas ENSANUT
2018 obtendremos dos representaciones gráficas, las más usuales a partir de la tabla de frecuencias:
Peso (x) Frecuencia (f)

74.8 7
83.9 5
90.85 3
102.5 3
128.7 1
167.2 1
Total 20
A partid ella, construimos el histograma:
• El eje “x” de nuestra gráfica será representada por nuestra variable “peso”, en nuestro caso las
categorías son variables cuantitativas, 74.8, 83.9, 90.85, etcétera.
• El eje “y” de nuestra gráfica será representada por la frecuencia de cada categoría, es decir, la
altura de nuestra barra será la frecuencia.
Así nuestra representación gráfica es la siguiente:

Ahora construiremos nuestra gráfica circular o pastel, siguiendo los pasos:


• Se construye la tabla de frecuencias
• Se calcula la frecuencia relativa
• Sabemos que el círculo corresponde a 360°, por lo que debemos de obtener el ángulo
correspondiente de cada categoría mediante la fórmula: ángulo sectorial = f r i × 360°
donde i representa la i - esima categoría.
De acuerdo con nuestra tabla de frecuencia obtenemos el ángulo sectorial
Peso (x) Frecuencia (f) fr ángulo sectorial

74.8 7 0.35 Ángulo sectorial=(0.35)(360°)=126°


83.9 5 0.25 Ángulo sectorial=(0.25)(360°)=90°
90.85 3 0.15 Ángulo sectorial=(0.15)(360°)=54°
102.5 3 0.15 Ángulo sectorial=(0.15)(360°)=54°
128.7 1 0.05 Ángulo sectorial=(0.05)(360°)=18°
167.2 1 0.05 Ángulo sectorial=(0.05)(360°)=18°
Total 20 1 360°
Nuestra gráfica circular queda:

Donde nos indica que el 35% del total de la muestra pesan 74.8 y el 25% pesan 83.9.

Otro ejemplo de nuestra grafica circular es retomando la variable región de la muestra de 20 personas
de la zona norte, centro y sur de la república mexicana. Recordemos los datos recuperados de dicha
muestra:
PESO REGION

167.2 2
83.9 2
102.5 1
83.9 1
83.9 1
74.8 4
74.8 4
90.85 4
128.7 2
74.8 2
74.8 2
102.5 1
74.8 1
83.9 2
PESO REGION
74.8 2
90.85 4
90.85 1
102.5 2
74.8 2
83.9 2

Para construir la gráfica circular, obtengamos la tabla de frecuencias y su ángulo sectorial.


Primero vemos que la variable “región” esta categorizada como:
1. Representando el Norte
2. Representando el Centro
4. Representando el Sur
PESO REGION

2 Centro
2 Centro
1 Norte
1 Norte
1 Norte
4 Sur
4 Sur
4 Sur
2 Centro
2 Centro
2 Centro
1 Norte
1 Norte
2 Centro
2 Centro
4 Sur
1 Norte
PESO REGION
2 Centro
2 Centro
2 Centro

La tabla de frecuencia que le corresponde es:


Región Frecuencia Frecuencia Relativa Ángulo Sectorial

Norte 6 0.3 108


Centro 10 0.5 180
Sur 4 0.2 72
Total 20 1 360

Al observar la gráfica podemos observar que de la muestra obtenida el 50% provienen del Centro, el
20% proviene del Sur y el 30% del Norte.

CIERRE
Al trabajar problemas de salud pública con datos no agrupados, es indispensable visualizar las medias
de tendencia central y medidas de dispersión con la finalidad de analizar el comportamiento de dichos
datos y así visualizar la información que arrojan. Al visualizar el comportamiento de los datos respecto
a su ubicación y tendencia podemos establecer referencias para realizar un análisis e interpretación
que nos permita la toma de decisiones informada y justificada para favorecer la solución o disminución
de dichos problemas de salud.
Para utilizar adecuadamente estás herramientas, recuerda aplicar las fórmulas apropiadas y tener
presente sus definiciones y características.
Datos no agrupados
Conjunto de datos que no ha recibido un tratamiento estadístico, por lo que no se encuentran
agrupados ni clasificados. Se presenta su valor individual en orden aleatorio

Medidas de tendencia central


Cálculos estadísticos cuyo propósito es resumir las características de un conjunto de valores en unos
pocos valores “representativos” del conjunto. Las tres medidas de tendencia central más
representativas son:
Media
Mediana
Moda

Media
Resultado de la suma de todos los valores numéricos dividido entre el número total de datos. Promedio
aritmético de los valores. Para su cálculo se aplica cualquiera de estas dos fórmulas:

Mediana
Dato que ocupa en lugar central de un conjunto ordenado de valores (ascendente o descendente),
tanto a su izquierda como a su derecha se encuentra el 50 % de los datos.

𝒏
Posición de la mediana =
𝟐
Cuando el número de datos es par y por lo tanto el Cuando el número de datos es
𝒏 impar y por lo tanto el resultado
resultado de es un número entero, se aplica la 𝒏
𝟐 de es un número fraccionario, se
fórmula: 𝟐
aplica la fórmula:
Moda
Dato de mayor frecuencia, el que más se repite en el conjunto de datos.

Bimodal Cuando un conjunto de datos tiene dos modas.


Trimodal Cuando un conjunto de datos tiene tres modas.
Tetramodal Cuando un conjunto de datos tiene cuatro modas.
Pentamodal Cuando un conjunto de datos tiene cinco modas.
Multimodal Cuando se tienen más de tres modas, se llama al conjunto de
datos multimodal de forma genérica.

Distribución de frecuencias

Medidas de dispersión
Nos indican que tan dispersos o alejados están los datos respecto del centro de la distribución.
Las medidas de dispersión más comunes en estadística descriptiva son:
Rango
Rango intercuartílico
Varianza
Desviación estándar o desviación típica

Rango
en un conjunto de valores es la diferencia entre el valor máximo y el valor mínimo.
rango = xmáx - xmín

Percentiles
Una medida que da idea de la distribución de porcentajes de los datos en un conjunto ordenado.

Valor i entero: Valor i fraccionario

Promedio de los valores de los datos ubicados en las El entero inmediato superior al valor
posiciones i e i+1 obtenido de i.

Cuartiles
Se caracterizan por dividir en cuatro partes iguales el conjunto ordenado de datos. Son un conjunto
especial de percentiles.
Se calculan utilizando la fórmula para percentiles considerando que:
• Q1 = Primer cuartil = Percentil 25 = P25
• Q2 = Segundo cuartil = Percentil 50 = P 50 = mediana
• Q3 = tercer cuartil = percentil 75 = P 75
• Q4 = Cuarto cuartil = percentil 100 = P100

Rango intercuartílico
Intervalo contenido entre el primer y tercer cuartil, es decir, es la distancia que separa a Q_1 de Q_3.
Varianza
Medida de variación total del conjunto de datos respecto de la media.

Varianza de una Población Varianza de una Muestra

σ2 S2
El cálculo de la varianza poblacional se realiza a través El cálculo de la varianza
de la siguiente ecuación: muestral está dado por:

Desviación estándar
Medida de variación de los valores respecto a la media aritmética. Raíz cuadrada de la varianza.

FUENTES DE CONSULTA
Departamento de didáctica de la matemática. (2011). Estadística con proyectos. (c. Batanero, & c.
Díaz, eds.) Granada, España: Facultad de Ciencias de la Educación, Universidad de Granada.
Encuesta Nacional de Salud Y Nutrición (ENSAUT) (2012). https://ensanut.insp.mx/
García, A. (2008). Estadística aplicada: conceptos básicos (2a edición ed.). Madrid, España:
Educación permanente / Universidad Nacional de Educación a Distancia.
Wackerly, D., Mendenhall iii, W., Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México, D.F., México: Cengage learning editores, S.A.
Macchi, R. (2013). Introducción a la estadística en ciencias de la salud. 2ª edición. Editorial Médica
Panamericana, S.A.
Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. 16/02/2018, de OMS Sitio
web: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight
Tema 5.

Análisis para datos agrupados


INTRODUCCIÓN

El estudio de problemas de salud pública en muchas ocasiones nos remite al trabajo con una cantidad
relativamente pequeña de datos (hasta 50 o 100 datos), bajo esta circunstancia se realiza un
tratamiento estadístico para datos no agrupados. Pero muchos de los estudios realizados en el área
de las ciencias de la salud, específicamente en el área de salud pública, se realizan en poblaciones
muy grandes, incluso existen muestras donde la cantidad de datos involucrados pueden ser cientos o
miles. Cuando se trabaja con grandes cantidades de datos, estos se agrupan en clases y se siguen
técnicas que permiten el cálculo de los estadísticos descriptivos (tendencia central y dispersión) que
en conjunto se conocen como técnicas de análisis de datos agrupados .
Lo primero que debemos hacer para poder trabajar con datos agrupados , es construir es una tabla
de frecuencias , a la cual se le llamará “tabla de frecuencias agrupadas”, estás tablas se usan para
resumir grandes cantidades de datos y facilitar el cálculo de las medidas de tendencia central y de
dispersión.

Cuando se construye una tabla de frecuencias agrupada, es necesario considerar colocar todos los
elementos que la constituyen:
Nombre de la Frecuencia Frecuencia Frecuencia Marca de
variable absoluta relativa Acumulada clase
(Intervalo de clase) 𝒇𝒌 𝒇𝒓𝒌 𝒇𝒂𝒌 𝑴𝑪𝒌
[a1, a2)
[a2, a3)

[ak, ak+1)

At trazar la tabla de frecuencias agrupada, es importante poner principal atención en la construcción


de la columna Nombre de la variable, toma en cuenta que cada fila debe indicar
el intervalo correspondiente a cada grupo o clase con el apoyo de una notación (conjunto de
símbolos y signos utilizados de forma específica en una disciplina determinada para expresar
o representar información concreta) específica. Tomando como ejemplo el intervalo [a1, a2),
tenemos que:
• El corchete indica que el valor extremo a1 necesariamente se incluye en el intervalo.
• El paréntesis significa que el valor extremo a2 queda excluido.
Por ejemplo, al visualizar el intervalo: [11, 16)

Entendemos que el valor extremo 11 está incluido en el intervalo y el valor extremo 16 queda
excluido.

Para el siguiente intervalo: [16, 21)

Observamos que el valor extremo 16 está incluido y el 21 queda excluido. A este tipo de clases se
les llama abierta por la izquierda y cerrada por la derecha.

Además de la correcta notación, recuerda que para definir los intervalos de clase puedes seguir estos
sencillos pasos:
• Identifica el valor mínimo (xmin) y máximo (xmax) de los datos observados.
• Define el número total de intervalos de clases mediante el criterio de la Regla de Sturges,
trabajada en temas anteriores y cuya fórmula es:
k = 𝟏 + 𝟑.𝟑𝟐𝟐𝒍𝒐𝒈(𝒏)

Después de determinar el número de clases será necesario calcular la amplitud de intervalo (h) el
cual se obtiene mediante la fórmula:

amplitud = Xmax - Xmin

En la medida de lo posible y si el estudio lo permite, el valor de la amplitud puede redondearse a un


número entero para facilitar el cálculo de la longitud de cada intervalo. En caso de tener un resultado
decimal, se debe redondear al entero inmediato superior. Sin embargo, para estudios detallados donde
es importante la amplitud del intervalo, se recomienda respetar el uso de decimales, utilizando un
máximo de dos decimales.

Por ejemplo, si se tienen los siguientes datos:

Xmáx = 40.03, Xmín = 18.73 y k = 7

Entonces:Xmáx - Xmín = 21.3 y h = 21.3 = 3.0428


7
Si seguimos los criterios tradicionales de redondeo y seleccionamos el entero más cercano,
la amplitud de clase (h) sería igual a 3. Si definimos las clases con este valor, tenemos:
Clase Intervalo de clase
1 18.73 a 21.73
2 21.73 a 24.73
3 24.73 a 27.73
4 27.73 a 30.73
5 30.73 a 33.73
6 33.73 a 36.73
7 36.73 a 39.73
Como se puede apreciar, la última clase quedaría fuera el valor máximo de 40.03. Es esta la razón
por la que los redondeos siempre se realizan al entero inmediato superior. Repitamos el proceso
redondeando hacia el entero inmediato superior:

h = 21.3 = 3.0428 ≈ 𝟒
7
Con esta amplitud (4), que considera el redondeo del resultado al entero inmediato superior, los
intervalos de clase quedarían:
Clase Intervalo de clase
1 18.73 a 22.73
2 22.73 a 26.73
3 26.73 a 30.73
4 30.73 a 34.73
5 34.73 a 38.73
6 38.73 a 42.73
7 42.73 a 46.73

En este caso, la última clase excede por completo el valor máximo, esto se debe que el valor decimal
está mucho más cercano al entero inferior que al superior. En estos casos es preferible redondear a
dos decimales, considerando la décima y centésima más cercanos al valor obtenido, en este ejemplo
tendríamos:

h = 21.3 = 3.0428 ≈ 3.10 = 3.1


7
En este caso, tomando como amplitud 3.1, las clases quedarían de la siguiente forma:
Clase Intervalo de clase
1 18.73 – 21.83
Clase Intervalo de clase
2 21.83 – 24.93
3 24.93 – 28.03
4 28.03 – 31.13
5 31.13 – 34.23
6 34.23 – 37.33
7 37.33 – 40.43

Como puedes notar, este arreglo de clases distribuye de mejor manera los valores en el número de
clases y asegura que el valor máximo esté contenido en la última clase. Con lo que podemos
armamos los intervalos de la siguiente manera:

a1 = Xmin , a2 = a1 + amplitud → [a1 , a2)

a2 , a3 = a2 + amplitud → [a2 , a3)

a3 , a4 = a3 + amplitud → [a3 , a4)


Y así hasta obtener los k intervalos.

Observa que al obtener el k intervalo, [ak , ak+1], el valor ak+1 debe ser igual o mayor, necesariamente,
al valor observado Xmax..

Una vez construidos los intervalos, los datos observados se condensarán en cada intervalo
de clase que le corresponda y se calculará el punto medio de cada clase , o sea la marca de clase o
centro de clase (MCk , ), la cual se obtiene resolviendo la ecuación:

MCk = ak + ak + 1 , k - ésimo número de intervalo de clase


2
Dicho de otra manera la MCk, siempre es el promedio del límite inferior y el límite superior de
la clase.

Una vez determinado el número de clases y el intervalo de clase, procedemos a determinar


las frecuencias absolutas de cada una, contando el número de datos que se localizan entre los
límites establecidos.

Retomando nuestra problemática de salud, recurramos un caso en el que una nutrióloga desea
conocer el número de días que pasan para que al menos 19 de sus pacientes reduzcan su peso en
2kg, para lo cual, cuenta con la siguiente tabla:
Intervalo de clase Frecuencia
(# dias) absoluta
[1 - 3) 1
[3 - 5) 8
[5 - 7) 10
[7 - 9) 9

De acuerdo con la tabla, los intervalos de clase representan el número de días que tardaron los
pacientes observados en bajar 2kg. Por ejemplo:
• Sólo un paciente tardó de 1 a 3 días en bajar 2kg.
• 8 pacientes tardaron de 3 a 5 días en bajar 2kg.
• 10 pacientes necesitaron de 5 a 7 días para poder bajar 2kg.
• Finalmente, sabemos que 9 pacientes tardaron de 7 a 9 días en bajar 2kg.
El interés de la nutrióloga es verificar en cuántos días, 19 de sus pacientes, bajaron los 2kg y para
ello necesitamos sumar la frecuencia de esa misma clase y de las frecuencias que la preceden, esto
es, obtener la frecuencia acumulada. Obtengamos la frecuencia acumulada de nuestro ejemplo.

Frecuencia Frecuencia
Intervalo de clase (# dias)
absoluta acumulada
[1 - 3) 1 1
[3 - 5) 8 1+8=9
[5 - 7) 10 1+8+10=19
[7 - 9) 9 1+8+10+9=28

De acuerdo a la tabla anterior, podemos determinar que la pérdida de 2 kg de peso para 19


pacientes se obtuvo entre 5 a 7 días, bajo las condiciones en que se dio el estudio.

CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIAS


Pongamos en práctica los saberes adquiridos en el análisis del problema obesidad. Retomemos la
Encuesta Nacional de Nutrición y Salud 2018, de donde se obtuvo la variable de interés “¿Cuál era tu
edad al momento del diagnóstico?”, relacionada con la respuesta afirmativa de los habitantes adultos
mexicanos que contestaron la pregunta “¿Algún médico te ha dicho que tiene diabetes o el azúcar alta
en sangre?" A continuación se muestra el cuestionario aplicado:
Fuente: https://ensanut.insp.mx/encuestas/ensanut100k2018/descargas.php
A partir de dicho cuestionario, se retomó una muestra de 50 adultos mexicanos encuestados, por lo
que el número total de datos es igual es a 50 (n=50). En la siguiente tabla se muestra la edad en la
que fueron diagnosticados con diabetes:
48 48 79 40 31
52 67 34 21 68
50 49 63 30 53
38 39 35 84 60
52 38 78 36 63
39 50 42 46 51
72 48 50 43 20
50 40 47 47 53
51 71 40 49 50
15 42 37 77 45

Para dar tratamiento a estos datos construiremos primero la tabla de frecuencias agrupadas, para
ello, será necesario seguir estos pasos:

• Determinación del rango, número y amplitud de clase


Rango
• Identifica los valores máximo y mínimo de la muestra: Xmin = 15 y Xmax = 84
• El valor del rango para este conjunto de datos está dado por:

Rango = Xmax − Xmin = 84 − 15 = 69


Rango = 69

Número de clases:
• Aplicando la Regla de Sturges, determina el número total de intervalos que se consideraran:
k = 1 + 3.322 log(n)

n = 50, entonces k = 1 + 3.322 * log(50) = 6.61


• Dado que en el resultado, los decimales se encuentran más cerca del número entero superior
que del inferior, redondeamos al entero superior más cercano, k = 7
Amplitud de clases:
• Determinado la amplitud de cada una de las 7 clases que se han de considerar tenemos:

h = Xmax - Xmin = 84 - 15 = 69 = 9.8571


K 7 7
• Nuevamente el valor fraccionario está próximo al entero inmediato superior, por lo que se
redondea hacia ese valor:

h = 84 - 15 = 69 = 9.8571 ≈ 10
7 7
h = 10

• Construcción de intervalos
La construcción de los intervalos se realiza tomando en cuenta la agrupación de los datos en
7 clases, cada una de ellas con una amplitud de clase igual a 10, por lo que los intervalos que
obtenemos son:

a1 = Xmin = 15, a2 = a1 + amplitud = 15 + 10 = 25 → [a1 = 15, a2 = 25)


a2 = 25, a3 = a2 + amplitud = 25 + 10 = 35 → [a2 = 25, a3 = 35)
a3 = 35, a4 = a3 + amplitud = 35 + 10 = 45 → [a3 = 35, a4 = 45)
a4 = 45, a5 = a4 + amplitud = 45 + 10 = 55 → [a4 = 45, a5 = 55)
a5 = 55, a6 = a5 + amplitud = 55 + 10 = 65 → [a5 = 55, a6 = 65)
a6 = 65, a7 = a6 + amplitud = 65 + 10 = 75 → [a6 = 65, a7 = 75)
a7 = 75, a8 = a7 + amplitud = 75 + 10 = 85 → [a7 = 75, a8 = 85)

Para validar si la amplitud de clase es adecuada, verificamos que el valor máximo esté
contenido en la última clase, matemáticamente, podemos escribirlo como:

Xmax = 84 ∈ Clase [75−85)

Lo que significa que, el valor máximo, que es igual a 84, pertenece a la clase con el intervalo
que va del 75 al 85. Por lo tanto, la amplitud de clase resulta pertinente.

• Determinación de frecuencia absoluta de cada clase


Una vez establecidos los intervalos de clase, es necesario contar los datos que pertenecen a
cada clase. Por ejemplo, para el intervalo [15, 25), buscamos e identificamos en la muestra
cuántos datos pertenecen a ese rango y los vamos marcando.
48 48 79 40 31
52 67 34 21 68
50 49 63 30 53
48 48 79 40 31
38 39 35 84 60
52 38 78 36 63
39 50 42 46 51
72 48 50 43 20
50 40 47 47 53
51 71 40 49 50
15 42 37 77 45
• Recuerda que la notación del intervalo, a través del paréntesis -(- nos indica que el valor 25 se
excluye del intervalo.

La frecuencia para el intervalo [15, 25) es 3.


• Para determinar la frecuencia del intervalo [35, 45), determinamos que el valor 45 queda
excluido y que buscaremos valores que estén entre el 35 y el 44. Los identificamos, los
marcamos y contamos cuántos son.
48 48 79 40 31
52 67 34 21 68
50 49 63 30 53
38 39 35 84 60
52 38 78 36 63
39 50 42 46 51
72 48 50 43 20
50 40 47 47 53
51 71 40 49 50
15 42 37 77 45

La frecuencia para el intervalo [35, 45) es 13.


• De la misma forma, localizamos, marcamos, contamos y determinamos la frecuencia para las
otras clases.

Así, tenemos la siguiente tabla de frecuencias agrupadas:


# Intervalos Intervalos de clase Frecuencia
1 [15, 25) 3
2 [25, 35) 3
3 [35, 45) 13
4 [45, 55) 20
5 [55, 65) 3
6 [65, 75) 4
7 [75, 85) 4
Total: 50
• Nota que la mayor frecuencia de datos se tiene entre los 45 y 54 años, es decir, a esa edad
fueron diagnosticados el mayor número de casos de diabetes.

• Determinación de frecuencia relativa y frecuencia acumulada

Frecuencia relativa
• Recuerda que para calcular la frecuencia relativa, es necesario aplicar la fórmula:

ƒrk = ƒk , o en su forma porcentual ƒrk = ƒk X 100%


n n
• Lo que puede leerse como: la frecuencia relativa es igual a la frecuencia absoluta de
clase dividida entre el número total de datos. Para obtener el porcentaje sólo debe
multiplicarse dicho resultado por cien.
Intervalos Frecuencia Frecuencia
# Intervalos
de clase absoluta (f) relativa (fr)
1 [15, 25) 3 6%
2 [25, 35) 3 6%
3 [35, 45) 13 26%
4 [45, 55) 20 40%
5 [55, 65) 3 6%
6 [65, 75) 4 8%
7 [75, 85) 4 8%
Total: 50 100%
Frecuencia acumulada
La frecuencia acumulada (fa) permite conocer los casos o eventos en los que se presenta la
característica que estamos analizando, en orden creciente y considerando las clases en orden
progresivo.
Frecuencia
Intervalos Frecuencia Frecuencia
#Intervalos absoluta
de clase relativa (fr) acumulada (fa)
(f)
1 [15, 25) 3 6% 3
2 [25, 35) 3 6% 3+3=6
3 [35, 45) 13 26% 13+3+3=19
4 [45, 55) 20 40% 20+13+3+3=39
5 [55, 65) 3 6% 3+20+13+3+3=42
6 [65, 75) 4 8% 4+3+20+13+3+3=46
7 [75, 85) 4 8% 4+4+3+20+13+3+3=50
Total: 50 100%
• Si seleccionamos el segundo renglón de la tabla anterior, notaremos que la frecuencia
acumulada (fa) tiene un valor igual a 6, ya que los valores acumulados de la frecuencia de
cada clase se van sumando considerando el valor de las anteriores clases.
o En el intervalo 1, correspondiente a la clase 15 a 25 años hay 3 personas que
presentan diabetes.
o En el intervalo 2, la clase de 25 a 35 años presenta 3 casos de personas con diabetes.
o La frecuencia acumulada del intervalo 2 refleja que hay un total de 6 personas con
diabetes de 35 años o menos, también puede leerse que hay 6 personas con diabetes
de entre 15 (límite inferior de la clase 1) y 35 (límite superior de la clase 2) años.
• Si deseamos estimar los casos de diabetes que se presentan a la edad de 65 años o menos,
debemos consultar la frecuencia acumulada de la clase 5 cuyo intervalo va de 55 a 65 años,
que para el ejemplo anterior tiene una frecuencia acumulada igual a 42. Se debe entender que
se tienen 42 casos donde se diagnosticó a un paciente con diabetes y cuya edad oscilaba
entre los 15 años (cumplidos) y 65 años (antes de cumplirlos).

Nota: cuando se dice "cumplidos", significa que 15 años se incluye en el intervalo; mientras
que al decir "antes de cumplirlos”, indica que 65 años queda excluido en el intervalo.
• Determinación de frecuencia relativa acumulada
• Para calcular la frecuencia relativa acumulada que representa el porcentaje que se alcanza en
un determinado valor sumado a sus predecesores; se retoman los valores de la
columna Frecuencia relativa ordenandos y se va sumando para cada valor su frecuencia
relativa más las frecuencias relativas de sus predecesores.
• Cuando agregamos la columna, frecuencia relativa acumulada, tenemos como resultado la
siguiente tabla:

Frecuencia
Frecuencia Frecuencia
Frecuencia relativa
Clase Intervalos absoluta acumulada
relativa (fr) acumulada
(f) (fa)
(fra)
1 [15, 25) 3 6% 3 6%
2 [25, 35) 3 6% 6 12%
3 [35, 45) 13 26% 19 38%
4 [45, 55) 20 40% 39 78%
5 [55, 65) 3 6% 42 84%
6 [65, 75) 4 8% 46 92%
7 [75, 85) 4 8% 50 100%
Total: 50

• La columna de frecuencia relativa acumulada permite consultar los porcentajes acumulados


de cada una de las clases considerando el valor de las anteriores, gracias a este columna
sabemos que el 84 % de los casos que presentaron diabetes en el estudio surgieron en
participantes con menos de 65 años.
• Las frecuencias relativas, nos permiten realizar inferencias respecto de la población, por
ejemplo, si la tabla anterior hubiese sido obtenida de una población de 10,000 habitantes con
casos de diabetes, estos resultados nos permitirían estimar que de esta población,
aproximadamente 8,400 tienen 65 años o menos.

• Determinación de marca de clase


• Cuando trabajamos con clases, es conveniente tener un punto de referencia, el
llamado centro de clase o marca de clase, que se ubica exactamente al centro del intervalo de
clase (h).
• Para obtenerla marca de clase es necesario calcular el promedio entre el límite inferior y
el límite superior de cada clase, la fórmula a utilizar es:

MCk = (ak + ak + 1 ) / 2 , k - ésimo número de intervalo de clase , donde k = 7


• Por lo que, substituyendo la fórmula para cada clase, tenemos que:

[a1 = 15a2 = 25) → MC1 = 15 + 25 / 2= 20

[a2 = 25a3 = 35) → MC2 = 25 + 35 / 2 = 30

[a3 = 35a4 = 45) → MC3 = 35 + 45 / 2 = 40

[a4 = 45a5 = 55) → MC4 = 45 + 55 / 2 = 50

[a5 = 55a6 = 65) → MC5 = 55 + 65 / 2 = 60

[a6 = 65a7 = 75) → MC6 = 65 + 75 / 2= 70

[a7 = 75a8 = 85) → MC7 = 75 + 85 / 2= 80

• A partir de los cálculos de la marca de clase, obtenemos la siguiente tabla de frecuencias


agrupadas:

# Intervalos Intervalos de clase Frecuencia fr fa MC


1 [15, 25) 3 6% 3 20
2 [25, 35) 3 6% 6 30
3 [35, 45) 13 26% 19 40
4 [45, 55) 20 40% 39 50
5 [55, 65) 3 6% 42 60
6 [65, 75) 4 8% 46 70
7 [75, 85) 4 8% 50 80
Total: 50 100%

Medidas de tendencia central: media


Cuando estamos analizando datos provenientes de un estudios relacionados con problemáticas de
salud pública que generalmente involucran grandes cantidades de participantes, normalmente se
presenta la información resumida en tablas, de forma que tenemos poco o nulo acceso a los datos
explícitos obtenidos en el estudio. Por ejemplo, retomando un estudio realizado en el año 2019 que
atiende problemáticas de sobrepeso y obesidad, se registraron los datos de población por grupo de
edad de alguna ciudad, obteniendo una tabla como la siguiente:
Distribución por grupos de edad de la población Ciudad X
Frecuencia
Grupo de Frecuencia Centro de Frecuencia Frecuencia
relativa
edad absoluta clase relativa acumulada
acumulada
0-5 43969 2.5 4.2 43969 4.2
5 - 10 48040 7.5 4.59 92009 8.79
10 - 15 53102 12.5 5.07 145111 13.86
20 - 15 88006 22.5 8.41 305194 29.15
25 - 30 84858 27.5 8.11 390052 37.26
30 - 35 84440 32.5 8.07 474492 45.33
35 - 40 78868 37.5 7.53 553360 52.86
40 - 45 72634 42.5 6.94 625994 59.8
45 - 50 69840 47.5 6.67 695834 66.47
50 - 55 65948 52.5 6.3 761782 72.77
55 - 60 50673 57.5 4.84 812455 77.61
60 - 65 57869 62.5 5.53 870324 83.14
65 - 70 54981 67.5 5.25 925305 88.39
70 - 75 46981 72.5 4.49 972286 92.88
75 - 80 74526 77.5 7.12 1046812 100
Población total 1046812

En esta tabla se encuentra resumida la información procedente de la población, pero difícilmente


tendremos acceso a los 1, 046, 812 registros de los que se generó la tabla y aún si lo tuviéramos, el
tiempo invertido en procesar esa información sería muy grande. En estos casos, es posible obtener
las medidas de tendencia central y de dispersión a partir de los datos agrupados mostrados en la
tabla.

Las medidas de tendencia central que abordaremos cuando se tiene una serie de datos agrupados
son las mismas que se trabajaron en el tema anterior (para datos no agrupados), es decir:
• Media aritmética
• Mediana
• Moda
Recuerda que las medidas de tendencia central ayudan a tener un parámetro que proporciona
información sobre el centro de distribución o centro de gravedad, o sea el punto imaginario de equilibrio
de la distribución que como su nombre indica, se encuentra a la mitad del conjunto de datos.

Media de datos agrupados


La media aritmética se calcula con la siguiente expresión matemática:

x̅ = 1 / n ∑ki=n MC i ƒi donde k es el k — ésimo número de intervalo de clase


Retomando como ejemplo la tabla Distribución por grupos de edad de la población, para la media
necesitamos la multiplicación de la marca de clase de cada intervalo por la frecuencia de cada uno.
Como se muestra a continuación:
Distribución por grupos de edad de la población Ciudad X
Centro Frecuencia
Frecuencia Frecuencia Frecuencia
Grupo de edad de relativa MC * Fa
absoluta relativa acumulada
clase acumulada
0-5 43969 2.5 4.2 43969 4.2 109922.5
5 - 10 48040 7.5 4.59 92009 8.79 360300
10 - 15 53102 12.5 5.07 145111 13.86 663775
15 - 20 72077 17.5 6.89 217188 20.75 1261347.5
20 - 25 88006 22.5 8.41 305194 29.15 1980135
25 - 30 84858 27.5 8.11 390052 37.26 2333595
30 - 35 84440 32.5 8.07 474492 45.33 2744300
35 - 40 78868 37.5 7.53 553360 52.86 2957550
40 - 45 72634 42.5 6.94 625994 59.8 3086945
45 - 50 69840 47.5 6.67 695834 66.47 3317400
50 - 55 65948 52.5 6.3 761782 72.77 3462270
55 - 60 50673 57.5 4.84 812455 77.61 2913697.5
60 - 65 57869 62.5 5.53 870324 83.14 3616812.5
65 - 70 54981 67.5 5.25 925305 88.39 3711217.5
70 - 75 46981 72.5 4.49 972286 92.88 3406122.5
75 - 80 74526 77.5 7.12 1046812 100 5775765
Población total 1046812 100 Suma de Mc *fa 41701155
De acuerdo con lo obtenido, ∑7i=n MC i ƒi = 41,701,155 . Sabemos por la tabla que n = 1,046,812.

Sustituyendo en la ecuación, tenemos:

x̅ = 1/n ∑ki=1 MC i ƒi = 41,701,155 / 1,046,812= 39.84


Por lo que podemos afirmar que la media de la población estudiada es igual a 39.84 años, sin
necesidad de realizar la suma directa de más de un millón de datos que se recabaron para la
construcción de la tabla. Nota que el centro de clase es un elemento de suma importancia para el
cálculo de la media de datos agrupados.

Para reafirmar este procedimiento repitamos el mismo proceso con un ejemplo más simple retomado
de pacientes diagnosticados con diabetes:
Frecuencia
Frecuencia Marca de
# Intervalos Frecuencia Frecuencia relativa
acumulada clase MC * f
Intervalos de clase absoluta (f) relativa (fr) acumulada
(fa) (MC)
(fra)
1 [15,25) 3 6% 3 6% 20 60
2 [25, 35) 3 6% 6 12% 30 90
3 [35, 45) 13 26% 19 38% 40 520
4 [45, 55) 20 40% 39 78% 50 1,000
5 [55, 65) 3 6% 42 84% 60 180
6 [65, 75) 4 8% 46 92% 70 280
7 [75, 85) 4 8% 50 100% 80 320
Total: 50 100% Total: 2,450

Nota que ∑7i=1 MC i ƒi = 2,450 , sustituyendo en la expresión

x̅ = 1/50 ∑7 i=1MC i ƒi = 1/50 (2,450) = 49

En esta muestra de 50 pacientes, se puede observar que la edad promedio de los pacientes con
diabetes es de 49 años.
Medidas de tendencia central: mediana
Otra medida de tendencia central que nos permite conocer el comportamiento de los datos obtenidos
es la mediana de datos agrupados. De la misma forma que calculamos la media aritmética para
datos agrupados, podemos obtener el valor de la mediana aun cuando ésta se encuentre agrupada
en clases.
Antes de dar paso al cálculo de la mediana, definamos para cada intervalo de clase [ak , ak+1] lo
siguiente:
• L= ak , el límite inferior de la clase.
• U = a(k+1) el límite superior de la clase.
• Rk = U — L el rango, expresado como la diferencia entre el límite superior y el límite inferior de
la clase.
Una vez definidos los valores anteriores, calculamos la mediana aplicando la siguiente fórmula:

Me = Lk + ((n /2- ƒak – 1) / fk) X Rk

Calculemos la mediana correspondiente al previo ejemplo simple de la muestra de 50 pacientes


diagnosticados con diabetes. Para obtener la mediana de datos agrupados considera:

• Identificar la clase que contiene a la mediana.


Para identificar en qué clase está contenida la mediana, tienes dos opciones:
• Busca la clase en cuyo intervalo se encuentre el valor de n / 2 dentro de la columna frecuencia
acumulada, ya que esta cantidad representa la MITAD del total de datos.
• Busca la clase en cuyo intervalo se encuentre el 50% de la frecuencia relativa acumulada.
• En caso de que el valor no se encuentre dentro de la frecuencia acumulada, busca el entero
inmediato mayor.
• Es más fácil considerar la frecuencia relativa acumulada pues si no aparece el dato explícito
de 50% se toma el valor porcentual superior más cercano.

Utilizando la primera opción, determinando que n / 2= 50 / 2= 25 buscamos la posición 25 en la


columna de la frecuencia acumulada, como en la tabla no tenemos exactamente el valor 25
escogemos el mayor entero próximo, que en este caso es 20.
Utilizando la segunda opción para ubicar en qué clase se encuentra agrupada la mediana,
determinamos que esta se encuentra en la clase cuyo intervalo es [45, 55), pues tiene
una frecuencia relativa acumulada de 78%, que es la frecuencia relativa acumulada superior más
cercana a 50%. Para identificar con claridad, sombreamos la clase donde se ubica la mediana:
Frecuencia Frecuencia Frecuencia Frecuencia relativa
Clase Intervalo
absolute relativa acumulada acumulada
1 [15, 25) 3 6% 3 6%

2 [25, 35) 3 6% 6 12%

3 [35, 45) 13 26% 19 38%

4 [45, 55) 20 40% 39 78%

5 [55, 65) 3 6% 42 84%

6 [65, 75) 4 8% 46 92%

7 [75, 85) 4 8% 50 100%

Total 50

Como puedes observar, ambas opciones para identificar en qué clase está contenida
la mediana dieron como resultado la clase 4, que corresponde al intervalo [45, 55). Así que, puedes
elegir la opción que se te facilite más, ambas son correctas.

• Una vez ubicada la clase que contiene a la mediana obtén los elementos necesarios para el
cálculo de la fórmula correspondiente a la mediana:
o Lk = límite inferior del intervalo de clase (k).
▪ En nuestro caso, el límite inferior del intervalo [45, 55) es L4 = 45
o ƒak - 1 = frecuencia acumulada anterior a la clase donde se ubica la mediana.
▪ En nuestro caso, el k=4, entonces ƒa4-1 = 19
o ƒk = frecuencia de la clase donde se ubica la mediana.
▪ En nuestro caso, el k=4, entonces la frecuencia ƒ4 = 20
o Rk = rango del intervalo de clase donde se ubica la mediana.
▪ R4 = U4 - L4 = 55 - 45 = 10
• Una vez obtenidos los valores, sustituimos en la fórmula:

Me = L4 + ((n / 2 - ƒa3)/ f4) X R4 = 45 + (25 – 19/20) X 10 = 45 + (6/20) X 10 = 48

• Por lo tanto, en la muestra de 50 personas diagnosticadas con diabetes, la edad que divide al
conjunto de datos en dos partes iguales corresponde a Me = 48.
Ahora calculemos la mediana para el ejemplo correspondiente a la tabla Distribución por grupos
de edad de la población.
Para calcular la mediana, recuerda seguir estos pasos:
1. Localizar en la tabla clase que contiene a la mediana: en este caso corresponde a la clase
8 cuyo intervalo va de 35 a 40 años, ya que tiene una frecuencia relativa acumulada igual a
52.86 % (al no aparecer explícitamente el 50%, recuerda tomar el valor porcentual superior
más cercano).

Distribución por grupos de edad de la población Ciudad X


Frecuencia
Grupo de Frecuencia Centro de Frecuencia Frecuencia
Clase relativa
edad absolute clase relativa acumulada
acumulada
1 0-5 43969 2.5 4.2 43969 4.2
2 5 - 10 48040 7.5 4.59 92009 4.2
3 10 - 15 53102 12.5 5.07 145111 13.86
4 15 - 20 72077 17.5 6.89 217188 20.75
5 20 - 25 88006 22.5 8.41 305194 29.15
6 25 - 30 84858 27.5 8.11 390052 37.26
7 30 - 35 84440 32.5 8.07 474492 45.33
8 35 - 40 78868 37.5 7.53 553360 52.86
9 40 - 45 72634 42.5 6.94 625994 59.8
10 45 - 50 69840 47.5 6.67 695834 66.47
11 50 - 55 65948 52.5 6.3 761782 72.77
12 55 - 60 50673 57.5 4.84 812455 77.61
13 60 - 65 57869 62.5 5.53 870324 83.14
14 65 - 70 54981 67.5 5.25 925305 88.39
15 70 - 75 46981 72.5 4.49 972286 92.88
16 75 - 80 74526 77.5 7.12 1046812 100
Población 1046812 100
total

2. Identifica el límite superior de esta clase U8 = 40


3. Identifica el límite inferior de esta clase L8 = 35
4. Identifica la frecuencia acumulada de la clase anterior a la clase que contiene la mediana, en
este caso la Clase 7 con intervalo de 30 a 35 años, que corresponde a 474,492
5. La frecuencia absoluta de la clase 8, que es la que contiene a la mediana, en este
caso 78,868
6. El rango del intervalo que contiene a la mediana, que está dado por:

R 8 = U 8 - L 8 = 40 - 35 = 5
7. Una vez identificados los elementos necesarios, procedemos a aplicar la fórmula para el
cálculo de la mediana para datos agrupados:

Me = L4 + ((n/2 - ƒa3 )/f4) X R4 = 35 + ((1046812 / 2) - 474,492 )/78868) X 5 = 35 + ((523,406 -


474,492) / 78868) X 5 = 35 + 3.10 = 38.10
La mediana para este conjunto de datos es 38.10 años.

Medidas de tendencia central: moda


La moda de un conjunto de datos agrupados, puede obtenerse mediante la aplicación de la
siguiente formula:

Mo = Lk + ((ƒk - ƒk-1 ) / (ƒk - ƒk-1) + (ƒk - ƒk+1 )) X Rk

Para conocer cómo es preciso hallar la moda en un conjunto de datos agrupados, recuperemos el
problema de salud de nuestro interés (sobrepeso y obesidad) y los ejemplos previamente trabajados.
Comencemos por el estudio de 50 pacientes diagnosticados con diabetes.
• Identifica la clase modal. Busca el intervalo de clase con la frecuencia más alta.
• Sombrea en la tabla el intervalo de clase con mayor frecuencia, que en este caso corresponde
al intervalo [45,55) posicionándonos en el número de intervalo k = 4.
# Intervalos Intervalos de clase Frecuencia (fr) (fa)
1 [15,25) 3 6% 3
2 [25, 35) 3 6% 6
3 [35, 45) 13 26% 19
4 [45, 55) 20 40% 39
5 [55, 65) 3 6% 42
6 [65, 75) 4 8% 46
# Intervalos Intervalos de clase Frecuencia (fr) (fa)
7 [75, 85) 4 8% 50
Total: 50 100%

• Lk será el límite inferior del intervalo de clase con mayor frecuencia absoluta k. En nuestro
caso, el límite inferior del intervalo [45, 55) es L4 = 45
• ƒk corresponde a la frecuencia del intervalo de clase k, clase modal. Si k = 4, entonces ƒ4 = 20
• ƒ(k-1) corresponde a la frecuencia anterior del intervalo de clase k, clase modal. Si k = 4,
entonces ƒ(4-1) = 13
• ƒ(k+1) corresponde a la frecuencia posterior del intervalo de clase k, clase modal. Si k = 4,
entonces ƒ(4+1) = 3 y
• Rk, será el rango del intervalo de clase donde está la clase de la mediana.
R4 = U4 - L4 = 55 - 45 = 10
Nota. Si la clase modal corresponde al primer intervalo, entonces ƒ (k-1) = 0. Si la clase modal está en
el último intervalo, entonces ƒ(k+1) = 0
Al obtener los elementos necesarios, podemos aplicar la fórmula correspondiente para determinar
la moda de nuestro conjunto de datos agrupados:

Por lo que el valor de la moda, considerando una distribución unimodal, correspondiente a 47.92

Sabemos que se trata de una distribución con una sola moda (unimodal) debido a que únicamente
una clase es la que tiene la frecuencia absoluta más alta, si existieran dos clases con el mismo valor
de frecuencia absoluta y estos fueran los más altos, tendremos que calcular la moda para cada
caso y asumiríamos una distribución bimodal, si hubiera tres clases con la frecuencia absoluta más
alta y de igual valor, se calcularían tres modas y asumiríamos una distribución trimodal y así
sucesivamente.

Retomemos la Tabla. Distribución por grupos de edad de la población para practicar el cálculo de
la moda en un grupo de datos mucho más amplio. Comencemos por identificar los elementos
indicados para aplicar la fórmula:

1) Identifica si existe una o varias clases modales con el mismo valor de frecuencia absoluta,
en este caso la clase modal solo es una y corresponde a la Clase 5, con intervalo 20 – 25.
Distribución por grupos de edad de la población Ciudad X
Grupo de Frecuencia Centro de Frecuencia Frecuencia Frecuencia relativa
Clase
edad absoluta clase relativa acumulada acumulada
1 0-5 43969 2.5 4.2 43969 4.2
2 5 - 10 48040 7.5 4.59 92009 4.2
3 10 - 15 53102 12.5 5.07 145111 13.86
4 15 - 20 72077 17.5 6.89 217188 20.75
5 20 - 25 88006 22.5 8.41 305194 29.15
6 25 - 30 84858 27.5 8.11 390052 37.26
7 30 - 35) 84440 32.5 8.07 474492 45.33
8 35 - 40 78868 37.5 7.53 553360 52.86
9 40 - 45 72634 42.5 6.94 625994 59.8
10 45 - 50 69840 47.5 6.67 695834 66.47
11 50 - 55 65948 52.5 6.3 761782 72.77
12 55 - 60 50673 57.5 4.84 812455 77.61
13 60 - 65 57869 62.5 5.53 870324 83.14
14 60 - 70 54981 67.5 5.25 925305 88.39
15 70 - 75 46981 72.5 4.49 972286 92.88
16 75 - 80 74526 77.5 7.12 1046812 100
Población 1046812 100
total
Total: 50 100%

2) Identifica el valor del límite inferior de la clase que contiene la moda (o clase modal), en
este caso tenemos que L5 = 20
3) Identifica el valor de la frecuencia absoluta de la clase muestral, en este caso tenemos
que F5 = 88,006
4) Identifica la frecuencia absoluta de la clase anterior a la clase modal, en este caso se trata
de la clase (5-1), o sea Clase 4, con intervalo de 15 a 20, lo que nos devuelve un valor
de 72,077.
5) Toma la frecuencia absoluta de la clase posterior a la clase modal, en este caso se trata de
la clase (5 + 1), o sea la Clase 6, con intervalo de 25 a 30, lo que nos da un valor de 84,858.
Como la clase modal no es ni la primera ni la última, proseguimos con el algoritmo.
6) Finalmente, tomamos el valor del rango, dado por:
R5 = U5 - L5 = 25 - 20 = 5
Ahora, sustituyamos valores en la fórmula:

El valor de la moda de datos agrupados es 24.175


Medidas de dispersión de datos agrupados
Además de las medidas de tendencia central, para el análisis de datos referentes a problemáticas de
salud, la estadística descriptiva nos ofrece como herramientas de apoyo las medidas de
dispersión, las cuales posibilitan visualizar la variabilidad o dispersión de los datos asociados a una
variable y determinar qué tan alejados están de la media. Las medidas de dispersión que
abordaremos para datos agrupados son:
• Varianza
• Desviación estándar
Cuando tenemos que calcular la varianza para datos agrupados, es necesario recurrir a la fórmula:

S2 = (1/n – 1) ∑ki=1 ƒ i ( MC i - x̅ )2
Mientras que la desviación estándar se obtiene como la raíz cuadrada de la varianza,
matemáticamente se expresa como:

Por lo que al calcular la varianza, obtenemos de inmediato la desviación estándar al calcular la raíz
cuadrada del valor obtenido.

Apliquemos la determinación de estas dos medidas de dispersión, en nuestro ejemplo desprendido


del seguimiento de 50 pacientes diagnosticados con diabetes.

Obtengamos los valores necesarios para aplicar la fórmula.


• A partir de la tabla obtenemos MCk x̅, dada la media x̅ = 49.

#Intervalos Intervalos de clase Frecuencia fr fa MC MC - x̅


1 (15,25) 3 6% 3 20 -29
2 (25,35) 3 6% 6 30 -19
3 (35,45) 13 26% 19 40 -9
4 (45,55) 20 40% 39 50 1
5 (55,65) 3 6% 42 60 11
6 (65,75) 4 8% 6 70 21
7 (75,85) 4 8% 50 80 31
Total: 50 100%

• Posteriormente MCk - x̅ se eleva al cuadrado y una vez elevado al cuadrado se multiplica por su
frecuencia y así obtenemos la suma total.

#Intervalos Intervalos de clase Frecuencia MC MC - x̅ (MC - x̅)2 f*(MC - x̅)2

1 (15,25) 3 20 -29 841 2523

2 (25,35) 3 30 -19 361 1083

3 (35,45) 13 40 -9 81 1053

4 (45,55) 20 50 1 1 20

5 (55,65) 3 60 11 121 363

6 (65,75) 4 70 21 441 1764

7 (75,85) 4 80 31 961 3844

Total: 10650

Nota: Observa que al elevar al cuadrado todos los signos negativos desaparecen y así, es posible
estimar valores de dispersión efectivos.

Así tenemos la suma ∑ ƒi (MC i - x̅ )2 = 10 650 y sustituyendo en la formula podemos obtener


la varianza:

S2 = 150 - 1 ∑ ƒi (MC i - x̅ ) 2 = 149 (10 650) = 217.35

Varianza: 217.35
Una vez obtenida la varianza, para calcular la desviación estándar, solo es necesario obtener la
raíz cuadrada de dicho resultado:

s2 = 217.35 → √s2 = √217.35 → 𝜎 = 14.74


Desviación estándar: 14.74
Intentemos ahora, calcular medidas de dispersión para un grupo mucho más amplio de datos,
recurriendo nuevamente a la Tabla. Distribución por grupos de edad de la población.

Ya que esta tabla corresponde a una los datos emanados de una población, es importante que la
notación de las fórmulas es:

µ para la media poblacional.


s2 para la varianza poblacional.

• 1) Inicia recuperando el valor de la media antes obtenido en el subtema Medidas de


tendencia: Media. de la media: dicho valor es 39.84.
• 2) Agrega una columna donde calcules la diferencia de cada centro de clase, menos la media:
Frecuencia
Grupo de Frecuencia Frecuencia Frecuencia Centro de
Clase relativa MC-µ
edad absoluta relativa acumulada clase
acumulada
1 0-5 43969 4.2 43969 4.2 2.5 -37.34
2 5-10 48040 4.59 92009 8.79 7.5 -32.34
3 10-15 53102 5.07 145111 13.86 12.5 -27.34
4 15-20 72077 6.89 217188 20.75 17.5 -22.34
5 20-25 88006 8.41 305194 29.15 22.5 -17.34
6 25-30 84858 8.11 390052 37.26 27.5 -12.34
7 30-35 84440 8.07 474492 45.33 32.5 -7.34
8 35-40 78868 7.53 553360 52.86 37.5 -2.34
9 40-45 72634 6.94 625994 59.8 42.5 2.66
10 45-50 69840 6.67 695934 66.47 47.5 7.66
11 50-55 65948 6.3 761782 72.77 52.5 12.66
12 55-60 50673 4.84 812455 77.61 57.5 17.66
13 60-65 57869 5.53 870324 83.14 62.5 22.66
14 65-70 54981 5.25 925305 88.39 67.5 27.66
15 70-75 46981 4.49 972286 92.88 72.5 32.66
16 75-80 74526 7.12 1046812 100 77.5 37.66
Población 1046812 100
total

• 3) Agrega otra columna en la que eleves al cuadrado los valores obtenidos en la columna MC
- µ:

Frecuencia
Grupo de Frecuencia Frecuencia Frecuencia Centro de
Clase relativa MC-µ (MC-µ)2
edad absoluta relativa acumulada clase
acumulada
1 0-5 43969 4.2 43969 4.2 2.5 -37.34 1394.2756
2 5-10 48040 4.59 92009 8.79 7.5 -32.34 1045.8756
3 10-15 53102 5.07 145111 13.86 12.5 -27.34 747.4756
4 15-20 72077 6.89 217188 20.75 17.5 -22.34 499.0756
5 20-25 88006 8.41 305194 29.15 22.5 -17.34 300.6756
6 25-30 84858 8.11 390052 37.26 27.5 -12.34 152.2756
Frecuencia
Grupo de Frecuencia Frecuencia Frecuencia Centro de
Clase relativa MC-µ (MC-µ)2
edad absoluta relativa acumulada clase
acumulada
7 30-35 84440 8.07 474492 45.33 32.5 -7.34 53.8756
8 35-40 78868 7.53 553360 52.86 37.5 -2.34 5.4756
9 40-45 72634 6.94 625994 59.8 42.5 2.66 7.0756
10 45-50 69840 6.67 695934 66.47 47.5 7.66 58.6756
11 50-55 65948 6.3 761782 72.77 52.5 12.66 160.2756
12 55-60 50673 4.84 812455 77.61 57.5 17.66 311.8756
13 60-65 57869 5.53 870324 83.14 62.5 22.66 513.4756
14 65-70 54981 5.25 925305 88.39 67.5 27.66 765.0756
15 70-75 46981 4.49 972286 92.88 72.5 32.66 1066.6756
16 75-80 74526 7.12 1046812 100 77.5 37.66 1418.2756
Población 1046812 100
total

Grupo Frecuencia
Frecuencia Frecuencia Frecuencia Centro
Clase de relativa MC-µ (MC-µ)2 f-(MC-µ)2
absoluta relativa acumulada de clase
edad acumulada
1 0-5 43969 4.2 43969 4.2 2.5 -37.34 -37.34 1394.275

2 5-10 48040 4.59 92009 8.79 7.5 7.5 -32.34 1045.875


3 10-15 53102 5.07 145111 13.86 12.5 12.5 -27.34 747.475
4 15-20 72077 6.89 217188 20.75 17.5 17.5 -22.34 499.075
5 20-25 88006 8.41 305194 29.15 22.5 22.5 -17.34 300.675
6 25-30 84858 8.11 390052 37.26 27.5 27.5 -12.34 152.275
7 30-35 84440 8.07 474492 45.33 32.5 32.5 -7.34 53.875
8 35-40 78868 7.53 553360 52.86 37.5 37.5 -2.34 5.475
9 40-45 72634 6.94 625994 59.8 42.5 42.5 2.66 7.075
10 45-50 69840 6.67 695934 66.47 47.5 47.5 7.66 58.675
11 50-55 65948 6.3 761782 72.77 52.5 52.5 12.66 160.275
12 55-60 50673 4.84 812455 77.61 57.5 57.5 17.66 311.875
13 60-65 57869 5.53 870324 83.14 62.5 62.5 22.66 513.475
14 65-70 54981 5.25 925305 88.39 67.5 67.5 27.66 765.075
15 70-75 46981 4.49 972286 92.88 72.5 72.5 32.66 1066.675
16 75-80 74526 7.12 1046812 100 77.5 77.5 37.66 1418.275
Poblaci 1046812 100 Total 490153449
ón total
• 4) Multiplica cada resultado por su frecuencia y obtén la sumatoria:

El valor total obtenido hasta ahora es:

∑ ƒi (MC i - µ )2 = 490 153 449

Ya que estos datos provienen de una población, dividimos entre n (recuerda que si los datos
provienen de una muestra, se debe dividir entre n – 1). Entonces:

𝜎2 = 1n> ∑ ƒi (MC i - 𝜇 ) 2 = 11046812 (490153449) = 468.23

Varianza: 468.23

Para obtener la desviación estándar de este conjunto de datos agrupados, una vez calculada la
varianza, basta con obtener su raíz cuadrada, entonces:

Desviación estándar: 21.63


Representación gráfica
Con el fin de poder interpretar los datos desprendidos de estudios estadísticos en el área de la salud,
es importante considerar las representaciones graficas que nos permitan entender más fácilmente la
información arrojada, en el caso de las medidas de dispersión para datos agrupados, el tipo de
gráfica más representativo, resulta ser el histograma, por lo que, a continuación, a partir de la tabla
de frecuencias agrupadas se construirá el histograma correspondiente.
Recuerda que en un histograma:
• Se representa de forma gráfica de la tabla de frecuencias agrupadas de datos continuos
(intervalos).
• No hay espacio entre las barras.
• El ancho de la barra, eje x, corresponde a la longitud del intervalo, es decir, su rango y el
punto medio de cada intervalo es la marca de clase.
• La altura, eje y, de la barra corresponde a la frecuencia o a la frecuencia relativa.
Continuemos trabajando con un ejemplo previo, concentrémonos en el caso de 50 pacientes
diagnosticados con diabetes:

#Intervalos Intervalos de clase Frecuencia fr


1 (15,25) 3 6%
2 (25,35) 3 6%
3 (35,45) 13 26%
4 (45,55) 20 40%
5 (55,65) 3 6%
6 (65,75) 4 8%
7 (75,85) 4 8%
Total: 50 100%

Obtengamos el histograma para las edades en los que fueron diagnosticados de diabetes:

Podemos también obtener el histograma con las frecuencias relativas, observa que no varía con
respecto al anterior.

Al observar detenidamente ambos histogramas, podrás darte cuenta que las medidas de tendencia
central se agrupan en el centro en el histograma. Por lo tanto, nuevamente podemos aseverar para
este caso, que en promedio, fue a la edad de 49 años cuando los pacientes fueron diagnosticados
con diabetes.
Cierre
Para resumir este tema anterior, hagamos un repaso rápido de los conceptos y fórmulas de cálculo
más importantes:
• Desarrollo de la tabla de frecuencias agrupadas
• Determinar número de clases, rango , amplitud de clase y marca de clase
• Determinar frecuencias (absoluta, relativa, acumulada, relativa acumulada)
• Medidas de tendencia central (media, mediana y moda)
• Medidas de dispersión (varianza y desviación estándar)
La tabla de frecuencias agrupadas es una herramienta que permite resumir grandes cantidades
de datos para , facilitará el cálculo de las medidas de tendencia central y de dispersión. La tabla
presenta la siguiente estructura:

Nombre de la variable Frecuencia Frecuencia Frecuencia Marca de


(Intervalo de clase) absoluta fk relativa frk acumulada a fak clase MCk
[a1, a2)
[a2, a3)
:
[ak, ak+1]
Notación: [a1, a2), el paréntesis significa que el valor extremo a2 queda excluido, mientras que el
corchete indica que el valor extremo a1 necesariamente se incluye en el intervalo.
FUENTES DE CONSULTA

Departamento de didáctica de la matemática. (2011). Estadística con proyectos. (c. Batanero, & c.
Díaz, eds.) Granada, España: Facultad de Ciencias de la Educación, Universidad de Granada.

Encuesta Nacional de Salud Y Nutrición (ENSAUT) (2012). https://ensanut.insp.mx/

García, A. (2008). Estadística aplicada: conceptos básicos (2a edición ed.). Madrid, España:
Educación permanente / Universidad Nacional de Educación a Distancia.

Wackerly, D., Mendenhall iii, W., Scheaffer, R. (2010). Estadística matemática con aplicaciones.
México, D.F., México: Cengage learning editores, S.A.

Macchi, R. (2013). Introducción a la estadística en ciencias de la salud. 2ª edición. Editorial Médica


Panamericana, S.A.

Organización Mundial de la Salud (OMS). (2018). Obesidad y Sobrepeso. 16/02/2018, de OMS Sitio
web: https://www.who.int/es/news-room/fact-sheets/detail/obesity-and-overweight

También podría gustarte