Está en la página 1de 46

Clase 3a:

Estadística aplicada a la Epidemiología


Parámetros estadísticos

Pablo Andrés Salgado


Glenda Rossi
Ximena Pazos
Graciela Klemonskis
Aldo Fabián Squassi

“El pensamiento estadístico será algún día tan necesario para el ciudadano competente
como la capacidad de leer o escribir”
H. G. Wells

65
Tabla de contenido
1. Introducción:........................................................................................................................................................... 2
1.1. ¿Por qué preguntarnos por la ciencia y la investigación? ........................................................................ 3
1.2. La práctica profesional y la investigación científica ................................................................................... 3
2. Noción básica de estadística .............................................................................................................................. 4
2.1. Concepto de estadística ...................................................................................................................................... 6
2.2. ¿Por qué se debe aprehender Estadística?................................................................................................... 7
2.3. Aplicaciones más relevantes de la estadística ............................................................................................. 7
2.3.1. Análisis de situaciones (descriptivo) ........................................................................................................... 7
2.3.2. Estudio de hipótesis ......................................................................................................................................... 8
2.3.3. Estimación de parámetros ............................................................................................................................. 8
2.3.4. Relación entre dos o más variables............................................................................................................. 9
2.3.5. Predicciones........................................................................................................................................................ 9
2.3.6. Control de Calidad ............................................................................................................................................ 9
2.4. Estadistica descriptiva.......................................................................................................................................... 9
2.5. Estadistica Inferencial o Inductiva .................................................................................................................13
2.5.1. Inferencia estadística .....................................................................................................................................14
3. Población y muestra ...........................................................................................................................................15
4. Parámetros y estadísticos.................................................................................................................................16
5. Medidas de tendencia central: promedio, mediana y moda ................................................................19
5.1. La media aritmética ............................................................................................................................................19
5.2. La mediana ............................................................................................................................................................21
5.2.1. Cálculo de la mediana en variables cualitativas ordinales ................................................................22
5.2.2. Cálculo de la mediana para variables cuantitativas discretas ..........................................................23
5.2.3. El modo o la moda ..........................................................................................................................................25
5.3. Medidas de posición: cuantiles (cuartiles, quintiles, deciles y percentiles) .....................................32
5.4. Medidas de dispersión.......................................................................................................................................35
5.4.1. Amplitud total o recorrido de la variable ................................................................................................36
5.4.2. Desviación, intervalo o rango intercuartil...............................................................................................37
5.4.3. Recorrido semiintercuartil ...........................................................................................................................37
5.4.4. Varianza y desviación típica o estándar...................................................................................................37
5.4.5. Coeficiente de variación ...............................................................................................................................40
5.5. Medidas de forma: asimetría y curtosis.......................................................................................................41
5.5.1. Asimetría............................................................................................................................................................41
5.5.2. Apuntamiento o curtosis ..............................................................................................................................42
Referencias Bibliográficas ..............................................................................................................................................45

1
E-mail: epidemiología@odontologia.uba.ar
Objetivos de aprendizaje

 Definir el concepto de estadística.


 Comprender la importancia de la estadística como una ciencia que aporta herramienta para
el análisis e interpretación de los datos.
 Conocer las posibilidades que brinda la estadística para la construcción de conocimiento
científico y para la práctica profesional.
 Comprender el concepto de estadística descriptiva y estadística inferencial o inductiva
 Comprender el concepto de población y muestra
 Interpretar el análisis de datos y la presentación de resultados.

Ejes de estudio de la clase


1. Nociones básicas de estadística:
⇨ Concepto de estadística.
⇨ Aplicación de la estadística.
⇨ Estadística descriptiva.
⇨ Estadística inferencial o inductiva.
⇨ Población y muestra.
2. Interpretación de datos: Estadígrafos
⇨ Medidas de Frecuencia
⇨ Medidas de Tendencia Central
⇨ Medidas de Dispersión
⇨ Medidas de Posición u Orden
3. Presentaciones estadísticas y representaciones gráficas de los datos

1. Introducción:
Los campos disciplinares demandan la formación de profesionales que conozcan y sean capaces de aplicar los
avances tecnológicos y científicos, así como de producir conocimientos válidos y contextuados. En particular, la
toma de decisiones para la intervención sobre las nuevas problemáticas en diferentes áreas, requiere la
investigación de los procesos implicados en ellas. Para ello, es necesario que aprendan dichos procesos, los
requisitos y las normas que los regulan y que desarrollen una reflexión crítica que les permita afrontar los
desafíos actuales en sus prácticas cotidianas.

2
E-mail: epidemiología@odontologia.uba.ar
Para su mejor comprensión, las materias relacionadas con la investigación exigen una articulación teórico-
práctica, es decir, abordar los temas de forma paralela a su ejercitación. ¿Cómo? A través de la práctica de
escritura, planificación y corrección de los mismos.

Por otro lado la formación profesional incluye tanto el aprendizaje de aspectos teórico-conceptuales y de
estrategias de intervención adecuadas para la construcción de conocimiento científico como del trabajo
interdisciplinario.

1.1. ¿Por qué preguntarnos por la ciencia y la investigación?


Podemos identificar tres áreas básicas de trabajo profesional: formación, intervención o práctica profesional e
investigación. Aunque tienen diferentes objetivos, estas áreas guardan semejantes necesidades y mantienen
relaciones intrínsecas. Las acciones resultantes de las interrelaciones entre ellas se expresan en múltiples
sentidos en el trabajo cotidiano. Por ejemplo, se puede realizar una evaluación a fin de intervenir y extraer
nuevos conocimientos de dicha intervención, producir conocimientos para intervenir y evaluar los resultados,
intervenir para evaluar los conocimientos o la eficacia de los mismos, etc.

Tres áreas básicas del trabajo profesional

1.2. La práctica profesional y la investigación científica


Existen estrechos lazos entre la práctica profesional y la investigación científica, puesto que la primera supone
intervenciones avaladas por la ciencia, basadas en arduos procesos de investigación y validados científicamente
con anterioridad. La práctica profesional produce, a través de la aplicación de diferentes técnicas y métodos,
soluciones a problemas particulares. Tales intervenciones demandan la previa selección de aquellos
conocimientos adquiridos cuya aplicación permite resolver determinada situación de manera fundamentada.
Sin embargo, para que las observaciones y los resultados de la práctica profesional sean utilizables y útiles al
progreso de la ciencia, es necesario someterlos a las «normas y pautas» que supone la producción de
conocimiento científico.

3
E-mail: epidemiología@odontologia.uba.ar
Cita

Nada impide que los resultados de una práctica profesional particular se incorporen (tarde o temprano) a la
base observacional de una investigación científica, o que las ideaciones producidas durante la ejecución de
las acciones se transformen en fuentes de inspiración para nuevas propuestas teóricas. Nada impide tampoco
que un proyecto de intervención profesional se proponga tanto modificar una realidad cuanto producir un
resultado cognoscitivo en el marco de los cánones de la ciencia.
(Samaja, 2004).

Lo que las exigencias académico-científicas agregan principalmente a la práctica profesional es entonces el


requisito de que el conocimiento comporte la intención y los procedimientos destinados a producir una
explicación o una comprensión científica de su objeto (sea un objeto natural o un artefacto resultado de acciones
de diseño). Esto obliga a tener presente, desde el comienzo, las normas que rigen el intercambio intelectual en
la comunidad científica, aun cuando se proponga cambiarlas o subvertirlas, en cuyo caso debe justificarse con
normativa más general. Lo que diferencia a la investigación científica es por tanto el esfuerzo de integración de
los componentes teóricos y empíricos a través de las mediaciones intelectivas de la explicación científica.

2. Noción básica de estadística


Desde hace por lo menos tres décadas la estadística es muy utilizada en distintas disciplinas, siendo necesaria
para evaluar, llegar a conclusiones y en la toma de decisiones.

En las Ciencias de la Salud el uso de la estadística ha aumentado exponencialmente desde hace 25 años.

En el desarrollo de la ciencia en general, el conocimiento de metodología y estadística permite la obtención,


análisis e interpretación de todos los datos que proceden de las observaciones sistemáticas o de
experimentaciones proyectadas específicamente para conocer los efectos de uno o varios factores que
intervienen en los fenómenos bajo estudio.

La estadística es un elemento común en la mayoría de las investigaciones científicas cuantitativas. Aporta


herramientas que van desde el análisis e interpretación de datos como en la estadística descriptiva, hasta el
proceso de predicción y toma de decisiones basadas en evidencia como en estadística inferencial, y resulta
imprescindible para evitar llegar a conclusiones equivocadas. Asimismo, es tal la importancia que ha adquirido,
que aparece en prácticamente todas las áreas de trabajo, siendo un factor clave para la toma de decisiones a
partir de datos observados.

Esencialmente, la estadística permite describir el comportamiento de las características de la población en


estudio (generalmente utilizando una muestra), probar las hipótesis planteadas en la investigación, estimar
parámetros a partir de estadísticos y entender las relaciones entre variables. ¿De qué manera realiza este
proceso? Resumiendo información de la población a partir de una serie de datos estadísticos, en función de la
naturaleza de las variables de interés.

● Parámetro: Medición numérica que describe algunas características de una población.


● Estadístico: Medición numérica que describe algunas características de una muestra.

4
E-mail: epidemiología@odontologia.uba.ar
La estadística se utiliza para estudiar aquellos fenómenos de los que se tiene una cantidad de observaciones y
cuya aparición se rige por las leyes del azar o aleatorias. Su aplicación tiene lugar porque los fenómenos de
algunas ciencias no se dan siempre iguales entre sí, sino que presentan variaciones. Estas pequeñas diferencias
se deben a una serie de causas numerosas y complejas que no se pueden determinar por separado y que se
incluyen dentro del término “azar”. Por lo tanto:

 La estadística es la ciencia que estudia en forma cuantitativa los fenómenos aleatorios.

 Se denomina fenómeno aleatorio a cualquier hecho de la naturaleza o de la actividad humana cuyo


resultado no se puede prever con exactitud, es decir, que existe un grado de incertidumbre sobre él.

La tarea más importante de la estadística es la de proporcionar alternativas cuantitativas al mero juicio personal,
de forma que realicemos conclusiones objetivas. Las pruebas de significación son consideradas como una de
las herramientas más importantes en este tipo de toma de decisiones subjetivas, pues, mediante ellas, se
pueden tomar decisiones, que, en principio, no dependen de la persona que las realiza.

Pastilla

Las estadísticas son de utilidad como herramienta política y administrativa para la toma de
decisiones, ya que disponer de información fidedigna es clave para mejorar el control, la evaluación,
la organización y la optimización de los recursos.

Ejemplo

¿Cuál es la tasa de mortalidad infantil en la Ciudad Autónoma de Buenos Aires para el 2019?

La variable tasa de mortalidad infantil (TMI) se define como la proporción de nacidos vivos que fallecen
durante el primer año de vida (numerador), dividido por el total de nacidos vivos (denominador) y
generalmente se expresa por 1000 (‰). Su denominación de “tasa” se debe a que esta proporción se mide en
un determinado período de tiempo, por ejemplo, un año.

Además de ser una variable, es un indicador que resume, además del dato específico, vulnerabilidad social,
calidad del sistema de salud, entre otros. Este resultado es un fenómeno que no se puede predecir dado que
está asociado a un grado de incertidumbre (azar).

Al disponer de datos descriptivos de la TMI de años anteriores que pueden ser analizados: Año 2016 = 7,2 ‰;
año 2017= 6,7 ‰ y año 2018 5,7 ‰, valores obtenidos a partir de la estadística descriptiva.

En base a ello, ¿se podría predecir que el en año 2019 la tasa de mortalidad infantil será menor o mayor al año
2018? Con las herramientas de la estadística inferencial se podría llegar a un valor estimado de dicha tasa,
asociado a una probabilidad de certeza, disminuyendo así la incertidumbre.

5
E-mail: epidemiología@odontologia.uba.ar
Durante la vida cotidiana, continuamente basamos nuestras decisiones en cálculos estadísticos:

 Cuando vamos al supermercado, calculamos (en modo aproximado), el consumo promedio de cada
producto de modo tal de no comprar ni de más ni de menos.

 Consultamos el pronóstico del tiempo y nos basamos en la probabilidad de lluvias, para planificar un
fin de semana al aire libre.

 Estimamos la cantidad de horas que debemos estudiar para un examen, en función de la cantidad y
complejidad de temas a preparar.

 Si observamos el periódico del domingo pasado, encontraremos en los varios artículos que recurren a
la estadística para presentar la información.

La estadística, en definitiva, se ha vuelto una herramienta indispensable para desenvolvernos en nuestra cultura.

2.1. Concepto de estadística


La estadística es una ciencia derivada de las matemáticas que estudia los métodos para recoger, organizar,
resumir y analizar datos, así como para sacar conclusiones válidas y/o tomar decisiones razonables.

La estadística permite describir el comportamiento de las características de la población de estudio, probar


hipótesis planteadas por el experimentador, estimar parámetros, entender las relaciones entre variables, entre
otras cosas.

 La estadística es utilizada para estudiar aquellos fenómenos en los que se tienen una cantidad de
observaciones, cuya aparición se rige por las leyes del azar o aleatorias.

 La aplicación de la estadística tiene lugar porque los fenómenos de algunas ciencias no se dan siempre
iguales entre sí exactamente, sino que presentan variaciones.

 Estas pequeñas diferencias son debidas a una serie de causas tan numerosos y complejas que no se
pueden determinar por separado y que se incluyen dentro del nombre común de azar.

Cita

Para Salazar Pintoy Del Castillo Galarza (2017), la estadística “es la ciencia que se encarga de la recolección,
ordenamiento, representación, análisis e interpretación de datos generados en una investigación sobre
hechos, individuos o grupos de los mismos, para deducir de ello conclusiones precisas o estimaciones futuras”
(p. 13).

Otra definición podemos obtenerla en Triola (2009, p. 4), para quien la estadística es un conjunto de métodos
para planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar,
interpretar y llegar a conclusiones basadas en los datos.

6
E-mail: epidemiología@odontologia.uba.ar
Pastilla

En síntesis, la estadística permite:

 Recolectar y analizar datos; describir, interpretar y explicar fenómenos.


 Organizar y resumir la información en forma de tablas, cuadros y gráficos.
 Detectar algún modelo o patrón de comportamiento de los datos.
 Realizar inferencias de una población a partir de los datos obtenidos de una muestra o parte
de esa población.
 Comparar una o más características (variables) entre dos poblaciones.
 Investigar si dos o más características o variables de una población están relacionadas entre
sí o, por el contrario, son independientes.
 Realizar una toma de decisiones más efectiva.

2.2. ¿Por qué se debe aprehender Estadística?


El interés por descubrir nuevos procedimientos a través de la experiencia acumulada, ha sido determinante en
la necesidad de que todos estos profesionales se vean inmersos en la formación y aprendizaje de técnicas básicas
de metodología de la investigación y de algunas más concretas como el análisis de datos.

No se trata que seamos expertos en Estadística. El principal objetivo de este curso se centra en generar una
actitud crítica ante cualquier lectura científica, adquirir un lenguaje común con los especialistas y conocer a priori
los pasos y los elementos imprescindibles en cualquier investigación empírica que se apoye en el manejo de
volúmenes grandes de datos y cuyo propósito final sea resumir o condensar dicha información para que pueda
ser transmitida o extrapolar las conclusiones a las poblaciones de las que fueron tomadas.

2.3. Aplicaciones más relevantes de la estadística


 Análisis de situaciones (descriptivo)
 Estudio de Hipótesis
 Estimación de parámetros
 Relación entre dos o más variables
 Predicciones
 Control de calidad

2.3.1. Análisis de situaciones (descriptivo)


Cualquier disciplina que pretenda analizar las magnitudes que se consideren importantes para evaluar una
situación las estudiará, tabulará o resumirá, es decir las describirá dependiendo de sus características: variables
cualitativas (nominales u ordinales), variables cuantitativas (discretas o continuas). Además, en general, en el

7
E-mail: epidemiología@odontologia.uba.ar
caso de los datos cuantitativos se calcularán valores centrales como la media, mediana y moda, la dispersión
de los datos y su distribución a lo largo del recorrido de la variable. Para los datos cualitativos de resumirán los
datos en tablas de frecuencias y porcentajes.

2.3.2. Estudio de hipótesis


Verificar mediante el estudio de muestras si se cumplen unas determinadas condiciones en ciertos ámbitos
considerados de interés. Las técnicas estadísticas de contraste de hipótesis permiten comprobar si en una
población se cumpla una determinada hipótesis; mediante el estudio de la población completa o de una
muestra, evidentemente esta última, con un margen de error como siempre que se realizan proyecciones de
resultados a poblaciones a partir de muestras.

Como ejemplo veremos más adelante que el denominado "Test de Hipótesis" se basa en esta propiedad:

• La denominada Hipótesis nula es la hipótesis en la cual no se encuentran diferencias entre los


tratamientos o no hay diferencias estadísticamente significativas entre los grupos o no
hay asociación/correlación etc.
• La denominada Hipótesis alternativa (que generalmente es la hipótesis de la investigación) en la cual
se observan diferencias entre los tratamientos o si hay diferencias estadísticamente significativas
entre los grupos o hay asociación/correlación entre las variables etc.

Generalmente el Test de Hipótesis trata de rechazar la Hipótesis nula y aceptar la Hipótesis alternativa.

Por ejemplo, si se tiene la hipótesis que, en una determinada Localidad, la tensión arterial sistólica de los
hombres mayores de 18 años es más elevada que la de las mujeres:

• Si se estudia a toda la población (censo) y la TS media de los hombres es 130 mm Hg y de las mujeres
es 120 mm Hg, los resultados confirman la hipótesis sin necesidad de utilizar técnicas estadísticas, dado
que se han estudiado todos los elementos (unidades de análisis) de la población y las conclusiones son
válidas para la Jurisdicción en donde se realizó el estudio.
• En el caso de que no se hubiera podido estudiar a todas las unidades de análisis y los resultados
hubieran sido obtenidos a partir de una muestra aleatoria, no sería suficiente haber encontrado
diferencias en la muestra para confirmar la hipótesis, siendo necesario alguna prueba estadística para
corroborarlo con un nivel de confianza determinado.

2.3.3. Estimación de parámetros


En el caso de que el estudio de un problema se haga a partir de datos obtenidos de muestras aleatorias
estadísticamente correctas o que puedan considerarse como tales, puede evaluarse el margen de error
estadístico a los resultados obtenidos.

Por ejemplo, si se obtiene una muestra aleatoria de individuos y el 30% tiene una determinada característica, el
objetivo del estudio es conocer, a partir de la muestra (estadístico), el valor en el total de la población
(parámetro).

La estadística inferencial o analítica permite estimar el valor poblacional a partir de una muestra, con un margen
de error determinado por el investigador.

8
E-mail: epidemiología@odontologia.uba.ar
2.3.4. Relación entre dos o más variables
Conocer la dependencia y el grado de la misma entre dos o más variables es una de las técnicas de estudio más
utilizada en la actualidad. El objetivo es elaborar modelos matemáticos que expliquen la relación existente entre
las variables de interés.

Por ejemplo:

 El nivel de lípidos en sangre y la edad.


 El hábito de fumar y la frecuencia de enfermedades pulmonares.
 El infarto de miocardio y el peso, la edad, el colesterol en sangre, la hipertensión arterial, diabetes, el estrés,
el sedentarismo etc.

2.3.5. Predicciones
Muchas disciplinas utilizan métodos estadísticos para realizar predicciones. Una predicción es una hipótesis
enunciada a partir de unos resultados obtenidos en un ámbito y período de tiempo determinado, a fin de estimar
los resultados en otros tiempos y/o lugares. La formulación de la hipótesis presupone que las condiciones en el
ámbito o período de tiempo en que se realicen son similares a las de la situación sobre la que se obtuvieron los
resultados predictores.

Ejemplo: predecir el crecimiento demográfico a partir de censos previos. Predecir la evolución temporal del
desarrollo de una infección bacteriana o viral a partir de modelos matemáticos.

2.3.6. Control de Calidad


En los últimos años el control de calidad es una disciplina que se ha desarrollado mucho, orientada hacia la
producción. Es una técnica de estudio basa a en métodos estadísticos, siendo su principal objetivo la
determinación de factores que influyen en la calidad de los productos.

Los estudios de control de calidad, se realizan a partir de muestras y utilizan técnicas de estadística inferencial y
también de estadística descriptiva.

Los métodos estadísticos constituyen un medio efectivo para controlar la calidad en el proceso de producción.

El control de calidad estadístico debe ser considerado como un grupo de herramientas, que pueden influir en
las decisiones relacionadas con la producción.

2.4. Estadistica descriptiva


Es la parte de la Estadística que se ocupa de recopilar, ordenar, representar y condensar los datos obtenidos del
Universo o población en estudio con el fin de describir en forma apropiada las principales características.
Generalmente es el primer análisis elemental y fundamental que se realiza.

Las primeras conclusiones obtenidas en un análisis descriptivo, nos brindan una serie de medidas de tendencia
central, medidas de dispersión y frecuencias o porcentajes, para ver en qué medida los datos se
agrupan, dispersan o distribuyen en torno a un valor central.

Generalmente se describen, analiza y representa un grupo de datos utilizando tablas, gráficos e indicadores
(tasas, promedios, etc.), permitiendo resumir y presentar la información contenida en ellos en forma clara, con
la finalidad de poder reconocer el comportamiento de las características principales de la población estudiadas.

9
E-mail: epidemiología@odontologia.uba.ar
Ejemplo

Distribución de frecuencias de nuevos casos de COVID-19 por mes. República Argentina.


Resto
Mes AMBA PBA Total
Provincias
marzo 732 71 618 1.421
abril 2.578 269 1.290 4.137
mayo 13.096 582 1.371 15.049
junio 48.676 2.837 3.638 55.151
julio 113.915 10.280 14.319 138.514
agosto 157.911 24.180 50.869 232.960
septiembre 131.025 42.739 143.415 317.179
Total 467.933 80.958 215.520 764.411
Fuente: elaboración propia a partir de datos del Ministerio de Salud de la Nación. datos al 30 de septiembre.

Ejemplo

Distribución de frecuencias de nuevos casos de COVID-19 por mes por Región. República Argentina.
160.000

140.000

120.000

100.000

80.000

60.000

40.000

20.000

0
marzo abril mayo junio julio agosto septiembre
AMBA PBA Resto Provincias
Fuente: elaboración propia a partir de datos del Ministerio de Salud de la Nación. datos al 30 de septiembre.

10
E-mail: epidemiología@odontologia.uba.ar
Ejemplo

Evolución en cantidades totales de la Población de la Ciudad Autónoma de Buenos Aires por años censales. Censos
1855 a 2010.

3.000.000

1947 1960 1970 1980 1991 2010


2001
2.500.000
1936

2.000.000

1.500.000
1914

1909
1.000.000
1904

1895
500.000
1887
1869
1855
0
1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

Fuente: elaboración propia a partir de datos del Ministerio de Salud de la Nación. datos al 30 de septiembre.

Ejemplo

Ingreso Per cápita familiar por Zona Geográfica y Total. Ciudad Autónoma de Buenos Aires. Año 2018.
Ingreso Per Cápita Familiar

Zonas Media Mediana Moda Desv. Std. Percentil 25 Percentil 75

Total 18.741 14.400 20.000 17.702 8.000 23.750

Zona Norte 26.506 20.000 30.000 22.664 12.000 35.000

Zona Este 17.653 12.500 10.000 18.284 7.200 22.000

Zona Sur 10.028 8.184 10.000 8.216 4.482 13.200

Zona Oeste 15.544 13.333 10.000 13.168 8.250 20.000

Zona Centro 18.533 15.350 20.000 14.728 8.700 23.750


Fuente: elaboración propia a partir de datos de la Dirección General de Estadística y Censos (Ministerio de
Economía y Finanzas GCBA). Estadísticas vitales y proyecciones de población.

Mapa político de la Ciudad Autónoma de Buenos Aires. Agrupando a las Comunas en 5 Zonas.

11
E-mail: epidemiología@odontologia.uba.ar
El ejemplo anterior se describe en forma de
Tabla resumen, los valores tomados por un
indicador muy utilizado en la Estadística
sociodemográfica (IPCF: ingreso total del
hogar/N° de individuos del hogar).

Como es una variable que toma valores


cuantitativos se puede resumir en medidas
de tendencia central (promedio, mediana y
moda), en medidas de dispersión (desvío
estándar) y medidas de posición (Percentil
25, percentil 50 o mediana y percentil 75).

Además, está descripto por Zonas


geográficas de la Ciudad Autónoma de Bs As
(variable cualitativa), permitiendo comparar
sus variaciones.

Todos esto en forma descriptiva sin ninguna


significancia estadística, que evaluaría si hay
diferencias entre Zonas.

Ejemplo 5

Tasa de Letalidad por grupo de edades en Argentina.

Tasa de Letalidad por grupo de edades


30,0%
27,3%

18,9%

8,7%

2,3%
0,1% 0,1% 0,1% 0,2% 0,7%

Hasta 10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91 o más

Fuente: elaboración propia a partir de base de datos del Ministerio de Salud de la Nación. Fecha 30 de septiembre
de 2020.

12
E-mail: epidemiología@odontologia.uba.ar
Ejemplo

Tasa de Mortalidad Infantil por componentes por ‰ nacidos vivos de madres residentes en Ciudad
Autónoma de Buenos Aires. 1990 – 2018.
18

16,0
16

14 14,3

12,5 12,7
12 11,8
10,8
10,3
10 9,9 10,1
9,6
9,0 9,1 8,9
8,7 8,5 7,9 8,5
8 8,3 8,1 8,3 8,1
7,9 7,9
7,8 7,3 7,2
7,1
6,7 6,4 6,7
6 6,2 6,3 6,4 6,0
5,9 5,7 5,8 5,9 5,7
5,2 5,4 5,6 5,4
5,2
4,7 4,9 5,0 4,9 4,8
4,2 4,5 4,3
4 4,0 4,2
3,7 3,6 3,7
3,2 3,1 2,9 3,1 2,2
2,8 2,6 3,0 2,9
2,3 2,5 2,2 2,3 1,7
2 2,4 1,9
1,8 1,5

0
1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
Infantil Neonatal Postneonatal
Fuente: elaboración propia a partir de datos de la Dirección General de Estadística y Censos (Ministerio de
Economía y Finanzas GCBA). Estadísticas vitales y proyecciones de población.

2.5. Estadistica Inferencial o Inductiva


Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para hacer predicciones y
poder sacar conclusiones de los datos obtenidos a partir de las muestras, para luego extrapolar los resultados al
total de la población.
Comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una
población estadística, a partir de una pequeña parte de la misma (muestra).

La estadística inferencial comprende como aspectos importantes:

 La toma de muestras o muestreo.


 La estimación de parámetros o variables estadísticas.
 El contraste de hipótesis.
 El diseño experimental.
 Los métodos estadísticos paramétricos y no paramétricos.

Generalmente uno de los objetivos fundamentales de la estadística es utilizar la información suministrada por
una parte de la población de estudio para hacer inferencia sobre el total de la misma, asociado a una

13
E-mail: epidemiología@odontologia.uba.ar
probabilidad de cometer un error, debido a que no se evaluó el total de la población (error de muestreo).
Apoyándose en el cálculo de probabilidades y a partir de datos de muestras de poblaciones, efectúa
estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos, con cierto
grado de certeza o nivel de confianza.

En la próxima figura se observa un modelo de distribución teórico denominado “Distribución Normal Estándar”
(también denominada “Campana de Gauss”), el cual es muy utilizado para el cálculo estadístico de
probabilidades. Para ello se supone que la distribución de probabilidades de la variable que estamos midiendo
se aproximada a esta distribución teórica.

2.5.1. Inferencia estadística


A partir de la inferencia estadística se pueden obtener conclusiones de un gran número de acontecimientos
fundándose en las observaciones de una parte de los mismos (muestra).

La inferencia estadística se interesa por dos tipos de problemas:

1. La estimación de los parámetros de la población.

A partir de los estadísticos calculados en la muestra, se pueden estimar los parámetros. Esta estimación
puede ser:

a. Estimación puntual: Se asigna directamente al parámetro el valor del estadístico.

b. Estimación por intervalos de confianza: Se construye un entorno de certeza sobre el valor


estadístico en el cual se puede encontrar el parámetro, con una probabilidad asociada.

2. Las pruebas de hipótesis.

a. Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación
acerca de una población a partir de la evidencia proporcionada por una muestra de datos. Entre
otras aplicaciones, permite contrastar si dos o más poblaciones se diferencian en algún estadístico
y si hay asociación o correlación entre variables.

14
E-mail: epidemiología@odontologia.uba.ar
b. Probablemente, cuando se reúnen dos o más grupos de puntajes por métodos de muestreo, se
observe que éstos difieren. Los procedimientos de la inferencia estadística permiten determinar,
en términos de probabilidad, si la diferencia observada está dentro del rango del azar o las
muestras son de dos poblaciones diferentes.

3. Población y muestra
Población y muestra son dos conceptos que resulta clave definir, ya que una importante proporción de los
errores que se cometen al aplicar métodos estadísticos se debe a no entenderlos en toda su amplitud.

Se denomina población estadística al conjunto de individuos (unidades de análisis) con determinadas


características seleccionadas (edad, sexo, educación, lugar, etc.), que es objeto de interés en un todo o en parte.
La población puede ser finita (personal docente del área de educación de un país) o infinita (conjunto de
números naturales).

Cuando se realiza un estudio en una cierta población se releva información de varias características o variables.
Por ejemplo, si se quiere investigar sobre la repitencia escolar en estudiantes de nivel primario de un país, se
mide la cantidad de estudiantes repitentes y también otras variables que pueden estar relacionadas con este
indicador: rendimiento en preescolar, sobreedad, inasistencias, cantidad de estudiantes por sección, educación
de padres y madres, indicadores de vulnerabilidad social, indicadores de calidad institucional, variables
universales, entre otras. La cantidad de variables puede ser inmensa, por lo que debe ser limitada con algún
criterio, por ejemplo, en función de los objetivos planteados.

Si se quieren conocer los parámetros de una variable en la población de interés, se debe medir en el total de
personas que integran la población. Como por factores de costos y tiempo esto suele ser imposible de llevar a
cabo, generalmente, se extrae un subconjunto de la población de estudio, denominado muestra, sobre la cual
se miden las variables de interés.

Debe quedar claro que cualquier subconjunto de una población no es una muestra estadística válida para realizar
una investigación de estadística inferencial, más allá de su tamaño. Por ejemplo, si el objeto de estudio es
conocer el peso medio de habitantes en edad adulta de una ciudad y sólo se dispone de datos sobre las mujeres,
no sería correcto estimar a partir de ellos el valor medio del peso del conjunto de habitantes, dado que se trata
de una muestra sesgada. Por tanto, si bien se dispone de una muestra de aproximadamente la mitad de la
población, no puede ser considerada una muestra estadística válida. En cambio, una muestra aleatoria de
hombres y mujeres de la ciudad de algunos cientos de individuos permitiría realizar una estimación bastante
precisa.

El objetivo fundamental del muestreo es obtener conclusiones válidas sobre la población de la cual se obtuvo la
muestra. Por lo tanto, para inferir los valores poblacionales con un margen de error reducido, la muestra debe
ser representativa de la población. Para ello, debe haber sido seleccionada al azar o mediante algún método de
muestreo que garantice la representatividad.

Por otra parte, hay importantes implicancias estadísticas, éticas y económicas en la elección del tamaño de la
muestra. En primer lugar, dicho tamaño está directamente relacionado con la precisión de los resultados que se
obtendrán. En este sentido, la forma más intuitiva de reducir el error de muestreo es aumentar el tamaño de la
muestra pues, al aproximarse al tamaño de la población, se incrementa la precisión. En cambio, al trabajar con
una muestra pequeña, aumenta el margen de error de los resultados y no es posible detectar importantes
efectos entre los grupos estudiados. No obstante, en segundo lugar, se debe tener presente que la utilización
de una muestra demasiado grande implica el involucramiento de más unidades de análisis que las necesarias
(estudiantes, docentes, pacientes, animales, etc.) como así también un incremento de los costos.

15
E-mail: epidemiología@odontologia.uba.ar
Por tal motivo, existen métodos (diseño de investigación) para establecer o calcular el tamaño de la muestra
adecuado según la situación particular. Esto no quiere decir que no pueda seleccionarse otro tamaño, sino
simplemente que es más recomendable.

4. Parámetros y estadísticos
Como se comentó, cuando se trabaja con el total la población, los procedimientos estadísticos de resumen
ofrecen parámetros de las distribuciones; mientras que cuando son aplicados a una muestra de la población, se
obtienen estadísticos. De este modo, los procedimientos estadísticos descriptivos que se verán a continuación
son parámetros cuando se estudia la totalidad de una población o bien estadísticos cuando trabaja con una
muestra de la misma población. En general, los primeros se expresan con letras del alfabeto griego, mientras
que los segundos se expresan con las letras de nuestro alfabeto.

Pastilla

• Estadístico: Medida usada para describir alguna característica de una muestra y calculada a
partir de los elementos que la componen. Función definida sobre los valores numéricos de
una muestra.

• Parámetro: Medida que describe alguna característica de una población. Función definida
sobre los valores numéricos de características medibles de una población.

• Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos


numéricos y gráficos que resumen y presentan la información contenida en ellos.

• Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos


muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un
conjunto mayor de datos.

• Unidad de análisis, individuos o elementos: Personas u objetos que contienen cierta


información que se desea estudiar.

• Población: Conjunto de personas o elementos que cumplen ciertas propiedades comunes.

• Muestra: Subconjunto representativo de una población.

Si se estudiara la población para un determinado nivel educativo (por ejemplo, para personas adultas que
finalizaron el nivel educativo universitario), quizá interese conocer/describir algunas variables o características
como por ejemplo: edad, ingresos mensuales (variables cuantitativas continuas), el género y distribución
geográfica (variables cualitativas nominales). En relación a la edad, se podría preguntar qué edad es la que
representa a este grupo de adultos, en dónde se concentran y también cuán dispersos se hallan en relación con
la edad, si hay muchos casos entre los más jóvenes y pocos entre los mayores, etc. Entonces, las distribuciones
resultantes podrían ofrecer el valor promedio, la mediana de la distribución, alguna medida de cómo se
dispersan, etc. Cada uno de los valores obtenidos será un parámetro de la población, si se ha trabajado con la
población completa, o estadísticos si los valores los han sido obtenidos de una muestra.

16
E-mail: epidemiología@odontologia.uba.ar
Leer con atención

¿Qué es un parámetro?
En estadística, un parámetro es una constante asociada a la distribución de probabilidades de una
variable aleatoria. Ejemplos:

• Si una variable tiene distribución binomial, sus parámetros son n y p


• Si una variable tiene distribución normal, sus parámetros son μ y σ
• Si una variable tiene distribución Bernoulli, su único parámetro es la probabilidad de éxito p

¿Qué es el estimador de un parámetro?

Se trata de un estadístico (variable aleatoria función de las observaciones muestrales) que toma
«valores cercanos» al verdadero valor del parámetro.

Fundamentalmente, son importantes los siguientes estimadores:

• � que es un estimador de la media poblacional μ


La media muestral 𝒙𝒙
• El desvío estándar muestral s que es un estimador del desvío estándar poblacional σ
• La proporción muestral p que es un estimador de la proporción poblacional π

Pastilla

Símbolos para estadísticos y parámetros


Símbolo para el estadístico Símbolo para el parámetro
(muestra) (población)
Media 𝑥𝑥̅ 𝜇𝜇
Desvío estándar s 𝜎𝜎
Proporción p 𝜋𝜋
Número de elementos n N

17
E-mail: epidemiología@odontologia.uba.ar
Para reflexionar

Relación entre parámetros y estadísticos:


Cuando se estudia un subconjunto de la población (muestra), se obtiene un estadístico con el cual se
espera hacer una inferencia (aproximación) sobre el parámetro poblacional.
Mientras que un parámetro es una función de los datos de la población, el estadístico lo es de los datos
de una muestra, por lo tanto, en una muestra, pueden definirse la media muestral, desvío estándar
muestral una proporción (o porcentaje).

De modo que:
Parámetro = Estadístico + error

Procedimiento para realizar inferencia estadística a partir de una muestra:

18
E-mail: epidemiología@odontologia.uba.ar
5. Medidas de tendencia central: promedio, mediana y moda
Las medidas de tendencia central son medidas estadísticas que se calculan para resumir un conjunto de datos
en un solo valor. Este número generalmente situado hacia el centro de la distribución de los valores, en una
serie de observaciones, proporciona una descripción que simplifica y representa apropiadamente a la variable o
al conjunto de datos recolectados de una variable.

Las medidas de tendencia central son:

● Promedio (requiere nivel de medición cuantitativo de la variable).

● Mediana (requiere al menos un nivel de medición ordinal).

● Moda o Modo (cualquier nivel de medición).

Las unidades de medida de todas las medidas de tendencia central son las mismas que las de los datos que se
calculan. Es decir, si la variable se mide en años, el promedio será en años. Lo mismo ocurre con la mediana y el
modo.

5.1. La media aritmética


La media aritmética o promedio es la medida de tendencia central más usada. Su valor es una estimación del
valor central, en torno al cual fluctúan los valores hallados.

Se calcula a partir de la suma de las observaciones dividida por el número total de observaciones (N para
poblaciones, n para las muestras).

Cuando el conjunto de datos proviene de una muestra aleatoria, recibe el nombre de media muestral siendo
uno de los principales estadísticos muestrales. Solo es posible calcularla cuando el nivel de medición de la
variable es cuantitativo discreto o continuo.

Propiedades de la media:

 La suma de las desviaciones con respecto a la media aritmética es cero (0).

𝑛𝑛

� 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = 0
𝑖𝑖=1

 Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda
aumentada en dicha cantidad.

𝑛𝑛

� 𝑥𝑥𝑖𝑖 + 𝑘𝑘 = 𝑥𝑥̅ + 𝑘𝑘
𝑖𝑖=1

19
E-mail: epidemiología@odontologia.uba.ar
 Si todos los valores de la variable se multiplican por una misma constante, la media aritmética queda
multiplicada por dicha constante.

𝑛𝑛

� 𝑥𝑥𝑖𝑖 × 𝑘𝑘 = 𝑥𝑥̅ × 𝑘𝑘
𝑖𝑖=1
 No tiene por qué ser igual a los valores de los datos, ni siquiera de su misma naturaleza: datos enteros
pueden tener una media decimal.
 Está influenciada por los valores de cada uno de los datos. Por lo tanto, si hay valores extremos en la
serie de datos, posiblemente no sea el parámetro más adecuado para resumir una medida de tendencia
central.

Es importante marcar que la media contiene solamente una parte de la información de que los datos
proporcionan. No da ninguna indicación sobre la variabilidad de las mediciones, información esencial para
comparar si dos o más muestras pertenecen a la misma población (Salazar & Del Castillo, 2018, pp. 51).

Cálculo de la media aritmética para una población:

∑𝑁𝑁
𝑖𝑖=1 𝑥𝑥𝑥𝑥 𝑥𝑥1 + 𝑥𝑥2 + 𝑥𝑥3 +. . . +𝑥𝑥𝑁𝑁
𝜇𝜇 = =
𝑁𝑁 𝑁𝑁

Cálculo de la media aritmética para una muestra:

∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑥𝑥 𝑥𝑥1 + 𝑥𝑥2 + 𝑥𝑥3 +. . . +𝑥𝑥𝑛𝑛


𝑥𝑥 = =
𝑛𝑛 𝑛𝑛

Para ampliar:

1. Abrir archivo de MS Excel: Ejemplo01_cálculo_promedio.xlsx


2. En este archivo encontrarán los cálculos en MS Excel para el cálculo del promedio
desarrollado en el Ejemplo 1.

20
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 1

Se quiere calcular el promedio de edad de un grupo de 19 pacientes: Se operacionalizó la edad en


años cumplidos. Archivo de Ms Excel: Ejemplo01_calculo_promedio.xlsx
Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Datos: 12 9 36 42 48 54 60 66 72 29 35 41 47 53 59 65 71 77 88

12 + 9 + 36 + 42 + 48 + 54 + 60 + 66 + 72 + 29 + 35 + 41 + 47 + 53 + 59 + 65 + 71 + 77 + 88
𝑥𝑥̅ =
19
964
𝑥𝑥̅ = 19
= 50,7= 51 años

Principales ventajas y desventajas del promedio o media aritmética:

Ventajas:

 Es una de las medidas más entendidas, utilizadas y fáciles de interpretar.


 Es extraordinariamente estable en el muestreo.
 Es altamente sensible a cualquier cambio en los datos de la distribución.
 Es excepcionalmente adaptable para realizar cálculos matemáticos posteriores.

Desventajas:

 Es muy sensible a valores muy pequeños o grandes (valores extremos o poco frecuentes), y puede resultar
en un promedio que no represente lo típico para el total del grupo, especialmente cuando la distribución es
marcadamente asimétrica. En consecuencia, cuando el promedio aritmético, la mediana y el modo difieren
de forma apreciable, debe considerarse la posibilidad de que esta medida no sea el mejor valor en cuanto
a representatividad de la serie de datos.
 Cuando la distribución tiene la forma de U (parabólica), la media cae entre los valores menos comunes en
la serie y puede dar una idea irreal de la distribución.

5.2. La mediana
La mediana es el punto medio del total de observaciones luego de que éstas fueron ordenadas y se tiene la
misma cantidad por debajo y por encima de su valor (Salazar & Del Castillo, 2018, pp. 52). Es decir, es el valor de
la variable que corresponde a la observación central, que supera a la mitad de los datos (ordenados de menor a
mayor) o es menor a la otra mitad.

No es posible calcularla en variables cualitativas nominales, dado que no se pueden ordenar los datos. En
cambio, en los casos de variables cualitativas ordinales, es factible calcularla a partir de la frecuencia o
𝑛𝑛
porcentaje acumulados, siendo la categoría que acumula el 50% ( ) de los datos.
2

La gran ventaja que posee la mediana con relación a la media aritmética, es no ser afectada en el cálculo por
valores extremos. Sus valores tienden a ser más estables en el caso de muestras o poblaciones asimétricas.

21
E-mail: epidemiología@odontologia.uba.ar
5.2.1. Cálculo de la mediana en variables cualitativas ordinales
𝑁𝑁
Para variables cualitativas ordinales, la mediana será la categoría que supere al 50% � � del porcentaje
2
acumulado.

Ejemplo 2

Cálculo de la mediana para variables cualitativas ordinales

Se analiza la distribución de la variable Máximo nivel educativo alcanzado de mujeres que parieron en
Hospitales de Gestión Pública en el año 2015 para Argentina.

Porcentaje
Nivel de estudios alcanzados Frecuencia Porcentaje
acumulado
Sin estudios formales 2.600 1,0% 1,0%
Primaria incompleta 23.304 8,8% 9,8%
Primaria completa 68.943 26,1% 35,9%
Secundaria incompleta 84.511 32,0% 67,9%

Secundaria completa 74.410 28,2% 96,1%


Terc/Univ incompleta 7.412 2,8% 98,9%

Terc/Univ completa 2.846 1,1% 100,0%

Total 264.026 100,0%

La categoría de la variable ordinal que supera al 50% del porcentaje acumulado es “Secundaria incompleta”
(67,9%). En la categoría anterior, “Primaria completa”, el porcentaje acumulado es 35,9% y en la posterior,
“Secundaria completa”, es 96,1%. Por lo tanto, la categoría “Secundaria incompleta” corresponde a la
mediana.

22
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 2

Cálculo de la mediana para variables cualitativas ordinales

Gráfico de barras y ubicación de la mediana:

32,0%
28,2%
26,1%

8,8%

2,8%
1,0% 1,1%

Sin estudios Primaria Primaria Secundaria Secundaria Terc/Univ Terc/Univ


formales incompleta completa incompleta completa incompleta completa

5.2.2. Cálculo de la mediana para variables cuantitativas discretas


La mediana de un conjunto de números naturales ordenados según su magnitud es:

• Si el número total de observaciones (n) es impar existirá una única mediana.


• Si el número total de observaciones (n) es par, se calcula a partir del promedio de los dos valores que
ocupen la posición central.

Ejemplo 3

Cálculo de la mediana para variables cuantitativas discretas


En caso de cantidad de valores impares:

3 4 4 5 6 7 8 8 10
Mediana= 6

En caso de cantidad de valores pares:

3 4 5 5 6 7 8 9 9 10 10 11

7+8
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = = 7,5
2

23
E-mail: epidemiología@odontologia.uba.ar
Para datos agrupados la fórmula de la mediana es la siguiente:

𝑁𝑁
� − 𝐹𝐹𝐹𝐹𝑖𝑖−1 � (𝑎𝑎𝑖𝑖 )
𝑀𝑀𝑒𝑒 = 𝐿𝐿𝑖𝑖−1 + 2
𝑓𝑓𝑖𝑖
Donde:

𝐿𝐿𝑖𝑖−1 : es el valor del límite inferior del intervalo de clase en el que se encuentra el valor del orden de la
mediana.
𝑁𝑁
� 2 �: es el valor que representa el orden de la mediana.

𝐹𝐹𝐹𝐹𝑖𝑖−1 : es el valor de frecuencia acumulada anterior que contiene a la mediana


𝑓𝑓𝑖𝑖 : es la frecuencia del intervalo
𝑎𝑎𝑖𝑖 : es la amplitud del intervalo que contiene a la mediana.
Cuando el cálculo de la mediana es para una muestra, se reemplaza en la fórmula el N poblacional por n de
la muestra.
𝑛𝑛
�2 − 𝐹𝐹𝐹𝐹𝑖𝑖−1 � (𝑎𝑎𝑖𝑖 )
𝑀𝑀𝑒𝑒 = 𝐿𝐿𝑖𝑖−1 +
𝑓𝑓𝑖𝑖

Cita

Propiedades de la mediana:

• Al igual que la media aritmética, su valor es único: un conjunto de datos posee una sola
mediana.
• No se ve afectada por la presencia de valores extremos bajos o altos.
• Puede ser determinada para distribuciones de frecuencia que tengan intervalos
abiertos siempre y cuando no se halle en esa categoría.
• Puede determinarse para datos medidos en escala de intervalo, de razón u ordinal.

(Salazar & Del Castillo, 2018, pp. 54)

24
E-mail: epidemiología@odontologia.uba.ar
5.2.3. El modo o la moda

El modo (o la moda; Mo) de una población o muestra consiste en aquel valor de la variable que posee la mayor
frecuencia absoluta.

Para variables cualitativas nominales u ordinales y para variables cuantitativas discretas, la moda es la categoría
o valor de mayor frecuencia.

Para variables cuantitativas continuas, en general, es el punto medio del intervalo de clases (agrupando los
valores) de mayor frecuencia. En otras palabras, es el valor que más se repite.

Puede suceder que la moda no sea única, que aparezcan varios máximos en la distribución de frecuencias, es
decir, que se observe una distribución bimodal, trimodal, polimodal, etc.

Por otro lado, en el caso de una variable discreta que no toma valores repetidos, la moda no tiene sentido y en
algunas ocasiones no se observa una moda. Cuando sí existen valores repetidos, su cálculo es directo ya que
puede leerse directamente de la tabla de distribución de frecuencias.

A diferencia de la media aritmética, la moda no se ve afectada por la ocurrencia de los valores extremos.

Ejemplo 4

Moda para datos nominales:

Distribución de frecuencias y porcentaje de matrícula de Educación Universitaria por Universidad. República


de Panamá año 2018.

Frecuencia
Institución Porcentaje
Absoluta

Universidad de Panamá 68.717 40,5%

Universidad Tecnológica de Panamá 24.681 14,5%

Universidad Autónoma de Chiriquí 14.795 8,7%

Universidad Especializada de Las Américas 11.109 6,5%

Universidad Marítima Internacional de Panamá 960 0,6%

Otras universidades 49.528 29,2%

Total 169.790 100,0%

Moda= Universidad de Panamá.

25
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 4

Gráfico:
Distribución de porcentaje de matrícula de Educación Universitaria por Universidad. República de Panamá año
2018.

Universidad de Panamá 40,5%

Universidad Tecnológica de Panamá 14,5%

Universidad Autónoma de Chiriquí 8,7%

Universidad Especializada de Las


6,5%
Américas
Universidad Marítima Internacional
0,6%
de Panamá

Otras universidades 29,2%

Ejemplo 5

Moda para datos Ordinales:

Distribución de frecuencias, porcentajes y porcentajes acumulados de matrícula por Nivel


Educativo. República de Panamá año 2019.

Nivel Educativo Frecuencia Porcentaje % acumulada


Absoluta
Inicial 3.686 0,4% 0,4%
Prescolar 97.397 10,8% 11,2%
Primaria 469.708 51,9% 63,1%
Premedio 195.524 21,6% 84,7%
Medio 138.750 15,3% 100,0%
Total 905.065 100,0%
Fuente: Sistema de Integración de Datos (SIDE), Ministerio de Educación. República de Panamá. Año
2019.

Moda= Nivel primario, con un porcentaje del 51,9%

Mediana= Nivel primario ya que acumula el 63,1% de los datos.

26
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 6

Moda para datos ordinales en una distribución bimodal:


Distribución de frecuencia y porcentual ante la afirmación: “En líneas generales su estado de salud es”.
En líneas generales su estado Frecuencia Porcentaje Porcentaje
de salud es Absoluta acumulado
Muy malo 6.507 0,2% 0,2%

Malo 34.639 1,1% 1,3%

Regular 261.758 8,6% 9,9%

Bueno 1.023.684 33,5% 43,4%

Muy bueno 1.075.051 35,2% 78,5%

Excelente 656.673 21,5% 100,0%

Total 3.058.312 100,0%

Fuente: Encuesta anual de hogares. Ciudad Autónoma de buenos Aires. Año 2016.

Moda= Muy bueno, con un porcentaje de 35,2%


Mediana= Muy bueno que acumula el 78,5% de los datos.

Las personas encuestadas responden a dicha afirmación en función de una escala de nivel de medición ordinal
(autodefinición de su estado de salud).

Estrictamente, la moda es la categoría “Muy bueno”. Sin embargo, la diferencia entre las categorías “Bueno”
y “Muy bueno” es tan pequeña que, considerando que se trata de una encuesta, se puede definir a la
distribución como bimodal.

Por otro lado, al ser una variable ordinal, se puede definir que la mediana es “Muy bueno”, en tanto supera al
porcentaje acumulado del 50%.

Las escalas ordinales permiten (en algunos casos) agrupar a las categorías (cuestión que no es posible, en
general, en las variables nominales). En este ejemplo se agruparon las categorías “Muy bueno” y “Bueno”
(“Muy bueno o Bueno”). Con ello, queda definida una distribución unimodal: un 68,6% las personas
encuestadas responden (autodefinición) que su estado de salud es “Muy bueno o bueno”. Asimismo, dado que
supera al porcentaje acumulado 50%, la mediana coincide con la moda.

27
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 6 (continuación)

Moda para datos ordinales en una distribución bimodal:

Distribución de frecuencia y porcentual ante la afirmación: “En líneas generales su estado de salud es”.

Fuente: Encuesta anual de hogares. Ciudad Autónoma de buenos Aires. Año 2016.

Ejemplo 7

Moda para datos cuantitativos discretos:

Distribución unimodal:

2 3 5 7 9 9 9 9 10 11 11

Moda = 9
Distribución bimodal:

1 2 2 3 4 5 6 6 7 8 9

Moda = 2 y 6

28
E-mail: epidemiología@odontologia.uba.ar
Leer con atención

Posiciones relativas de la media, la mediana y la moda para distribuciones de frecuencias asimétricas

Las medidas de tendencia central son utilizadas para dar cuenta de la representación de la
distribución en su conjunto. Evidentemente, si se trata de una distribución simétrica (o bastante
simétrica), la media, la mediana y el modo van a tender a coincidir. Sin embargo, como ya se ha
señalado, si la distribución es asimétrica (y unimodal) estos tres valores se irán distanciando a medida
que la simetría disminuya. El promedio, a diferencia de la mediana, está afectado por los valores
extremos y la moda se encuentra en un extremo de la distribución (datos acumulados). En esos casos,
la mediana resultará un valor intermedio entre la media y el modo, y muchas veces será necesario
informarla, ya que tenderá a ser el valor más “representativo” de la distribución.

29
E-mail: epidemiología@odontologia.uba.ar
Leer con atención (continuación)

Un ejemplo posible es el de los ingresos familiares, puesto que tienden a concentrarse en los valores bajos de
la distribución, pero aparecen valores altos y muy altos no compensados por debajo “empujando” a la media
hacia arriba.

Si la variable no es cuantitativa, se debe utilizar únicamente la mediana para describir a la población (siempre
y cuando se puedan ordenar los valores). Cuando se trabaja con variables nominales, la única posibilidad que
queda es usar el modo.

Ejemplo de dos variables cuantitativas asimétricas:

Monto de ingreso per cápita familiar (cuantitativa continua, Histograma)

Promedio= $ 18.741,00; Mediana=$ 14.400,00; Moda=9.000,00

Cantidad de habitaciones de uso exclusivo por vivienda (cuantitativa discreta, Diagrama de


barras)

Promedio= 3,0; Mediana= 3,0; Moda=3,0

Fuente: elaboración propia a partir de la EAH de la Dirección de Estadística y Censos de la Dirección de Estadísticas
del Gobierno de la Ciudad de Buenos Aires. Año 2018.

30
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 8

Cálculo de medidas de tendencia central para datos cuantitativos discretos:


Se utilizan datos proporcionados por la EAH de la Dirección de Estadística y Censos de la Dirección de
Estadísticas del Gobierno de la Ciudad de Buenos Aires, para el año 2018.
 El total de hogares encuestados fue de 5.885.
 La variable a analizar es “Cantidad de personas en el hogar” (cuantitativa discreta).
 Las medidas a calcular son la media, la mediana y la moda.
Los datos se describen en la siguiente tabla de frecuencias y gráfico de barras:

Distribución de frecuencia y porcentual de Cantidad de personas en el hogar.


Frecuencia
Personas Porcentaje
Absoluta 30,3% 30,4%

1 1770 30,3%
2 1777 30,4%
3 1014 17,3% n=5848
4 808 13,8% 17,3%

5 296 5,1% 13,8%

6 108 1,8%
7 38 0,6%
8 24 0,4% 5,1%

9 7 0,1% 1,8%
0,6% 0,4% 0,1% 0,10%
10 6 0,10% 1 2 3 4 5 6 7 8 9 10

Total 5848 100,00% personas por hogar

Fuente: Encuesta anual de hogares. Ciudad Autónoma de buenos Aires. Año 2019.

Como se observa, la distribución de esta variable es muy asimétrica, con gran concentración de casos en los
primeros valores.
Resolución:
Personas Frec. Absoluta Porcentaje % acumulado Personas x FA
1 1770 30,3% 30,27% 1770
2 1777 30,4% 60,65% 3554
3 1014 17,3% 77,99% 3042
4 808 13,8% 91,81% 3232
5 296 5,1% 96,87% 1480
6 108 1,8% 98,72% 648
7 38 0,6% 99,37% 266
8 24 0,4% 99,78% 192
9 7 0,1% 99,90% 63
10 6 0,10% 100,00% 60
Total 5848 100,00% 14307
Promedio= 2,4
Bimodal: Moda = 1 (30,3%) y Moda= 2 (30,4%)
Mediana= 2 (dos personas por hogar)

31
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 8 (continúa)

Como se dijo previamente, la media ponderada se calcula multiplicando cada dato por su
ponderación (en este caso, la frecuencia absoluta) para luego sumarlos y obtener la suma
ponderada. Después se divide entre la suma ponderada y el número de casos, obteniendo como
resultado la media ponderada.
La fórmula es:
∑ni=1 xi × Frec. absolutai
x� ponderado =
∑ni=1 Frec. absolutai
Resolución:
suma ponderada 14.307
x� ponderado = = = 2,4 ≅ 2
numero de casos 5.848
En este ejemplo, no es un promedio aproximado dado que no se usan los puntos medios del
intervalo como en los datos con nivel de medición cuantitativa continua. En este caso se denomina
promedio ponderado porque cada valor de la variable tiene una contribución o peso distinta,
dependiendo de la frecuencia absoluta que tenga.

Para ampliar:

1. Abrir el archivo de MS Excel: Ejemplo08_calculo_tendencia_central_discretos.xlsx


2. En el archivo se encuentran las fórmulas utilizadas para calcular las medidas de tendencia central en
variables cuantitativas discretas.

5.3. Medidas de posición: cuantiles (cuartiles, quintiles, deciles y percentiles)


Las medidas de posición, genéricamente denominadas cuantiles o fractiles, son índices diseñados para
revelar la situación de una puntuación individual con respecto a un grupo, utilizando a éste como
marco de referencia. Si bien hay diferentes tipos de cuantiles, en general se trata de valores que dejan
por debajo de él a una cierta fracción de los datos ordenados en forma creciente y al resto por encima.
Se define el cuantil de orden x como un valor de la variable por debajo del cual se encuentra una
frecuencia acumulada x.
Los resultados de diversos instrumentos (pruebas en psicología, inventarios, escalas y constructos) se
encuentran estandarizados (normatizados o baremizados) por percentiles correspondientes a la
puntuación obtenida por un grupo de sujetos.

32
E-mail: epidemiología@odontologia.uba.ar
Casos particulares muy usados son: cuartiles, quintiles, deciles y percentiles, que dividen a la
distribución en 3 cuartiles, 4 quintiles, 9 deciles y 99 percentiles respectivamente.
De este modo, si un conjunto de datos ordenados (de menor a mayor) es dividido en cinco partes
iguales, se obtiene la medida de posición denominada quintil. La mediana es, a la vez, una medida de
tendencia central y una medida de posición: es el Cuartil 2 o el Percentil 50 y divide a la población en
2 partes iguales.
Cuartiles: Dividen a la distribución en 4 partes iguales, siendo 3 cuartiles. El primer cuartil Q1 deja el
25% de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75% por
debajo de ese valor.
Quintiles: Dividen a la distribución en 5 partes iguales, siendo 4 quintiles. El primer quintil, K1 deja el
20% de los valores por debajo. El segundo quintil, deja el 40% de los valores por debajo. El tercer
quintil K3 deja el 60% por debajo de ese valor. El cuarto quintil K4, deja el 80% por debajo, o el 20%
por encima del valor.
Deciles: Dividen a la distribución en 10 partes iguales, siendo 9 deciles. El primer decil D1 deja el 10%
de los valores por debajo y el resto por encima. El quinto decil es la mediana. El decil 8 es el quintil 4.
Percentiles: Dividen a la distribución en 100 partes del total, siendo 99 percentiles (P99). Así, el
percentil veinticinco (P25) deja el 25% de los valores por debajo (Q1). El percentil 75 (P75) es el Q3.
Entre el P25 y el P75 se concentra el 50% de los casos centrales y corresponde a la caja del Box Plot.
Por último el percentil 50 (P50) es el segundo cuartil (Q2) y la mediana.

Ejemplo 9

En la siguiente figura se representa la distribución de una variable continua de una población (o una muestra)
en la que se observan dos valores.

El valor de la izquierda indica que este individuo supera al 5% (percentil 5) de la población o de la muestra.
El individuo de la derecha supera al 70% de la población o de la muestra (percentil 70).
El valor central que divide a la distribución en el 50% es el percentil 50 o la mediana.

33
E-mail: epidemiología@odontologia.uba.ar
Cálculo de medidas de posición:

El cálculo de los cuantiles es similar al de la mediana, variando la posición a buscar y el intervalo de clase en el
que se encuentra el cuantil:

Percentiles: Quintiles:

P ×N
� i −FAi−1 �(ai ) Ki × N
100 � − FAi−1 � (ai )
Pi = Li−1 + K i = Li−1 + 5
fi fi

Cuartiles: Deciles:

Q ×N Di × N
� i −FAi−1 �(ai ) � − FAi−1 � (ai )
Q i = Li−1 + 4
Di = Li−1 + 10
fi fi

Como puede observarse en las fórmulas lo único que cambia en el cálculo es el valor del orden del cuantil.

Estas distribuciones son muy útiles cuando no es posible utilizar la media aritmética y el correspondiente
estadístico de dispersión. Esto es, ante cualquier inconveniente con la distribución, es posible recurrir a estas
medidas de posición para dar cuenta de un resumen de la información.

Ejemplo 10

Para ejemplificar un gráfico que utiliza medidas de posición para representar la distribución de una variable

cuantitativa continua:
Se comparan las medidas de posición con los que se construye un gráfico de cajas y bigotes en una
Distribución Normal Estandarizada.
Si se cuenta con la mediana (Q2) y los cuartiles Q1 y Q3 de una distribución cualquiera, se puede asegurar
cuál es el valor que divide a la población en dos partes iguales (la mediana) y saber que entre el Q1 y Q3 se
va a encontrar el 50% de la población.
También se proyectan las medidas de posición sobre una Distribución Normal estandarizada, en donde el
promedio es cero y el desvío estándar ±1.

34
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 11

Aplicación de percentiles en el crecimiento infantil:


En este gráfico, se describe para el crecimiento de pesos (Kg) a lo largo de los primeros 5
años de vida de un grupo de niñas (controles o normales).
Conociendo el peso y la edad de una niña, se puede ubicar en qué posición se encuentra
en el gráfico.
Por ejemplo una niña que tiene 3 años y 4 meses de edad y un peso de 16 kg, está en el
percentil 75.

Esto permite ubicar o posicionar el aumento de peso de una niña con respecto a la población
“normal”. No es usado para determinar patología o desnutrición solo para evaluar y tomar
determinaciones individuales sobre el crecimiento infantil y su evolución.

5.4. Medidas de dispersión


Para conocer cómo se distribuyen los datos alrededor de las medidas de tendencia central hay que analizar
parámetros o estadísticos que indiquen la dispersión y que además complementen la información sobre la
distribución de una variable:

• Indican cómo se alejan los datos respecto del promedio.


• Sirven como indicador de la variabilidad de los datos.
• Son muy útiles para evaluar la fiabilidad de las medidas de centralización como la media. Cuanto más
alta sea una medida de dispersión, menos representativa será la medida de centralización.

35
E-mail: epidemiología@odontologia.uba.ar
Si los valores de los datos son muy parecidos entre sí, las medidas de dispersión tendrán valores cercanos a cero.
En cambio, si los datos son muy diferentes unos de otros, las medidas de dispersión tendrán valores mayores.

Una distribución de frecuencias será homogénea o poco variable si los datos difieren poco entre sí y, por tanto,
se concentran en torno a su promedio. Será heterogénea o muy variable si los datos se dispersan mucho con
respecto al promedio.

Cita

Las medidas de centralización reducen a un valor la información recogida de la muestra. Sin embargo, el
valor central será más o menos representativo de los valores de la muestra según la dispersión que las
medidas individuales tengan respecto a dicho centro.

Para analizar la representatividad de las medidas de centralización se definen las medidas de dispersión.
Éstas indican la variabilidad de los datos en torno a su valor promedio, es decir, cuán esparcidos se
encuentran respecto a su centro. Las diversas medidas de desviación o dispersión son fundamentales para
la descripción estadística de la muestra.

(Gorgas García, Cardiel López & Zamorano Calvo, 2011, Pp. 30)

Las medidas para evaluar la dispersión son las siguientes:

 Amplitud total o extensión (recorrido o rango)


 Rango intercuartil
 Desviación semiintercuartil
 Desviación típica o standard
 Varianza
 Coeficiente de variación

5.4.1. Amplitud total o recorrido de la variable


La amplitud total o extensión de la dispersión se puede realizar calculando el recorrido (también llamado rango)
o diferencia entre el valor máximo y mínimo que toma la variable estadística.

𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑥𝑥𝑚𝑚á𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥 − 𝑥𝑥𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Por ejemplo la edad de las madres tiene como valor mínimo 14 años y como valor máximo (ver ejemplo 15):

𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 46 − 14 = 34 𝑎𝑎ñ𝑜𝑜𝑜𝑜

36
E-mail: epidemiología@odontologia.uba.ar
5.4.2. Desviación, intervalo o rango intercuartil
La desviación intercuartil surge a partir de eliminar la excesiva influencia de los valores extremos en el recorrido.
El recorrido intercuartílico es la diferencia entre el tercer y primer cuartil, y da el rango que ocupan el 50% central
de los datos de la distribución de la variable.

𝐼𝐼𝐼𝐼 = 𝑄𝑄3 − 𝑄𝑄1

Aplicando los datos del ejemplo 15, en donde el cuartil 1 es 21 años (equivale a indicar que una mujer que tiene
un hijo a los 21 años supera al 25 % de los datos de la muestra).

𝐼𝐼𝐼𝐼𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 30 − 21 = 9

5.4.3. Recorrido semiintercuartil

En muchas ocasiones se utiliza el recorrido semiintercuartílico o mitad del recorrido intercuartílico (Gorgas
García, Cardiel López & Zamorano Calvo, 2011, Pp. 30).

𝑄𝑄3 − 𝑄𝑄1
𝑅𝑅𝑠𝑠𝑠𝑠 =
2

Donde Q3 es el cuartil 3 y Q1 es el cuartil 1.

Para ejemplificar se utiliza el ejemplo 15: Edad materna

30 𝑎𝑎ñ𝑜𝑜𝑜𝑜 − 21 𝑎𝑎ñ𝑜𝑜𝑜𝑜
𝑅𝑅𝑠𝑠𝑠𝑠 = = 4,5 años
2

5.4.4. Varianza y desviación típica o estándar


Sin lugar a dudas, la medida más usada para estimar la dispersión de los datos es la desviación típica o desvío
estándar, especialmente aconsejable cuando se utiliza la media aritmética como medida de tendencia central.

Está basada en un valor promedio de las desviaciones de cada uno de los datos con respecto a la media y para
su cálculo se utiliza la diferencia (desviaciones) entre el dato y el promedio (poblacional o muestral).

37
E-mail: epidemiología@odontologia.uba.ar
A fin de evitar que se compensen desviaciones positivas y negativas (cuya suma es cero), se usan los cuadrados
de las desviaciones. Esto hace además que los datos con desviaciones grandes influyan mucho en el resultado
final.

Se define entonces la varianza de una muestra como:

∑ 𝑘𝑘 ( )2
𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅
𝑠𝑠 2 =
𝑛𝑛 − 1
Donde k es el valor de la cantidad de casos con valores diferentes entre sí; refiere a la cantidad de valores
diferentes entre sí; es la media aritmética; es la cantidad de veces que se repite.

Hay que tener en cuenta que los grados de libertad que tiene el cálculo de la varianza son el valor que reemplaza
a N para dar cuenta de la verdadera varianza de la distribución cuando estamos trabajando con muestras. Es el
modo que la mayor parte de los programas estadísticos como SPSS o Excel utilizan para el cálculo.

Para ejemplificar esto podemos tomar el ejemplo 15: Edad materna

2
∑𝑘𝑘𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 263.228
𝑠𝑠 = = = 41,2 𝑎𝑎ñ𝑜𝑜𝑜𝑜 2
𝑛𝑛 − 1 6386 − 1
Se define la varianza poblacional como:

2 ∑𝑘𝑘
𝑖𝑖=1(𝑥𝑥𝑖𝑖 −𝜇𝜇 )
2
𝜎𝜎 =
𝑁𝑁
Resulta difícil interpretar la varianza para un solo conjunto de observaciones. La variancia de edad materna es
41,2 años2: la magnitud no está en términos de años, sino en años al cuadrado. Por ello resulta útil retomar las
unidades de medición originales.

Como ya se vio, la desviación estándar (raíz cuadrada de la varianza) es la medida de dispersión más común e
indica qué tan dispersos están los datos con respecto a la media. Una mayor desviación estándar refleja una
mayor dispersión de los datos. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación
estándar de una población, mientras que s simboliza la desviación estándar de una muestra. La variación que es
aleatoria o natural de un proceso se conoce comúnmente como ruido.

La desviación estándar se puede utilizar para establecer un valor de referencia para estimar la variación general
de un proceso y, junto al promedio, definen los parámetros de la distribución normal. Por lo que el desvío típico
viene dado por:

∑𝑁𝑁 (
𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 = �𝑠𝑠 = �
2
𝑁𝑁 − 1

38
E-mail: epidemiología@odontologia.uba.ar
Para ejemplificar esto se toma como ejemplo 15: Edad materna

Dado que la raíz cuadrada de un número puede tomar valores positivos o negativos, el resultado del desvío
estándar se expresa como ±σ (desvío estándar poblacional) o ± s (desvío estándar muestral). El desvío estándar
de la edad materna es ± 6,4 años.

Pastilla

Siempre que sea posible, cuando se describe la distribución se utilizan la media aritmética y el desvío
estándar.

La varianza tiene como desventaja la dificultad de interpretación, ya que se encuentra en las unidades de la
variable elevadas al cuadrado.

Ejemplo 12

Cálculo de medidas de dispersión para datos cuantitativos continuos y discretos:


Para este ejemplo se utilizó la base de Nacimientos año 2018 de Estadísticas Vitales del Instituto
Nacional de Estadísticas de Guatemala (INE).
Se seleccionó una muestra aleatoria de 6.386 casos y se usaron las variables cuantitativas continuas
“Edad del Padre” y “Edad de la Madre”. Como variable cuantitativa discreta se eligió “Cantidad de
hijos vivos”.
Luego, se calcularon las siguientes medidas de dispersión:

Medidas de Dispersión:

Estadísticos de dispersión Edad Padre Edad Madre Hijos vivos


Valor Mínimo 14 12 1
Valor máximo 71 46 13
Amplitud Total 57 34 12
Q1 Percentil 25 23 21 1
Q3 Percentil 75 34 30 3
Intervalo Intercuartil 11 9 2
Recorrido semiintercuartil 5,5 4,5 1
Varianza muestral 61,9 41,2 3
Desvió estándar muestral 7,9 6,4 2

39
E-mail: epidemiología@odontologia.uba.ar
Para ampliar:

1. Abrir el archivo de MS Excel: Ejemplo12_calculo_estadísticos_continuosydiscretos.xlsx


2. Acceder a la hoja “Dispersión” y observar las fórmulas desarrolladas para calcular las
medidas de dispersión.

5.4.5. Coeficiente de variación


El coeficiente de variación es útil para comparar la variabilidad entre grupos cuya media y desvío resultan son
independientes de la escala de la variable. Con este coeficiente se pueden comparar no solamente distribuciones
de la misma naturaleza, como dos distribuciones de edad en dos grupos, sino también una distribución de edad
con otra de coeficiente intelectual. Se relativiza la desviación típica con respecto a la media con un estadístico
que pierde sus unidades y que en general se expresa como un porcentaje.

𝑠𝑠
𝐶𝐶𝐶𝐶 = ∗ 100
|𝑥𝑥̅ |

Donde s es el desvío estándar y ����


|𝑥𝑥̅ | es el módulo de la media aritmética ya que no tiene ningún sentido la
obtención de un coeficiente de variación negativo. (Gorgas García, Cardiel López & Zamorano Calvo, 2011, Pp.
34).
Continuando como ejemplo con la base de datos de Estadísticas Vitales, se calcula la variabilidad entre la edad
de las madres y la edad de los padres:
Promedio de edad de las madres = 26 años; Desvío estándar de las madres = 6,4 años

6,4 𝑎𝑎ñ𝑜𝑜𝑜𝑜
𝐶𝐶𝐶𝐶𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = ∗ 100 = 24,9%
26 𝑎𝑎ñ𝑜𝑜𝑜𝑜

Promedio de edad de los padres = 30 años; Desvío estándar de los padres = 7,9 años

7,9 𝑎𝑎ñ𝑜𝑜𝑜𝑜
𝐶𝐶𝐶𝐶𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = ∗ 100 = 26,7%
30 𝑎𝑎ñ𝑜𝑜𝑜𝑜
Como se observa y dado que el coeficiente de variación es una medida relativa (%) y adimesional (sin unidades),
se puede comparar la variabilidad entre la edad materna y edad paterna. Siendo en este caso un poco más
variable la edad paterna que la materna.

40
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 12

Una población de estudiantes tiene una estatura media de 150 cm con una desviación estándar de
14 cm. Estos mismos estudiantes, tienen un peso medio de 60 kg con una desviación estándar de
13 kg. ¿Cuál de las 2 variables presenta mayor dispersión relativa?
14 𝑐𝑐𝑐𝑐
𝐶𝐶𝐶𝐶𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = ∗ 100 = 9,3%
150 𝑐𝑐𝑐𝑐

13 𝑘𝑘𝑘𝑘
𝐶𝐶𝐶𝐶𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = ∗ 100 = 21,7%
60 𝑘𝑘𝑘𝑘
Se puede afirmar que CV peso > CV altura, por eso, el peso de esta población de estudiantes tiene
mayor variabilidad relativa que la estatura.

Leer con atención

El coeficiente de variación:
1. Es la razón entre la desviación típica y la media, por eso también se llama variabilidad relativa.
2. Es frecuentemente menor que uno. Sin embargo, en ciertas distribuciones de probabilidad,
puede ser 1 o mayor que 1.
3. Es insensible ante cambios de escala.
4. Se puede expresar en proporción o en porcentajes.
5. Es una cantidad adimensional, interesante para comparar la variabilidad de diferentes
variables, grupos o poblaciones.
6. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente.

5.5. Medidas de forma: asimetría y curtosis

5.5.1. Asimetría
Se dice que una distribución de medidas es simétrica cuando valores de la variable equidistantes a uno y otro
lado del valor central, tienen la misma frecuencia. Es decir, cuando hay simetría en el histograma (o en el
diagrama de barras y bigotes) alrededor de una vertical trazada por la mediana.

Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En el caso de una distribución perfectamente simétrica los valores de media aritmética, mediana y moda
coinciden.

41
E-mail: epidemiología@odontologia.uba.ar
�=
Variable simétrica: x Me = Mo

En el caso de no tener simetría, se interpreta como asimetría a la derecha (positiva) o a la izquierda (negativa)
dependiendo de si el histograma (la distribución de la variable) muestra una cola de medidas hacia valores altos
o bajos de la variable respectivamente. También se puede decir que la distribución está sesgada a la derecha
(sesgo positivo) o a la izquierda (sesgo negativo) (Guisande González, Vaamonde Liste & Barreiro Felpeto, 2013).

Existen diversas formas de calcular la asimetría. En este trabajo se presentará el coeficiente de asimetría de
Fisher que es precisamente el que usan los programas MS Excel y IBM SPSS para sus cálculos. Además, estos
programas, por defecto, calculan el valor del error típico o error estándar (error de muestreo) asociado a este
estadístico. Conviene señalar que ambos valores permiten obtener un criterio más objetivo en la valoración de
la asimetría de la distribución de una variable: si se divide el valor del coeficiente de asimetría de Fisher con el
correspondiente error típico, se obtendrá un valor que: si es inferior a –2, se considera como indicativo de
distribución asimétrica negativa; si se encuentra entre –2 y 2, de distribución simétrica, y si es superior a 2, de
distribución asimétrica positiva (Molina & Rodrigo, 2019, pp. 5).

∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )3
𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐹𝐹𝐹𝐹𝐹𝐹ℎ𝑒𝑒𝑒𝑒 =
𝑛𝑛 𝑠𝑠 3

5.5.2. Apuntamiento o curtosis


Se trata de una distribución de frecuencias que no tiene un referente natural, como en el caso de la simetría,
sino que se sustenta en la comparación respecto a una distribución de referencia; en concreto, la distribución
normal o campana de Gauss que se verá en un apartado a continuación. En consecuencia, su obtención sólo
tiene sentido en variables cuya distribución de frecuencias sea similar a la de la curva normal -en la práctica, ello
se reduce a que sea unimodal y más o menos simétrica.

El apuntamiento expresa el grado en que una distribución acumula casos en sus colas en comparación con los
acumulados en las colas de una distribución normal cuya dispersión sea equivalente.

42
E-mail: epidemiología@odontologia.uba.ar
Ejemplo 13

Asimetrías en la distribución de una variable

Según sea el valor del coeficiente de asimetría (g1), se puede afirmar que la distribución es:

• Si g1 > 0 la distribución será asimétrica positiva o a derechas; x


� > Me > Mo
• Si g1 < 0 la distribución será asimétrica negativa o a izquierda; x� > Me > Mo
Si existe simetría, entonces g1 = 0 ; x
� = Me = Mo.

De este modo, se diferencian tres grandes categorías de apuntamiento:

• Distribución platicúrtica (apuntamiento negativo): Indica que en las colas hay más casos acumulados que en
una distribución normal (Curtosis<0).
• Distribución leptocúrtica (apuntamiento positivo): Indica que en las colas hay menos casos acumulados que
en una distribución normal (Curtosis>0).
• Distribución mesocúrtica (apuntamiento normal): Como en la distribución normal (Curtosis = 0).

También en este caso se utiliza la fórmula que aplican los programas MS Excel e IBM SPSS para sus cálculos:

∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )4
𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐹𝐹𝐹𝐹𝐹𝐹ℎ𝑒𝑒𝑒𝑒 = −3
𝑛𝑛 𝑠𝑠 4

43
E-mail: epidemiología@odontologia.uba.ar
Interpretación: El valor de este coeficiente para la distribución normal será igual a 0. Cualquiera sea la

distribución para la que se obtenga un valor de CurtosisFisher igual o próximo a 0 significa que su nivel de

apuntamiento es como el de la distribución normal (mesocúrtica).

Para determinar si se está frente a una distribución que no es mesocúrtica se procede del mismo modo que en
la asimetría: se divide el valor obtenido por el error estándar. Si el valor es menor que -2, indica que la
distribución es platicúrtica y si es superior a 2, leptocúrtica. En el resto de los valores (entre -2 y 2) indica que es
mesocúrtica, es decir, compatible con la distribución normal (Molina & Rodrigo, 2019, Pp. 8).

Ejemplo 14

160

140

120

100

80
Frecuencia

60

40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicúrtica

300 400

300

200

200

100
100
Frecuencia
Frecuencia

0
0
3 27 37 47 57 67 77 87 97 108
27 37 45 53 61 69 77 85 93
16 32 42 52 62 72 82 92 102 138
32 41 49 57 65 73 81 89 99

Leptocúrtica
Mesocúrtica

44
E-mail: epidemiología@odontologia.uba.ar
Referencias Bibliográficas

Galtung, J. (1971). Teoría y Métodos de la Investigación Social. Buenos Aires, Argentina: EUDEBA.

Hederich Martínez, C.; Martínez Bernal, J. & Rincón Camacho, L. (2014). Hacia una educación basada en la
evidencia. (Universidad Pedagógica Nacional, Ed.) Revista Colombiana de Educación (66), 19-54.
Recuperado de: https://www.redalyc.org/articulo.oa?id=413635257002

Hernández Sampieri, R.; Fernández Collado, C. & Baptista Lucio, M. P. (2014). Metodología de la Investigación
(Sexta ed.). México, México: McGRAW-HILL Education.

Salazar Pinto, C. y Del Castillo Galarza, S. (2017). Fundamentos básicos de estadística. Fundamentos básicos de
estadística (Primera ed.). Quito, Ecuador. Recuperado de:
http://www.dspace.uce.edu.ec/handle/25000/13720

Samaja, J. A. (2004). Epistemología y metodología: Elementos para una teoría de la investigación científica
(Tercera ed.). Buenos Aires, Argentina: Eudeba.

Triola, M. F. (2009). Estadística (Décima ed.). (Pineda Ayala, L. E. Trad.) México, México: Pearson Educación.
Recuperado de: https://www.uv.mx/rmipe/files/2015/09/Estadistica.pdf

45
E-mail: epidemiología@odontologia.uba.ar

También podría gustarte