Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Realización de
análisis estadísticos
2
/ 1. Introducción y contextualización práctica 3
/ 2. Representaciones 4
2.1. Gráfico de barras y curva acumulativa 4
2.2. Histograma y polígono de frecuencias 4
2.3. Diagrama de sectores y pictogramas 5
/ 9. Bibliografía 14
© MEDAC
Reservados todos los derechos. Queda rigurosamente prohibida, sin la autorización escrita de los titulares del copyright,
bajo las sanciones establecidas en las leyes, la reproducción, transmisión y distribución total o parcial de esta obra por
cualquier medio o procedimiento, incluidos la reprografía y el tratamiento informático.
Comprender y saber interpretar los distintos tipos de representaciones gráficas
más comunes.
/ 2. Representaciones
2.1. Gráfico de barras y curva acumulativa
• Gráfico de barras
Los gráficos de barras se enmarcan dentro de la categoría de gráficas de series de tiempo. Contienen datos
cualitativos y datos cuantitativos discretos, que han sido recopilados en distintos tiempos de un periodo.
Podemos distinguir dos tipos principales, según su orientación: los gráficos horizontales y los gráficos verticales. En
ellos, la prolongación de cada una de las barras está relacionada con la frecuencia de una variable. En función de la
disposición de estas barras, será vertical u horizontal.
El eje que representa las modalidades se denomina eje de categorías, y el eje que indica las frecuencias, eje de
valores.
• Curva acumulativa
Estas curvas se utilizan para representar frecuencias acumuladas, absolutas o relativas. En el eje de ordenadas (Y),
se representará la frecuencia acumulada, y en el eje de abscisas (X), la cualidad que estamos midiendo.
Sabías que...
Florence Nightingale, nacida en 1820, fue precursora de la enfermería, y
salvó muchas vidas gracias al desarrollo de la estadística en su profesión.
Realizaba gráficas y mostraba los resultados para convencer a los
hospitales de los procedimientos que debían seguir para mejorar.
2.2.1. Histograma
Es un tipo de gráfico que representa las distribuciones de frecuencias a través de rectángulos dentro de ciertas
coordenadas. Se utilizan, sobre todo, para la representación de viables continuas.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/5 MEDAC · Instituto Oficial de Formación Profesional
• Son gráficos de barras empleados para representar variables cuantitativas que están agrupadas en intervalos.
• La variable (representada por intervalos) se muestra en el eje de abscisas, mientras que en el eje de ordenadas
se representa la frecuencia absoluta o la frecuencia relativa.
El eje Y suele representar la frecuencia absoluta, y el eje X, los diferentes valores que estamos registrando.
• Polígono de frecuencias
Se caracteriza por:
• Pictogramas
Los pictogramas son gráficos que utilizan imágenes como relleno de una gráfica de barras o de columnas.
El uso de estos iconos permite una perspectiva general más llamativa de las agrupaciones de variables.
Habitualmente, las imágenes elegidas representan el valor. Por ejemplo, para los datos sobre la población se tiende
a usar el dibujo de una persona.
Planteamiento: En una consulta de odontología, necesitamos saber las edades de los pacientes que han acudido a
ella en el último trimestre, representadas en un diagrama de sectores.
Nudo: Recopilamos todos los datos de las historias clínicas, que dan como resultado una muestra de n = 200, y los
agrupamos por intervalos de edad, siendo cada intervalo de una década. Elaboramos la tabla de distribución de
frecuencias con ellos. ¿Qué debemos hacer con los datos de la tabla para poder calcular el porcentaje de grados que
representa cada intervalo de edad?
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/7 MEDAC · Instituto Oficial de Formación Profesional
Desenlace: Para elaborar el diagrama de sectores, es necesario que agreguemos una columna extra a la tabla de
distribución de frecuencias, donde se recogerán los grados. Para llegar al cálculo de los grados, debemos realizar
una conversión desde el porcentaje.
Grados = 36°
Se harán los mismos cálculos con el resto de intervalos hasta completar la tabla.
• A diferencia de lo que ocurre con la media muestral, la mediana no varía mucho cuando se incluyen nuevos
valores extremos dentro de la variable. Por ello, la mediana es una medida resistente.
• La mediana no utiliza directamente los datos. Es por esta cuestión que cuando el dato mayor cambia a uno
mucho más grande, la mediana no varía.
En el caso de necesitar calcular la mediana para un listado de datos que no están agrupados, debemos proceder
como sigue:
• Identificar si el grupo de datos es impar, dado que en estos casos la mediana será el número intermedio exacto
de la lista ordenada.
• En el caso de que el grupo de datos sea par, se identificarán los dos números intermedios y se realizará la
media.
• El conjunto de datos de una variable puede tener múltiples modas. Y también podría no tener moda, dado que
los datos se repiten, o no, el mismo número de veces.
• En los casos en los que podamos localizar dos modas, llamaremos al conjunto de datos de esa variable bimodal.
• Cuando varios conjuntos de datos se repiten varias veces y la variable tiene múltiples modas, entonces la
llamaremos multimodal.
• Cuando ningún valor se repita, podemos asegurar que en dicho conjunto de variables de datos no hay datos.
Para realizar el cálculo de la moda para datos agrupados sin intervalos en una tabla de frecuencias, debemos
proceder utilizando las siguientes fórmulas:
• En primer lugar, habrá que identificar cuáles son los valores que más se repiten.
• Para el cálculo de la moda para datos agrupados en intervalos en una tabla de frecuencias, nos ayudaremos
del empleo de las siguientes fórmulas.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/9 MEDAC · Instituto Oficial de Formación Profesional
Debemos recordar que, en ocasiones, en la frecuencia absoluta encontraremos el número mayor repetido dos veces.
En ese caso, debemos realizar la fórmula dos veces, una para cada intervalo, puesto que tendremos dos modas.
Las medidas de variabilidad nos informan de la dispersión o varianza que presentan los datos con relación al punto
medio que hemos obtenido con las medidas de centralización. Nos brindan información acerca del grado de reparto
en que se disponen los datos.
2
= ∑ni=1 (Xi - )2 / n
La varianza es una medida que complementa a la media muestral, en especial cuando se asocia a una distribución
normal.
Como inconveniente principal debemos destacar que la varianza de la muestra no la encontraremos en las mismas
unidades que los valores del estudio, por encontrarse elevada al cuadrado.
Así, la desviación típica podrá solucionarnos este problema, ya que es la raíz cuadrada de la desviación estándar.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 10
=√ 2
Cuando nos encontremos ante un dato de variación estándar alto, los datos se encuentran muy dispersos entre
ellos. Por el contrario, si nuestro valor de variación estándar es pequeño, supone que estamos ante poca dispersión
entre los datos.
Recuerda...
El polígono de frecuencias se elabora conectando los puntos medios,
o marcas de clase de las barras de un histograma en su parte superior
mediante segmentos. Por lo tanto, puede crearse teniendo como
referencia la gráfica de un histograma.
Para llevar a cabo su representación, necesitamos los tres cuartiles y los datos mínimos y máximos de los valores
sobre una barra posicionada horizontal o verticalmente.
• El cuartil 1 (Q1) divide el conjunto de datos en una cuarta parte del total. Si lo expresamos en porcentaje, sería
el 25% de los datos de la variable.
• El cuartil 2 (Q2) divide el conjunto de datos por la mitad. Si lo expresamos en porcentaje, correspondería al
50%. Además, este cuartil también se correspondería con la mediana, que divide los datos en mitades.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/ 11 MEDAC · Instituto Oficial de Formación Profesional
• El cuartil 3 (Q3) fracciona el conjunto de datos en tres partes iguales. Si hablamos de porcentajes, sería el 75%.
A la hora de calcular los cuartiles, debemos tener en cuenta si el número de datos con los que trabajamos es par o impar.
La fórmula para calcular los cuartiles con números de datos impares es:
Qk = k (N + 1) / 4
La fórmula para calcular los cuartiles con números de datos pares es:
Qk = K * N / 4
Donde:
Contamos con los datos de edad de un colectivo de veinte personas, que ordenamos de menor a mayor.
Cálculo de cuartiles:
Q1 = (24+25) / 2 = 24,5
Me = Q2 = (33+34) / 2 = 33,5
• Q3: El tercer cuartil es el valor que supera al 75% de los valores del
total. En nuestro caso, como 3N/4 = 15, resulta:
Q2 = (39+39) / 2 =39
Fig.10. Diagrama de caja y bigotes.
A las marcas que sobresalen de la caja las llamamos bigotes.
Los bigotes cuentan con un límite de elongación, de manera que cualquier dato que no esté incluido en ese rango es
marcado de forma individual.
En la zona inferior de la caja a (Q1, Q2), la segunda parte de la caja a (Q2, Q3), y el bigote superior viene dado por
(Q3, Xmáx).
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 12
Investigamos...
En este documento publicado por el Instituto Nacional de Estadística,
puedes ver un recorrido histórico acerca de en qué momento surgieron
y cómo evolucionaron las principales representaciones gráficas.
https://bit.ly/3RJ0nya
Únicamente debemos observar el valor o valores que más se repiten (recordemos que podría ser bimodal o
multimodal) en la columna de frecuencias absolutas. En este caso, el valor que más se repite es 15, el cual se repite
hasta 23 veces.
Manejar con habilidad estas herramientas de análisis estadísticos resulta fundamental en nuestro desempeño laboral
como futuros documentalistas sanitarios. Tanto a la hora de comprender los datos recogidos como en el momento
de ser nosotros quienes se encarguen de la recogida y el tratamiento de los mismos.
REPRESENTACIONES GRÁFICAS
Gráfico de barras
Histograma
Polígono de frecuencias
Curva acumulativa
PACIENTE PESO EN KG
1 75.4
2 60.3
3 85.5
4 70.9
5 58.2
6 63.2
7 31.3
8 90.6
9 85.6
10 70.9
Tabla 4. Desenlace del caso práctico inicial.
= 692.2 / 10
= 63.22 kg sería la media muestral
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 14
/ 9. Bibliografía
Web del Instituto Nacional de Estadística: https://www.ine.es/
Macías del Campo, J.; Gutiérrez Martínez, J.M., & Rodríguez Álvarez, J. (2001). Bases de datos para la investigación sanitaria:
¿necesidad de un enfoque multidisciplinario? Elsevier, 27(9), 459-461. Recuperado de https://elsevier.es/es-revista-
medicina-familia-semergen-40-articulo-bases-datos-investigacion-sanitaria-necesidad-13020290