Está en la página 1de 14

VALIDACIÓN Y EXPLOTACIÓN DE DATOS

Realización de
análisis estadísticos

2
/ 1. Introducción y contextualización práctica 3

/ 2. Representaciones 4
2.1. Gráfico de barras y curva acumulativa 4
2.2. Histograma y polígono de frecuencias 4
2.3. Diagrama de sectores y pictogramas 5

/ 3. Caso práctico 1: “Diagrama de sectores con la edad de los pacientes” 6

/ 4. Medidas de posición central 7


4.1. Media muestral ( ) 7
4.2. Mediana (Me) 8
4.3. Moda (Mo) 8

/ 5. Medidas de variabilidad o dispersión 9


5.1. Varianza muestral y desviación típica 9
5.2. Desviación típica 10

/ 6. Diagrama de cajas y bigotes 10


6.1. El cálculo de los cuartiles 10
6.2. Ejemplo de diagrama de caja y bigotes 11

/ 7. Caso práctico 2: “Cálculo de la moda” 12

/ 8. Resumen y resolución del caso práctico de la unidad 13

/ 9. Bibliografía 14

©  MEDAC
Reservados todos los derechos. Queda rigurosamente prohibida, sin la autorización escrita de los titulares del copyright,
bajo las sanciones establecidas en las leyes, la reproducción, transmisión y distribución total o parcial de esta obra por
cualquier medio o procedimiento, incluidos la reprografía y el tratamiento informático.
Comprender y saber interpretar los distintos tipos de representaciones gráficas
más comunes.

Conocer las diferentes medidas de posición central y variabilidad.

Comprender y saber interpretar los diagramas de cajas.

/ 1. Introducción y contextualización práctica


En estadística, los distintos tipos de representaciones gráficas son muy importantes, porque a través de ellas se
puede comprender con mayor facilidad la tendencia de una variable estadística.

De este modo, las representaciones gráficas nos


permiten la comprensión, la comparación y el análisis de
una variable en detalle.

A continuación, vamos a plantear un caso práctico


a través del cual podremos aproximarnos de forma
práctica a la teoría de este tema.

Escucha el siguiente audio donde planteamos la


contextualización práctica de este tema. Encontrarás
su resolución en el apartado ‘Resumen y resolución del
caso práctico’. Fig.1. Interpretación de representaciones gráficas.

Audio intro. “Trabajo con datos en la


consulta de dietética”
https://bit.ly/3uIrNu0
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos /4

/ 2. Representaciones
2.1. Gráfico de barras y curva acumulativa
•  Gráfico de barras

Los gráficos de barras se enmarcan dentro de la categoría de gráficas de series de tiempo. Contienen datos
cualitativos y datos cuantitativos discretos, que han sido recopilados en distintos tiempos de un periodo.

Podemos distinguir dos tipos principales, según su orientación: los gráficos horizontales y los gráficos verticales. En
ellos, la prolongación de cada una de las barras está relacionada con la frecuencia de una variable. En función de la
disposición de estas barras, será vertical u horizontal.

El eje que representa las modalidades se denomina eje de categorías, y el eje que indica las frecuencias, eje de
valores.

Las características principales de un gráfico de barras serán:

»  Proporciona información sobre la tendencia en el tiempo.

»  Si tratamos con valores numéricos, debe especificarse la unidad de


medida en el eje.

»  El eje de valores debe comenzar en cero.

»  El ancho de las barras debe ser uniforme.

»  Cada eje no debe superar una longitud equivalente a una vez y


media del otro eje. Fig.2. Gráfico de barras vertical.

•  Curva acumulativa

Estas curvas se utilizan para representar frecuencias acumuladas, absolutas o relativas. En el eje de ordenadas (Y),
se representará la frecuencia acumulada, y en el eje de abscisas (X), la cualidad que estamos midiendo.

Sabías que...
Florence Nightingale, nacida en 1820, fue precursora de la enfermería, y
salvó muchas vidas gracias al desarrollo de la estadística en su profesión.
Realizaba gráficas y mostraba los resultados para convencer a los
hospitales de los procedimientos que debían seguir para mejorar.

2.2. Histograma y polígono de frecuencias

2.2.1. Histograma

Es un tipo de gráfico que representa las distribuciones de frecuencias a través de rectángulos dentro de ciertas
coordenadas. Se utilizan, sobre todo, para la representación de viables continuas.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/5 MEDAC · Instituto Oficial de Formación Profesional

Sus rasgos más característicos son:

•  Son gráficos de barras empleados para representar variables cuantitativas que están agrupadas en intervalos.

•  Están formados por rectángulos contiguos.

•  La variable (representada por intervalos) se muestra en el eje de abscisas, mientras que en el eje de ordenadas
se representa la frecuencia absoluta o la frecuencia relativa.

•  Sirve para interpretar las variaciones de los datos.

•  Es útil para investigar cómo se puede solucionar un problema o mejorar un proceso.

El eje Y suele representar la frecuencia absoluta, y el eje X, los diferentes valores que estamos registrando.

Audio 1. “Medidas de posición relativa”


https://bit.ly/3nZLnht

•  Polígono de frecuencias

Es un tipo de gráfico creado a partir de un histograma de frecuencias.

Se caracteriza por:

»  Se elabora conectando las marcas de clase de las barras de un


histograma en su parte superior mediante segmentos. Por lo
tanto, puede elaborarse teniendo como referencia la gráfica de un
histograma.

»  Con frecuencia se emplea a la hora de elegir la forma que tendrá la


distribución de frecuencias. Su objetivo es ajustar alguna actividad
probabilística concreta. Fig.3. Histograma y polígono de frecuencias.

2.3. Diagrama de sectores y pictogramas


•  Diagrama de sectores

El diagrama de sectores es un tipo de gráfico que también se conoce con el


nombre de diagrama de pastel.

Es un círculo que aparece dividido en partes, cuyas características principales son:

»  Suele utilizarse para representar variables cualitativas.

»  Muestra la proporción que forma parte de cada elemento o


intervalo.

»  Para llevar a cabo la representación, se toma en cuenta el


porcentaje y el intervalo de la variable o marca de clase. Fig.4. Diagrama de sectores.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos /6

•  Pictogramas

Los pictogramas son gráficos que utilizan imágenes como relleno de una gráfica de barras o de columnas.

El uso de estos iconos permite una perspectiva general más llamativa de las agrupaciones de variables.

Habitualmente, las imágenes elegidas representan el valor. Por ejemplo, para los datos sobre la población se tiende
a usar el dibujo de una persona.

La imagen puede estar representando la una unidad o una agrupación.

Fig.5. Ejemplos de pictogramas.

/ 3. Caso práctico 1: “Diagrama de sectores con la edad


de los pacientes”

Fig.6. Edades de los pacientes.

Planteamiento: En una consulta de odontología, necesitamos saber las edades de los pacientes que han acudido a
ella en el último trimestre, representadas en un diagrama de sectores.

Nudo: Recopilamos todos los datos de las historias clínicas, que dan como resultado una muestra de n = 200, y los
agrupamos por intervalos de edad, siendo cada intervalo de una década. Elaboramos la tabla de distribución de
frecuencias con ellos. ¿Qué debemos hacer con los datos de la tabla para poder calcular el porcentaje de grados que
representa cada intervalo de edad?
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/7 MEDAC · Instituto Oficial de Formación Profesional

Desenlace: Para elaborar el diagrama de sectores, es necesario que agreguemos una columna extra a la tabla de
distribución de frecuencias, donde se recogerán los grados. Para llegar al cálculo de los grados, debemos realizar
una conversión desde el porcentaje.

La operación sería la siguiente:

RESOLUCIÓN CASO PRÁCTICO 1


Frecuencia Frecuencia
Intervalos de Marca de
absoluta (F i) (nº absoluta Porcentaje (%) Grados
edad (Años) clase (Xi)
de paciente) acumulada (Fi)
[20,30) 25 20 20 10 36
[30, 40) 35 35 55 17.5 63
[40, 50) 45 50 105 25 90
[50, 60) 55 49 154 24.5 88.2
[60, 70) 65 25 179 12.5 45
[70, 80) 75 15 194 7.5 27
[80, 90) 85 6 200 3 10.8
N 200 100%
Tabla 1. Resolución caso práctico 1.

Grados = % * 360° / 100%

Grados = 10 * 360° / 100%

Grados = 36°

Se harán los mismos cálculos con el resto de intervalos hasta completar la tabla.

/ 4. Medidas de posición central


Una medida de tendencia central es un valor en el centro del conjunto de los datos. Entre los principales modos de
medir este centro, encontramos la media muestral, la mediana y la moda.

4.1. Media muestral ( )


La media de un total de datos es la medida de referencia central que resulta cuando sumamos todos los valores de
los datos y los dividimos entre el número de registros.

La fórmula para su cálculo es: = (∑ xi) / n

La media tiene ciertas propiedades, como son las siguientes:

•  Suele variar menos que otras medidas de tendencia central.

•  Para calcularla, es necesario utilizar todos los datos.

•  La desventaja es que si un dato difiere mucho, este puede cambiar el


valor de la media de manera sustancial. Fig.7. Cálculo de tendencias.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos /8

4.2. Mediana (Me)


De manera general, puede considerarse un valor medio. Expresado de otro modo, podemos decir que es el valor que
deja a su izquierda el mismo número de datos que a la derecha.

Las propiedades de la mediana son las siguientes:

•  A diferencia de lo que ocurre con la media muestral, la mediana no varía mucho cuando se incluyen nuevos
valores extremos dentro de la variable. Por ello, la mediana es una medida resistente.

•  La mediana no utiliza directamente los datos. Es por esta cuestión que cuando el dato mayor cambia a uno
mucho más grande, la mediana no varía.

En el caso de necesitar calcular la mediana para un listado de datos que no están agrupados, debemos proceder
como sigue:

•  Ordenar los datos.

•  Identificar si el grupo de datos es impar, dado que en estos casos la mediana será el número intermedio exacto
de la lista ordenada.

•  En el caso de que el grupo de datos sea par, se identificarán los dos números intermedios y se realizará la
media.

La fórmula para calcular la mediana es:

Me = (n+1) / 2 Valor de la observación

4.3. Moda (Mo)


Podemos definir la moda como aquellos valores de la variable que aparecen con mayor frecuencia.

La moda suele usarse con datos cualitativos y no con datos cuantitativos.

Los principales rasgos diferenciadores de la moda son:

•  El conjunto de datos de una variable puede tener múltiples modas. Y también podría no tener moda, dado que
los datos se repiten, o no, el mismo número de veces.

•  En los casos en los que podamos localizar dos modas, llamaremos al conjunto de datos de esa variable bimodal.

•  Cuando varios conjuntos de datos se repiten varias veces y la variable tiene múltiples modas, entonces la
llamaremos multimodal.

•  Cuando ningún valor se repita, podemos asegurar que en dicho conjunto de variables de datos no hay datos.

•  Tal y como hemos mencionado, puede utilizarse con datos cualitativos.

Para realizar el cálculo de la moda para datos agrupados sin intervalos en una tabla de frecuencias, debemos
proceder utilizando las siguientes fórmulas:

•  En primer lugar, habrá que identificar cuáles son los valores que más se repiten.

•  Para el cálculo de la moda para datos agrupados en intervalos en una tabla de frecuencias, nos ayudaremos
del empleo de las siguientes fórmulas.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/9 MEDAC · Instituto Oficial de Formación Profesional

Que podemos obserbar en la siguiente tabla:

FÓRMULAS PARA EL CÁLCULO DE LA MODA


Cálculo de la amplitud del intervalo
Donde:
Ai : Amplitud del intervalo
Ai = Ls – Li
Ls : Límite superior
Li : Límite inferior
Cálculo de la moda
Donde:
Li = Límite inferior del intervalo
fi – fi-1 fi-1 = Frecuencia absolutas del intervalo anterior
M0 = Li + ·Ai
(fi – fi-1) + (f1 – fi+1) fi = Frecuencia absoluta del mismo intervalo
Ai = Amplitud del intervalo
Tabla 2. Fórmulas para el cálculo de la moda.

Debemos recordar que, en ocasiones, en la frecuencia absoluta encontraremos el número mayor repetido dos veces.
En ese caso, debemos realizar la fórmula dos veces, una para cada intervalo, puesto que tendremos dos modas.

Vídeo 1. “Herramientas del INE para


seguir aprendiendo”
https://bit.ly/3z6Di1a

/ 5. Medidas de variabilidad o dispersión


Estas medidas se definieron con el objetivo de poder analizar cómo de representativas eran las medidas de
centralización que acabamos de estudiar.

Las medidas de variabilidad nos informan de la dispersión o varianza que presentan los datos con relación al punto
medio que hemos obtenido con las medidas de centralización. Nos brindan información acerca del grado de reparto
en que se disponen los datos.

5.1. Varianza muestral y desviación típica


Gracias a ella, podemos medir cuánto se desvían los valores de la muestra con relación a la media aritmética. Se
calcula del siguiente modo:

2
= ∑ni=1 (Xi - )2 / n

La varianza es una medida que complementa a la media muestral, en especial cuando se asocia a una distribución
normal.

Como inconveniente principal debemos destacar que la varianza de la muestra no la encontraremos en las mismas
unidades que los valores del estudio, por encontrarse elevada al cuadrado.

Así, la desviación típica podrá solucionarnos este problema, ya que es la raíz cuadrada de la desviación estándar.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 10

5.2. Desviación típica


A la desviación típica también la conocemos como desviación estándar o variación estándar, que es una medida que
relaciona la dispersión de los datos con relación al valor promedio.

Siempre se simboliza con la letra sigma ( ), siendo su fórmula:

=√ 2

Cuando nos encontremos ante un dato de variación estándar alto, los datos se encuentran muy dispersos entre
ellos. Por el contrario, si nuestro valor de variación estándar es pequeño, supone que estamos ante poca dispersión
entre los datos.

Fig.8. Cálculo de varianzas.

Recuerda...
El polígono de frecuencias se elabora conectando los puntos medios,
o marcas de clase de las barras de un histograma en su parte superior
mediante segmentos. Por lo tanto, puede crearse teniendo como
referencia la gráfica de un histograma.

/ 6. Diagrama de cajas y bigotes


Nos encontramos de nuevo ante una presentación visual que describe rasgos diferenciadores de forma simultánea,
como son la dispersión y la simetría.

Para llevar a cabo su representación, necesitamos los tres cuartiles y los datos mínimos y máximos de los valores
sobre una barra posicionada horizontal o verticalmente.

6.1. El cálculo de los cuartiles


Los cuartiles son medidas de posición que fraccionan el total de datos en cuatro grupos, contando cada uno de ellos
con el 1/4 de los datos de cada variable.

•  El cuartil 1 (Q1) divide el conjunto de datos en una cuarta parte del total. Si lo expresamos en porcentaje, sería
el 25% de los datos de la variable.

•  El cuartil 2 (Q2) divide el conjunto de datos por la mitad. Si lo expresamos en porcentaje, correspondería al
50%. Además, este cuartil también se correspondería con la mediana, que divide los datos en mitades.
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/ 11 MEDAC · Instituto Oficial de Formación Profesional

•  El cuartil 3 (Q3) fracciona el conjunto de datos en tres partes iguales. Si hablamos de porcentajes, sería el 75%.

A la hora de calcular los cuartiles, debemos tener en cuenta si el número de datos con los que trabajamos es par o impar.

La fórmula para calcular los cuartiles con números de datos impares es:

Qk = k (N + 1) / 4

La fórmula para calcular los cuartiles con números de datos pares es:

Qk = K * N / 4

Donde:

•  Qk = el cuartil que queremos hallar.


•  K = número de cuartil que se quiere hallar.
•  N = número de datos.
•  4 = se divide entre 4 porque son cuartiles. Fig.9. Extracción de datos.

6.2. Ejemplo de diagrama de caja y bigotes


Vamos a ver un ejemplo de distribución por edades, para que nos resulte un poco más sencillo entenderlo.

Contamos con los datos de edad de un colectivo de veinte personas, que ordenamos de menor a mayor.

Orden de los datos: 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

Cálculo de cuartiles:

•  Q1: El cuartil es el valor mayor al 25% de los valores de la distribución.


Al ser N = 20, resulta N/4 = 5. Encontraríamos que el primer cuartil es
la media de dicho número y el siguiente:

Q1 = (24+25) / 2 = 24,5

•  Q2: El segundo cuartil es la mediana del total. Como N/2 = 10, la


mediana es la media de dicho dato y el siguiente:

Me = Q2 = (33+34) / 2 = 33,5

•  Q3: El tercer cuartil es el valor que supera al 75% de los valores del
total. En nuestro caso, como 3N/4 = 15, resulta:

Q2 = (39+39) / 2 =39
Fig.10. Diagrama de caja y bigotes.
A las marcas que sobresalen de la caja las llamamos bigotes.

Los bigotes cuentan con un límite de elongación, de manera que cualquier dato que no esté incluido en ese rango es
marcado de forma individual.

El bigote inferior nos muestra al colectivo de edades (Xmín, Q1).

En la zona inferior de la caja a (Q1, Q2), la segunda parte de la caja a (Q2, Q3), y el bigote superior viene dado por
(Q3, Xmáx).
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 12

En el siguiente recurso podrás profundizar más a fondo sobre el punto anterior.

Investigamos...
En este documento publicado por el Instituto Nacional de Estadística,
puedes ver un recorrido histórico acerca de en qué momento surgieron
y cómo evolucionaron las principales representaciones gráficas.
https://bit.ly/3RJ0nya

/ 7. Caso práctico 2: “Cálculo de la moda”


Planteamiento: En una consulta de dermatología, especializada en el
tratamiento del acné, necesitamos saber cuál es la moda en la edad de los
pacientes que han acudido a ella en el último mes.

Nudo: La moda es la variable que se repite un mayor número de veces. Para


encontrarla, debemos agrupar todos los datos en una tabla de distribución
de frecuencias.

Desenlace: Elaboramos la tabla de distribución de frecuencias como hemos


hecho ya en ocasiones anteriores. Y en la columna de valores de la variable,
recogemos todas las edades ordenadas de menor a mayor. Fig.11. Identificar la moda.

RESOLUCIÓN CASO PRÁCTICO 2


Valores de la variable Frecuencias absolutas
Frecuencias absolutas fi Xi * fi
estadística xi acumuladas Fi
13 3 3 39
14 14 17 196
15 23 40 345
16 10 50 160
17 5 55 85
18 4 59 72
19 1 60 19
Total 60 916
Tabla 3. Desenlace del caso práctico 2

Únicamente debemos observar el valor o valores que más se repiten (recordemos que podría ser bimodal o
multimodal) en la columna de frecuencias absolutas. En este caso, el valor que más se repite es 15, el cual se repite
hasta 23 veces.

Por lo tanto, la moda de edad en pacientes es 15 años.


TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
/ 13 MEDAC · Instituto Oficial de Formación Profesional

/ 8. Resumen y resolución del caso práctico de la unidad


En este tema, hemos aprendido a elaborar y saber interpretar las principales representaciones gráficas. También
hemos aprendido a trabajar con las medidas de posición central y la variabilidad. Finalizando con el estudio y la
creación de un diagrama de cajas.

Manejar con habilidad estas herramientas de análisis estadísticos resulta fundamental en nuestro desempeño laboral
como futuros documentalistas sanitarios. Tanto a la hora de comprender los datos recogidos como en el momento
de ser nosotros quienes se encarguen de la recogida y el tratamiento de los mismos.

REPRESENTACIONES GRÁFICAS

Gráfico de barras
Histograma
Polígono de frecuencias
Curva acumulativa

MEDIDAS DE POSICIÓN CENTRAL

Media DIAGRAMA DE CAJA


Mediana
Moda
Fig.12. Resumen del tema .

Resolución del caso práctico de la unidad


Para calcular la media muestral del peso de los pacientes, debemos conocer el peso de cada uno de ellos y dividirlo
entre el número de pacientes que son. En este caso, 10.

PACIENTE PESO EN KG
1 75.4
2 60.3
3 85.5
4 70.9
5 58.2
6 63.2
7 31.3
8 90.6
9 85.6
10 70.9
Tabla 4. Desenlace del caso práctico inicial.

= 692.2 / 10
= 63.22 kg sería la media muestral
TEMA 2. REALIZACIÓN DE ANÁLISIS ESTADÍSTICOS
Validación y explotación de datos / 14

/ 9. Bibliografía
Web del Instituto Nacional de Estadística: https://www.ine.es/

Macías del Campo, J.; Gutiérrez Martínez, J.M., & Rodríguez Álvarez, J. (2001). Bases de datos para la investigación sanitaria:
¿necesidad de un enfoque multidisciplinario? Elsevier, 27(9), 459-461. Recuperado de https://elsevier.es/es-revista-
medicina-familia-semergen-40-articulo-bases-datos-investigacion-sanitaria-necesidad-13020290

También podría gustarte