Aplicaciones de Estadística Descriptiva
Aplicaciones de Estadística Descriptiva
Lectura Fundamental
Contenido
2 Tablas de frecuencia
Para una mejor ejemplificación de lo descrito con anterioridad, revisemos las siguientes situaciones
hipotéticas:
• Un psicólogo educativo que está interesado en realizar una caracterización de los estudiantes
de un colegio que han presentado deserción escolar, tomando como referencia el estudio de
variables como el género, nivel académico, estrato social y edad.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 2
1.1. Media
También conocida como promedio o media aritmética, hace referencia a la forma en que los datos
de una población o muestra se organizan para establecer un punto central dado a partir de la suma
del valor de los datos dividido en el número total de datos, si tomamos la situación hipotética del
psicólogo educativo que está interesado en realizar una caracterización de los estudiantes de un
colegio que han presentado deserción escolar y analizamos la variable “edad”, podríamos realizar la
siguiente descripción asumiendo un conjunto de datos hipotéticos:
Estudiantes Edad
1 8
2 9
3 10
4 12
5 6
6 9
7 11
Donde:
xn = Cada dato
N= número de datos
Por lo tanto,
7= número de datos
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 3
De lo cual se puede describir que el grupo de estudiantes tiene un promedio de edad de 9,2 años.
1.2. Mediana
Esta medida de tendencia central corresponde al dato que separa un conjunto de datos en dos
mitades iguales, es decir, el valor que se encuentra en el medio a partir de una organización jerárquica
de los datos. En este sentido hay que tener en cuenta que si la cantidad de datos que se pretende
analizar es impar debemos realizar la operación con la siguiente fórmula que nos permitirá hallar el
valor central de ese conjunto de datos:
Si por el contrario el número de datos que se pretende analizar es un número par, debemos calcular el
promedio de los dos datos centrales con la siguiente fórmula:
Tomando como referencia el segundo ejemplo que se planteaba con anterioridad, donde un psicólogo
organizacional que está evaluando la efectividad de un programa de motivación destinado a favorecer
el cumplimiento de metas y objetivos en el área de ventas frente a las técnicas tradicionales que se
venían implementando en su organización, y partiendo de un grupo de datos hipotético, podríamos
realizar la siguiente descripción.
Vendedor
Programa motivacional Uno Dos Tres Cuarto Cinco Seis
Tradicional 7 6 5 4 3 2
Nuevo 2 5 6 4 9 8
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 4
Teniendo en cuenta los datos de la tabla, seleccionamos la ecuación para determinar el valor de la
mediana reemplazando los datos de la tabla en la ecuación y se obtiene que la mediana para los datos
que representan el programa de motivación tradicional es de 4.5, mientras que para el programa de
motivación nuevo es de 5.5.
1.3. Moda
Es la medida de tendencia central que expresa el valor que más se repite dentro de un conjunto de
datos. Según Pérez-Tejada (2008), “es el dato que ocurre más veces, que tiene la mayor frecuencia
de ocurrencia” (p. 39), aunque frecuentemente se utilizan programas informáticos para identificar
este valor, basta con ordenar los datos del conjunto de menor a mayor, contar el número de veces
que se repite cada número e identificar el valor que más se repite.
Hay que anotar que al interior de un número de datos pueden existir dos modas, de la misma manera
es imposible establecer una moda si ningún número se repite por lo menos una vez. La fórmula
mediante la cual se representa es la siguiente:
En relación con el ejemplo de un grupo de psicoterapeutas que pretenden determinar qué enfoque
psicológico favorece la adhesión de los pacientes al tratamiento, tomando como referencia los
enfoques cognitivo-conductual, humanista y sistémico, podríamos encontrar que a partir de la
aplicación de una encuesta se obtuvieron los siguientes datos:
1 Cognitivo conductual 4
2 Humanista 20
3 Sistémico 12
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 5
Tabla 3.1. Elección de preferencia de enfoque psicológico
3 2 2 2 2 2
2 3 2 2 2 2
2 2 3 2 2 2
2 1 1 3 1 1
2 2 2 1 1 1
1 1 2 1 1 1
De acuerdo con lo anterior, podríamos decir que la moda de este conjunto de datos es la opción 2,
la que se seleccionó una mayor cantidad de veces, por tal motivo se podría asegurar que la población
encuestada generó más adhesión hacia el tratamiento guiado bajo el enfoque sistémico.
2. Tablas de frecuencia
Las tablas de frecuencia son representaciones de datos tabulados, basadas en criterios estadísticos
que permiten la organización de información para realizar y proporcionar lecturas acerca del
fenómeno estudiado.
Para la presentación de los datos se suelen utilizar estadísticas del tipo de distribución de frecuencias,
que están basadas en la reducción de datos mediante la agrupación de los mismos. Con arreglo a un
criterio de repetición. En este tipo de estadísticas los elementos pierden su individualidad en beneficio
de un mejor conocimiento del comportamiento general. (p 47)
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 6
2.1. Distribuciones de frecuencia de datos no agrupados
Supongamos que los datos que se presentan a continuación corresponden a un grupo de 84 personas
que accedieron a psicoterapia durante el primer trimestre del año 2020, supongamos de igual forma
que todos los pacientes tenían derecho a 15 sesiones de psicoterapia garantizadas por su servicio
médico, sin embargo, no todos los sujetos completaron el tratamiento, los datos que se presentan en
la tabla corresponde al número de sesiones que completó cada uno de los pacientes.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 7
Asistencia Asistencia Asistencia
Paciente Paciente Paciente
a sesiones a sesiones a sesiones
16 12 44 13 72 9
17 8 45 15 73 15
18 15 46 13 74 9
19 12 47 11 75 15
20 14 48 11 76 8
21 14 49 7 77 7
22 7 50 7 78 9
23 12 51 7 79 15
24 14 52 11 80 8
25 14 53 7 81 7
26 7 54 7 82 8
27 12 55 7 83 7
28 14 56 11 84 8
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 8
Tabla 5. Ejemplo tabla organización de datos
7 7 9 11 13 15
7 7 9 11 13 15
7 7 9 11 13 15
7 8 9 12 13 15
7 8 9 12 13 15
7 8 9 12 13 15
7 8 9 12 14 15
7 8 9 12 14 15
7 8 9 12 14 15
7 8 9 12 14 15
7 8 9 12 14 15
7 8 11 12 14 15
7 8 11 12 15 15
7 9 11 13 15 15
Una vez se ha realizado la organización en orden ascendente o de menor a mayor, se crea una tabla
de cinco columnas en las cuales se consignarán los criterios estadísticos de la tabla de frecuencia. El
siguiente paso consiste en realizar el conteo de la cantidad de datos comunes y las veces que se repite
cada uno de estos datos, este proceso se reconoce como establecimiento de categorías o series, los
resultados de este conteo muestran la frecuencia absoluta o número de veces que se repite cada
dato y se representan con (ni), este proceso puede ser realizado manualmente o con el apoyo de
programas estadísticos como SPSS o Microsoft Excel.
En este paso es importante confirmar que la sumatoria de los datos de la frecuencia absolutas sea
igual al número de datos (84 para este caso).
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 9
Tabla 6. Ejemplo frecuencia absoluta
Series ni
7 17
8 10
9 12
11 6
12 10
13 7
14 6
15 16
Una vez se ha identificado la frecuencia absoluta, lo siguiente que se debe hacer es establecer la
frecuencia relativa de cada una de las series, la cual indicará la proporción de veces que se repite cada
una de las series. Este valor se representa con (fi ) y se expresa mediante porcentajes. Se obtiene
mediante la siguiente fórmula:
En este paso es importante confirmar que la sumatoria de los datos de la frecuencia relativa sea igual
a 1, que sería el equivalente al 100 %.
Series ni fi
7 17 0,20 %
8 10 0,12 %
9 12 0,14 %
11 6 0,07%
12 10 0,12 %
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 10
Series ni fi
13 7 0,08 %
14 6 0,07 %
15 16 0,19 %
∑ 84 100 %
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 11
O bien:
Series ni fi Ni
7 17 0,20 % 17
8 10 0,12 % 27
9 12 0,14 % 39
11 6 0,07 % 45
12 10 0,12 % 55
13 7 0,08 % 62
14 6 0,07 % 68
15 16 0,19 % 84
∑ 84 100 %
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 12
Tabla 9. Ejemplo frecuencia relativa acumulada
ni fi
Series
Ni Fi
7 17 0,20 % 17 0,20 %
8 10 0,12 % 27 0,32 %
9 12 0,14 % 39 0,46 %
11 6 0,07 % 45 0,53 %
12 10 0,12 % 55 0,65 %
13 7 0,08 % 62 0,74 %
14 6 0,07 % 68 0,81 %
15 16 0,19 % 84 100 %
∑ 84 100 %
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 13
2.2. Distribuciones de frecuencia para datos agrupados
Las distribuciones de frecuencia de datos agrupados trabajan las series o clases mediante intervalos,
en este sentido difieren de las tablas de frecuencia de datos no agrupados en que la primera columna
corresponde al número de intervalos para el conjunto de datos, este proceso se realiza mediante la
regla de Sturges (revisada en el Escenario 1).
De acuerdo con esta regla y en relación con el conjunto de datos que se expone debajo de este
párrafo, podríamos decir que el número de intervalos que se requiere para la tabla de frecuencia de
datos agrupados es igual a 5.8. Dato que por regla general se redondea en 6.
Tabla 10. Ejemplo conjunto de datos para tablas de frecuencia de datos agrupados o por intervalos
40 85 90 100
40 85 98 105
55 87 99 125
55 88 99 125
75 88 99 125
85 89 99 130
85 89 99 130
Fuente: elaboración propia
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 14
De acuerdo con los datos obtenidos, la distribución de frecuencias representada en la tabla quedaría así:
Marca
n.º Intervalos Intervalos ni fi Ni Fi %
de clase
1 40 a 55 47.5 2 2 0,07 0,07 7%
2 55 a 70 62.5 2 4 0,07 0,14 7%
3 70 a 85 77.5 1 5 0,04 0,18 4%
4 85 a 100 92.5 16 21 0,57 0,75 57 %
5 100 a 115 107.5 2 23 0,07 0,82 7%
6 115 a 130 122.5 5 28 0,18 1,00 18 %
28 1,0 100 %
Como se puede observar, la tabla de frecuencia tiene los mismos datos y se realiza bajo el mismo
proceso de la tabla de frecuencia para datos no agrupados (frecuencia absoluta, frecuencia relativa,
frecuencia absoluta acumulada y frecuencia relativa acumulada), sin embargo, se perciben dos
cambios sustanciales, el primero de estos es la inclusión de la marca de clase, que representa la media
de cada intervalo y se obtiene sumando los dos valores de cada intervalo y dividiéndolos por dos.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 15
De acuerdo con Romero-Aroca et al. (2009), las representaciones gráficas tienen las siguientes utilidades:
• Permiten que nos demos cuenta del desarrollo de cualquier fenómeno estadístico fácilmente.
• Facilitan la observación y detección de relaciones entre series de datos, en las que aún no se ha
analizado matemáticamente su posible relación.
• Nos ayudan a juzgar la exactitud de los resultados obtenidos, tras el análisis matemático.
Algunos de los gráficos que tienen mayor aplicabilidad en estadística descriptiva se describen a
continuación (al igual que la construcción de tablas de frecuencia, los gráficos pueden obtenerse de
manera más práctica con programas estadísticos como SPSS y Microsoft Excel).
3.1. Histogramas
Los histogramas son gráficos que permiten representar clases y la cantidad de observaciones
(frecuencia absoluta) que cada una de estas tiene, regularmente se componen de barras expuestas
sobre dos ejes (abscisas y coordenadas), los histogramas son ideales para representar datos de tablas
de frecuencias que tienen intervalos de clase.
Pensemos por un momento en el siguiente conjunto de datos que muestra los tiempos de respuesta
de un grupo de estudiantes en un test de agilidad mental, los cuales se encuentran agrupados
por intervalos, en frente de cada intervalo se muestra la frecuencia absoluta de estudiantes que
respondieron en cada intervalo de tiempo.
Clases ni
11.1 - 12.7 10
8 12.7 - 14.3 13
14.3 - 15.9 17
15.9 -17.5 9
17.5 -19.5 8
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 16
La configuración del histograma para el anterior grupo de datos sería de la siguiente forma:
Histograma
18
16
14
12
10
8
6
4
2
0
(11-12.7) (12.7 - 14.3) (14.3 - 15.9) (15.9 - 17.5) (17.5 - 19.5)
Los polígonos de frecuencia son gráficos que brindan complementariedad a los histogramas, ya que
representan los puntos de mayor altura de estos, uniéndolos mediante segmentos, es importante
reconocer que el polígono de frecuencias también brinda información acerca de las frecuencias
acumuladas. De acuerdo con el ejemplo que venimos trabajando, el gráfico correspondiente sería así:
Polígono de frecuencia
18
16
14
12
10
8
6
4
2
0
(11-12.7) (12.7 - 14.3) (14.3 - 15.9) (15.9 - 17.5) (17.5 - 19.5)
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 17
3.3. Tortas
Los gráficos de tortas adquieren su nombre por la similitud con un pastel, se utilizan para representar
la proporción de variables cualitativas o discretas, es importante que por aspectos de forma se utilice
para representar no más de 5 categorías, además de esto la suma de las proporciones de cada variable
debe ser igual al 100 %. Dando continuidad a nuestro ejemplo, el resultado de un gráfico de tortas
sería el siguiente:
Gráfico de torta
8 ; 14%
10; 17%
9 ; 16%
13 ;…
17 ; 30%
3.4. Barras
Los gráficos de barras permiten resumir grupos de datos en categorías específicas, la altura de la
barra muestra la relación de una variable respecto a las demás, son utilizados para representar el
comportamiento de variables cuantitativas y cualitativas, en el siguiente gráfico se exponen los
intervalos de tiempo de respuesta de los estudiantes del ejemplo que venimos trabajando.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 18
Gráfico de barras
18
16
14
12
10
8
6
4
2
0
(11-12.7) (12.7 - 14.3) (14.3 - 15.9) (15.9 - 17.5) (17.5 - 19.5)
Los anteriores fueron algunos de los gráficos que se utilizan en estadística descriptiva para brindar
comprensiones más específicas de los conjuntos de datos, es importante reconocer la conveniencia
de cada uno de estos respecto a la información que se desea presentar.
Para ejemplificar la forma en que la distribución normal representa un grupo de datos, revisemos la
siguiente situación:
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 19
Un grupo de psicólogos educativos se encuentra realizando la evaluación del coeficiente intelectual
de un grupo diverso de estudiantes en los cuales existen casos con inteligencia superior y otros que
presentan discapacidad intelectual, sin embargo, estos casos no son mayoritarios, ya que el porcentaje
más alto del grupo presenta una inteligencia promedio. Al terminar la evaluación, los psicólogos se
encuentran con los siguientes datos (el color azul corresponde al rango de CI alcanzado; mientras que
en color blanco se observan las frecuencias por cada rango de CI):
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 20
Distribución normal
0,03000
0,02500
0,02000
0,01500
0,01000
0,00500
0,00000
0 20 40 60 80 100 120 140 160
Como mencionábamos con anterioridad, la campana de Gauss permite identificar una serie de
aspectos que tienen unas representaciones específicas y que se exponen a continuación:
µ= Representa la media poblacional del conjunto de datos que es evidente dentro de la gráfica en el
punto más alto de la curva. Es decir, la zona en la cual se ubican la mayoría de los datos.
σ= Es un parámetro que representa la desviación típica, la cual indica la distribución de los datos
respecto a la media, esto indicaría que los datos de la población demuestran homogeneidad, debido a
que en el ejemplo hay una gran cantidad de personas que obtuvo puntuaciones cercanas a la media,
que para este caso es 100, es necesario anotar que, si bien es cierto que existen puntuaciones
extremas de 60 y 140 puntos, estas no constituyen observaciones frecuentes dentro del conjunto de
datos. En una situación de carácter heterogéneo, la curva presentaría el siguiente aspecto.
0,008
0,007
0,006
0,005
0,004
0,003
0,002
0,001
0
0 20 40 60 80 100 120 140
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 21
Además de lo anteriormente expuesto, las distribuciones normales poseen las siguientes
características según Cazau (2006):
Características Ejemplo
Es la idealización de un polígono de frecuencias con tendencia
central para una gran cantidad de casos. Por esta razón tiene
la apariencia de una curva y no de una línea quebrada, ya que
el polígono de frecuencias tiene infinito número de lados.
Tiene forma de campana: no tiene otras formas similares
como puede ser la forma de herradura o la forma de una
campana invertida.
Es simétrica respecto de un eje vertical, lo que la diferencia
de otras curvas como por ejemplo la hipérbole equilátera. La
simetría de la curva normal implica que la media aritmética, la
mediana y el modo coinciden en el punto central.
Es asintótica respecto del eje x. Esto significa que la curva y el
eje de las abscisas se cortan en el infinito, lo cual implica que
cualquier valor de x tiene potencialmente alguna frecuencia, y
ninguna frecuencia igual a 0.
La curva normal puede adoptar diferentes formas:
mesocúrtica, platicúrtica o leptocúrtica.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 22
Referencias
Romero-Aroca, P., Lázaro García, C. y González López, J. J. (2009). Estadística descriptiva e inferencial.
En P. B., Martín, De la idea a la publicación científica. Manual de investigación clínica (pp. 165-176). Sociedad
Española de Oftalmología.
Fernández Fernández, S., Cordero Sánchez, J. M. y Córdoba Largo, A. (2002). Estadística descriptiva.
ESIC Editorial.
Pérez-Tejada, H. E. (2008). Estadística para las ciencias sociales, del comportamiento y de la salud.
Cengage Learning Editores.
Rustom Jabbaz, A. (2012). Estadística descriptiva, probabilidad e inferencia. Una visión conceptual y
aplicada. Universidad de Chile
Referencias de tablas
Cazau, P. (2006). Características de las distribuciones normales [tabla]. UBA.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 23
INFORMACIÓN TÉCNICA
Módulo: Estadística
Unidad 2: Estadística descriptiva
Escenario 3: Métodos Estadísticos Descriptivos
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 24