Actividad Estadı́stica descriptiva
Robert Muñoz
April 2025
1 Proceso de construcción
Lo primero que se construyó fue la hoja de Excel en la que están los datos de
los encuestados bajo las categorı́as pedidas en el trabajo.
Figure 1: Tabulación Datos de encuesta
1
Figure 2: Tabulación segunda parte
2 Tablas de frecuencia
Seguido, se procede a realizar las tablas de frecuencias para cada una de las
variables. Entonces, en el documento de Excel se organiza la primera variable
(edad) de menor a mayor para luego establecer el Rango R, la cantidad de
intervalos K y la amplitud A. Para obtener el rango, se resta el dato mayor
menos el menor. En este caso, el dato mayor es del sujeto 35 con 64 y el dato
menor es del sujeto 18 con 19. Por ende, R = 64 − 19 = 45.
Ahora, se obtiene la cantidad de intervalos. Esto se genera en Excel a partir
de la regla de Sturges. La expresión general es K = 1 + log2 (n), donde n es
la cantidad de datos. Pra esto, se usa la función truncar y en esta se usa LOG
determinando en esta n = 50, la base como 2 y 0 decimales. La expresión
obtenida en el Excel es = T RU N CAR(1 + LOG(50, 2), 0). Obteniendo ası́ que
K = 6. Seguido, se establece la amplitud de los intervalos. Este es igual al
rango R entre K. Es decir, 7.5 que se aproxima a 8. En el Excel se ve de la
forma:
2
Figure 3: Rango, intervalos y amplitud para tabla de frecuencia de edad
Ahora, se establece las clases de la tabla de frecuencia. la primera clase
tiene como lı́mite inferior el mı́nimo y el lı́mite superior será el mı́nimo más
la amplitud de la clase. La siguiente clase tiene como lı́mite mı́nimo el lı́mite
máximo de la anterior clase y el lı́mite máximo de la segunda clase es el lı́mite
máximo de la anterior más la amplitud. Ası́ sucesivamente hasta completar los
6 intervalos que menciona K. En el Excel se ve de la siguiente forma:
Figure 4: Clases. Edad
Ahora, se genera la columna de frecuencias absolutas. Para esto se selecciona
la herramienta histograma que está en la parte de Datos-Análisis de datos. Se
establece el rango de entrada, siendo esta la columna de datos y el rango de
clase, siendo estos los lı́mites superiores. Esto genera el conteo de los datos
según los intervalos establecidos.
Figure 5: Frecuencia Absoluta. Edad
Ahora, la frecuencia relativa. Esta se obtiene dividiendo el valor de la fre-
cuencia absoluta entre el total de datos. Lo obtenido se ve de la forma:
3
Figure 6: Frecuencia Relativa. Edad
Por último, la frecuencia porcentual. Esta se obtiene multiplicando por 100
la relativa para representar como porcentaje. Esta se ve de la forma:
Figure 7: Frecuencia Porcentual. Edad
Ahora, se establece la frecuencia acumulada. Aquı́, el primer valor es el
mismo primer valor de la frecuencia absoluta. El segundo valor se obtiene al
sumar los dos primeros valores de la frecuencia absoluta. El siguiente es sumar el
tercero de la frecuencia absoluta con el resultado de haber sumado los anteriores
y ası́ sucesivamente. Lo obtenido en el Excel es de la forma:
Figure 8: Frecuencia Acumulada. Edad
La frecuencia relativa acumulada se obtiene mediante el mismo proceso que
la frecuencia acumulada, completando ası́ la tabla de frecuencia de la variable
”edad”. Lo obtenido se ve de la forma:
Figure 9: Tabla de frecuencia. Edad
De manera análoga se generan las tablas de frecuencia para las siguientes
variables.
Se establece el rango R, cantidad de intervalos K y amplitud A con los datos
de estatura:
4
Figure 10: Rango, intervalos y amplitud para tabla de frecuencia de estatura
Usando lo hecho en la figura 10, tal como se hizo antes, se genera la tabla
de frecuencia de estatura:
Figure 11: Tabla de frecuencia Estatura
Ahora, se establece el rango R, cantidad de intervalos K y amplitud A con
los datos de peso:
Figure 12: Rango, intervalos y amplitud para tabla de frecuencia de peso
Con lo hecho en la figura 12, se genera la tabla de frecuencia de peso:
Figure 13: Tabla de frecuencia Peso
Por último, se establece el rango R, cantidad de intervalos K y amplitud A
con los datos de libros leı́dos:
Figure 14: Rango, intervalos y amplitud para tabla de frecuencia de libros leı́dos
5
Con lo hecho en la figura 14, se genera la tabla de frecuencia de libros leı́dos,
concretando ası́ todas las tablas de frecuencia.
Figure 15: Tabla de frecuencia libros leı́dos
3 Media, moda, mediana y análisis
La media se obtiene al sumar todos los valores de las variables y dividir el
resultado entre la cantidad de datos. El promedio dice cuál serı́a el valor “tı́pico”
o central si todos los datos se distribuyeran de manera uniforme. Es útil para
resumir una gran cantidad de información en un solo número.
La mediana es el valor que se encuentra justo en el centro de una muestra
de datos ordenados. Es decir, la mitad de los datos son menores o iguales, y la
otra mitad mayores o iguales a la mediana.
Es útil cuando hay valores muy extremos (atı́picos), ya que no se ve afectada
por ellos como sı́ lo está el promedio.
En dado caso que en el centro de los datos hayan dos, la mediana es el
promedio de esos dos datos.
Por último, la moda es el valor que más se repite entre los datos.
A continuación, la tabla hecha en Excel que representa la media, mediana y
moda de las diferentes variables.
Figure 16: Media, mediana y moda de todas las variables
En la variable de edad, la media es aproximadamente 40 años, representando
esta la tendencia central entre los encuestados. La mediana es 39.5, lo cual no
está casi nada alejado de lo que se menciona en el promedio. Ası́ mismo, el dato
que más se repite es 38, siendo esta una razón del por qué los datos obtenidos
son tan cercanos. En la variable de estatura, la media es aproximadamente 166
cm. Esto quiere decir que la tendencia central de la estatura de la población es
casi 4 cm menos que 1.70. La mediana es 166.3, teniendo ası́ un caso similar al
anterior. Caso que se comprueba cuando se ve que la moda es 163.3.
Con respecto a la variable de peso, la tendencia tı́pica de la gente a pesar si
los datos se distribuyen de manera uniforme es de 67.376. La mediana es 68.05,
lo cual parece que será un caso como los anteriores, pero al ver que la moda
es igual a 76.9, se puede analizar que los valores están alejados a la mediana
6
tanto por arriba como por abajo, no obstante, estas distancias son relativamente
simétricas.
Por último, con respecto a la variable libros leı́dos, el promedio es 4.22, la
mediana es 4 y la moda 3, dejando claro que la cantidad de libros leı́dos siempre
es cercana a 4.
4 Medidas de posición
Figure 17: Cuartiles, Deciles y Percentiles de edad
Primero, se considera la cantidad de divisiones correspondientes según el tipo
de medida de posición a utilizar: cuartiles (4 partes), deciles (10 partes) o
percentiles (100 partes). A partir de esta clasificación, se determina el valor de
k, que representa el punto especı́fico dentro del conjunto de datos que se desea
localizar. Este valor se encuentra en la primera columna de la tabla y se utiliza
posteriormente en las fórmulas para calcular tanto la posición como el valor
correspondiente en la distribución ordenada de los datos.
Para la obtención de estos valores en Excel, se empleó la función PER-
CENTIL.EXC, la cual permite vincular el conjunto de datos con su respectivo
valor de k (expresado en forma decimal). Esta función facilita el cálculo au-
tomático del valor correspondiente al cuartil, decil o percentil solicitado. Es
por ello que en la cuarta columna de la tabla se presenta el cociente entre k y
el número de divisiones, reflejando la proporción que representa dicha medida
dentro del total de datos.
Fórmula Q = kn 4
donde n es la cantidad total de datos, k es el número de la división deseada
y d es el número de partes en las que se divide el conjunto (4, 10 o 100). En
caso de que n no sea un número par, se puede ajustar la fórmula utilizando n
+ 1 en lugar de n, según las recomendaciones estadı́sticas para asegurar una
distribución más equitativa.
Desde una perspectiva estadı́stica, el conocimiento y uso adecuado de es-
tas medidas de posición permite analizar la dispersión de los datos, identificar
valores clave dentro del conjunto y facilitar la toma de decisiones basadas en
porcentajes.
Atendiendo al procedimiento para obtención de los cuartiles, percentiles y
deciles. Se replica metodologı́a para las variables de estatura y peso.
7
Figure 18: Cuartiles, Deciles y Percentiles de estatura
Figure 19: Cuartiles, Deciles y Percentiles de peso
5 Simulación del cálculo del rango intercuartı́lico
Figure 20: cálculo de rango intercuartil
Para este proceso se considera el concepto de rango intercuartı́lico (RIC), el cual
representa la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Esta
medida estadı́stica es clave para analizar la dispersión central de un conjunto
de datos, ya que indica el rango dentro del cual se encuentra el 50
Para calcularlo en Excel, se emplea la función CUARTIL.EXC, que permite
determinar el valor del cuartil deseado (Q1 o Q3) a partir de una matriz o
conjunto de datos previamente ordenado. En este caso, se calcula primero el
primer cuartil (Q1) introduciendo el número 1 como argumento de la función,
y luego el tercer cuartil (Q3) con el número 3.
RIC = Q3 − Q1
Estos valores, junto con su posición en el conjunto de datos, se organizan
como se muestra en la Figura 20. El resultado final permite identificar el grado
de variabilidad de los datos en la zona media, siendo útil para detectar si los
datos están concentrados o dispersos, y para identificar posibles valores atı́picos
que se sitúan fuera del rango tı́pico.
8
6 Boxplot
Figure 21: Diagrama cajas y bigotes para edad, estatura y peso
Tomando como referencia los conceptos previamente explicados sobre las medi-
das de tendencia central (como la media y la mediana), ası́ como la comprensión
de los cuartiles calculados en pasos anteriores, se construyó el diagrama de cajas
y bigotes con el objetivo de analizar la dispersión y comparar las medias en-
tre las variables. Esta herramienta permite, además, identificar posibles datos
atı́picos.
En términos generales, el diagrama facilita el entendimiento de los datos
obtenidos en la encuesta. Se observa una mayor dispersión y posible asimetrı́a
en la variable de peso, influenciada por un valor máximo que podrı́a considerarse
un outlier, el cual podrı́a ser descartado en un análisis estadı́stico más riguroso
dependiendo del contexto.
En contraste, las variables de estatura y edad muestran una distribución
más simétrica, con menor dispersión, lo que sugiere una mayor homogeneidad
en esos datos dentro del grupo encuestado.