Está en la página 1de 20

1

Características del valor de la matrícula en estudiantes del programa de medicina en el

semestre 2021-1 de la Universidad Surcolombiana

Daniela Mañozca Cruz

Dicleny Castro Carvajal

Ricardo Andrés Narváez Perdomo

Profesor

Mg. Jaime Polanía Perdomo

Universidad Surcolombiana

Facultad de Ciencias Exactas

Especialización en Estadística

Análisis Exploratorio de Datos

Neiva, Huila

Septiembre, 2023
2

Introducción

El presente informe pretende hacer un análisis descriptivo de la variable “valor de la

matrícula de los estudiantes del programa de medicina”, a partir del análisis exploratorio de

datos. En este sentido, se busca usar los métodos de la estadística descriptiva, como: las

distribuciones de frecuencias, gráficos, calcular medidas de tendencia central, identificar las

estadísticas de posición, calcular las medidas de dispersión, las estadísticas de forma y la

elaboración de un box-plot.

Lo anterior será un insumo importante para identificar y analizar la información sobre el

valor de la matrícula de los estudiantes de este programa en el semestre 2021-1.


3

1. Metodología

Teniendo en cuenta la base de datos en Excel suministrada por el profesor del curso de

estadística descriptiva, se procede a desarrollar el taller en el siguiente orden:

1. Programa académico de pregrado: medicina, sede Neiva, jornada diurna.

2. Variable cuantitativa seleccionada de la base de datos: “valor matrícula”.

3. Selección de la muestra: 80 estudiantes.

Para seleccionar los elementos de la muestra, Excel dispone de una gran variedad de

métodos que permite garantizar la aleatoriedad de este proceso. Para el caso puntual de este

trabajo, se utilizó el motor de preparación y transformación de datos de Excel: Power Query

Editor, en el cual se realizó una organización de la base de datos suministrada, se filtró según los

parámetros seleccionados para el programa académico de pregrado, y se adicionó una columna

personalizada usando la función Number.RandomBetween(0 as number, 1 as number)), con el

fin de asignar un valor aleatorio único entre 0 y 1 a cada elemento de la población seleccionada.

Según la base de datos, el programa de Medicina, sede Neiva, jornada Diurna en el año

2021 registró un total de 737 estudiantes matriculados. A cada registro se le asignó un número

aleatorio único entre 0 y 1. Para la selección de la muestra de 80 registros se utilizó la función de

Excel K.ESIMO.MENOR(matriz;k).

Desglosando la sintaxis de la función K.ESIMO.MENOR, para la matriz de la función se

seleccionó la columna de números aleatorios únicos asignados a cada registro, y para el valor de

k, se creó una columna con la serie de números enteros entre 1 y 80. De esta manera, la función

llama en su orden al registro cuyo número aleatorio sea el más pequeño, seguido del registro

cuyo número aleatorio sea el segundo más pequeño y así sucesivamente hasta encontrar el
4

registro cuyo número aleatorio sea el ochentavo más pequeño. A continuación, en la Tabla 1 se

observa la muestra seleccionada para los propósitos del presente informe.

Tabla 1.

Selección de la muestra

n=80

muestra id valor matrícula

1 2785 $ 384.930

2 5000 $ 891.146

3 7982 $ 433.023

4 1083 $ 427.656

5 11545 $ 394.992

6 5958 $ 310.013

7 11166 $ 1.069.022

8 8330 $ 287.764

9 2913 $ 1.261.124

10 2943 $ 921.052

11 6736 $ 376.824

12 12540 $ 903.977

13 4155 $ 1.417.674

14 1375 $ 1.263.972

15 11670 $ 1.093.254

16 6336 $ 1.477.221

17 12008 $ 1.356.768
5

18 505 $ 398.783

19 12022 $ 492.970

20 12915 $ 1.107.558

21 7331 $ 522.055

22 12266 $ 374.718

23 3558 $ 402.407

24 605 $ 1.799.560

25 11228 $ 379.493

26 10781 $ 313.233

27 756 $ 393.076

28 8705 $ 1.294.118

29 9682 $ 321.731

30 10793 $ 427.656

31 12063 $ 400.158

32 3828 $ 1.247.979

33 292 $ 375.081

34 3717 $ 1.356.768

35 13414 $ 750.901

36 9486 $ 307.909

37 13165 $ 645.343

38 2655 $ 2.171.150

39 3159 $ 310.013
6

40 1316 $ 394.374

41 1999 $ 635.149

42 2786 $ 398.783

43 11620 $ 868.600

44 8969 $ 419.675

45 2894 $ 400.703

46 11447 $ 376.126

47 606 $ 1.799.560

48 9944 $ 1.272.609

49 12914 $ 1.107.558

50 8384 $ 426.979

51 4713 $ 402.407

52 8719 $ 1.650.490

53 4105 $ 2.193.702

54 1469 $ 575.994

55 1397 $ 625.232

56 4956 $ 398.783

57 5999 $ 1.233.292

58 11121 $ 586.792

59 9712 $ 868.600

60 6565 $ 1.759.115

61 991 $ 393.457
7

62 942 $ 420.386

63 4434 $ 488.314

64 8859 $ 393.075

65 1398 $ 625.232

66 1673 $ 1.055.349

67 5924 $ 536.219

68 2445 $ 522.055

69 1954 $ 1.337.428

70 4390 $ 516.688

71 9750 $ 1.091.772

72 13200 $ 623.284

73 2180 $ 1.417.674

74 7693 $ 656.501

75 13004 $ 1.799.560

76 9973 $ 1.472.328

77 12256 $ 2.527.594

78 3406 $ 396.938

79 9070 $ 2.269.639

80 10618 $ 1.867.583

Fuente: Selección aleatoria de una base de datos de la oficina de matrículas de la universidad

Surcolombiana.
8

2. Resultados y análisis de las estadísticas descriptivas

2.1 Distribución de frecuencias.

La distribución de frecuencias es un método para organizar y resumir datos. Con este

método los datos que componen una serie se clasifican y ordenan siendo el número de veces que

se repiten. (Martínez, 1997, p.51).

Inicialmente se determina el rango, el número de intervalos y la amplitud para la variable

cuantitativa continua:

Tabla 2.

Variable continua

Valor Matrícula Función de Excel

Máximo $ 2.527.594 =MAX(número1;…)

Mínimo $ 287.764 =MIN(número1;…)

Rango $ 2.239.830 Max – Mín.

No intervalos 7,28 1+3,3LOG10(n)

Amplitud $ 307.661 Rango / Intervalos

Fuente: Elaboración propia a partir de los datos suministrados por la usco (2023)

En la Tabla 3 se pueden observar los intervalos definidos para el análisis de la frecuencia

de los datos, donde de manera preliminar se identifica que el mayor número de estudiantes se

encuentra en el primer intervalo de costos de matrícula, es decir, en el más económico. También


9

se observa en la distribución de frecuencias, que casi el 60% de los estudiantes de medicina

pagan menos de $ 903.085 COP por la matrícula semestral.

Tabla 3.

Distribución del valor de matrícula en estudiantes de medicina de la Usco

Frec
In L inf L sup Promedio % Rango
abs

1 $ 287.764 $ 595.425 $ 441.595 39 48,75% $ 287.764 - $ 595.425

2 $ 595.425 $ 903.086 $ 749.256 10 12,50% $ 595.425 - $ 903.086

3 $ 903.086 $ 1.210.747 $ 1.056.917 8 10,00% $ 903.086 - $ 1.210.747

4 $ 1.210.747 $ 1.518.408 $ 1.364.578 13 16,25% $ 1.210.747 - $ 1.518.408

5 $ 1.518.408 $ 1.826.069 $ 1.672.239 5 6,25% $ 1.518.408 - $ 1.826.069

6 $ 1.826.069 $ 2.133.730 $ 1.979.900 1 1,25% $ 1.826.069 - $ 2.133.730

7 $ 2.133.730 $ 2.441.391 $ 2.287.561 3 3,75% $ 2.133.730 - $ 2.441.391

8 $ 2.441.391 $ 2.749.052 $ 2.595.222 1 1,25% $ 2.441.391 - $ 2.749.052

Totales 80 100%

Fuente: Elaboración propia a partir de los datos suministrados por la usco (2023)

Figura 1.

Distribución de estudiantes por valor de la matrícula


10

60.00%

50.00% 48.75%
Porcentaje estudiantes (%)

40.00%

30.00%

20.00% 16.25%
12.50%
10.00%
10.00% 6.25%
3.75%
1.25% 1.25%
0.00%
$ 287.764 - $ 595.425 - $ 903.086 - $ 1.210.747 $ 1.518.408 $ 1.826.069 $ 2.133.730 $ 2.441.391
$ 595.425 $ 903.086 $ 1.210.747 -$ -$ -$ -$ -$
1.518.408 1.826.069 2.133.730 2.441.391 2.749.052
Rango valor matricula en pesos colombianos ($)

Fuente: Elaboración propia a partir de los datos de la Tabla 3.

2.2 Medidas de tendencia central

Las estadísticas de posición o de tendencia central permiten determinar la posición de un

valor respecto a un conjunto de datos, el cual se considera representativo del total de las

observaciones. Estas medidas aplicadas a las características de las unidades en una muestra, se

les denomina estimadores o estadígrafos. (Martínez, 1997, p.85).

De manera inicial se esperaba que la moda se hallara en el primer intervalo teniendo en

cuenta que casi el 50% de los datos de la muestra estaba alojada en esa primera banda. Sin

embargo, la muestra seleccionada es bimodal (ver tabla 4). Indicando así que hay dos grupos de

estudiantes con valores de matrícula muy diferentes. Este resultado de la moda se validó de

manera manual con la función “CONTAR.SI()” en Excel y de manera automática con la función

“MODA.VARIOS()”. Si el análisis de los datos se hubiera limitado a usar solamente la función

tradicional “MODA()” de Excel, no hubiera sido posible detectar esta dualidad, es por esto que
11

cuando se están determinando estadísticas, es importante tener métodos de validación y entender

la naturaleza de la estimación.

Adicionalmente, como se puede observar en la Tabla 4, se estimaron la media aritmética

y la mediana, siendo la primera una medida muy sensible a valores extremos y que pierde

representatividad cuando la muestra es heterogénea. Según el resultado obtenido, la media

aritmética obtenida es mayor que la mediana, sugiriendo que la distribución de datos no es

simétrica, sino que está sesgada hacia la derecha. Para este escenario de análisis en el cual se

obtuvo un coeficiente de variación alto que confirma la heterogeneidad de los datos, se infiere

que la media no es representativa. Por otra parte, la mediana al estar enfocada en los valores

centrales de los datos, no se ve tan impactada como la media por los valores extremos y coincide

con el percentil 50.

Tabla 4

Estadísticas de tendencia

Medidas de tendencia Función de Excel

Media aritmética $ 860.858 =PROMEDIO(número1;…)

Mediana $ 624.258 =MEDIANA(número1;…)

Moda $ 398.783 | $1.799.560 =MODA.VARIOS(número1;..)

Fuente: Elaboración propia a partir de la muestra seleccionada en la Tabla 1.

La Tabla 5 presenta tres percentiles para analizar la distribución de los datos y

tener puntos de referencia en la muestra de estudio, por ejemplo, con el percentil 50 que

corresponde a la media, se puede rápidamente saber que la mitad de los estudiantes de medicina

pagaron una matrícula menor a $624,258 COP y que la otra mitad pagó una matrícula superior a

este valor.
12

Otro aspecto que se pudo considerar, es que indirectamente con la estimación de estos

percentiles se calcularon también los cuartiles, por ejemplo, el percentil 75, corresponde al tercer

cuartil, el cual expone que el 75% de los estudiantes de medicina en el semestre 2021-1 pagaron

menos $1,261,836 COP por concepto de matrícula y que el otro 25% de los estudiantes pagaron

más de $1,261,836 COP por el mismo rubro.

Tabla 5.

Estadísticas de posición

Percentiles Función de Excel

p25 $ 398.783 = PERCENTIL.INC(rango;0.25)

p50 $ 624.258 = PERCENTIL.INC(rango;0.50)

p75 $ 1.261.836 = PERCENTIL.INC(rango;0.75)

Fuente: Elaboración propia a partir de la muestra seleccionada en la Tabla 1.

2.3 Medidas de dispersión

Los estadígrafos de dispersión son aquellos que determinan cómo se agrupan o se

dispersan los datos alrededor de un promedio.

Tabla 6.

Estadígrafos de dispersión

Medidas de dispersión Función de Excel

Varianza $ 317.487.923.186 =VARA(número1;…)

Desviación
$ 563.461 =DESVESTA(número1…)
estándar

Coeficiente de
65% DesviaciónEstandar/Media
variación
13

Fuente: Elaboración propia a partir de la muestra seleccionada en la Tabla 1.

Partiendo de las medidas de tendencia central presentadas en la Tabla 4, se obtuvo que la

media aritmética del conjunto de datos es de $860.858, indicando así que, en teoría, los valores

de matrícula deben tender a estar alrededor de ese número. Ahora, para contrastar la valides de

esta afirmación, es pertinente calcular la desviación estándar, obteniéndose un valor de $563.461,

el cual es alto y da indicios que los datos están distribuidos de manera más amplia alrededor de la

media. Esto se demuestra, al calcular el coeficiente de variación, donde se obtiene un valor de

65%, lo que efectivamente prueba que la muestra seleccionada es heterogénea y que existen

valores extremos o atípicos en el conjunto de datos. Realizando una inspección a los datos, se

encuentran valores de la escala de $287.764 y $2.527.594, los cuales están bastante alejados de

la media.

La variabilidad de los datos hace que el promedio no sea una medida representativa de la

población. Esto se debe a que el conjunto de datos es heterogéneo y está bastante disperso, con

valores bastante alejados de la media.

2.4 Estadísticas de forma

Tabla 7.

Estadígrafos de forma

Medidas de dispersión Función de Excel

k>0, dist.
Curtosis 0,2423942 =CURTOSIS(rango)
leptocúrtica

=COEFICIENTE.AS
Asimetría 1,0552126 as > 0, positiva
IMETRIA(rango)
14

Fuente: Elaboración propia a partir de la muestra seleccionada en la Tabla 1.

El coeficiente de asimetría obtenido es mayor que cero, confirmando la asimetría positiva

de la distribución e indicando con esto que los valores de la media, la mediana y la moda de

los datos son diferentes: la primera moda es igual a $1.799.560 mayor que la media cuyo valor

es $ 860.858 la cual es mayor que la mediana con un valor de $ 624.25 y este valor a su vez es

mayor que la segunda moda con un valor de $ 398.783.

Respecto a la Curtosis, como otra característica de la forma, se encontró que la

distribución es leptocúrtica, es decir, que los datos tienden a elevarse y que los valores de la

matrícula varían más a la derecha de la media ($860.858).

2.4 Box plot

Es un diagrama de caja y bigotes que se usa como método estandarizado para representar

gráficamente los datos a partir de los cuartiles.

En la figura 2 se puede apreciar de manera global la descripción de los datos a partir del

box plot. La caja, cuyo limite inferior es de $398.783 y límite superior es $1.263.260, ilustra el

rango Intercuartil. Esto es, la diferencia entre el tercer cuartil y el primer cuartil. En el centro de

la caja, se ilustra la mediana con una línea vertical y cuyo valor es $624.258 y con una equis, se

indica en la caja el valor de la media aritmética del conjunto de datos, el cual es $860.858.

En el box plot, la caja es ancha, con un rango intercuartil de $863.053. La mediana está a

la izquierda de la media, lo que indica que los datos están más concentrados hacia la izquierda y
15

dispersos a partir del valor central. Demostrando gráficamente la asimetría positiva obtenida para

el conjunto de datos al calcular el coeficiente de asimetría en la Tabla 7.

Ahora, analizando la longitud de los bigotes, se evidencia que el bigote izquierdo es

significativamente más corto que el bigote derecho, soportando la asimetría positiva y que los

valores de matrícula están ampliamente concentrados por debajo de la mediana de la muestra.

Esto es respaldado por el valor obtenido para la curtosis, demostrándose así una distribución

leptocúrtica de los datos, lo cual permite interpretar que gran parte de los estudiantes de la

muestra pagan valores de matrícula bajos. Por su parte, el bigote derecho es significativamente

más largo, indicando que los valores están más ampliamente distribuidos a partir de la mediana

de los datos.

El diagrama de cajas y bigotes no muestra valores atípicos. Sin embargo, la distribución

de frecuencias muestra que el 10% de los estudiantes pagaron más de $1.261.836 COP, que es el

límite superior del rango intercuartil. Estos datos podrían considerarse valores atípicos, ya que

están muy alejados del resto de los datos.

Figura 2.

Distribución del valor de la matrícula


16

Fuente: Elaboración propia a partir de la muestra seleccionada en la Tabla 1.

3. Conclusiones

● La mayoría de los estudiantes de medicina de la Universidad Surcolombiana pagan

valores de matrícula bajos. El 60% de los estudiantes pagaron menos de $903.085 COP

por la matrícula semestral.


17

● Hay un grupo de estudiantes que paga valores de matrícula significativamente más altos

que la mayoría. El 10% de los estudiantes pagaron más de $1.261.836 COP, que es el

límite superior del rango intercuartil.

● La distribución de los datos no es simétrica, sino que está sesgada hacia la derecha. Esto

se debe a que hay un grupo de estudiantes que paga valores de matrícula

significativamente más altos que la mayoría.

● La media aritmética ($860.858 COP) es mayor que la mediana ($624.258 COP). Esto

sugiere que la distribución de los datos no es simétrica, sino que está sesgada hacia la

derecha.

● El coeficiente de curtosis (0.2423942) es positivo, lo que indica que la distribución es

leptocúrtica. Esto significa que la distribución tiene una cola más pesada que una

distribución normal.

● Al analizar la muestra se infiere la distribución de los datos puede ser más compleja de lo

que parece. Es posible que existan otros factores que influyan en los valores de matrícula,

como la financiación, la ubicación de la residencia del estudiante o la trayectoria

académica.

● La estadística descriptiva permite identificar el comportamiento de una variable en

relación con la distribución de sus datos.

● En el estudio de la variable cuantitativa continúa “valor de la matrícula” a partir de

métodos descriptivos de la estadística, se logró identificar mucha variabilidad y

dispersión en la distribución de los datos, aspecto que sugiere que sea analizada en

relación con otras variables, como el estrato socioeconómico.


18

● Se observa que tanto las tablas como los gráficos estadísticos y los estadígrafos

complementan la información acerca de los datos, conservando consistencia en la

naturaleza de los datos provenientes de la variable estudiada.

4.Recomendación

Para tener un mayor contexto sobre el costo de matrícula para estudiantes de medicina,

sería pertinente analizar otras muestras de universidades públicas que ofrecen el mismo
19

programa. Esto permitiría establecer un punto de referencia nacional en cuanto al costo de

matrícula. Adicionalmente, se podrían considerar las tasas de deserción del programa y la tasa de

empleabilidad de los egresados para entender el impacto del precio de la matrícula en la tasa de

deserción y la relación costo-beneficio para los estudiantes que deciden estudiar medicina.

Referencias

Excel. Curtosis y asimetría a partir de En: https://support.microsoft.com/es-es/office/funci

%C3%B3n-coeficiente-asimetria-bdf49d86-b1ef-4804-a046-28eaea69c9fa
20

https://support.microsoft.com/es-es/office/funci%C3%B3n-curtosis-bc3a265c-5da4-

4dcb-b7fd-c237789095ab

Martínez, C. (1997). Estadística y Muestreo. Ecoe Ediciones.

Polanía, J. (2023). Estadística Descriptiva (Presentación power point).

También podría gustarte