Está en la página 1de 24

1

INDAGACIÓN SOCIAL DE LOS ESTUDIANTES DE INGENERÍA DE LA

UNIVERSIDAD FRANCISCO DE PAUAL SANTANDER

ROSA VIRGINIA HERNÁNDEZ

DOCENTE ESTADÍSTICA DESCRIPTIVIA

DEPARTAMENTO DE MATEMÁTICAS Y ESTADÍSTICA

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER

2020
2

INDAGACIÓN SOCIAL DE LOS ESTUDIANTES DE INGENERÍA DE LA

UNIVERSIDAD FRANCISCO DE PAUAL SANTANDER

ROSA VIRGINIA HERNÁNDEZ

Trabajo desarrollado para la asignatura de Probabilidad y Estadística

Profesora Rosa Virginia Hernández

DOCENTE ESTADÍSTICA DESCRIPTIVIA

DEPARTAMENTO DE MATEMÁTICAS Y ESTADÍSTICA

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER

2020
3

Tabla de contenido

Introducción .................................................................................................................................... 4
1. Análisis de Variable Cualitativa ............................................................................................. 5
2. Análisis Estadístico Descriptivo para datos no agrupados ..................................................... 6
2.1 Tabla de datos no agrupados ................................................................................................. 6
2.2 Medidas de Tendencia Central.............................................................................................. 7
2.2.1 Media Aritmética ........................................................................................................... 8
2.2.2 Media (Me) .................................................................................................................... 8
2.2.3 Moda (Mo) ..................................................................................................................... 9
2.3 Comparación de las medidas de tendencia central para datos no agrupados ........................ 9
2.4 Medidas de Localización para datos no agrupados ........................................................ 10
2.4.1 Cuartiles (Q)................................................................................................................. 11
2.4.2 Deciles (D) ................................................................................................................... 12
2.4.3 Percentiles (P) .............................................................................................................. 12
2.5 Medidas de Dispersión ........................................................................................................ 13
2.5.1 Varianza Muestral (𝑆2)................................................................................................ 13
3.2 Tabla Distribución de Frecuencia para datos agrupados ........................................................ 15
3.3 Medidas de Tendencia Central para datos agrupados ............................................................. 17
3.3.1 Media Aritmética (Promedio) muestral ........................................................................... 17
3.3.2 Mediana (Me)................................................................................................................... 17
3.3.3 Moda (Mo) ....................................................................................................................... 17
3.4 Medias de Localización para Datos Agrupados.................................................................. 18
3.4.2 Deciles (D) ................................................................................................................... 19
3.4.3 Percentiles (P) .............................................................................................................. 19
3.5 Medidas de Dispersión para datos agrupados ......................................................................... 20
4. Conclusiones ......................................................................................................................... 22
Referencias .................................................................................................................................... 24
4

Introducción

La estadística descriptiva se deriva del latín “estado”; en términos generales, la estadística

descriptiva está relacionada con el arreglo, el resumen y la presentación de datos, de tal manera

que la información sea extraída y extendida con facilidad. Así mismo, se discuten las medidas de

tendencia central como media, mediana y moda. Las medidas de localización como cuartiles,

deciles y percentiles. Las medidas de dispersión como varianza y desviación típica. Igualmente se

aprende a interpretar la variable cualitativa con su diagrama circular. Se interpretan las tablas de

frecuencia de los datos no agrupados y datos agrupados con sus respectivas gráficas (Urias &

Salvador, 2014)

El presente trabajo se desarrolla con propósito de aprender conceptos de Estadística

Descriptiva, partiendo de datos primarios que se obtuvieron a través de una encuesta desarrollada

en Google Drive y diligenciada por los estudiantes matriculados en la asignatura de Estadística y

Probabilidad del programa de Ingeniería Civil durante el II semestre del año 2020.

Se espera tener un modelo de trabajo que utilizando la herramienta Excel se pueda

profundizar en conceptos como: datos primarios, variables cualitativas y cuantitativas, datos no

agrupados, datos agrupados, medidas de tendencia central, medidas de localización, medidas de

dispersión junto a los gráficos correspondientes que deben ser específicos hacia las variables con

su respectiva interpretación.
5

1. Análisis de Variable Cualitativa

De la encuesta realizada a los estudiantes se tomó un total de 50 datos en la variable

género presentando la siguiente información:

12; 24%

Femenino

38; 76% Masculino

Figura 1. Diagrama Circular Variable Género

La figura 1 muestra que de los 50 datos obtenidos en la encuesta el 76% de los estudiantes

matriculados en la asignatura de Probabilidad y Estadística son del genero masculino y el restante

es femenino. Se concluye que en los programas de ingeniería de la Universidad Francisco de Paula

Santander cuya equivalencia de asignatura corresponde a: Civil, Electrónica, Sistemas, Minas,

Ingeniería Industrial y Tecnología en Obras Civiles hay mayoría de estudiantes género masculino.
6

2. Análisis Estadístico Descriptivo para datos no agrupados

Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es

decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin

necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no

agrupados. A continuación, se analizarán las medidas de tendencia central, medidas de localización

y medidas de dispersión para presentar los resultados obtenidos en la encuesta correspondiente a

la variable cuantitativa discreta 𝑥𝑖 = 𝐸𝑑𝑎𝑑 de los estudiantes matriculados en la asignatura de

Probabilidad y Estadística del programa Ingeniería Civil de la Universidad Francisco de Paula

Santander en el segundo semestre del 2020.

Como el tamaño de la población finita corresponde a un total de 𝑁 = 100 estudiantes, el

investigador (estadístico) tomó la decisión de sacar una muestra con 𝑛 < 𝑁 con 𝑛 ≤ 50 “𝑚𝑒𝑛𝑜𝑠”,

siendo 𝑛 = 20 estudiantes.

2.1 Tabla de datos no agrupados

Para ofrecer una mejor presentación a los datos que representan la variable cuantitativa

discreta 𝑥𝑖 = 𝐸𝑑𝑎𝑑 se agrupan en la Tabla 1 como Datos no agrupados.

Tabla 1. Frecuencia Datos No Agrupados


Frecuencia Frecuencia Frecuencia Frecuencia
Xi
Absoluta Relativa Acumulada Relativa Acumulada
Edad fi Ni Fi Ni
18 4 0,2 0,2 20%
19 8 0,4 0,6 40%
20 5 0,25 0,85 25%
22 3 0,15 1 10%

La tabla 1 nos presenta la cantidad de estudiantes con edades de 18, 19, 20, 21 y 22;

presentando mayor cantidad de estudiantes (8) con edad de 19 años y 3 un estudiante de 22 años.
7

Se da como preámbulo el concepto de probabilidad con la siguiente interpretación: De los 80

estudiantes matriculados en la asignatura de Probabilidad y Estadística, se tomó un muestreo

aleatorio simple de 20 estudiantes, obteniendo un 40% de probabilidad de tener la edad de 19 años.

8
7
Número de estudiantes

6
5
4
3
2
1
0
18 19 20 22
Edad

Figura 2. Edad Estudiantes matriculados en Probabilidad y Estadística

La gráfica de barras presenta mayor aclaración de la tabla 1, evidenciando la mayor

cantidad de estudiantes con edad de 19 años y le sigue la edad de 18 años.

2.2 Medidas de Tendencia Central

Las medidas de tendencia central, son medidas que nos permiten conocer las características

de un conjunto de datos porque miden, de diferentes formas, hacia qué valor tiende (se acerca) el

centro de ese conjunto de datos. Se definen como:

Media (Promedio). Se suman todos los datos y se dividen entre el número de datos.

Mediana. Se ORDENAN todos los datos de forma ascendente y se encuentra el dato central, que

está en medio de ellos.

Moda. Es el dato que más se repite.


8

2.2.1 Media Aritmética

Es la medida más utilizada, la más conocida, la más fácil de calcular. Sus fórmulas admiten

tratamiento algebraico (Fernández, Sánchez, Córdoba, & Largo, 2002). Por tal razón es

considerada como la más importante dentro de los promedios, a pesar de ser demasiado sensible a

cambios en la variable o cuando el extremo es demasiado grande. Se simboliza indistintamente,

empleando una rayita sobre la letra que indica la variable o, con minúscula para indicar el

estimador y con mayúscula para el parámetro.

Se obtiene dividiendo la suma de todos los valores que toma la variable, por el número de

observaciones:

∑ 𝑥𝑖
• Poblacional: 𝜇 = = 19,33≈ 19 “Parámetro”
𝑁
∑ 𝑥𝑖
• Muestral 𝑥̅ = = 19,59≈ 19 “Estimador”
𝑛

Teniendo en cuenta que la variable “edad” se está analizando como

cuantitativa discreta, es necesario que se aproxime el promedio poblacional y

muestral a valores enteros, garantizando que los resultados sean homogéneos siendo

la muestra valores representativos de la poblacional.

Interpretación 𝑥̅ = 19 años es el promedio de edad de los estudiantes

matriculados en la asignatura de Probabilidad y Estadística en el segundo semestre

del 2020 en el programa de Ingeniería Civil de la Universidad Francisco de Paula

Santander.

2.2.2 Media (Me)

También conocida como media posicional, por ocupar el centro de los datos. Más

formalmente, se puede definir como el lugar del valor central de una sucesión. La divide en un
9

número igual de valores anteriores y sucesores. Los datos deben estar ordenados ya sea de forma

ascendente o descendente, pues la mediana corresponderá al mismo valor.

Si el número de datos es IMPAR, la mediana corresponderá a un único valor. Si es PAR,

corresponderá al promedio entre los dos valores centrales.

(𝑛+1)
La posición de la mediana se calcula mediante la fórmula: 𝑀𝑒 = =10,5 Como se
2

obtuvo un valor decimar se promedia la posición 10 = 19 y la posición 11=19; siendo 𝑀𝑒 =

19 𝑎ñ𝑜𝑠 podemos interpretar: “El 50% de los estudiantes de la Facultad de Ingeniería

matriculados en la asignatura de Probabilidad y Estadística tienen la edad de 19 años o

menos (hasta 17 años) y el otro 50% supera esta edad con una edad máxima de 26 años”

2.2.3 Moda (Mo)

Puede haber más de un dato que corresponda a la moda. Si son dos datos, se considera una

distribución bimodal. Si son más, multimodal. Sirve para un objetivo distinto que las otras dos

medidas, pues para ciertos objetivos puede ser más interesante saber qué dato se repite más que

cuál es el promedio de los datos. Y si la moda es muy diferente a la media, se puede considerar

que el comportamiento de los datos no es normal.

Para nuestro estudio 𝑀𝑜 = 19 años Esta información se toma de la tabla 1, siendo la mayor

frecuencia en las edades de los estudiantes de la Facultad de Ingeniería matriculados en la

asignatura de Probabilidad y Estadística.

2.3 Comparación de las medidas de tendencia central para datos no agrupados

▪ Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la moda.

En una distribución con sesgo positivo, la moda se halla en el punto más alto de la

distribución, la mediana está hacia la derecha de la moda y la media más a la derecha. Es

decir Mo < Me < 𝑥̅ .


10

▪ En una distribución con sesgo negativo, la moda es el punto más alto, la mediana está a la

izquierda de la moda y la media está a la izquierda de la mediana. Es decir, 𝑥̅ < Me < Mo.

▪ Cuando la población tiene una distribución sesgada, con frecuencia la mediana resulta ser

la mejor medida de posición, debido a que está siempre entre la media y la moda. La

mediana no se ve altamente influida por la frecuencia de aparición de un solo valor como

es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media.

La selección de la media, la mediana o la moda, depende de la aplicación. Por ejemplo, se habla

del salario promedio (media); el precio mediano de una casa nueva.

Figura 3. Curva normal y medidas de tendencia Central

Por lo tanto, el análisis de la variable Edad de los estudiantes tiene una distribución

simétrica por ser equivalente Mo = Me = 𝑥̅ y podemos argumentar que los datos están normalmente

distribuidos.

2.4 Medidas de Localización para datos no agrupados

Las medidas de localización dividen la distribución en partes iguales, sirven para

clasificar a un individuo o elemento dentro de una determinada población o muestra. Siendo

conceptualmente definidos como Cuartiles, Deciles y Percentiles.


11

2.4.1 Cuartiles (Q)

Medida de localización que divide la población o muestra en cuatro partes iguales y su gráfica se

representa por el Diagrama de Cajas (o bigote). Se calcula la posición del cuartil mediante la
𝑘∗𝑛
ecuación 𝑄𝑘 = .
4

• Q1= Valor de la variable que deja a la izquierda el 25% de la distribución. Siendo el 𝑄1 = 19

años. Esto quiere decir que el 25% de los estudiantes tienen la edad de 19 años o menos (hasta

17).

• Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana. 𝑄2 = 19

años. Esto quiere decir, que el 50% de los estudiantes tienen la edad de 19 años o menos (hasta

17 años) y el otro 50% supera esta edad hasta los 22 años

• Q3= Valor de la variable que deja a la izquierda el 75% de la distribución. 𝑄3 = 20 años. Esto

quiere decir, que el 75% de los estudiantes tienen edad de 20 años o menos (hasta 17) y el otro

25% supera la edad hasta los 22 años.

Figura 4. Diagrama de Caja – Edad de los Estudiantes


12

Según el Diagrama de Cajas, se considera la edad de 22 años como un dato atípico

representado por cuatro estudiantes de ingeniería; es decir se aleja del valor promedio. Además, se

observa mayor concentración de los datos entre las edades de 18 y 19 años.

2.4.2 Deciles (D)

Medida de localización que divide la población o muestra en 10 partes iguales. No tiene

mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo

para las variables cuantitativa discreta (Edad) o variables cuantitativas continuas. Se calcula
𝑘∗𝑛
mediante la fórmula que ubica la posición de los deciles 𝑄𝑘 = . A modo de ejemplo solo se
10

interpretará el 𝐷2 y 𝐷5 . Luego

• 𝐷2 = 18 𝑎ñ𝑜𝑠. El 20% de los estudiantes tienen 18 años o menos (hasta 17 años)

y el otro 80% supera esta edad hasta los 22 años.

• 𝑀𝑒 = 𝑄2 = 𝐷5 = 19 𝑎ñ𝑜𝑠 (Tienen la misma interpretación)

2.4.3 Percentiles (P)

Medida de localización que divide la población o muestra en 100 partes iguales. No tiene

mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo para

las variables cuantitativa discreta (Edad) o variables cuantitativas continuas, se calcula posición
𝑘∗𝑛
de los percentiles mediante la fórmula 𝑄𝑘 = 100. A modo de ejemplo se calculará el 𝑃50 y 𝑃70 .

Luego:

• 𝑀𝑒 = 𝑄2 = 𝐷5 = 𝑃50 = 19 𝑎ñ𝑜𝑠 (Tienen la misma interpretación)

• 𝑃70 = 20 𝑎ñ𝑜𝑠. El 70% de los estudiantes tienen 20 años o menos (hasta 17 años)

y el otro 30% supera esta edad hasta los 22 años.


13

2.5 Medidas de Dispersión

Representan los conceptos de la varianza y la desviación típica que pueden ser calculadas

a través de una población finita o de una muestra representativa.

2.5.1 Varianza Muestral (𝑆 2 )

Es una medida estadística que mide la dispersión de los valores respecto a un valor central

(promedio o media), es decir, es el cuadrado de las desviaciones. Por lo tanto, este concepto no

tiene interpretación.

∑𝑛
𝑖=1(𝑥1 −𝑥̅ )
2
Se calcula de la forma: 𝑆 2 = = 1,8947 𝑒𝑑𝑎𝑑𝑒𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑎𝑠. Este resultado es
𝑛−1

∑ 𝑥𝑖
obtenido al usar el promedio como variable cuantitativa discreta 𝑥̅ = = 19,50≈ 19 años.
𝑛

2.5.2 Desviación típica muestral

Es la raíz cuadrada de la varianza muestral y su interpretación debe estar relacionada con el

promedio muestral de los datos. Entre más grande se obtenga este resultado, quiere decir que los

datos están más dispersos o alejados del promedio. Entre más pequeño sea la desviación muestral,

quiere decir que los datos están distribuidos normalmente o no están dispersos. Se calcula:

∑𝑛
𝑖=1(𝑥1 −𝑥̅ )
2
𝑠=√ = 1,376
𝑛−1

Esto quiere decir: −𝑠 ≤ 𝑥̅ ≤ 𝑠 para nuestra variable edad se define como: [−1,376 −

19; 1.376 + 19] = [17,6 ; 20,4] El rango de dispersión se encuentre dentro de las edades mínima

(17 años) y máxima (22 años) se evidencia que los datos no están dispersos; sino normalmente

distribuidos.
14

3. Análisis de Datos Agrupados

Los datos agrupados son aquellos que se han clasificado en categorías o clases, tomando

como criterio su frecuencia. Esto se hace con la finalidad de simplificar el manejo de grandes

cantidades de datos y establecer sus tendencias (Pérez, 2013).

Para el aprendizaje de agrupar datos y construir la tabla de distribución de frecuencia se

tomará la población finita de 𝑁 = 100 estudiantes matriculados en la asignatura de Probabilidad

y Estadística y la variable que se analizará 𝑥𝑖 = 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑐𝑎𝑑é𝑚𝑖𝑐𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜.

3.1 Formula del tamaño de la muestra para poblaciones finitas

Figura 5. Fórmula para calcular el tamaño de la muestra

Utilizando la hoja de cálculo Excel se obtiene:

Parámetro Insertar valor


Tamaño de la Población finita (Estudiantes matriculados en
N 100 Probabilidad y Estadística)
z 1,96 Lo asigna el investigador
P 50,00% Se asigna la misma probabilidad de que ocurra igual a la que no ocurra
Q 50,00% Es igual 1-P
e 15,00% Lo asigna el investigador
calculo del numerador 96,04
Calculo del
denominador 3,1879
Tamaño de la muestra
n 30 Estudiantes
15

3.2 Tabla Distribución de Frecuencia para datos agrupados

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las

variables toman un número grande de valores o la variable es continua. Se agrupan los valores en

intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna

su frecuencia correspondiente. Límites de la clase.

Primero debemos calcular:

PARÁMETROS Valor
El número de intervalos se calcula con
n 30 La regla de Sturges y debe ser valor entero
Vmax 4,22 k= 1+ 3,322log(n)
Vmin 2,91 logaritmo base 10
Rango 1,31
m=# Intervalos 6
Amplitud de clase 0,22

Tabla 2. Frecuencia de Datos Agrupados – Promedio Académico


N° Intervalo de Clase Marca de
Lim Lim fi Fi hi Hi
Clases Inferior Superior Clase = Xi
0
1 2,91 3,13 3,02 3 3 0,10 0,10
2 3,13 3,36 3,24 5 8 0,17 0,27
3 3,36 3,58 3,47 7 15 0,23 0,50
4 3,58 3,80 3,69 8 23 0,27 0,77
5 3,80 4,02 3,91 5 28 0,17 0,93
6 4,02 4,25 4,14 2 30 0,07 1,00
30 1,00
Según la tabla 2, se observa que 3,69 es el promedio académico ponderado con mayor

número de estudiantes (8) matriculados en la asignatura de Probabilidad y Estadística del programa

de Ingeniería Civil de la Universidad Francisco de Paula Santander en el segundo semestre del año

2020 y solo dos estudiantes alcanzan el promedio más alto que es de 4,14. El 23% es la

probabilidad de que siete estudiantes tomados al azar de una muestra de 30 obtengan un promedio

académico de 3,47.
16

9 120,00%
8
100,00%
7
6 80,00%
5
60,00%
4
3 40,00%
2
20,00%
1
0 0,00%
2,91 3,13 3,35 3,57 3,78 4,00 4,22

Frecuencia % acumulado

Figura 6. Histograma y Ojiva

La figura 6 presenta mayor claridad a la tabla 2, donde se evidencia que 8 estudiantes

representan la mayor cantidad con un valor promedio académico de 3,78 y la gráfica de ojiva nos

permite analizar que el 80% de los estudiantes tiene notas de promedio ponderado igual o inferior

a 4,0.

10

0
2,70 - 2,91 2,91 - 3,13 3,13 - 3,35 3,35 - 3,57 3,57 - 3,78 3,78 - 4,00 4,00 - 4,22 4,22 - 4,22

Figura 7. Polígono de Frecuencia – Promedio Académico


17

Al suavizar la figura 7, podemos garantizar que la mayor cantidad de datos de la muestra

se encuentran en la parte central; por lo tanto, se podría afirmar que se comportan los datos como

normalmente distribuidos. El pico más alto del Polígono se representa por los promedios

académicos entre 3,57 hasta 3,78 de la muestra correspondiente a 30 estudiantes matriculados en

la asignatura de Probabilidad y Estadística del Programa de Ingeniería Civil.

3.3 Medidas de Tendencia Central para datos agrupados

Las medidas de tendencia central son la Media (promedio), Mediana y Moda de datos

agrupados tienen la misma interpretación que se obtuvo para datos no agrupados pero cambia la

forma de calcularlas.

3.3.1 Media Aritmética (Promedio) muestral


∑𝑛
𝑖=1 𝑥𝑖∗ 𝑓𝑖
Se calcula mediante la fórmula matemática: 𝑥̅ = = 3,54 Es la media aritmética del
𝑛

Promedio Académico de los estudiantes matriculados en Probabilidad y Estadística del Programa

de Ingeniería Civil en el Segundo Semestre del 2020.

3.3.2 Mediana (Me)


𝑛
−𝐹𝑖−1
2
Se calcula mediante la fórmula matemática: 𝑀𝑒 = 𝑥𝑖−1 + 𝑓𝑖
∗A
15−8
Reemplazando los datos se obtiene: 𝑀𝑒 = 3,35 + 7
*0,22=3,56

Interpretación: El 50% de los estudiantes matriculados en Probabilidad y Estadística

durante el Segundo Semestre del 2020 tienen un promedio académico igual o inferior a 3,56 y el

otro 50% de los estudiantes supera este promedio hasta el promedio académico más alto obtenido

por los estudiantes que es 4,22.

3.3.3 Moda (Mo)


∆1
𝑀0 = 𝑥𝑖−1 + ∗𝐴
Se calcula mediante la fórmula matemática: ∆1 + ∆2

2
𝑀𝑜 = 3,57 + ∗ 0,22 = 3,63
2+5
18

Reemplazo los datos se obtiene:

Interpretación: 3,63 es el promedio académico que más se repite y está representado por

ocho estudiantes matriculados en Probabilidad y Estadística durante el Segundo Semestre del 2020

de la Facultad de Ingeniería de la Universidad Francisco de Paula Santander.

3.4 Medias de Localización para Datos Agrupados

Las medidas de posición son valores que permiten dividir el conjunto de datos en partes

porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra.

Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.

3.4.1 Cuartiles (𝑄𝑘 )


𝑘𝑛
Se calcula mediante la fórmula matemática: 𝑄 = 𝑥 + 4 − 𝐹𝑖−1 ∗ 𝐴
𝑘 𝑖−1
𝑓𝑖
• Cuartil 1: 𝑄1 =3,3 El 25 % de los estudiantes matriculados en el Segundo Semestre

del 2020 presentan un promedio académico igual o inferior a 3,3 y el otro 85% de los

estudiantes supera este promedio con una nota máxima de 4,22.

• Cuartil 2: 𝑀𝑒 = 𝑄2 = 3,56 “Tienen la misma interpretación”

• Cuartil 3: 𝑄3 = 3,75 El 75% de los estudiantes matriculados en el segundo semestre

del 2020 en la asignatura de Probabilidad y Estadística tienen un promedio académico

de 3,75 igual o inferior y el otro 25% de los estudiantes supera este promedio con un

anota máxima de 4,22.


19

Figura 8. Diagrama de Caja o Bigote

La figura 8, identifica los cuartiles y los valores máximos y mínimos de la muestra

correspondiente a los promedios académicos de 30 estudiantes matriculados en la asignatura de

Probabilidad y Estadística de la Facultad de Ingeniería de la Universidad Francisco de Paula

Santander.

3.4.2 Deciles (D)

Medida de localización que divide la población o muestra en 10 partes iguales. A

continuación, se calcularán los deciles 𝐷2 y 𝐷5 correspondiente a la variable cuantitativa continua

𝑥𝑖 = 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑐𝑎𝑑é𝑚𝑖𝑐𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜 de los estudiantes del segundo semestre del 2020

matriculados en la asignatura de Probabilidad y Estadística de la Facultad de Ingeniería de la

Universidad Francisco de Paula Santander. Se calcula mediante la fórmula

𝑘𝑛
− 𝐹𝑖−1
𝐷𝑘 = 𝑥𝑖−1 + 10 ∗𝐴
𝑓𝑖

𝐷2 = 3,2. El 20% de los estudiantes matriculados en el segundo semestre del 2020 en la

asignatura de Probabilidad y Estadística tienen de promedio académico 3,2 igual o menos y el otro

80% supera este promedio hasta 4,22.

𝐷7 = 3,97. El 70% de los estudiantes matriculados en el segundo semestre del 2020 en la

asignatura de Probabilidad y Estadística tienen de promedio académico de 3,97 igual o menos y el

otro 30% supera este promedio hasta 4,22.

3.4.3 Percentiles (P)

Medida de localización que divide la población o muestra en 100 partes iguales. A

continuación, se calcularán los percentiles 𝑃15 y 𝑃35 correspondiente a la variable cuantitativa


20

continua 𝑥𝑖 = 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑐𝑎𝑑é𝑚𝑖𝑐𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜 de los estudiantes del segundo semestre del

2020 matriculados en la asignatura de Probabilidad y Estadística de la Facultad de Ingeniería de

la Universidad Francisco de Paula Santander. Se calcula mediante la fórmula

𝑘𝑛
− 𝐹𝑖−1
𝑃𝑘 = 𝑥𝑖−1 + 100 ∗𝐴
𝑛𝑖

𝑃15 = 3,4. El 15% de los estudiantes matriculados en el segundo semestre del 2020 en la

asignatura de Probabilidad y Estadística tienen de promedio académico 3,4 igual o menos y el otro

85% supera este promedio hasta 4,22.

𝑃35 = 3,6. El 35% de los estudiantes matriculados en el segundo semestre del 2020 en la

asignatura de Probabilidad y Estadística tienen de promedio académico de 3,6 igual o menos y el

otro 65% supera este promedio hasta 4,22.

3.5 Medidas de Dispersión para datos agrupados

Las medidas de dispersión, variabilidad o variación nos indican si esos datos están

próximos entre sí o sí están dispersos, es decir, nos indican cuán esparcidos se encuentran.

Se utilizará el tamaño de muestre de 𝑛 = 30 estudiantes matriculados en el segundo

semestre de Probabilidad y Estadística de la Facultad de Ingeniería con su Media aritmética de

𝑥̅ = 3,54 que es el promedio académico.

Las formulas para calcular las medidas de dispersión para datos agrupados son:
21

Tabla 3. Fórmulas para calcular la varianza y desviación estándar


N° Intervalo de Clase Marca de
fi 𝑥 𝑖 − 𝑥̅ (𝑥 𝑖 − 𝑥̅ ) 2 fi(𝑥 𝑖 − 𝑥̅ ) 2
Clases Lim Inferior Lim Superior Clase = Xi
0 2,70 2,91 0,00 0 -3,54 12,5316 0
1 2,91 3,13 3,02 3 -0,52 0,27126736 0,81380208
2 3,13 3,35 3,24 5 -0,30 0,09150625 0,45753125
3 3,35 3,57 3,46 7 -0,08 0,00708403 0,04958819
4 3,57 3,78 3,67 9 0,13 0,01800069 0,16200625
5 3,78 4,00 3,89 4 0,35 0,12425625 0,497025
6 4,00 4,22 4,11 2 0,57 0,32585069 0,65170139
7 4,22 4,44 4,33 0 0,79 0,6241 0
∑fi(𝑥 𝑖 − 𝑥̅ ) 2 = 2,63165417

La varianza muestral para datos agrupados es 𝑆 2 = 0,090 promedio ponderado “cuadrados”. Al

calcular la raíz de la varianza, se obtiene la desviación estándar muestral que es 𝑠 = 0,30 promedio

académico. Luego: [−𝑠 + 𝑥̅ ; 𝑥̅ + 𝑠] reemplazando obtenemos [−0,30 + 3,54; 3,54 + 0,30] =

[3,24; 3,84]. El intervalo se encuentra dentro de los promedios centrales de los datos agrupados;

esto demuestra que no existe dispersión o sesgo. Por lo tanto, los datos están normalmente

distribuidos.
22

4. Conclusiones

Las estadísticas según lo definido por la Asociación Americana de Estadística (ASA), sigla

en inglés, “es la ciencia de aprender de los datos de medir, controlar y comunicar la incertidumbre

(Wild, Utts, & Horton, 2018), convirtiéndose en una de las asignaturas de estudio más centrales

en el mundo moderno de la información, aumentando la demanda hacia el aprendizaje de la

estadística en todas las disciplinas acompañado de un tremendo crecimiento en la investigación en

educación estadística incluyendo estudios de cómo las personas piensan sobre los datos al azar.

Como campo de investigación interdisciplinario, la investigación en educación estadística

no se ha basado en ninguna tradición de metodología de investigación empírica (Zieffler, y otros,

2008). Los modos de pensamiento utilizados en las investigaciones estadísticas, difieren de los

utilizados para trabajar con derivaciones matemáticas, que a su vez difieren de los utilizados para

escribir un código computacional.

El presente trabajo permite analizar a 100 estudiantes matriculados en el segundo semestre

del año 2020 en la asignatura de Probabilidad y Estadística de la Facultad de Ingeniería Civil

siendo equivalente con los programas de Ingeniería de Sistemas, Ingeniería Industrial, Ingeniería

de Minas, Ingeniería Electrónica y Tecnología en Obras Civiles. Se tomó una muestra de 50 datos

para analizar el género de los estudiantes con un 76% de género masculino representando la mayor

proporción.

Para la variable cuantitativa discreta Edad, se tomó una muestra de 20 estudiantes para

desarrollar todo el proceso conceptual de la Estadística Descriptiva para datos no agrupados,

demostrando un resultado de simetría al ser equivalente Mo = Me = 𝑥̅ ; es decir, los datos están

normalmente distribuidos.
23

La variable cuantitativa continua es 𝑥𝑖 = 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑐𝑎𝑑é𝑚𝑖𝑐𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜 de los

estudiantes; obteniendo con la fórmula de la muestra un tamaño de 𝑛 = 30 calculando la tabla

Distribución de Frecuencia para datos agrupado y poder obtener las medidas de tendencia central

con 𝑥̅ = 3,54; 𝑀𝑒 = 3,56 y la 𝑀𝑜 = 3,63 como la Moda es “mayor” que el promedio y la mediana

se evidencia un pequeño sesgo positivo con leve asimetría a la izquierda como lo muestra el gráfico

de polígono de frecuencia. Con las medidas de localización y medidas de dispersión se pudo

comprobar que el intervalo [3,24; 3,84] se encuentra dentro de los promedios centrales de los datos

agrupados; esto demuestra que no existe dispersión o sesgo. Por lo tanto, los datos están

normalmente distribuidos.
24

Referencias

Fernández, S., Sánchez, J., Córdoba, A., & Largo, A. (2002). Estadística Descriptiva. España:
Esic.
Pérez, M. (2013). EStadística Descriptiva. Madrid: Udima.
Urias, H., & Salvador, B. (2014). Estadística para ingeniería y ciencias. México: Grupo Editorial
Patria.
Wild, C., Utts, J., & Horton, N. (2018). What is statistics? En D. M. Ben-Zvi, In International
Handbook of Research in Statistics Education (págs. 5-36). Cham, Zwitzerland: Springer.
Zieffler, A., Gafield, J., Alt, S., Dupuis, D., Holleque, K., & Chang, B. (2008). What does research
suggest about the teaching and learning of introductory statistics at the college level? A
review of the literature. Journal of Statistics Education, 16(2).

También podría gustarte