Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA INFERENCIAL
Examinar cómo el uso de varios lenguajes de programación
afecta a estudiantes de ingeniería universitarios en Lima en 2023
GRUPO: 12
INTEGRANTES:
LIMA – PERÚ
2023
RESUMEN
RESUMEN 2
CAPÍTULO 1 4
I. Antecedentes 4
II. Descripción del proyecto 4
III. Problema central del proyecto 4
IV. Objetivo General 5
V. Objetivos Específicos 5
CAPÍTULO 2 5
CAPÍTULO 3 18
I. Antecedentes
Por otro lado, en 1995, una investigación publicada en la revista SIGCSE señala la
importancia de enseñar matemática discreta, algoritmos y otros conceptos para
mejorar la comprensión de diversos lenguajes de programación, además de la
inclusión de paradigmas de programación en el proceso de aprendizaje de
programación.
Hoy en día, los lenguajes de programación ofrecen diversas soluciones para abordar
problemas y contribuyen al progreso y desarrollo de la ingeniería. En nuestra
perspectiva, planteamos una única interrogante que nos permitirá analizar el impacto
de los lenguajes de programación en estudiantes universitarios: ¿El uso de lenguajes
de programación fortalece el conocimiento y beneficia a los estudiantes que cursan
carreras de ingeniería? Para abordar esta cuestión, exploramos diversos aspectos,
como el lenguaje de programación más ampliamente empleado, la cantidad de
tiempo dedicada a la programación, el nivel de satisfacción con el lenguaje utilizado,
el aumento en las horas de práctica en el entorno académico, la inversión realizada y
las ganancias obtenidas al trabajar con lenguajes de programación, a lo largo del año
universitario 2023.
V. Objetivos Específicos
1. Muestra:
En el campo de la estadística, una muestra se define como un grupo selecto de
casos o individuos extraídos de una población más amplia. En diversas aplicaciones,
es crucial que esta muestra sea representativa, lo que implica elegir una técnica de
muestreo adecuada para garantizar que sea verdaderamente aleatoria. La muestra
no solo es un subgrupo de la población, sino que también debe reflejar las mismas
características que se encuentran en la población general. Para que una muestra sea
verdaderamente representativa, debe contener toda la información necesaria que se
busca extraer. Este objetivo solo puede lograrse mediante una cuidadosa selección
de la muestra y una meticulosa y de alta calidad recolección de datos.
2. Población:
Una población estadística comprende la totalidad de individuos, o un grupo de
individuos, que poseen o podrían tener la característica específica que se quiere
investigar.
3. Media Estadística:
En estadística, el término "media" se emplea en dos contextos distintos aunque
numéricamente parecidos
La media muestral es una variable aleatoria que depende de la muestra y tiene una
variación menor que las variables originales utilizadas en su cálculo. Por otro lado, la
media poblacional no es exactamente una media, sino más bien un parámetro
constante que se corresponde con la esperanza matemática de una variable aleatoria.
4. Varianza:
Es un indicador de dispersión que se emplea para mostrar la variación de un conjunto
de datos con respecto a la media aritmética. Se calcula sumando los cuadrados de
las diferencias entre cada valor y la media, y luego dividiendo esta suma por el
número total de observaciones. Sin embargo, esta medida también puede expresarse
como la desviación estándar al cuadrado.
5. Distribución Muestral:
La distribución muestral es el resultado de examinar todas las muestras posibles que
pueden obtenerse de una población. Analizarla posibilita calcular la probabilidad de
que, al tomar una sola muestra, esta se aproxime al parámetro de la población. Esta
distribución es útil para estimar el margen de error asociado a un tamaño específico
de muestra.
6. Parámetro Estadístico:
Un parámetro estadístico o un estadístico muestral se refiere a cualquier valor
derivado de una muestra, como la media, la varianza o una proporción, que describe
una población y puede estimarse a partir de dicha muestra. Estos estadísticos
muestrales son variables aleatorias y, como tal, tienen una distribución de
probabilidad específica, a menudo definida por un conjunto limitado de parámetros.
7. Estimación Estadística:
Se refiere a cualquier método empleado para obtener una estimación aproximada de
un parámetro poblacional, considerando los estadísticos calculados a partir de los
elementos de una muestra. Al estimar un número adecuado de parámetros, es
posible aproximar de manera precisa la distribución de probabilidad de la población
para ciertas variables aleatorias.
8. Nivel de Confianza:
La inferencia estadística evalúa la calidad de una estimación basada en estadísticas
obtenidas de muestras. Usualmente, se emplean niveles de confianza para
establecer intervalos o valores que indican la probabilidad de cometer errores de tipo
I (rechazar una hipótesis que es verdadera).
9. Intervalo de Confianza:
Un intervalo de confianza se define como uno o varios pares de números que se
estima que contienen un valor desconocido asociado a un parámetro poblacional, con
un cierto nivel de confianza. De manera formal, estos números delimitan un intervalo,
calculado a partir de los datos de una muestra, y el valor desconocido corresponde a
un parámetro de la población.
Tamaño de la muestra
Cálculo de la muestra cuando no se conoce la población:
Z𝛼 =1.96 (Nivel de Confianza = 95%)
Z𝑝: = probabilidad de éxito o proporción esperada (0.5)
Z𝑞 : probabilidad de fracaso (0.5)
𝑑 : error máximo permisible en la estimación (0.05)
Población:
El conjunto completo de estudiantes de ingeniería que hicieron uso de lenguajes de
programación en Lima durante el año 2023.
Muestra:
Un subgrupo de esta población, compuesto por 384 estudiantes de ingeniería que
emplean lenguajes de programación en Lima durante el año 2023.
Unidad de análisis:
Cada persona dentro de este conjunto de estudiantes de ingeniería que utilizan
lenguajes de programación en Lima durante el año 2023.
Tipo de muestreo:
La selección de la muestra se llevó a cabo mediante un muestreo aleatorio simple y
probabilístico, garantizando que todos los individuos tenían la misma probabilidad de
ser seleccionados para formar parte de la muestra.
Variable 𝒇𝒊 𝑭𝒊 𝒉𝒊 𝑯𝒊
C 87 87 0.227 0.227
C++ 80 16 0.208 0.435
7
Java 78 24 0.203 0.638
5
JavaScript 50 29 0.130 0.768
5
Python 89 38 0.232 1
4
38
4
Gráfico circular
23% 23%
13% 21%
20%
Polígono de frecuencias
250
200 195
150
Histograma de frecuencias
Polígono de frecuencias
100
82
50 46
32
18
10
0 0 0 1
0
75 225 375 525 675 825 975 1125 1275 1425
𝒇𝒊𝟑: Se nota que un total de 46 estudiantes universitarios invierten una cantidad que
oscila entre 300 y 400 soles para aprender un lenguaje de programación. Asimismo,
se dispone de un conjunto de 46 datos en total que se encuentran dentro del intervalo
de 300 a 450 soles.
𝑭𝟑: 323 alumnos que estudian ingeniería invierten mensualmente como máximo 450
soles.
X. Medidas de tendencia central y dispersión
∑𝑛𝑖=1 𝑥𝑖 ∗ 𝑓𝑖 88950
𝑥̅ =
𝑛
Mediana:
Paso 1: Calcular frecuencia absoluta acumulada ( 𝑭𝒊) Paso 2:
𝑛 384
= = 192
2 2
Reemplazar en la fórmula:
𝐿𝑖𝑛𝑓:
Límite inferior
𝐶: Amplitud
Medidas de dispersión:
Variable cuantitativa continua:
Varianza:
𝑺𝟐
Desviación estándar:
𝑺=
POBLACIÓN MUESTRA
𝜎 = Desconocido 𝑛 = 384
𝜇 = 252.695 𝑆 = 210.498
𝑃 =
Varianza poblacional desconocida y tamaño de muestra grande ( ), TLC
Es muy probable, con un 97.5% de confianza, que la inversión promedio realizada por
los estudiantes de ingeniería sea igual o superior a 231.641 nuevos soles.
Datos:
Interpretación:
MEDIDAS
POBLACIÓN 1 (A) POBLACIÓN 2 (B)
𝑥̅1 = 280.729 𝑥̅2 = 190.484
𝑆12 = 44272.890 𝑆22 = 40037.363
𝑆1 = 210.411 𝑆2 = 200.095
𝑛1 = 192 𝑛2 = 192
Variable 𝒙 𝒑 𝑞
C 87 0.2266 0.7734
C++ 80 0.2083 0.7917
Java 78 0.2031 0.7969
JavaScript 50 0.1302 0.8698
Python 89 0.2318 0.7682
384
Datos: 𝑛 = 384 𝑝5 = 0.2318 𝑞5 = 0.7682
𝑍(1−0.05 )= 𝑍(0.975)=1.96
3)Interpretación:
Con un nivel de confianza del 95%, se estima que la proporción real de estudiantes
universitarios que estudian ingeniería en Lima y utilizan Python como lenguaje de
programación está comprendida entre 0.1896 y 0.274.
En un estudio para determinar la proporción de estudiantes de ingeniería que suelen usar Python
como lenguaje de programación se tomaron 2 muestras aleatorias de 192 alumnos cada una.
Encontrándose que el 20.8% (40 estudiantes) de la primera muestra suelen usar Python, y en el
caso de la segunda muestra dio como resultado que el 25.5% (49 estudiantes) suelen usar Python.
Construya un intervalo de confianza del 95% para la diferencia de proporciones de las 2 muestras
aleatorias que suelen usar Python.
MUESTRA 1 MUESTRA 2
Variable 𝒙 𝒑 𝒒 Variable 𝒙 𝒑 𝒒
C 4 0.24 0.75 C 4 0.20 0.79
7 5 5 0 8 2
C++ 4 0.21 0.78 C++ 3 0.19 0.80
2 9 1 8 8 2
Java 3 0.20 0.79 Java 3 0.20 0.79
9 3 7 9 3 7
JavaScript 2 0.12 0.87 JavaScript 2 0.13 0.86
4 5 5 6 5 5
Python 4 0.20 0.79 Python 4 0.25 0.74
0 8 2 9 5 5
1 1
9 9
2 2
𝑛1 = 192 𝑛2 = 192
𝑝1 = 0.208 𝑝2 = 0.255
𝑞1 = 0.792 𝑞2 = 0.745
1) Nivel de confianza:
3) Interpretación
Con un nivel de confianza del 95% el verdadero valor de las proporciones de las 2:00 muestras
aleatorias de estudiantes que suelen usar Python está comprendido entre -0.131 a 0.037.
1 − 𝜶 = 𝟎. 𝟗𝟓
𝜶 = 𝟎. 𝟎𝟓
2) Reemplazando los datos en la fórmula:
3) Interpretación:
Con una confianza del 95%, se puede afirmar que la varianza real de la inversión
promedio realizada por los estudiantes de ingeniería para aprender un lenguaje de
programación está en el rango de 38,8812.552 a 51,540.754.
CAPÍTULO 3
Prueba de hipótesis para la media de una población con varianza poblacional desconocida
y tamaño de muestras grandes.
Según experiencias pasadas, se conoce que los estudiantes universitarios invierten en promedio,
para aprender un lenguaje de programación 252.695 soles. Sin embargo, un docente de
Ingeniería de Sistemas sospecha que la inversión media realizada por los alumnos de ingeniería
para aprender un lenguaje de programación es menor y desea verificar dicha sospecha usando
una muestra de 384 alumnos universitarios de ingeniería, con media de 231.641 soles, un nivel
de significancia de 5% y desviación estándar de la muestra de 210.489 soles. ¿Se puede verificar
dicha sospecha del docente de Ingeniería de Sistemas?
POBLACIÓN MUESTRA
𝜇0 = 252.695 𝑥̅ = 231.641
𝜎 = Desconocido 𝑆 = 210.498
𝑛 = 384
Planteamiento de la hipótesis
𝐻
-1.645
Decisión:
Conclusión
A un nivel de confianza del 95%, los datos estadísticos respaldan la afirmación de que el gasto
promedio mensual que los estudiantes universitarios destinan para aprender un lenguaje de
programación no excede los 252.695 soles. La sospecha del profesor de ingeniería ha sido
confirmada.
Prueba de hipótesis para la diferencia de medias con varianza poblacional
desconocida y tamaño de muestras grandes
Para determinar la inversión media que realizan los estudiantes universitarios de ingeniería, en
aprender un lenguaje de programación de dos poblaciones A y B, se toma una muestra al azar de
192 alumnos de la población A, evidenciándose un costo medio mensual de 280.729 soles y una
desviación estándar de 210.411. Para la segunda muestra, obtenida de la población B, el número
de estudiantes seleccionados es 192, con una inversión media mensual de 190.484 soles y
desviación estándar de 200.095. En ambos casos el nivel de significancia a usar será de 5%, se
desea probar si la inversión media mensual que realizan los alumnos de ingeniería para aprender
un lenguaje de programación en la población A es mayor a la población B.
MEDIDAS
POBLACIÓN 1 MUESTRA 1 (A) MUESTRA 1 (A) POBLACIÓN 2
(A) (B)
𝜎1 = Desconocido 𝑥̅1 = 280.729 𝜎2 = Desconocido 𝑥̅2 = 190.484
𝑆12 = 44272.890 𝑆22 = 40037.363
𝑆1 = 210.411 𝑆2 = 200.095
𝑛1 = 192 𝑛2 = 192
1) Planteamiento de la hipótesis
𝐻
4) Decisión:
5) Conclusión
Con un grado de desconfianza del 0,5%, las pruebas estadísticas confirman que el
gasto mensual promedio de los estudiantes universitarios en aprender un lenguaje de
programación es más alto en la población A comparado con la población B.
1) Planteo de Hipótesis:
(Es mayor que estudios anteriores)
(Es menor que estudios anteriores)
𝑅𝑒𝑐ℎ𝑎𝑧𝑎 ℎ0 𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 ℎ0
𝑍𝑐 =−1.854
1− 𝛼
𝛼
𝑍(0.05)= −1,645
5) Interpretación:
Con un nivel de significancia del 5% existe evidencia estadística para rechazar la
hipótesis nula. Se concluye que la proporción de estudiantes que usan Python es
menor a 0.274.
Datos:
Grupo 1 Grupo 2
𝑛1 = 192 𝑛2 = 192
𝑝1 = 0.208 𝑝2 = 0.255
𝑞2 = 0.792 𝑞2 = 0.745
1) Planteo de Hipótesis:
𝐻0: 𝜋1 ≥ 𝜋2
𝐻1: 𝜋1 < 𝜋2
3) Reemplazando los
datos en la fórmula:
1− 𝛼
𝑍(0.05)= −1,645
Se demostró que la inversión que deben realizar los estudiantes de ingeniería para
aprender un lenguaje de programación tiene una varianza poblacional de 51321.494
soles. Por lo tanto, se desea comprobar la disminución de la variabilidad del pago
mensual de inversión en los estudiantes de ingeniería, para lo cual se realizó un
muestreo aleatorio de 384 alumnos, encontrándose una varianza muestral de
44309.573 soles, con un nivel de significancia del 5%
Datos:
𝑆2 = 44309.573 𝜎2 = 51321.494 𝑛 = 384
1) Planteo de Hipótesis:
4) Estadístico de prueba
𝝌 =𝝌
𝟐(𝜶,𝒏−𝟏) 𝟐( 𝟎.𝟎𝟓 , 𝟑𝟖𝟑 ) = 338.641
𝐻0: 𝑀𝑒 = 915
𝐻1: 𝑀𝑒 ≠ 915
INGRESOS SIGNO
ESTUDIANTE
𝑿𝒊 𝑿𝒊 − 𝟗𝟏𝟓
1 1460 +
2 370 -
3 950 +
4 1450 +
5 140 -
6 220 -
7 850 -
8 1840 +
9 1590 +
10 1920 +
11 1860 +
12 1870 +
13 160 -
14 460 -
15 690 -
16 1470 +
17 1080 +
18 100 -
19 1530 +
20 2000 +
3) Estadístico de prueba:
4) P valor:
5) Decisión: