FACULTAD DE CIENCIAS
SOCIALES EDUCACION COMERCIAL Y
DERECHO
TEMA:
Aplicar pruebas de hipótesis para comparar medias de dos
grupos usando el software R.
INTEGRANTES:
ASIGNATURA:
ESTADÍSTICA APLICADA
DOCENTE:
FECHA DE ENTREGA:
10 DE NOVIEMBRE DEL 2024
PERIODO:
Abril 2024 a Agosto 2025
MILAGRO-ECUADOR
EJERCICIO:
Imagina que estás trabajando en un estudio donde se quiere comparar el rendimiento académico
promedio de estudiantes de dos carreras diferentes (Carrera A y Carrera B). Se han recogido
muestras de 30 estudiantes de cada carrera y se han registrado sus calificaciones finales. Paso 1:
Simulación de Datos.
Paso 1: Simulación de Datos Primero, se generarán datos simulados para representar las
calificaciones de los estudiantesde ambas carreras.
Se ha generados n= 30 datos simulados para representar las calificaciones promedio de los estudiantes de
cada carrera, carrera A y carrera B, usando el código en rstudio [Link](123) este código establece la
semilla para el generador de números aleatorios en R. Al fijar este código permite que los valores sean
reproducibles, es decir, cada vez que se ejecuta este código se obtiene la misma muestra y también se uso
el código carrera_A <- rnorm(30, mean = 75, sd = 10) este código permite que sea una muestra aleatoria
de 30 observaciones que siguen una distribución normal (rnorm). La distribución tiene una media (mean)
de 75 y una desviación estándar (sd) de 10. Y para carrera_B <- rnorm(30, mean = 70, sd = 12)
Resumen de los datos
Se ha elegido una de las maneras para realizar un resumen de los datos o una inspección preliminar de los
datos mediante el código Summary(carrera_A), esta es la descripción más sencilla que reconoce
automáticamente el tipo de variable que ingresamos. Si se trata de una variable categórica nos muestra el
conteo para cada categoría, mientras que si la variable es numérica nos indica el valor mínimo, primer
cuartil, mediana, media, tercer cuartil y valor máximo. En este caso, aplica la variable numérica como
son los promedios de los estudiantes de las carreras A y carrera B. El programa nos arroja los siguientes
valores:
CARRERA A CARRERA B
Valor mínimo 55.33 Valor mínimo 51.41
Primer cuartil 68.23 Primer cuartil 66.36
Mediana, 74.26 Mediana, 70.57
Media, 74,53 Media, 72.14
Tercer cuartil 79.89 Tercer cuartil 79.09
Valor máximo. 92.87 Valor máximo. 96.03
Paso 2: Formulación de Hipótesis Se quiere probar si las medias de ambas carreras son
significativamente diferentes.
En este caso se desea comparar las medias de dos muestras A y B, entonces es una prueba de
hipótesis bilateral o de dos colas .Se formula de la siguiente manera:
Ho: µ A = µB
H1: µ A≠ µB
Hipótesis nula (H0): No hay diferencia significativa entre las medias (µA = µB).
Hipótesis alternativa (H1): Hay una diferencia significativa entre las medias (µA≠ µB).
Paso 3: Aplicación de la Prueba t de Student
Es necesario indicar que las pruebas T desapareadas o de muestra independiente, se utiliza cuando
se obtiene dos grupos de muestras aleatorias, independientes e idénticamente distribuidas a partir
de las dos poblaciones a ser comparadas. Cuando se trata de muestras independientes, a diferencia
de las pareadas, estas se emplean cuando se efectúa una comparación entre dos grupos que no se
relacionan ni dependen de otros. En la circunstancia de que los estudiantes de ambos grupos no
están relacionados entre sí, es decir son grupos totalmente diferentes, puede decirse que se trata
de una prueba t para muestras independientes (REACH, 2019)
Se realizará una prueba t para dos muestras independientes. Asume que la varianza entre los dosgrupos es
diferente (prueba t con varianzas desiguales), Usamos el siguiente Código en R: en donde
# Prueba t para muestras independientes
[Link] (carrera_A, carrera_B, [Link] =FALSE)
Paso 4: Interpretación del Resultado: Se pide que se analice el valor p que devuelve la prueba t.
• Si el valor p es menor que el nivel de significancia (generalmente 0.05), se rechaza la hipótesis
nula, lo que indica que hay una diferencia significativa entre las
medias.
• Si el valor p es mayor, no se rechaza la hipótesis nula.
Dado al planteamiento del ejercicio las varianzas no son iguales por lo que se tendría que usar la
prueba T test, el programa Rstudio tiene una función integrada que permite realizar t-test para una
o dos muestras, tanto con corrección (en caso de que las varianzas no sean iguales) como sin
ella., en este ejercicio tenemos con varianzas diferentes. Esta función devuelve tanto el p-valuedel
test como el intervalo de confianza para la verdadera diferencia de medias.
Cómo tenemos un ejercicio de prueba de hipótesis para diferencia de medias, observamos que los
resultados que arroja el programa son: en primer lugar, aparece el valor del estadístico de contraste
(0.93301) junto a los grados de libertad de la distribución t de Student (57.974) que sigue dicho
estadístico de contraste. A continuación, encontramos el p-valor, que en este caso es 0.3547. Por
último, el programa nos recuerda que la hipótesis alternativa que se está contrastando es del tipo ≠.
Teniendo en cuenta que el p-valor (0.3547) es superior al nivel de significación (0.05) que como
el ejercicio no indica, entonces asumimos el valor que usualmente se considera (0.05) en este
ejemplo no podemos rechazar la hipótesis nula, por lo que podemos asumir que el rendimiento
académico promedio de los estudiantes de la carrera A es igual al promedio de los estudiantes
de la carrera B.
Paso 5: Conclusiones: Escribe una conclusión basada en los resultados de la prueba,
respondiendo si existen diferencias significativas entre los rendimientos académicos de las dos
carreras.
Se concluye que, tanto para muestras relacionadas como independientes, debe establecerse la
hipótesis, estimar el estadístico con la diferencia de las medias, luego identificar la hipótesis
alternativa, si la campana tiene una cola o dos. Aunque en su mayoría el nivel de significancia se
asume que sea 0,05, se puede establecer otra probabilidad de error determinada por quien realiza el
test. Sólo si se cumplen las condiciones de distribución normal, la inexistencia de valores atípicos
y que la varianza sea igual en ambos casos, se puede proceder a calcular la prueba t obteniendo el
p valor para la posterior interpretación. El programa R Studio nos provee la herramienta de trabajo,
sin embargo, es el trabajo del analista de inferir correctamente para estimar valores correctos y
llegar a las conclusiones que exija cada investigación de tal forma que se utilice este método
efectivamente. (Amat, 2016). Así como tener presente la importancia de la prueba de hipótesis para
el ejercicio propuesto nos permite tomar decisiones informadas basadas en datos y evitar
conclusiones erróneas. Por consiguiente, en base a la siguiente regla de decisión:
a. Se rechaza H0 cuando P-valor≤α (Alpha)
b. No se rechaza H0 cuando P-valor>α (Alpha)
Dado esto, se determina que el p-value (0.3547) es mayor que alpha (0.05), se puede concluir que
no se rechaza la h0, lo que significa que no hay diferencia significativa entre el rendimiento
académico promedio de los estudiantes de la carrera A y los estudiantes de la carrera B.