0 calificaciones0% encontró este documento útil (0 votos)
30 vistas7 páginas
Este documento presenta un ejercicio guiado sobre estadística descriptiva utilizando un conjunto de datos de 20 estudiantes. Se realizan tablas de frecuencias, gráficos como diagramas de barras, diagramas de sectores, histogramas y diagramas de caja para variables como calificación, edad y estatura. También se calculan medidas como la media, desviación estándar y coeficiente de variación para determinar qué variable es más homogénea.
Este documento presenta un ejercicio guiado sobre estadística descriptiva utilizando un conjunto de datos de 20 estudiantes. Se realizan tablas de frecuencias, gráficos como diagramas de barras, diagramas de sectores, histogramas y diagramas de caja para variables como calificación, edad y estatura. También se calculan medidas como la media, desviación estándar y coeficiente de variación para determinar qué variable es más homogénea.
Este documento presenta un ejercicio guiado sobre estadística descriptiva utilizando un conjunto de datos de 20 estudiantes. Se realizan tablas de frecuencias, gráficos como diagramas de barras, diagramas de sectores, histogramas y diagramas de caja para variables como calificación, edad y estatura. También se calculan medidas como la media, desviación estándar y coeficiente de variación para determinar qué variable es más homogénea.
Considérese el siguiente conjunto de datos que contiene información acerca del sexo, edad, estatura, puntuación y calificación de 20 estudiantes:
Tabla-Datos del Ejercicio Guiado
a) Realiza una tabla de frecuencias absolutas y otra de frecuencias
relativas para la variable Calificación. Almacena las tablas anteriores en dos variables y llámalas absolutas y relativas. b) Representa la variable Calificación mediante un diagrama de barras y un diagrama de sectores. Incluye un título adecuado para cada gráfico y colorea las barras y los sectores de colores diferentes. c) Para la variable Edad, realiza un histograma y un diagrama de caja y bigotes considerando la opción range = 1.5. Incluye un título apropiado para cada gráfico y colorea las barras del histograma de color amarillo. ¿Existe algún valor atípico en esta variable? Reduce el valor del argumento range hasta 0.5. ¿Varían las conclusiones? d) Realiza un resumen de la variable Puntuación mediante la orden summary. Comprueba que las medidas que proporciona summary coinciden con las medidas calculadas de forma individual usando su función específica. e) Calcula la estatura media de los estudiantes y proporciona, al menos, dos medidas que indiquen la dispersión de esta variable. f) ¿Qué variable es más homogénea: ¿la Edad o la Estatura? Ejercicio Guiado (Resuelto) a) Realiza una tabla de frecuencias absolutas y otra de frecuencias relativas para la variable Calificación. Almacena las tablas anteriores en dos variables y llámalas absolutas y relativas.
En primer lugar, nos situamos en el directorio de trabajo. Para ello,
en el menú principal de RStudio, seleccionamos Session/Set Working Directory/Choose Directory o bien con las teclas Ctrl+Shift+H,
Y en la Consola de RStudio se muestra el comando
Utilizamos la función read.table para leer un fichero .txt en R y
llamamos al fichero datos1
b) Representa la variable Calificación mediante un diagrama de
barras y un diagrama de sectores. Incluye un título adecuado para cada gráfico y colorea las barras y los sectores de colores diferentes. Diagrama de barras de la variable Calificación
Diagrama de sectores de la variable Calificación
c) Para la variable Edad, realiza un histograma y un diagrama de caja
y bigotes considerando la opción range = 1.5. Incluye un título apropiado para cada gráfico y colorea las barras del histograma de color amarillo. ¿Existe algún valor atípico en esta variable? Reduce el valor del argumento range hasta 0.5. ¿Varían las conclusiones? Histograma de la variable Edad
Caja y Bigotes de la variable Edad (range = 1.5)
En este caso no se aprecia ningún valor atípico en el diagrama de
caja y bigotes, ya que no aparece ningún valor más allá de los bigotes. Cuando se reduce el valor de range a 0.5 tampoco se observa ningún valor atípico.
d) Realiza un resumen de la variable Puntuación mediante la orden
summary. Comprueba que las medidas que proporciona summary coinciden con las medidas calculadas de forma individual usando su función específica.
Si aplicamos la función summary a la variable Puntuación,
obtenemos el siguiente resultado
Calculemos cada medida por separado
e) Calcula la estatura media de los estudiantes y proporciona, al
menos, dos medidas que indiquen la dispersión de esta variable. Para calcular la estatura media de los estudiantes, tenemos que tener en cuenta que la variable Estatura incluye dos valores faltantes entre sus observaciones. Este hecho tiene que ser indicado estableciendo como TRUE el valor del parámetro na.rm
La estatura media de los estudiantes es de 1.776 cm..
Como medidas de dispersión, se van a calcular la cuasi-varianza y
el recorrido intercuartílico.
f) ¿Qué variable es más homogénea: ¿la Edad o la Estatura?
Para determinar la homogeneidad de una variable (o, lo que es lo mismo, la representatividad de su media), calculamos el Coeficiente de Variación de Pearson para cada una de ellas, el cual se define como el cociente entre la desviación típica y la media de la variable. Vamos a comenzar con la variable Edad. En primer lugar, calculemos la edad media de los estudiantes.
A continuación, obtenemos la desviación típica. Para ello,
calcularemos en primer lugar la varianza de la variable Edad mediante la función var, que recordemos calcula la cuasi-varianza de una variable.
Una vez obtenida la varianza, la desviación típica se obtiene como
su raíz cuadrada positiva.
Por último, calculamos el Coeficiente de Variación de la Edad y
mostramos su valor.
Repetimos el mismo proceso con la variable Estatura.
La variable más homogénea es la variable Estatura, ya que presenta un coeficiente de variación más próximo a 0. En el Editor de RStudio hemos realizado las siguientes instrucciones: