Está en la página 1de 7

Estadística Descriptiva

Ejercicio guiado - Rstudio


Considérese el siguiente conjunto de datos que contiene información
acerca del sexo, edad, estatura, puntuación y calificación de 20
estudiantes:

Tabla-Datos del Ejercicio Guiado

a) Realiza una tabla de frecuencias absolutas y otra de frecuencias


relativas para la variable Calificación. Almacena las tablas
anteriores en dos variables y llámalas absolutas y relativas.
b) Representa la variable Calificación mediante un diagrama de
barras y un diagrama de sectores. Incluye un título adecuado para
cada gráfico y colorea las barras y los sectores de colores diferentes.
c) Para la variable Edad, realiza un histograma y un diagrama de caja
y bigotes considerando la opción range = 1.5. Incluye un título
apropiado para cada gráfico y colorea las barras del histograma de
color amarillo. ¿Existe algún valor atípico en esta variable? Reduce
el valor del argumento range hasta 0.5. ¿Varían las conclusiones?
d) Realiza un resumen de la variable Puntuación mediante la orden
summary. Comprueba que las medidas que proporciona summary
coinciden con las medidas calculadas de forma individual usando
su función específica.
e) Calcula la estatura media de los estudiantes y proporciona, al
menos, dos medidas que indiquen la dispersión de esta variable.
f) ¿Qué variable es más homogénea: ¿la Edad o la Estatura?
Ejercicio Guiado (Resuelto)
a) Realiza una tabla de frecuencias absolutas y otra de frecuencias
relativas para la variable Calificación. Almacena las tablas
anteriores en dos variables y llámalas absolutas y relativas.

En primer lugar, nos situamos en el directorio de trabajo. Para ello,


en el menú principal de RStudio, seleccionamos Session/Set
Working Directory/Choose Directory o bien con las teclas
Ctrl+Shift+H,

Y en la Consola de RStudio se muestra el comando

Utilizamos la función read.table para leer un fichero .txt en R y


llamamos al fichero datos1

b) Representa la variable Calificación mediante un diagrama de


barras y un diagrama de sectores. Incluye un título adecuado para
cada gráfico y colorea las barras y los sectores de colores diferentes.
Diagrama de barras de la variable Calificación

Diagrama de sectores de la variable Calificación

c) Para la variable Edad, realiza un histograma y un diagrama de caja


y bigotes considerando la opción range = 1.5. Incluye un título
apropiado para cada gráfico y colorea las barras del histograma de
color amarillo. ¿Existe algún valor atípico en esta variable? Reduce
el valor del argumento range hasta 0.5. ¿Varían las conclusiones?
Histograma de la variable Edad

Caja y Bigotes de la variable Edad (range = 1.5)

En este caso no se aprecia ningún valor atípico en el diagrama de


caja y bigotes, ya que no aparece ningún valor más allá de los
bigotes.
Cuando se reduce el valor de range a 0.5 tampoco se observa
ningún valor atípico.

d) Realiza un resumen de la variable Puntuación mediante la orden


summary. Comprueba que las medidas que proporciona summary
coinciden con las medidas calculadas de forma individual usando
su función específica.

Si aplicamos la función summary a la variable Puntuación,


obtenemos el siguiente resultado

Calculemos cada medida por separado

e) Calcula la estatura media de los estudiantes y proporciona, al


menos, dos medidas que indiquen la dispersión de esta variable.
Para calcular la estatura media de los estudiantes, tenemos que
tener en cuenta que la variable Estatura incluye dos valores
faltantes entre sus observaciones. Este hecho tiene que ser
indicado estableciendo como TRUE el valor del parámetro na.rm

La estatura media de los estudiantes es de 1.776 cm..

Como medidas de dispersión, se van a calcular la cuasi-varianza y


el recorrido intercuartílico.

f) ¿Qué variable es más homogénea: ¿la Edad o la Estatura?


Para determinar la homogeneidad de una variable (o, lo que es lo
mismo, la representatividad de su media), calculamos el Coeficiente
de Variación de Pearson para cada una de ellas, el cual se define
como el cociente entre la desviación típica y la media de la variable.
Vamos a comenzar con la variable Edad. En primer lugar,
calculemos la edad media de los estudiantes.

A continuación, obtenemos la desviación típica. Para ello,


calcularemos en primer lugar la varianza de la variable Edad
mediante la función var, que recordemos calcula la cuasi-varianza
de una variable.

Una vez obtenida la varianza, la desviación típica se obtiene como


su raíz cuadrada positiva.

Por último, calculamos el Coeficiente de Variación de la Edad y


mostramos su valor.

Repetimos el mismo proceso con la variable Estatura.


La variable más homogénea es la variable Estatura, ya que
presenta un coeficiente de variación más próximo a 0.
En el Editor de RStudio hemos realizado las siguientes
instrucciones:

También podría gustarte