Está en la página 1de 7

Práctica 2.

Descripción gráfica y numérica de datos 1

Práctica 2

DESCRIPCIÓN GRÁFICA Y NUMÉRICA DE


DATOS

Objetivos:
En esta práctica utilizaremos el paquete R-UCA para describir los datos de una
muestra. Se representarán gráficamente conjuntos de datos utilizando las
posibilidades del programa.

Índice:
1. Introducción.
2. Descripción gráfica y numérica de una variable categórica
3. Descripción gráfica y numérica de una variable numérica

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 2

1. Introducción

El análisis exploratorio de datos consiste en proporcionar resúmenes numéricos de las


variables del banco de datos y representaciones gráficas de las mismas, de manera
que se resalte la información más relevante de los datos observados.
Dependiendo del tipo de variable, esto es, si la variable es numérica o categórica, los
resúmenes numéricos y las gráficas cambian:
• Si la variable es categórica, el resumen numérico de la misma consiste en la
tabla de frecuencias (absolutas y relativas) y puede representarse mediante
diagramas de barras y de sectores.
• Si la variable es numérica, su resumen numérico consiste en el cálculo de
estadísticos (media, desviación típica, cuartiles, rango, etc.) y puede
representarse mediante histogramas, diagramas de tallo y hojas y diagramas
de caja.
El programa también permite obtener la mayoría de los resúmenes numéricos y
gráficos anteriores para una variable, pero separándolos en los grupos que se
obtienen a partir de los valores de una variable categórica (factor).
A lo largo de esta práctica vamos a utilizar los datos contenidos en el fichero
Glucosa.RData, que se obtiene al final de la práctica 1.

Ejercicio 1:
1.- Descarga el fichero Glucosa.RData de la carpeta de esta práctica en el Aula Virtual y léelo
desde R-UCA.
2.- ¿Qué variables componen este banco de datos? Clasifícalas según su tipo.

2. Descripción gráfica y numérica de una variable categórica

Una variable categórica sólo puede ser descrita numéricamente mediante la


tabla de frecuencias, que indican el número (o porcentaje) de veces que se
observa cada categoría en la muestra. Por ejemplo, para construir la
correspondiente a la variable cod_g1antes seleccionamos el menú
Estadísticos / Resúmenes / Distribución de frecuencias

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 3

De las 80 mujeres, 5 de ellas (un 6.25%) tenían un nivel de glucosa bajo, 52 (65%)
medio, 20 (25%) alto y 3 (3.75%) muy alto.
Podemos representar gráficamente estos resultados mediante el diagrama de
sectores (Figura 1) o el diagrama de barras (Figura 2), utilizando las opciones
del menú Gráficas

Gráficas / Gráfica de sectores Gráficas / Gráfica de barras

Los gráficos anteriores pueden modificarse para mejorar su aspecto o recalcar cierta
información. Por ejemplo, para cambiar la leyenda de los ejes en el diagrama de
barras, añadimos a la instrucción correspondiente las opciones xlab = "Recodificación
de g1antes", ylab = "Frecuencia”.
Si, además de cambiar las leyendas, lo que queremos es utilizar uno o más colores en
un diagrama de barras, tenemos que modificar algo más la instrucción inicial:
with(Glucosa, Barplot(cod_g1antes, xlab="cod_g1antes", ylab="Frequency"))
Además de cambiar xlab e ylab, debemos cambiar Barplot por barplot, la variable
cod_g1antes por table(cod_g1antes) y añadir la opción del color col=”red” (para que
todas las barras sean rojas) o por una lista de 4 colores:
with(Glucosa, barplot(table(cod_g1antes), xlab = "Recodificación de g1antes", ylab =
"Frecuencia", col=c("lightgreen","blue","red","black")))

Diagrama de barras por grupos:


También podríamos dibujar un diagrama de barras que nos permitiera comparar las
frecuencias absolutas de cada categoría de cod_g1antes en mujeres embarazadas o
no embarazadas.
Para ello, en Gráficas / Gráfica de barras, tras marcar la variable cod_g1antes
pulsamos el botón Resumir por grupos y elegimos la variable que forma los grupos (en
nuestro caso, embarazo). A continuación, en la pestaña elegimos cómo queremos que
aparezcan las barras de cada categoría para ambos grupos: una encima de la otra
(Dividido o apilado) o una al lado de la otra (lado a lado o paralelo)

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 4

Vemos que los valores bajo y medio se dan más en las embarazadas que en las no
embarazadas, mientras que con los niveles alto y muy alto ocurre lo contrario.

Ejercicio 2:
1.- Obtener la descripción numérica y gráfica de la variable cod_dif_1.
2.- Comparar los valores de esta variable en embarazadas y no embarazadas.

3. Descripción gráfica y numérica de una variable numérica

En el caso de variables cuantitativas, podemos describirla numéricamente con el


cálculo de estadísticos descriptivos. Los principales estadísticos se encuentran en
Estadísticos / Resúmenes / Resúmenes numéricos
La salida proporcionada para la variable g1antes es

En concreto, nos proporciona los siguientes estadísticos descriptivos:


- La media aritmética de los 80 niveles de glucosa antes a las 8 semanas de
embarazo es 73.9 mg/dl y su desviación típica es 11.31 mg/dl.
- El rango intercuartílico es 14.25 mg/dl.
- El menor nivel de glucosa observado es igual a 45 mg/dl, mientras que el valor
máximo observado es 106 mg/dl.
- El 50% de los datos se encuentran por debajo o son iguales al valor del
segundo cuartil (mediana) 74 mg/dl. Además, el 25% de los valores se
encuentran por debajo o son iguales a 66 mg/dl; y de manera similar, un 25%
de los datos toman valores superiores a 80.25 mg/dl.
Pulsando en la pestaña Estadísticos del menú anterior podemos eliminar uno o varios
de los estadísticos obtenidos y/o pedir otros (error típico de la media, coeficiente de
variación, percentiles, etc.).

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 5

En ocasiones puede ser útil obtener estos estadísticos separando los datos en grupos
definidos por alguna variable categórica. Por ejemplo, si queremos obtener el resumen
numérico de la variable g1antes en cada uno de los dos grupos que quedan definidos
por la variable embarazo, basta con seleccionar la opción Resumir por grupos y
seleccionar como variable de agrupación la variable embarazo.

Ejercicio 3:
1.- Obtener media, rango, desviación estándar, los cuartiles, rango intercuartílico y los
percentiles 30 y 80 de la variable dif_1.
2.- Comparar estos mismos estadísticos de dif_1 en embarazadas y no embarazadas.

Los gráficos más adecuados para representar una variable cuantitativa discreta son
los diagramas de barras. En el caso de variables cuantitativas continuas utilizaremos
el histograma (representación gráfica de la distribución de frecuencias agrupadas), el
diagrama de tallo y hojas (una especie de histograma pero mostrando los valores de
la variable) o el diagrama de cajas (representación gráfica de la información obtenida
en el resumen numérico: mínimo, máximo y cuartiles).

A continuación, se muestra el histograma y el diagrama de cajas de la variable


g1antes que se obtiene por defecto. Como podemos ver en el diagrama de cajas, el
valor máximo (dato 31) y otros dos datos observados de la variables son valores
extremos o outliers, ya que distan del tercer cuartil más de 1.5(Q3-Q1) mg/dl. Notar
que estos valores extremos no son detectados en el histograma.

Gráficas / Histograma Gráficas / Diagrama de caja

De nuevo podemos cambiar el aspecto de las gráficas añadiendo, en la instrucción


generada, las opciones col, xlab e ylab (como en los diagramas de barras).
En el histograma podemos cambiar la escala vertical a porcentaje sin más que
cambiar la opción scale="frequency" por scale="percent". Además, podemos
personalizar el número de intervalos cambiando la opción breaks = ”Sturges” por
breaks = seq(extremo_inf, extremo_sup, amplitud).

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 6

Por ejemplo, la siguiente instrucción produce un histograma en donde se aprecian los


valores extremos y las barras representando porcentajes en lugar de frecuencias:
with(Glucosa, Hist(g1antes, scale="percent", breaks=seq(40,110,5),
col="darkgray",ylab="Porcentaje"))

El diagrama de tallo y hojas se obtiene con Gráficas / Gráfica de tallos y hojas. En el


caso de la variable g1antes, el gráfico por defecto es:

en donde, de cada valor de un dato, la hoja son las unidades y el tallo el resto. Notar
que, además, cada tallo se ha dividido en dos filas, la primera con las hojas 0, 1, 2, 3 y
4 y la segunda con hojas 5, 6, 7, 8 y 9. En este gráfico, el valor máximo (106) es
etiquetado outlier (Hi: 106). Si no quisiéramos partir el tallo en dos filas, deberíamos
marcar la opción 1 en Partes por tallo dentro de la pestaña Opciones.

Los histogramas y los diagramas de cajas nos permiten además hacer comparaciones
entre grupos definidos por una variable categórica. Para ello debemos seleccionar la
opción Gráfica por grupos e indicar el nombre de la variable de agrupación.
En el caso de los diagramas de caja, dibuja tantas cajas como categorías tenga la
variable categórica en un mismo gráfico. En el caso de los histogramas, también dibuja
varios histogramas, pero uno debajo del otro, utilizando la misma escala vertical y
definiendo los mismos intervalos en todos ellos (aunque para alguna categoría puedan
estar vacíos los primeros o los últimos intervalos). En los histogramas, si los grupos
tienen tamaños diferentes, deben representarse usando porcentajes como escala
vertical.

Departament d’Estadística i Investigació Operativa. Universitat de València.


Práctica 2. Descripción gráfica y numérica de datos 7

En este caso, como hay 40 mujeres embarazadas y 40 no embarazadas, ambos


histogramas pueden usar la frecuencia como escala vertical. En ellos observamos que
los valores de la glucosa por debajo de 70 son más frecuentes en las embarazadas,
mientras que los mayores de 80, lo son en las no embarazadas.
En el diagrama de cajas observamos que en las mujeres no embarazadas, su mínimo
es un valor extremo, para los datos de ese grupo, pero no lo es si consideramos la
muestra conjunta de ambos grupos.

Ejercicio 4:
1.- Obtener un histograma, diagrama de cajas y diagrama de tallo y hojas de la variable dif_1.
2.- Realizar una comparación gráfica de dif_1 en embarazadas y no embarazadas.

Departament d’Estadística i Investigació Operativa. Universitat de València.

También podría gustarte