Está en la página 1de 9

CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,

Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

UNIDAD 2. Estadística Básica con R: Tablas de


Frecuencias, promedios y medidas de resumen.

Leeremos desde R Commander, una vez configurada la carpeta o directorio de trabajo


(Fichero  Cambiar directorio de trabajo  C:\CURSO R), el archivo de datos
resultante de la unidad anterior “datosB.RData” mediante la opción Datos  cargar
conjunto de datos. Una vez leido pasa automáticamente a ser el conjunto activo.

2.1 Promedios y medidas de resumen

Calcularemos un resumen numérico de todas las variables, mediante la opción:

Estadísticos  Resúmenes  Resúmenes numéricos.

Solo aparecen en el cuadro de diálogo las variables numéricas o cuantitativas. Elegimos


las diez primeras, desde alcoholgrdia hasta imc junto con la última, urico (cuando
queremos elegir variables que no son consecutivas en la lista alfabética utilizaremos Ctrl
+ botón izquierdo del ratón para añadir una variable aislada). Una vez elegidas las
variables marcamos todas las opciones en la pestaña “Estadísticos” excepto “frecuencias
por intervalos”; las tres posibilidades de “tipo” corresponden a fórmulas distintas de
cálculo de los coeficientes de asimetría y apuntamiento, de las cuales la más aceptada
actualmente es la 2 (marcaremos ésta).
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

El resultado, que puede ser copiado fácilmente a un archivo de texto, se muestra a


continuación:
(para mantener la alineación de los datos numéricos en un editor de textos puede
utilizarse un tipo de letra de anchura constante, como courier new)
> numSummary(Dataset[,c("alcoholgrdia", "colesterol", "creat", "dieta", "edad", "glucemia"
,"hba1c", "hta", "icc", "imc", "urico")], statistics=c("mean", "sd", "se(mean)", "IQR"
,"quantiles", "cv", "skewness", "kurtosis"), quantiles=c(0, .25,.5,.75,1), type="2")

mean sd se(mean) IQR cv skewness


alcoholgrdia 12.5402951 23.81550344 0.802364698 16.0000000 1.8991183 3.32177929
colesterol 227.0378007 45.86242581 1.552207939 59.0000000 0.2020035 0.37696296
creat 0.9176329 0.27328128 0.009497181 0.2000000 0.2978111 4.81918038
dieta 0.7797957 0.41461971 0.013968893 0.0000000 0.5317030 -1.35272059
edad 58.6889898 11.16044065 0.376004799 15.0000000 0.1901624 -0.07752293
glucemia 161.0330673 49.73860946 1.679553502 50.0000000 0.3088720 1.54880279
hba1c 6.4869458 1.65870332 0.058209075 1.9000000 0.2556987 1.36360169
hta 1.5527809 0.49748879 0.016760823 1.0000000 0.3203857 -0.21267222
icc 0.9405492 0.09710785 0.003412022 0.1118463 0.1032459 1.05128381
imc 30.0950423 4.85931730 0.164181117 6.0355285 0.1614657 0.55086676
urico 6.2876740 10.79690117 0.481410029 2.0000000 1.7171535 7.44989323
kurtosis 0% 25% 50% 75% 100% n NA
alcoholgrdia 16.4233541 0.00000 0.0000000 0.0000000 16.0000000 240.00000 881 0
colesterol 1.3763210 28.00000 197.0000000 224.0000000 256.0000000 479.00000 873 8
creat 49.4299368 0.40000 0.8000000 0.9000000 1.0000000 4.60000 828 53
dieta -0.1705393 0.00000 1.0000000 1.0000000 1.0000000 1.00000 881 0
edad -0.4003730 30.00000 51.0000000 58.0000000 66.0000000 91.00000 881 0
glucemia 3.2810618 47.00000 130.0000000 147.0000000 180.0000000 402.00000 877 4
hba1c 2.5670149 3.40000 5.3000000 6.0000000 7.2000000 15.70000 812 69
hta -1.9592234 1.00000 1.0000000 2.0000000 2.0000000 2.00000 881 0
icc 4.9241738 0.50000 0.8787859 0.9306931 0.9906322 1.50000 810 71
imc 0.8189650 16.64685 26.8351801 29.7548253 32.8707085 51.41777 876 5
urico 55.6008216 1.70000 3.8000000 4.8000000 5.8000000 97.00000 503 378

La media (mean) es la medida más utilizada, tanto para resumir el conjunto de la


muestra como para comparar nuestros datos con otras muestras o poblaciones. La
desviación típica (sd), que viene expresada en las mismas unidades que la media, es la
medida de dispersión más utilizada. Un valor pequeño de sd indica que los valores de la
variable son homogéneos, similares entre sí, en cuyo caso la media es más representativa
del conjunto. Para identificar mejor los valores pequeños de sd se utiliza el coeficiente
de variación (cv), que es el cociente entre la desviación típica y la media; solo se utiliza
el cv cuando la variable está medida en escala de razón (con un cero real, no convenido)
como ocurre con todas las variables de nuestros datos. La variable icc es la menos
dispersa en nuestro conjunto, la que tiene menor desviación tipica, y alcoholgrdia la que
muestra mayor variabilidad o dispersión relativa (coeficiente de variación).
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

El resumen muestra tambien los cuartiles (centiles 0, 25, 50, 75, 100), que dividen al
conjunto en cuatro partes iguales. El centil 0 (o cuartil 0) es el valor mínimo de la
variable, y el 100 (o cuartil 4) el máximo. El centil 25 (cuartil 1) es aquel valor de la
variable por debajo del cual está el 25% de los casos). El centil 50 es la mediana: la
mitad de los elementos de la muestra tienen un valor de la variable menor o igual que
este y la otra mitad mayor.

La mediana es un promedio alternativo a la media, que suele utilizarse, como más


representativo del conjunto, cuando las distribuciones son muy asimétricas. Así, la
media de ácido úrico en nuestro conjunto es 6,287 lo que nos puede hacer pensar que
nuestros pacientes tienen en general valores próximos a ese, pero vemos en la tabla
anterior que el 75% de los pacientes tienen menos de 5,8; el cálculo de la media está
distorsionado por la existencia de algunos –pocos- valores muy altos. Es más adecuado
en este caso utilizar como promedio, más representativo, la mediana 4,8 (la mitad de los
pacientes tienen más y la otra mitad menos que 4,8). Los estadísticos suelen decir que la
mediana es “robusta”, ya que su valor no cambia en absoluto (al contrario que la media)
si sustituimos alguno de los valores más altos de la muestra por otros arbitrariamente
grandes.

En los resultados se muestran tambien dos coeficientes de forma: asimetría (skewness) y


apuntamiento (Kurtosis). El primero permite distinguir la asimetría positiva, o existencia
de valores por encima de la media que se alejan mucho más que por debajo, frecuente en
variables que tienen un claro límite inferior (por ejemplo cero), de la asimetría negativa
en la que existen valores por la izquierda (debajo de la media) que están claramente más
alejados que por la derecha; un valor del coeficiente de asimetría próximo a cero indica
una distribución simétrica. El apuntamiento es un indicador estadístico que se suele
utilizar en distribuciones simétricas para distinguir las que tienen un pico central (los
valores se acumulan muy cerca de la media) de las que no lo tienen (los valores se
distribuyen ampliamente con frecuencias similares formando una meseta más o menos
plana), con un apuntamiento medio o estándar –índice próximo a cero- correspondiente
a la conocida forma de campana de la distribución Normal.

Ambas características de forma se han utilizado históricamente para valorar la


posibilidad de que la distribución de la variable sea Normal, un requisito habitual en
muchas técnicas estadísticas de análisis: para que sea Normal, los dos coeficientes deben
ser cero, o al menos no alejarse mucho del cero.

Por último, el resumen proporciona el número de casos válidos (n) y el de valores


perdidos (NA).

La opción de resúmenes numéricos “resumir por grupos” permite calcular todos los
estadísticos para cada nivel de un factor. Lo aplicamos a colesterol agrupado por sexo:

>numSummary(Dataset[,"colesterol"],groups=Dataset$sexo,statistics=c("mean","sd","se(mean)",
"IQR", "quantiles", "cv", "skewness", "kurtosis"), quantiles=c(0,.25, .5,.75,1), type="2")
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

mean sd se(mean) IQR cv skewness kurtosis


mujer 231.3068 46.16194 2.034138 56 0.1995702 0.3399726 1.91849
varón 220.8966 44.78236 2.366821 55 0.2027299 0.4303173 0.64502

0% 25% 50% 75% 100% data:n data:NA


mujer 28 203 228.0 259 479 515 4
varón 109 192 218.5 247 386 358 4

Se pueden utilizar funciones de R para el cálculo de cualquier medida estadística.


Aunque el menú de R Commander nos permite obtener casi todos los resultados
estadísticos básicos, sin que sea necesario aprender a programar, puede ser conveniente
que el alumno utilice de vez en cuando algunos elementos simples de programación, y
se introduzca poco a poco en el lenguaje de R, ya que las aplicaciones estadísticas
avanzadas (de gran interés, aunque no son el objeto de este curso) requerirán un uso
creciente de este lenguaje:

media <- mean(Dataset$imc, na.rm = TRUE) # crea una variable “media”

El símbolo <- se utiliza para asignar a la variable de la izquierda, a la que llamamos en


este ejemplo “media”, el valor obtenido con la expresión de la derecha, que aplica la
función “mean” a la variable Dataset$imc. La condición na.rm =TRUE indica que los
valores perdidos “NA” deben ser excluidos del cálculo. La función mean tiene en este
ejemplo dos argumentos, separados por una coma.

desv.tip <- sd(Dataset$imc, na.rm = TRUE) # crea una variable “desv.tip”


media # escribe el valor de “media”
desv.tip # escribe el valor de “desv.tip”

tipificado <- with(Dataset, (imc - media)/desv.tip) # calcula un imc tipificado


tipificado # escribe todos los valores del imc tipificado

La variable que hemos construido, “tipificado”, contiene los valores estandarizados de la


variable imc (restamos la media y dividimos por la desviación típica). El resultado
queda almacenado en una variable que no forma parte de nuestro conjunto de datos. Si
queremos incorporarla, bastaría con la orden:

Dataset$imc.tip <- tipificado

O bien podríamos haber calculado Dataset$imc.tip directamente:

Dataset$imc.tip <- with(Dataset, (imc - media)/desv.tip)

Otras medidas:

median(Dataset$imc, na.rm = TRUE) # mediana


quantile(Dataset$imc, 0.10, na.rm = TRUE) # centil 10
skewness(Dataset$imc, na.rm = TRUE) # coeficiente de asimetría
kurtosis(Dataset$imc, na.rm = TRUE) # coeficiente de apuntamiento
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

2.2 Tablas de frecuencias

Construimos tablas de frecuencias para las variables cualitativas con la opción de menú
Estadísticos  resúmenes  distribución de frecuencias.

Marcamos las cuatro primeras variables y pulsamos aceptar.

El resultado muestra las tablas de frecuencias absolutas (recuentos) y relativas


(porcentajes) para todas las variables no numéricas:

> .Table # counts for alcohol

no si
374 507

no si
42.45 57.55

> .Table # counts for hta2

no si
487 394

no si
55.28 44.72

> .Table # counts for icc2

bajo medio alto


5 175 630

bajo medio alto


0.62 21.60 77.78

> .Table # counts for imc2

Inferior a normal normal sobrepeso obesidad leve obes.media obes.mórbida


2 107 350 282 102 33

Inferior a normal normal sobrepeso obesidad leve obes.media obes.mórbida


0.23 12.21 39.95 32.19 11.64 3.77
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

La mayoría de las variables numéricas no son adecuadas para construir tablas de


frecuencias, ya que éstas pretenden resumir y presentar la información en un formato
facil de visualizar, y ese objetivo no se consigue si la tabla muestra un número excesivo
de valores (por ejemplo, si la tabla, con un valor en cada línea, no cabe en una página);
por esa razón R Commander no muestra las variables cuantitativas en el cuadro de
diálogo para construir tablas de frecuencias. Sin embargo las funciones de R que
construyen tablas lo hacen tambien si las variables son numéricas, por lo que podemos
modificar las órdenes que aparecen en la ventana de instrucciones para incorporar una
variable numérica y ejecutarlas a continuación; para hacerlo así necesitaremos los
nombres exactos de las variables, para lo cual podemos “visualizar conjunto de datos”
en R Commander, o bien utilizar la orden “names”:

names(Dataset) # hace un listado de las variables en nuestro conjunto “Dataset”

> names(Dataset)
[1] "num" "edad" "sexo" "alcohol"
[5] "tabaco" "dieta" "peso" "talla"
[9] "tad" "tas" "colesterol" "pericintura"
[13] "peripelvis" "glucemia" "hba1c" "urea"
[17] "trigl" "creat" "urico" "alcoholgrdia"
[21] "imc" "imc2" "icc" "icc2"
[25] "hta2" "hta"

Modificamos las tres órdenes, relativas por ejemplo a la variable alcohol, cambiando
ésta por alcoholgrdia (o peso, talla, o cualquier otra), y ejecutamos de nuevo:
.Table <- table(Dataset$alcoholgrdia)
.Table
round(100*.Table/sum(.Table), 2)

> .Table <- table(Dataset$alcoholgrdia)

0 4 6 7 8 9 10 12 14 15 16 18 20 24 30 32 35 40 44 49 50 56
501 10 1 1 94 1 7 1 1 1 88 3 24 19 3 13 1 46 1 1 2 3
60 70 80 84 88 90 96 100 120 125 126 140 160 168 240
14 7 23 1 3 1 1 2 1 1 1 1 1 1 1

0 4 6 7 8 9 10 12 14 15 16 18 20 24 30
56.87 1.14 0.11 0.11 10.67 0.11 0.79 0.11 0.11 0.11 9.99 0.34 2.72 2.16 0.34
32 35 40 44 49 50 56 60 70 80 84 88 90 96 100
1.48 0.11 5.22 0.11 0.11 0.23 0.34 1.59 0.79 2.61 0.11 0.34 0.11 0.11 0.23
120 125 126 140 160 168 240
0.11 0.11 0.11 0.11 0.11 0.11 0.11

Una opción mejor para construir tablas con variables cuantitativas consiste en
recodificarlas previamente formando intervalos (ver unidad didáctica 1).
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

2.3 Tablas de frecuencias cruzadas.

A menudo interesa averiguar si las variables cualitativas de nuestro conjunto de datos


están relacionadas entre sí o por el contrario son independientes. Para ello
comenzaremos construyendo tablas de frecuencias cruzadas o tablas de contingencia
con dos variables, que muestran el comportamiento de una variable para los distintos
valores de la otra.

¿Es distinto el índice de masa corporal entre hombres y mujeres?

Utilizaremos en esta unidad el índice de masa corporal recodificado, imc2; en otras


unidades didácticas veremos las técnicas estadísticas adecuadas para el análisis de
variables cuantitativas -como imc, sin recodificar- en función de uno o más factores.

Construimos una tabla de contingencia y aplicamos el test de independencia Ji cuadrado:

Estadísticos  Tabla de contingencia  Tabla de doble entrada

En el cuadro de diálogo elegimos la variable de fila “imc2”, y la variable de columna


“sexo”. En la pestaña “Estadísticos” marcamos “porcentajes por columnas” y “test de
independencia Chi-cuadrado”. En general, cuando tenemos una variable que puede ser
explicada por la otra es conveniente poner la variable dependiente en filas y la
explicativa en columnas, e interpretar los porcentajes de columna:

Frecuencias absolutas (tabla bidimensional):


sexo
imc2 mujer varón
inferior a normal 2 0
normal 56 51
sobrepeso 185 165
obesidad leve 173 109
obesidad media 76 26
obesidad mórbida 25 8

Frecuencias condicionadas por columnas:


sexo
imc2 mujer varón
inferior a normal 0.4 0.0
normal 10.8 14.2
sobrepeso 35.8 46.0
obesidad leve 33.5 30.4
obesidad media 14.7 7.2
obesidad mórbida 4.8 2.2
Total 100.0 100.0
Count 517.0 359.0

X-squared = 23.4333, df = 5, p-value = 0.0002789

Las frecuencias condicionadas son más fáciles de interpretar que las frecuencias
bidimensionales: el 35,8% de las mujeres tiene sobrepeso, frente al 46,0% de los
varones. El 14,7% tiene obesidad media (frente al 7,2% en los varones), el 4,8%
obesidad mórbida (frente al 2,2%).
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

Los porcentajes en ambas columnas serán similares si las variables no están relacionadas
(si la obesidad no depende del sexo), y distintos en caso contrario, pero ¿cuando
decidimos que una diferencia es suficientemente grande para concluir que existe una
relación? No debemos olvidar que nuestros datos proceden de una muestra, sometida por
ello a un cierto grado de variabilidad aleatoria.

Para tomar una decisión adecuada se utiliza el test de independencia Ji cuadrado. Se


construye un estadístico de contraste con las diferencias o desviaciones entre las
frecuencias observadas y las que cabría esperar en el supuesto de independencia. Ese
estadístico tiene, en condiciones bastante generales, una distribución de probabilidad
conocida (Ji cuadrado), que permite calcular el valor P del contraste: este valor P es la
probabilidad de que -siendo independientes ambas variables- el estadístico tome un
valor tan grande como el que estamos observando.

Si el valor P es muy pequeño concluiremos que las variables están relacionadas, y si no


lo es, que son independientes. Se suele utilizar como término de comparación
(denominado “nivel de significación”) el valor 0,05 o bien 0,01 para aceptar que P es
muy pequeño.

En nuestro ejemplo P = 0.0002789 y por lo tanto constatamos que el imc está


relacionado significativamente con el sexo.

Sin embargo advertimos un aviso que ha aparecido en la ventana de “mensajes”.


Siempre debemos prestar atención a estos mensajes, que detectarán un error en la
operación (el aviso aparecerá en color rojo), en cuyo caso la orden no se ha ejecutado, o
bien (en otro color) una advertencia que debe tenerse en cuenta:

AVISO: 1 las frecuencias esperadas son inferiores a 1


2 las frecuencias esperadas son inferiores a 5

La distribución Ji cuadrado del estadístico de contraste es aproximada, y requiere que en


cada celda la frecuencia esperada sea de al menos 5 casos (es decir que la muestra sea
suficientemente grande). El aviso nos dice que hay dos celdas con frecuencias esperadas
inferiores a 5, y una de ellas es incluso inferior a 1. Se suele interpretar esta condición de
forma flexible, y aceptar como válida la aproximación si el número de celdas con
frecuencias inferiores a 5 no supera el 20%, como en este caso (solo 2 de 12, menos del
20%).

Si la prueba no es válida se puede corregir el problema aumentando el tamaño de la


muestra (con lo que deben aumentar las frecuencias en todas las celdas), aunque a
menudo no estamos en condiciones de aumentar ese tamaño de muestra en la fase de
tratamiento estadístico de datos. Tambien podemos reducir el tamaño de la tabla
agrupando algunos niveles (de ese modo también aumentan las frecuencias en algunas
celdas). En este ejemplo podríamos suprimir el nivel “inferior a lo normal”, que tiene
muy pocos casos y es el causante del aviso, agrupándolo con el siguiente.
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 2

TAREA 2:

1) Inicie R y R Commander. Lea el archivo de datos guardado en la unidad anterior


“datosB.RData” (mediante la opción Datos  cargar conjunto de datos). El nombre
del data frame o conjunto de datos leído (que aparecerá en la ventana de mensajes
de R Commander) es “Dataset”

2) Construya resúmenes numéricos con las variables: talla, colesterol, hba1c, tad, y
tas.

3) Construya tablas de frecuencias simples con las variables: icc2, sexo, alcohol.

4) ¿Está relacionado el índice cintura/cadera icc2 con el consumo de alcohol o de


tabaco? ¿Están relacionadas las variables hta (hipertensión al diagnóstico) y sexo?

Se debe elaborar un informe de prácticas con los resultados obtenidos, añadiendo


comentarios personales del alumno con su interpretación de los resultados, en un
archivo pdf (puede utilizarse otro editor de texto alternativo si no es posible pdf).
Tambien deberán añadirse las órdenes utilizadas (se pueden copiar desde la ventana de
ordenes de R Commander) con el fin de documentar el trabajo realizado.

El archivo, cuyo nombre debe ser el primer apellido del alumno con los caracteres T2 a
continuación (ej. GarciaT2.pdf), debe enviarse antes de las 23,55h del día 12 de
noviembre a través de la opción “enviar tarea” en la plataforma del curso.

También podría gustarte