Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Como Presentar Estadistica
Como Presentar Estadistica
presentar la estadstica en un
trabajo cientfico
Francisco Javier Barn Lpez
baron@uma.es
http://www.bioestadistica.uma.es/baron
Francisco Javier Barn Lpez 2
1 Introduccin
Estamos acostumbrados a ver cmo la prctica totalidad de los artculos y
comunicaciones a congresos requieren del uso de algn tipo de estadsticas. Siendo muy
extenso el nmero de las tcnicas estadsticas existentes, el objetivo de esta obra no
consistir en exponer muchas en detalle, sino en destacar algunas de ellas, por lo
extendido de su uso, y explicar qu pasos deben seguirse para su utilizacin en la
redaccin de un trabajo cientfico.
2 Estadstica descriptiva
La primera tarea consiste siempre en describir los datos que tenemos, divididos en
tantos grupos como est formado el estudio. Por ejemplo si estamos presentando los
resultados de un estudio realizados sobre individuos que han seguido uno de tres
posibles tratamientos dermatolgicos, la presentacin de los resultados descriptivos
debe hacerse para cada grupo por separado.
Por tanto, en primer lugar daremos unas ideas sobre la manera de presentar la estadstica
descriptiva de los datos en un grupo, para pasar posteriormente a cmo presentar las
comparaciones de los resultados obtenidos en varios grupos.
Frecuencia Porcentaje
Vlidos Desaparece 30 60,0
Mejora 15 30,0
Sin cambios 5 10,0
Total 50 100,0
El espacio que ocupa una tabla de frecuencias es, como se ve, bastante grande, as que si
hay problemas de espacio en la redaccin del trabajo, no se suele exponer (a menos que
sea necesario por claridad). Lo mismo ocurrira con los grficos equivalentes, que para
variables cualitativas suelen ser diagramas de sectores o de barras (a elegir libremente)
como los siguientes:
25,00%
No fumador
n=10
35,00%
Fumador
n=14
Estado tabquico
No fumador
Ex-fumador
Fumador
40,00%
Ex-fumador
n=16
Francisco Javier Barn Lpez 4
20
15
Recuento
10
0
No fumador Ex-fumador Fumador
Estado tabquico
50
Media =30,09
Desviacin tpica =5,168
40 N =295
Frecuencia
30
20
10
15 20 25 30 35 40 45
Edad materna
Las mujeres que haban tenido hijos formaban un grupo de 295 pacientes,
cuyas edades estaban distribuidas de forma aproximadamente normal, con
una media de 30,09 aos y desviacin tpica de 5,17 aos.
Como se ve es una forma de redactar que ocupa mucho menos espacio que el grfico.
Por otro lado, es difcil decidir en ocasiones si los datos se alejan mucho o poco de una
distribucin normal, y en este caso, es mejor dar alguna informacin adicional como el
mnimo y el mximo. En este caso los resultados podramos exponerlos del siguiente
modo:
El grupo formado por las mujeres que haban tenido hijos estaba formado
por 295 pacientes con edades comprendidas entre los 16 y los 43 aos,
siendo la media de 30,09 aos y la desviacin tpica de 5,2 aos.
Hay ms estadsticos que podemos aadir en estas situaciones donde existe cierto
alejamiento de la normalidad, como son la asimetra y la curtosis (o apuntamiento).
Estos son estadsticos adimensionales (sin unidades). Su utilizacin indiscriminada hara
que un prrafo como el anterior, que de forma natural ya es farragosa, se haga an peor.
De estos estadsticos debemos saber lo siguiente:
1
Observaciones demasiado grandes o pequeas con respecto al resto de valores.
Francisco Javier Barn Lpez 6
Es frecuente encontrarnos con que haciendo alguna transformacin a los datos,
recuperemos la normalidad. Un ejemplo de esta situacin es cuando el histograma
presenta una larga cola a la derecha. A veces una transformacin logartmica de la
variable o la toma de una raz cuadrada en variables que representen conteos, pueden
devolvernos a una situacin prxima a la normalidad.
En otros casos debemos saber que presentar slo la media y la desviacin de las
variables no es suficiente, y debemos indicar la situacin, acompandola de otras
medidas:
La mediana, que es aquel valor que deja la mitad de los datos por debajo de l.
Se puede presentar junto a la media para mostrar la diferencia entre ellas, pero
ms frecuentemente se hace sustituyndola.
Rango intercuartlico
0.01
Rango
0.00
Cuando la muestra no parece tener una distribucin normal, para obtener una idea
aproximada de la distribucin de los datos, se acostumbra a mostrar un resumen en
cinco nmeros, que son el valor mnimo, el primer cuartil, la mediana, el tercer cuartil,
Francisco Javier Barn Lpez 7
y el valor mximo. Estas cantidades vienen reflejadas en el diagrama de cajas. Este
permite ver rpidamente si los datos son simtricos o si incluyen observaciones
anmalas. Su composicin se basa en una caja cuyos extremos son el primer y tercer
cuartil (aproximadamente), con una marca interior para la mediana, y dos bigotes, cuya
misin es delimitar hasta donde podemos considerar los datos de las colas como no
anmalos. Cualquier valor que quede fuera de los bigotes es marcado como anmalo.
Estas cantidades vienen reflejadas en el diagrama de cajas de Tukey. ste permite ver
rpidamente si los datos son simtricos o si incluyen observaciones anmalas. Su
composicin se basa en una caja cuyos extremos son el primer y tercer cuartil
(percentiles 25 y 75 respectivamente), con una marca interior para la mediana, y dos
bigotes, cuya misin es delimitar hasta donde podemos considerar los datos de las colas
como no anmalos. Cualquier valor que quede fuera de los bigotes es marcado como
anmalo.
Un tipo de representacin grfica, que es muy til para estudiar si unos datos sigue una
distribucin normal (o cualquier otra), es la de los grficos cuantil-cuantil (Q-Q). En
ellos se compara la distribucin de los datos observados con respecto a una distribucin
de referencia. Si los puntos aparecen ms o menos alineados, es que ambas
distribuciones son similares. Las desviaciones con respecto a la distribucin de
referencia se aprecian como desviaciones con respecto a una lnea recta en el grfico Q-
Q.
Francisco Javier Barn Lpez 8
0.04
0.08
0.08
0.02
0.04
0.04
0.00
0.00
0.00
50 55 60 65 30 40 50 60 70 80 90 30 40 50 60 70 80
Cuantiles muestrales
Cuantiles muestrales
30 40 50 60 70 80 90
30 40 50 60 70 80
65
60
55
50
-2 -1 0 1 2 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Estadsticos
pasi
N Vlidos 40
Perdidos 0
Media 26,88
Mediana 24,00
Desv. tp. 10,773
Asimetra ,635
Error tp. de asimetra ,374
Curtosis -,789
Error tp. de curtosis ,733
Mnimo 15
Mximo 48
Percentiles 25 18,00
50 24,00
75 34,00
Francisco Javier Barn Lpez 9
10
F 8
r
e
c
u 6
e
n
c
i
4
a
0
10 20 30 40 50
PASI
Los datos presentan cierta asimetra positiva que la alejan de la normalidad. Cualquiera
de las siguientes alternativas podra ser suficiente para presentar los resultados.
Una ltima forma ms simple de presentar la informacin (sobre todo cuando queremos
comparar diferentes grupos) sera:
2.2.1 Categrica-categrica
Cuando ambas variables son categricas (o discretas con pocas modalidades), se suele
presentar las observaciones en una tabla de contingencia. Esta es una tabla de doble
entrada donde se presentan la distribucin de frecuencias conjunta de las dos variables.
Con ellas podemos estudiar si existe asociacin entre ambas. Cuando no hay asociacin,
la distribucin de porcentajes de una de las variables es similar para cada valor de la
otra.
La tabla de contingencia adjunta muestra los resultados. El valor del estadstico chi-
cuadrado fue de 4,28, con una significacin de 0,028.
Resultado
experimentado por el
paciente
Mejora No mejora Total
Grupo No intervencin Recuento 111 24 135
% de Grupo 82,2% 17,8% 100,0%
Intervencin Recuento 117 11 128
% de Grupo 91,4% 8,6% 100,0%
Total Recuento 228 35 263
% de Grupo 86,7% 13,3% 100,0%
Francisco Javier Barn Lpez 11
No intervencin Intervencin
El grupo de intervencin estaba formado por 128 pacientes frente a 135 del
grupo control. Se observ en el grupo de intervencin una mejora en el
91,4% de los casos (117 pacientes), notablemente superior al 82,2% (111
pacientes) conseguido en el grupo de control.
En la prctica, es muy extrao que no se ofrezca, al mismo tiempo, una medida sobre lo
diferente que son ambos porcentajes. Por ello, an a riesgo de adelantar conceptos que
se exponen ms adelante, indicamos que lo habitual sera expresar el resultado de un
modo ms completo de la siguiente forma:
2.2.2 Categrica-Numrica
Supongamos que tenemos datos numricos para varias categoras. Un ejemplo
consistira en un experimento donde hacemos mediciones numricas en dos grupos:
tratamiento y control. Podemos describir los resultados del experimento con slo dos
variables: Una variable categrica que representa el grupo de tratamiento, y otra que
representa el resultado numrico
Con gran frecuencia, estas variables, que son calculadas como las diferencias o cambios
observados en cada paciente, tienen tendencia a presentar distribucin normal. Una
justificacin, viene de la eliminacin de ciertas fuentes de variabilidad que son
perjudiciales para la normalidad: Cuando slo se mide a las variables en un instante de
tiempo, debido a que hay muchos factores que influyen enormemente en la variable que
se mide y adems estos se presentan de forma muy dispar en cada individuo, podemos
encontrarnos con distribuciones muy asimtricas, y por tanto alejadas de la normalidad.
La suma de estos efectos a nivel de individuo suele quedar corregida al utilizarse a cada
individuo en tiempos diferentes para medir la diferencia entre dos momentos (efecto del
tratamiento). Esta es una situacin ideal para presentar los resultados de ambos grupos
como media y desviacin tpica. Los resultados de la comparacin podran formularse
como sigue:
Cambio en PASI a
las 6 semanas
0,0
-5,0
-10,0
-15,0
-20,0
-25,0
-30,0
2.2.3 Numrica-Numrica.
Cuando hablamos de comparar dos variables numricas, pensamos en establecer la
posible relacin entre ellas. La va ms directa para estudiar la posible asociacin,
consiste en inspeccionar visualmente un diagrama de dispersin (nube de puntos).
Con ella se pretende buscar patrones en los datos.
Uno de los patrones ms bsicos para reconocer, es el de las tendencias lineales, que es
lo que ocurre cuando los puntos del diagrama tienden a no alejarse demasiado de una
lnea recta. Otro tipo de patrones pueden ser reconocibles, como sera la aproximacin a
una curva cuadrtica.
Si reconocemos una tendencia como las mencionadas, es una indicacin de que puede
valer la pena explorar con ms profundidad dichas relaciones con modelos que incluyan
tal vez ms variables. Si es el caso, puede interesarnos proseguir con un anlisis de
regresin mltiple.
Hay otra forma de exponer la relacin existente entre dos variables, y que se extiende
ms all del caso de la simple relacin lineal entre dos variables. Se puede utilizar para
describir cualquier otro tipo de relacin (cuadrtica, cbica, etc.) En estos casos se
utiliza un coeficiente que se suele escribir como R2, y al que se le denomina como
porcentaje de variabilidad explicado o bondad de ajuste. Toma valores entre 0 y 1,
pero tambin lo solemos encontrar expresado en porcentaje. Adems sirve para explicar
relaciones no slo entre dos, sino entre mltiples variables. En el caso del modelo lineal,
R2 no es ms que el coeficiente de correlacin lineal al cuadrado.
0,00
Grupo
Tto. habitual+nuevo
medicamento
Tto. habitual
-5,00
-10,00
-15,00
-20,00
-25,00
3.1 p-valores
Para presentar los resultados disponemos de varias posibilidades, de la que la ms
comn es la presentacin de p-valores (significacin estadstica). Un p-valor es una
cantidad que mide la evidencia en contra de la hiptesis nula. Esta ltima afirma que
no hay ningn patrn interesante en los datos, como por ejemplo la no existencia de
diferencia entre grupos de tratamiento. La forma habitual con la que nos lo encontramos
suele ser:
Francisco Javier Barn Lpez 16
Resultado
experimentado por el
paciente
Mejora No mejora Total
Grupo No intervencin Recuento 111 24 135
% de Grupo 82,2% 17,8% 100,0%
Intervencin Recuento 117 11 128
% de Grupo 91,4% 8,6% 100,0%
Total Recuento 228 35 263
% de Grupo 86,7% 13,3% 100,0%
El grupo de intervencin estaba formado por 128 pacientes frente a 135 del
grupo control. Se observ en el grupo de intervencin una mejora en el
91,4% de los casos (117 pacientes), significativamente superior al 82,2%
(111 pacientes) del grupo de control (z=2,2; p=0,028).
Otro tipo de pruebas con variables cualitativas que tambin conduce a una tabla de
doble entrada de dimensiones 2x2, es aquel en el que se observa la misma variable
dicotmica (sntomas presentes/ausentes) en un slo grupo de individuos, pero se hace
en dos ocasiones diferentes para saber si los pacientes han evolucionado con el tiempo.
En este caso se utiliza la prueba de McNemar. Un ejemplo de uso sera el siguiente,
donde se estudia si un grupo de individuos muy sensibles a la luz solar tiene tendencia a
cambiar en 2 aos consecutivos.
Francisco Javier Barn Lpez 18
Recuento
Irritaciones verrano
2007
No S Total
Irritaciones verano No 40 16 56
2006 S 4 80 84
Total 44 96 140
Otra forma de enunciarlo, ms clara, pero que no refleja tan directamente lo que se
contrasta en la prueba de Mc Nemar, que son los cambios de status en diferentes
momentos, sera:
Cuando sea posible se espera un intervalo de confianza asociado a las medias, aunque
esto no siempre es interesante, sobre todo cuando se est comparando los resultados de
un tratamiento en mltiples grupos de pacientes. En cualquier caso, siempre que se trate
de hacer inferencia, y tratndose de medias, hay que ofrecer una cantidad con cada una
denominada error tpico. Este nos da una idea de la precisin de la estimacin en cada
grupo de tratamiento. Cuando las medias en los grupos queden reflejadas en una grfica
a efecto de comparaciones, hemos de intentar acompaarlas de las respectivas barras de
error, aclarando si las estamos eligiendo del tamao de un error tpico, cuando se intenta
reflejar este directamente, o bien, dos errores tpicos, si intentamos reflejar cierta nocin
Francisco Javier Barn Lpez 19
de intervalo de confianza al 95%. Aunque no hay que engaarse en este ltimo caso,
pues estos intervalos no son reales.
-8,0
-10,0
-12,0
Grupo
Una vez que exponemos las estimaciones de la media en cada grupo, trataremos de
aplicar contrastes que tratan sobre si los efectos medidos en cada grupo de tratamiento
son similares.
En este caso, el p-valor muestra la evidencia que hay en contra de que las medias de
todos los grupos de tratamiento son iguales. Si se rechaza esta hiptesis (p<0,05 como
es habitual), pasaremos a contrastar qu grupos de tratamiento son los responsables de
este rechazo. Estos son los anlisis post-hoc de los resultados de ANOVA. Hay
mltiples contrastes a utilizar, dependiendo de las caractersticas de las muestras:
Diferencia Honestamente Significativa de Tukey, Scheff, Dunnet
Francisco Javier Barn Lpez 21
Los utilizamos para comparar valores de variables numricas en varios grupos, cuando
la aproximacin mediante el uso de medias no ha sido posible. En este caso los
resultados de cada grupo de tratamiento no los expresaremos en formas de mediaerror
tpico, sino ofreciendo la mediana y rango intercuartlico de cada grupo, adems del
valor obtenido en el contraste de significacin. Un ejemplo de cmo presentar los
resultados sigue a continuacin: