Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Representacion Grafica en Un Analisis de Datos Analisis Descriptivo PDF
Representacion Grafica en Un Analisis de Datos Analisis Descriptivo PDF
1/11
www.fisterra.com
2/11
Otro modo habitual, y muy til, de resumir una variable de tipo numrico es utilizando el concepto de
percentiles, mediante diagramas de cajas4,5. La Figura 5 muestra un grfico de cajas correspondiente a
los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos.
Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribucin. La lnea central en la caja es la
mediana. De este modo, si la variable es simtrica, dicha lnea se encontrar en el centro de la caja. Los
extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos,
aunque en ocasiones coinciden con los valores extremos de la distribucin. Se suelen tambin representar
aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta
especialmente til para comprobar, grficamente, posibles errores en nuestros datos. En general, los
diagramas de cajas resultan ms apropiados para representar variables que presenten una gran
desviacin de la distribucin normal. Como se ver ms adelante, resultan adems de gran ayuda cuando
se dispone de datos en distintos grupos de sujetos.
Por ltimo, y en lo que respecta a la descripcin de los datos, suele ser necesario, para posteriores
anlisis, comprobar la normalidad de alguna de las variables numricas de las que se dispone. Un
diagrama de cajas o un histograma son grficos sencillos que permiten comprobar, de un modo puramente
visual, la simetra y el "apuntamiento" de la distribucin de una variable y, por lo tanto, valorar su
desviacin de la normalidad. Existen otros mtodos grficos especficos para este propsito, como son los
grficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las
de una distribucin normal. Si la variable seleccionada coincide con la distribucin de prueba, los puntos
se concentran en torno a una lnea recta. Los grficos Q-Q se obtienen de modo anlogo, esta vez
representando los cuantiles de distribucin de la variable respecto a los cuantiles de la distribucin
normal. En la Figura 6 se muestra el grfico P-P correspondientes a los datos de la Tabla I que sugiere, al
igual que el correspondiente histograma y el diagrama de cajas, que la distribucin de la variable se aleja
de la normalidad.
Comparacin de dos o ms grupos.
Cuando se quieren comparar las observaciones tomadas en dos o ms grupos de individuos una vez ms
el mtodo estadstico a utilizar, as como los grficos apropiados para visualizar esa relacin, dependen
del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando grficos de barras o de
sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que
padecen una enfermedad coronaria es ms frecuente en aquellos que tienen algn familiar con
antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 7, dos
grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen
este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes
que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaos de las dos
poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el grfico
podra resultar engaoso.
Por otro lado, la comparacin de variables continuas en dos o ms grupos se realiza habitualmente en
trminos de su valor medio, por medio del test t de Student, anlisis de la varianza o mtodos no
paramtricos equivalentes, y as se ha de reflejar en el tipo de grfico utilizado. En este caso resulta muy
til un diagrama de barras de error, como en la Figura 8. En l se compara el ndice de masa corporal
en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95%
intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica
necesariamente que la diferencia entre ambos grupos pueda ser estadsticamente significativa, pero s nos
puede servir para valorar la magnitud de la misma. As mismo, para visualizar este tipo de asociaciones,
pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente tiles
aqu: no slo permiten ver si existe o no diferencia entre los grupos, sino que adems nos permiten
comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las
hiptesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los
procedimientos de anlisis paramtricos.
Por ltimo, sealar que tambin en esta situacin pueden utilizarse los ya conocidos grficos de barras,
representando aqu como altura de cada barra el valor medio de la variable de inters. Los grficos de
lneas pueden resultar tambin especialmente interesantes, sobre todo cuando interesa estudiar tendencias
www.fisterra.com
3/11
a lo largo del tiempo (Figura 9). No son ms que una serie de puntos conectados entre s mediante rectas,
donde cada punto puede representar distintas cosas segn lo que nos interese en cada momento (el valor
medio de una variable, porcentaje de casos en una categora, el valor mximo en cada grupo, etc).
Relacin entre dos variables numricas.
Cuando lo que interesa es estudiar la relacin entre dos variables continuas, el mtodo de anlisis
adecuado es el estudio de la correlacin. Los coeficientes de correlacin (Pearson, Spearman, etc.)
valoran hasta qu punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la
otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, grficamente, si existe una
correlacin alta, es mediante diagramas de dispersin, donde se confronta, en el eje horizontal, el valor
de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente
correlacionados es la relacin entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria,
podemos construir el diagrama de dispersin de la Figura 10. En l puede observarse claramente como
existe una relacin directa entre ambas variables, y valorar hasta qu punto dicha relacin puede
modelizarse por la ecuacin de una recta. Este tipo de grficos son, por lo tanto, especialmente tiles en la
etapa de seleccin de variables cuando se ajusta un modelo de regresin lineal.
Otros grficos.
Los tipos de grficos mostrados hasta aqu son los ms sencillos que podemos manejar, pero ofrecen
grandes posibilidades para la representacin de datos y pueden ser utilizados en mltiples situaciones,
incluso para representar los resultados obtenidos por mtodos de anlisis ms complicados. Podemos
utilizar, por ejemplo, dos diagramas de lneas superpuestos para visualizar los resultados de un anlisis de
la varianza con dos factores (Figura 11). Un diagrama de dispersin es el mtodo adecuado para valorar
el resultado de un modelo de regresin logstica (Figura 12). Existen incluso algunos anlisis concretos
que estn basados completamente en la representacin grfica. En particular, la elaboracin de curvas
ROC (Figura 13) y el clculo del rea bajo la curva constituyen el mtodo ms apropiado para valorar la
exactitud de una prueba diagnstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones grficas pueden
alcanzar en el proceso de anlisis de datos. La mayora de los textos estadsticos y epidemiolgicos4
hacen hincapi en los distintos tipos de grficos que se pueden crear, como una herramienta
imprescindible en la presentacin de resultados y el proceso de anlisis estadstico. No obstante, es difcil
precisar cundo es ms apropiado utilizar un grfico que una tabla. Ms bien podremos considerarlos dos
modos distintos pero complementarios de visualizar los mismos datos. La creciente utilizacin de
distintos programas informticos hace especialmente sencillo la obtencin de las mismas. La mayora de
los paquetes estadsticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades
en este sentido. Adems de los grficos vistos, es posible elaborar otros grficos, incluso
tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportacin a otros
programas para presentar finalmente los resultados del estudio.
www.fisterra.com
4/11
www.fisterra.com
5/11
N de pacientes
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
41
42
1
3
4
7
5
8
10
8
9
6
6
4
3
4
5
3
2
3
1
2
3
1
1
1
www.fisterra.com
6/11
www.fisterra.com
7/11
www.fisterra.com
8/11
www.fisterra.com
9/11
www.fisterra.com
10/11
www.fisterra.com
11/11
Bibliografa
1. Lang TA, Secic M. How to report statistics in medicine. Annotated Guidelines for authors, Editors, and
reviewers. Philadelphia: Port City Press; 1997.
2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ 1996; 312: 572.
[Medline] [texto completo]
3. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin Epidemiol 1993; 46(3): 231-6.
[Medline]
4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for biomedical
publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline]
5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method to interpret data. Ann
Intern Med 1989; 110 (11): 916-21. [Medline]
6.Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall;
1997.
www.fisterra.com