Está en la página 1de 12

Capítulo 22

EstadÍstica descriptiva e inferencial


Pedro Romero Aroca, Carlos Lázaro García, Julio José González López

«El auge de la estadística en el Siglo XX, como el de la geometría en el siglo III antes de Cristo, parece marcar
una de las grandes eras o periodos críticos en el desarrollo
del conocimiento humano»
Sir Ronald A. Fisher

1. Introducción terizan las variables y se utilizan en trabajos descripti-


2.  Estadística descriptiva vos y para definir nuestra muestra como primer paso
   a) Definir una distribución de datos. Índices de para realizar un análisis. La estadística inferencial,
centralización y dispersión en cambio, infiere alguna propiedad de la población
   b) Consideraciones estadísticas acerca de la agudeza a partir de nuestra muestra y se divide en dos tipos
vidual principales de técnicas: estimación de parámetros y
   c) Leyes teóricas que se ajustan a distribuciones contraste de hipótesis (estadística analítica). En este
biológicas capítulo abordaremos la estadística descriptiva y la
   d) Representaciones gráficas estimación de parámetros, reservando el próximo ca-
pítulo para el contraste de hipótesis.
3. Programas estadísticos. SPSS
4.  Estimación de parámetros
   a) Estimación puntual y por intervalos 2.  ESTADÍSTICA DESCRIPTIVA
   b) Inferencia bayesiana
a) Definir una distribución de datos. Índices de
centralización y dispersión
1. INTRODUCCIÓN
Vamos a aprender, antes que nada, a resumir
La estadística da sentido a la información acumu- todos los datos que hemos recopilado de nuestros
lada en los trabajos de investigación. Muchos pro- pacientes en índices (por ejemplo, media o desvia-
fesionales se sienten intimidados ante ella porque ción típica) que representan fielmente cada una de
creen que se trata de un campo complejo y extraño, las variables registradas. Las mayoría de las pruebas
ignorando que no es necesario ser un experto para estadísticas se sustentan en el uso de estos índices.
utilizar e interpretar la inmensa mayoría de las he- Para poder resumir de manera eficaz una variable,
rramientas estadísticas utilizadas en los estudios clí- debemos responder a tres preguntas:
nicos. Al igual que no es preciso saber programación – ¿Cuántos individuos hay en nuestra muestra?
para utilizar los programas de ordenador más habi- Tamaño muestral (n).
tuales, no se precisa tener una elevada base matemá- –  ¿Cuál es el valor central de la distribución? Me-
tica para utilizar correctamente la estadística. Solo didas de centralización.
tenemos que tener claro cuándo y cómo aplicar de –  ¿Los datos están muy próximos o muy disper-
manera apropiada los test estadísticos más frecuentes sos? Medidas de dispersión.
y comprender su verdadero significado. Si necesita- Medidas de centralización. Cuando medimos una
mos algo más complejo debemos hacer lo mismo variable cuantitativa, observamos que hay valores
que hacemos con toda naturalidad en nuestra profe- muy frecuentes en torno a los cuales se agrupan lo
sión: consultar con un especialista. demás, mientras que los valores extremos (muy altos
Los métodos estadísticos se clasifican en descrip- o muy bajos) son muy raros. A ese valor central es al
tivos e inferenciales. Los métodos descriptivos carac- que denominamos media aritmética (x). Su cálculo
166 22.  Estadística descriptiva e inferencial

es sencillo: basta con sumar todos los valores medi- un resultado positivo. Por tanto, si calculamos direc-
dos y dividir la suma entre el total de observaciones tamente la media de estas diferencias, el resultado
(n). siempre será 0. Para solucionar esto, podríamos cal-
cular la media de los valores absolutos de cada una
de las diferencias. El resultado de esto es la desvia-
ción media:

La media aritmética se usa como índice de cen-


tralización en muestras grandes y variables que si-
guen una distribución normal y es con mucho la más
utilizada, pero no la única. Para muestras pequeñas, Sin embargo, este índice es poco útil. Otra forma
asimétricas, y que no siguen la curva de Gauss, exis- que tenemos de deshacernos de los signos negativos
ten otras medidas de centralización: La mediana: es es elevar al cuadrado, por lo que el resultado de este
el valor que divide a la muestra en dos partes iguales, índice estará medido con las unidades originales ele-
una vez ordenadas todas las medidas de menos a ma- vadas al cuadrado. Promediando este sumatorio de
yor. Es equivalente del percentil 50 (P50) o del segun- los cuadrados de las diferencias, el índice que obte-
do cuartil (Q2). Si el tamaño muestral es impar, es el nemos es la varianza (V):
valor que queda en el medio. Si el tamaño muestral
es par, es la media aritmética (o semisuma) de los dos
valores centrales. La moda es el valor más repetido
de la distribución. Una distribución normal es uni-
modal (esto es, hay una única moda, que coincide Por ejemplo, si estamos calculando la varianza de
con la media y la mediana), pero puede haber distri- una longitud axial, medida en mm, el resultado de la
buciones bimodales (con dos modas) o con más de varianza estará dado en mm2. Si queremos que el va-
dos modas. Otras medidas de centralización, menos lor del índice de dispersión venga dado en las mismas
usadas en investigación clínica, son la media geomé- unidades que la media aritmética, la solución consis-
trica y la media armónica. te en hallar su raíz cuadrada. Al resultado de esto es
Medidas de posición. La interpretación de estos a lo que llamamos desviación típica, o estándar (SD):
índices es similar al de la mediana. Se trata de índices
que dividen a la muestra en X partes iguales.
–  Cuartiles: son los 3 valores que dividen la
muestra en 4 partes de igual tamaño.
–  Deciles: son los 9 valores que dividen la mues- b) Consideraciones estadísticas de la agudeza
tra en 10 partes de igual tamaño. vidual
–  Percentiles: son los 99 valores que dividen la
muestra en 100 partes de igual tamaño. El cálculo de la media y la desviación estándar de
Medidas de dispersión. La forma más sencilla de la agudeza visual no es difícil, pero se hace de una
explicar la dispersión de nuestros datos consiste en manera incorrecta en múltiples estudios de investiga-
calcular la extensión del intervalo entre el menor va- ción. El problema reside en que los optotipos actua-
lor observado y el mayor. Este índice es el rango o les siguen una progresión geométrica, no aritmética
recorrido. Sin embargo, el rango se ve muy afectado (el tamaño del optotipo correspondiente a una AV de
por los valores extremos y es útil para describir la 0,1 no es el doble que la que corresponde a 0,2, sino
dispersión de muestras pequeñas, asimétricas, o que que cada paso de nivel supone un cambio de 0,1 uni-
no siguen una distribución normal. dades logarítmicas). Por ello debe utilizarse la media
Para variables normales y muestras grandes, las geométrica, no la aritmética. La forma más sencilla
medidas de dispersión más usadas son la varianza, y de calcular la medida de un grupo de agudezas vi-
la desviación típica (o estándar). suales es utilizar no los optotipos de Snellen, sino
Una primera iaproximación para definir la dis- los optotipos de LogMAR (que significa logaritmo del
persión de las observaciones es calcular la diferen- ángulo mínimo de resolución) y calcular entonces la
cia entre la media aritmética y cada observación. El media aritmética de los valores obtenidos. Si no dis-
problema que tendremos aquí es que la mitad de las ponemos de éstos, debemos convertir cada valor al
diferencias tendrán un resultado negativo y la mitad LogMAR equivalente y seguidamente hacer la media,
22.  Estadística descriptiva e inferencial 167

volviendo a hacer la conversión a la escala decimal Otro caso muy frecuente se da en pacientes que
del resultado. También vale con hacer una transfor- no leen todos los optotipos de una línea. Una so-
mación logarítmica de los valores decimales, con lo lución, probablemente la más utilizada, es tomar la
que consigue normalizar la distribución. La tabla I da línea con mayor agudeza visual en la cual el pacien-
una equivalencia de ambos parámetros y existen cal- te ha sido capaz de ver la mayoría de los optotipos
culadoras on-line para el mismo propósito (www.in- (por ejemplo, 3 de 5). Un método más exacto es in-
fodoctor.org/gipi/f/calculos_optotipos.xls). Lo mismo terpolar entre los valores vistos completamente y los
que ocurre para el cálculo de la media, sucede para parcialmetne con el cociente de letras vistas, siempre
otros cálculos estadísticos, tales como t de Student, sobre el LogMar.
ANOVA, correlaciones. Siempre deben utilizarse los
valores del LogMar. Ejemplo 22.1
Tabla I .  Correspondencia entre agudezas
visuales  n paciente ve todas las letras de la fila
U
de optotipos correspondientes a 20/50
Equivalente Equivalente deci- Equivalente
Snellen (pies) mal (minutos) LogMAR
(0,4), pero sólo tres de cinco de la fila de
20/40 (0,5). En escala LogMar ambas es-
20/16 1,25 -0,10
calas corresponden a +0,4 y +0,3. Y 3 de
20/20 1 0 5 letras corresponden a 3/5 del intervalo
20/25 0,8 +0,10 entre +0,4 y +0,3, que es +0,36, el valor
20/32 0,63 +0,20 que debe ser tomado.
20/40 0,5 +0,30
20/50 0,40 +0,40 Ejemplo 22.2
20/63 0,32 +0,50
20/100 0,2 +0,7 Vamos a hallar la media de la AV de los 7
20/200 0,1 +1 ojos que se detallan en la siguiente tabla:
20/400 0,05 +1,3
Otro problema se plantea con las agudezas visua- Datos de agudeza visual
les computadas como «contar dedos» «movimiento Ojo AV Equivalente Equivalente LogMar
de manos», «percepción de luz» y «no percepción (pies) Snellen decimal equivalente
de luz». Holliday da las siguientes recomendaciones en pies
de equivalencia: 1 20/10 20/10 2 -0,3
–  «Contar dedos»: se puede asumir que, en pies 2 20/10(-2) 20/10(-2) 2 (-2) -0,25
se puede hacer un equivalente con un cociente entre
3 20/40 20/40 0,5 0,3
el número de pies a los que se ha contado dedos y
200 de denominador A 10 pies la AV sería de 10/200 4 20/40(+3) 20/40(+3) 0,5 (+3) 0,24
y a 2 pies 2/200. Si lo tomamos en metros, es lo mis- 5 20/200 20/200 0,1 1
mo con un denominador de 60. Por ejemplo, si se 6 Cuenta 2/200 0,01 2
cuenta dedos a 3 metros 3/60= 0,03 en escala deci- dedos a 2
mal y a 1 metro 1/60=0,016. pies (=60
cm)
– Si no cuenta dedos y solo ve movimiento de
mano, los denominadores son, respectivamene 2000 7 Movimiento 2/2000 0,001 3
y 600. Es decir, que movimiento de manos a un me- de manos
a 2 pies
tro es 1/600= 0,0016 en escala decimal. (=60 cm)
–  La agudeza visual reducida a la percepción de
Medias 20/142 0,141 0,85
luz y no percepción de luz, según Holliday no son
medidas reales de la agudeza visual y por lo tanto Las agudezas visuales se han pasado to-
estos casos deberían ser excluídas del estudios y se- das a LogMar (última columna), respe-
ñaladas como criterio de exclusión en el material y tando la conversión de interpolación an-
métodos. Ese punto es muy discutible, ya que da lu- teriormente citada de aquellos pacientes
gar a un sesgo evidente. que solo veían unos cuantos optotipos
168 22.  Estadística descriptiva e inferencial

de su última fila (paciente 2 y 4) y las d) Representaciones gráficas


conversiones de contar dedos y movi-
miento de mano (paciente 5 y 6) Las representaciones gráficas son un medio muy
útil para entender los estudios estadísticos, debido a
que una imagen penetra más fácilmente en nuestro
entendimiento de los resultados que la observación
c) Leyes teóricas que se ajustan a distribuciones simple de series numéricas.
biológicas Utilidad de las representaciones gráficas (1, 2):
1.  Permiten que nos demos cuenta del desarrollo
Las variables de una población en muchas ocasiones de cualquier fenómeno estadístico fácilmente
se ajustan a modelos matemáticos preestablecidos. Si 2. Facilitan la observación y detección de rela-
sabemos que la variable que estudiamos se asocia a un ciones entre series de datos, en las que aún no se ha
modelo conocido, eso significa que tenemos un enor- analizado matemáticamente su posible relación.
me poder sobre ella. Al tener la fórmula matemática que 3.  Nos ayudan a juzgar la exactitud de los resul-
siguen nuestros datos podemos, por ejemplo, dibujar tados obtenidos, tras el análisis matemático.
la curva que expresa ese modelo y aplicar test estadís- 4.  Facilitan la observación de la interdependen-
ticos que están basados precisamente en que nuestras cia que pudiera existir entre dos variables.
variables siguen determinados modelos matemáticos y Si bien las representaciones gráficas son muy úti-
no otros. Hay modelos a los que se ajustan una gran les para observar de forma clara y resumida la infor-
cantidad de mediciones en la naturaleza y el modelo de mación recogida sobre la variable estudiada (es muy
distribución normal o de Gauss es el más frecuente y co- cierto el aserto que una imagen vale más que mil pa-
nocido. Saber si nuestras variables siguen una distribu- labras), hemos de ser muy prudentes al confeccionar
ción normal es vital para utilizar más tarde las pruebas o interpretar las mismas, puesto que una misma infor-
estadísticas más frecuentes, llamadas paramétricas (ver mación se puede representar de formas muy diversas,
capítulo 21, contraste de hipótesis). Existen otras distri- y no todas ellas van a ser válidas.
buciones que también se dan en la naturaleza, como la
distribución binomial o la de Poisson, pero su descrip-
ción queda fuera del ámbito de este trabajo. Variables cualitativas y cuantitativas discretas
Distribución normal de Gauss: La distribución
normal fue descrita inicialmente por A. Moivre y pos- –  Diagrama de barras o columnas: Se realizan
teriormente desarrollada por C.F. Gauss, por lo que sobre dos ejes de coordenadas, uno de abscisas (hori-
es también conocida comúnmente como «Curva de zontal) y otro de ordenadas (vertical). En el de absci-
Gauss» (fig. 1) La distribución de una variable normal sas se disponen los valores de la variable, y en el or-
está determinada por su media (m) y desviación típi- denadas la escala de frecuencias a partir del valor 0.
ca (s). Las propiedades de una distribución normal se La altura del valor de cada variable en las ordenadas
describen en la tabla II. corresponderá a la frecuencia de cada variable. Es
importante en la elaboración de este gráfico tener en
cuenta que sea cual sea la frecuencia considerada, la
escala siempre debe iniciarse en cero y coincidir con
el cero de ordenadas. La representación puede reali-
zarse de forma horizontal, como en la figura 2 o bien
con el cero de frecuencias en vertical, además como
presentamos los distintos valores de frecuencias pue-
den dibujares uno junto a otro o bien separados entre
ellos.
–  Sectores circulares. Este gráfico se construye
repartiendo los 360º del círculo proporcionalmente
a la intensidad que registra el fenómeno considerado
y expresado generalmente en forma de porcentaje.
Cada sector que se forma debe ajustarse a la frecuen-
Fig. 1: Distribución normal y sus porcentajes respecto de la cia de aparición de los valores de la variable estudia-
desviación estándar. da, para ello es preciso calcular los grados del ángu-
22.  Estadística descriptiva e inferencial 169

Tabla II. Propiedades de una distribución normal


– La curva normal es asintótica al eje de abscisas (se acerca cada vez más a ella por ambos extremos sin llegar nunca a
encontrarla), por lo que cualquier valor entre -∞ y +∞ es posible. El área total bajo la curva es 1
– La distancia entre la línea en la media y el punto de inflexión de la curva es igual a una desviación estándar. Cuanto
mayor sea σ, más aplanada será la curva
– Presenta sólo una moda, coincidiendo con la media y la mediana
– Es una distribución «simétrica» con relación a su media. Es por tanto igual de probable observar un dato menor que
mayor a la media (50%)
– Hay un 95% de probabilidades de que un valor cualquiera se encuentre entre el valor de la media ± dos desviaciones
estándar
– La forma de la campana de Gauss dependerá de la media y de la desviación estándar. La media nos va a indicar la po-
sición de la campana desplazándose a lo largo del eje horizontal mientras que la desviación estándar es la responsable
del grado de elevación de la curva. A mayor desviación estándar, mayor dispersión de los valores alrededor de la media
y por lo tanto la curva será más plana

lo de su sector circular, una vez repartidos los 360º prevalencia de una determinada enfermedad en las
del círculo en los diferentes sectores, uno por cada distintas regiones de un país o del mundo.
variable, se puede trazar la imagen. En el ejemplo –  Diagrama polar: Es una forma de gráfico similar
que presentamos en la figura 3, definimos dos secto- a los sectores circulares, por ejemplo si queremos re-
res diferenciados que corresponden al porcentaje de presentar la asistencia anual, de los pacientes diabéti-
hombres y mujeres de la muestra de un estudio de cos a una unidad de cámara no midriática, para reali-
prevalencia de retinopatía diabética (3). zarse las retinografías de control del fondo de ojo, en
–  Pictogramas y cartogramas. Los pictogramas este caso para reproducir la gráfica representaremos
son gráficos especiales, en que para hacer más llama- el número de pacientes vistos en cada mes mediante
tivo el mismo, se dibujan en lugar de barras, figuras una línea con punto 0 y que se irán disponiendo en
representativas de la variable estudiada, por ejemplo forma circular una al lado de la otra separadas por el
el caso típico es la representación del crecimiento ángulo polar, dando lugar a una circunferencia divi-
de la población de un determinado País, de manera dida en los doce meses del año. Cada línea formará
que se van representando imágenes progresivamente un radio propio de longitud proporcional al número
más altas de un sujeto, que representan el aumento de visitas realizadas cada mes en la unidad de cáma-
de la población. Los cartogramas son mapas geográ- ra no midriática (4). En estos gráficos siempre se traza
ficos en los que la intensidad de la variable estudiada un círculo con radio en la media aritmética, y así se
en diferentes regiones, se representan por ejemplo, puede visualizar mejor las variaciones de asistencia
mediante la intensidad del rayado o de la coloración según los meses del año (fig. 4).
de cada una de ellas, son muy utilizados para señalar
datos demográficos como densidad de población o
Variables cuantitativas continuas

–  Histograma. Este tipo de gráfico es el más uti-


lizado para la representación de variables cuantita-

Fig.  2: Gráfico en forma de columnas de la prevalencia de Fig.  3: Imagen en sector circular representa la distribución
pacientes con retinopatía diabética (3). según el sexo de los pacientes con diabetes mellitus tipo 2.
170 22.  Estadística descriptiva e inferencial

mar en el gráfico los datos, debemos pues primero


detenernos a describir que se entiende por frecuen-
cia y los tipos de la misma que existen: frecuencia
absoluta y frecuencia relativa. Tal y como hemos
descrito anteriormente prácticamente utilizaremos
variables cuantitativas discretas, si consideramos los
datos compuestos de observaciones de una variable
discreta X, la frecuencia absoluta de cualquier valor x
particular es el número de veces que ocurre un valor
en el conjunto de datos, y la frecuencia relativa es la
fracción o proporción de veces que ocurre el valor, y
puede obtenerse mediante la fórmula:
Frecuencia relativa = Número de veces que ocu-
rre el valor / número de observaciones en el conjunto
de datos
Si se multiplica una frecuencia relativa por 100, se
Fig.  4: Representación mediante un gráfico polar, de los pa- obtiene un porcentaje, con lo que las frecuencias re-
cientes que acudieron a una Unidad de Cámara no Midriá- lativas las podemos definir en forma de porcentajes,
tica (4), durante el periodo de un año dividido en meses, que generalmente interesan más que las frecuencias
para el cribado de la retinopatía diabética. mismas, al convertir las frecuencias en porcentajes va
a tener lugar un suceso que es frecuente encontrar en
tivas, tanto discretas como continuas. Recordemos los estudios científicos publicados, y es que la suma
que una variable continua discreta se denomina a de los valores de todas las frecuencias relativas en
aquella que su conjunto de valores posibles es finito forma de porcentaje de una variable, aunque debe-
o se puede enumerar en una sucesión infinita (una rían sumar 1, en la práctica podemos encontrarnos
en la cual existe un primer número, un segundo nú- valores que difieren de 1 (normalmente por debajo
mero y así sucesivamente, una variable discreta re- de 1), debido al redondeo que se produce al presen-
sulta de contar sus valores así pueden estos ser 0, 1, tar un valor en forma de porcentaje.
2, 3, 4 ,5…), asimismo una variable cuantitativa es Una vez descrito lo que significa frecuencia y fre-
continua si sus valores posibles abarcan un intervalo cuencia relativa, podemos volver a la construcción
completo sobre la línea de números (1,2). De todas de la gráfica de frecuencias (fig. 5).
maneras prácticamente todas las variables que vamos
a manejar en los estudios van a ser discretas, puesto
que los instrumentos de medida que disponemos, por
precisos que sean, no permiten apreciar datos infini-
tesimales. Para poder representar gráficamente estas
variables mediante un histograma hemos de seguir
una sistemática de tal manera que hemos de seguir
los siguientes pasos:
1.  Los valores de la variable deben agruparse en
intervalos
2. Deberemos fijar los límites exactos de cada
uno de los intervalos de la variable en el eje de abs-
cisas
3.  Sobre el eje de ordenadas construiremos una
escala de frecuencias que debe iniciarse en el valor
0 (requisito que no es necesario para iniciar el eje de
abscisas)
4. Sobre el eje de abscisas levantaremos tantos
rectángulos como intervalos existan. Fig.  5: Histograma y polígono de frecuencias que represen-
Como vemos en el último punto es necesario de- tan la distribución de los niveles de HbA1c de la muestra de
terminar la frecuencia de un suceso para poder plas- un estudio de retinopatía diabética y microalbuminuria (3).
22.  Estadística descriptiva e inferencial 171

Otros tipos de representaciones gráficas

Los tipos de representaciones gráficas hasta aho-


ra descritos, son los más habituales en los estudios
estadísticos, pero hay que hacer mención también
a otros a los que se puede recurrir en determinadas
circunstancias, como son el diagrama de puntos y las
gráficas en dos dimensiones.
–  Diagrama de puntos. Consiste en figuras
geométricas iguales, que pueden ser cuadrados o lí-
Fig.  6: En el gráfico representamos la incidencia de distintas
neas de abscisas, que contienen cada uno un número
formas de afectación ocular y renal, de una muestra de po-
de puntos proporcionales a la intensidad del fenó- blación de pacientes con diabetes mellitus a lo largo de 20
meno a representar. Cada punto puede representar años de seguimiento, con cortes realizados cada 5 años (3).
la unidad o bien un número equivalente a la misma.
Su principal ventaja es que puede representar una distribuyen los valores máximos, mínimos y media
cantidad grande de información y proporcionar un para cada uno de los valores de la variable estudiada,
impacto visual de conjunto sobre el fenómeno estu- con lo que podemos a su vez observar el grado de
diado. Los gráficos de puntos pueden utilizarse cuan- dispersión para cada dato representado en el eje de
do el conjunto de datos es razonablemente pequeño abscisas.
o existen pocos valores de datos distintos. Este tipo de gráficos pueden servirnos para obser-
var de forma visual rápida la mayor o menor concen-
tración de sujetos de una muestra según la variable
Gráficos lineales y semilogarítmicos tiempo, como podemos observar en la figura 7, en
la que presentamos los valores de HbA1c para cada
–  Gráfico lineal. Este tipo de gráfico se construye tipo de retinopatía diabética (RD), gráficamente ob-
sobre dos ejes (eje x = abscisas, eje y = ordenadas) servamos que los niveles medios de HbA1c son cada
con un punto 0 de origen de ambos ejes. Estos gráfi- vez mayores a medida que la RD se agrava, de forma
cos se diferencian de los de barras y del histograma, que la forma proliferativa es la que tiene niveles me-
porque en estos últimos los valores de las variables dios mayores de HbA1c, a su vez podemos observar
que se colocan sobre el eje de abscisas no tienen por que la mayor oscilación de valores de HbA1c se da
qué empezar en el valor 0, ni este coincidir con el en el grupo de pacientes con RD de tipo moderado,
cero de ordenadas; además en ellos se utiliza el eje con niveles mínimos y máximos superiores a los de-
de ordenadas (y) para colocar las frecuencias de la
aparición de los valores de la variable, mientras que
en el gráfico lineal esto no es así. Como ejemplo pre-
sentamos la incidencia de retinopatía diabética y de
insuficiencia renal diabética en un estudio de segui-
miento de una población de pacientes con diabetes
mellitus tipo 1 (fig.  6), a lo largo de 20 años, con
cortes realizados cada 5 años (3).
–  Gráfico semilogarítmico. La diferencia entre
un gráfico lineal y uno semilogarítmico, radica en
la escala utilizada en el eje de ordenadas (eje y), ya
que utilizaremos una escala logarítmica de los datos,
mientras que en el eje de abscisas (eje x) utilizaremos
una escala lineal de datos. Este tipo de gráfico se uti-
liza cuando la variable que vamos a colocar sobre
el eje de ordenadas es susceptible de transformación
logarítmica. Fig.  7: En el eje de abscisas se representan los tipos de reti-
–  Gráfico de máximos y mínimos. En este tipo de nopatía diabética que se han encontrado en un estudio de
gráfico se representan en el eje de abscisas los valo- incidencia (0 = no RD, 1 = RD leve, 2 = RD moderada, 3=
res de la variable a estudiar, y en el de ordenadas se RD severa, y 4 = RD proliferativa).
172 22.  Estadística descriptiva e inferencial

más tipos de retinopatía. Una variante actualmente 3. PROGRAMAS ESTADÍSTICOS, SPSS


introducida es la de los gráficos de cajas, se utilizan
para describir las características más prominentes de Los programas estadísticos se crearon para poder
un conjunto de datos, que incluyen: la media, la dis- realizar cualquier estudio estadístico o epidemioló-
persión, la mediana y los valores más extremos (infe- gico, a partir de datos almacenados en plantillas de
rior y superior). otros programas como Excel o Access. Actualmente
–  Gráfico de dispersión. Un gráfico de dispersión existen diferentes programas que se usan habitual-
es un tipo de gráfico que se utiliza para mostrar los mente en los estudios de biomedicina, los más fre-
valores de dos variables para un conjunto de datos, cuentes son: STATA, SAS y SPSS. Y entre los gratuitos,
son útiles para mostrar la relación entre diferentes Epi-Info y Epidat. Existen también numerosas calcu-
puntos de datos, y utiliza valores numéricos para am- ladoras «on line» que realizan el cálculo de numero-
bos ejes. Los datos se muestran como un conjunto de sos test estadísticos y encontrarlos es sencillo desde
puntos, cada uno con el valor de una variable en el cualquier buscador. Por ejemplo, en un sitio como
eje de abscisas y el valor de la otra variable situado http://statpages.org/#WhichAnalysis encontramos
en el de ordenadas. La variable independiente habi- múltiples aplicaciones estadísticas. En los apartados
tualmente se representa a lo largo del eje de absci- correspondientes pondremos ejemplos de calculado-
sas y la dependiente usualmente se representa a lo ras on line de algunos test específicos.
largo del eje de ordenadas. Si no existe una variable El programa SPSS (Statistical package for the so-
dependiente, cualquier variable se puede represen- cial sciences), está elaborado por IBM y está en uso
tar en cada eje. El diagrama de dispersión mostrará la versión 21.0. Es el más extendido actualmente en
el grado de correlación entre las dos variables. Un oftalmología sobre todo en Europa, y especialmente
gráfico de dispersión puede sugerir varios tipos de en España, posiblemente porque su interfaz gráfica de
correlaciones entre las variables. Se puede dibujar usuario (GUI) sea más sencilla que el funcionamien-
una línea de ajuste (llamada también “línea de ten- to por comandos de los otros dos programas. Es muy
dencia”) con el fin de estudiar la correlación entre las útil y completo, pero también muy caro (generalmente
variables. Uno de los aspectos más importantes de un solo los hospitales o unidades de investigación tienen
gráfico de dispersión, es su capacidad para mostrar acceso a él) y lleva cierto tiempo conocer su manejo.
las relaciones no lineales entre las variables. Presen- Si deseamos investigar de manera habitual emplear
tamos como ejemplo, en la figura 8 un gráfico de un poco de tiempo en su aprendizaje nos será muy
dispersión para la variable grosor macular en los ca- provechoso. Aquí vamos a dar un vistazo general del
sos de edema macular diabético de una serie clínica programa y en apartados posteriores pondremos algún
(5), en este caso las variables de los dos ejes no están ejemplo de su uso con las pruebas más utilizadas .
correlacionadas (correlación nula), ya que el eje de La pantalla del SPSS se compone de dos tablas. La
abscisas se limita a representar cada uno de los casos tabla de datos (fig. 9) es donde colocaremos los datos,
registrados en el estudio. bien de forma directa o bien importándolos desde una
tabla de Excel (mediante un sencillo paso de copiar y
pegar). Cada columna de la tabla de datos es una va-
riable, con su nombre en la cabecera y cada fila es un
caso. Desde esta tabla podemos realizar la conversión
de una variable en otra, o fundir dos variables distin-
tas de datos, o definir nuevas variables a partir de las
operaciones que queramos. Una tabla adjunta es la
tabla de variables (fig. 10), donde debemos definir las
características de cada una, si es numérica (cuantita-
tiva) o bien cualitativa. Las variables cualitativas de-
berían seguir siendo numéricas, y adjudicaremos un
número a cada valor (por ejemplo, 0=no; 1=sí). Con
las variables de tipo cadena no podremos operar. La
Fig.  8: Gráfico en el que representamos los valores del gro- columna denominada «medida» define de nuevo la
sor macular en pacientes con edema macular diabético, variable como escala, ordinal o nominal.
procedentes de una muestra de un estudio de incidencia El análisis estadístico lo hemos de realizar a partir
a los 15 años (5). de la tabla de datos. En la barra superior aparece la
22.  Estadística descriptiva e inferencial 173

Fig.  9: Tabla de definición de variables en el SPSS en un ejemplo de estudio propio del autor.

Fig.  10: Tabla de ejemplo de las variables de un estudio.


174 22.  Estadística descriptiva e inferencial

pestaña análisis, que al abrirla nos permite realizar fica a construir (observar la barra inferior derecha de
el análisis estadístico que deseemos, empieza por el la figura 12): barras, líneas, áreas, sectores/polar, etc.
estudio de estadísticas descriptivas (que hemos se-
ñalado en amarillo en la fig. 12), que nos permitira
analizar las frecuencias de las variables cualitativas y
el estudio descriptivo de las variables cuantitativas.
En los siguientes puntos de la pestaña (fig. 11), pode-
mos comparar medias mediante los distintos estadís-
ticos como la T de Student o el análisis de varianza
mediante ANOVA. Siguiendo veremos la posibilidad
de estudiar tablas de contingencia mediante los esta-
dísticos Chi Cuadrado o equivalentes. Siguiendo ten- 4.  ESTIMACIÓN DE PARÁMETROS
dremos la posibilidad de estudios mediante regresión
logística, o estudios de supervivencia o el estudio de Pasemos ahora de la mera descripción de los da-
la curva de ROC. tos de nuestra muestra a extraer datos que puedan
En la misma barra superior en las versiones más ser aplicados al conjunto de la población de la cual
recientes, se puede realizar la construcción de gráfi- procede nuestra muestra. Pasamos, por tanto, a la es-
cas, abriendo la pestaña gráficos (fig. 12), al hacerlo tadística inferencial. Los datos obtenidos de nuestra
veremos que se abre la posibilidad de escoger la grá- muestra tienen un interés limitado, ya que de los mis-

Fig.  11: Observamos la pestaña de análisis estadístico abierta, con todos los posibles análisis a realizar, en concreto hemos
abierto la pestaña frecuencias y observamos que se desplegan la posibilidad de realizar estudios de frecuencia, descriptivos
o tablas de contingencia (ver capítulo 23).
22.  Estadística descriptiva e inferencial 175

Fig. 12: Observamos la pestaña gráficos abierta, y una gráfica de columnas.

mos sólo se pueden obtener conclusiones atribuibles intervalo de confianza. Si junto a nuestro resultado
a la propia muestra, y no a la población de la que incluimos el intervalo de confianza, y la probabilidad
proviene. Para poder generalizar los resultados de de que el verdadero resultado poblacional se escape
nuestra muestra al conjunto de la población, es ne- de él, estaremos ya no nos referimos a nuestra mues-
cesario hacer una estimación o inferencia, y además, tra, sino a la población. Es relativamente frecuente
poder cuantificar la probabilidad de equivocarnos al que en artículos publicados se den estimaciones de
hacer esa estimación. He aquí una de las grandes parámetros en forma de medias o porcentajes sin dar
aportaciones del método estadístico a la investiga- su correspondiente intervalo de confianza. Como ya
ción: la posibilidad de extrapolar conclusiones pro- comentamos (capítulo 7), esa es una información que
venientes de experimentos limitados a poblaciones tiene muy poco o nulo valor, ya que el resultado real
enteras. Debemos saber cómo se hace y también a podría estar muy diferente al propuesto si el interva-
cuantificar el error de nuestras estimaciones. lo de confianza desconocido resulta ser demasiado
amplio.

a) Estimación puntual y por intervalos Ejemplo 22.3

Si deseamos obtener conclusiones sobre la pobla-  En un viejo chiste de los libros de esta-
ción a partir de una muestra debemos pagar dos tri- dística, se ve un anuncio que reza: «El
butos: perder precisión, y admitir la probabilidad de 66% de los odontólogos encuestados
que podamos equivocarnos. La pérdida de precisión recomiendan nuestro dentífrico sin azú-
nos dará un «temblor», un intervalo de incertidum- car». Y en letra diminuta se lee debajo.
bre dentro del cual suponemos que está el verdadero «A Jones no pudimos convencerle». El
valor de la variable poblacional estudiada: ese es el porcentaje expresado es correcto: en-
176 22.  Estadística descriptiva e inferencial

trevistaron a tres odontólogos y dos se Descriptivos


mostraron partidarios de su producto, Astigmatismo Estadístico Error
exactamente el 66,66%, pero la infor- típ.
mación que nos da sobre la opinión real
Media ,812 ,0659
de todos los odontólogos es muy escasa.
El porcentaje real que opinan de esa for- Intervalo de confianza para la
media al 9
ma podría ser muy diferente.   Límite inferior ,679
  Límite superior ,944

Ejemplo 22.4 Media recortada al 5% ,778


Mediana ,700
 Los autores de un estudio afirman que Varianza ,221
el porcentaje de pacientes con hiperten-
Desv. típ. ,4706
sión ocular inferidos para una población
mayor de 40 años es de un 4,8%, con Mínimo ,2
un intervalo de confianza del 95% cu- Máximo 2,2
yos límites son 3,9% y 5,8%. Eso signi- Rango 2,0
fica que se tiene un 95% de confianza
Amplitud intercuartil ,7
de que el porcentaje real de hipertensos
está incluído en ese intervalo. Asimetría ,911 ,333
Curtosis ,530 ,656
El cálculo del intervalo de confianza en la estima-
ción de una media es muy sencillo, basta con cono-
cer la media, la desviación estándar y el tamaño de
la muestra. Para el cálculo de los intervalos de con-
fianza, aparte de los programas habituales, tenemos BIBLIOGRAFÍA
herramientas muy sencillas, por ejemplo:
http://www.mccallum-layton.co.uk/stats/Confi-  1. Devore JL. Probabilidad y estadística para ingenieros y
denceIntervalCalc.aspx ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.;
2008 pag 10-31.
http://www.mccallum-layton.co.uk/stats/Confi-
 2. Pardell H, Cobo E, Canela J. Manual de bioestadística. .
denceIntervalCalcProportions.aspx Editorial MASSON SA Barcelona 1986. pag: 11-14.
  3. Pardell H, Cobo E, Canela J. Manual de bioestadística. Edi-
Ejemplo 22.5 torial MASSON SA Barcelona 1986. pag: 38-52.
 4. Devore JL. Probabilidad y estadística para ingenieros y
 
Hemos realizado las medidas del as- ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.;
2008 pag 10-31 3.
tigmatismo de 51 sujetos de pobla-   5. Romero Aroca, P; Del Castillo Dejarin, D. Estudio de pre-
ción normal y deseamos calcular la valencia de la retinopatía diabética en la población del
media y desviación estándar, así como Baix Camp (Tarragona). Arch Soc Esp Oftalmol 1996; 71
los intervalos de confianza al 95%. (3): 261-268.
En el SPSS, una vez introducidos los da-   6. Romero-Aroca P, Reyes Torres J, Sagarra-Alamo R, Basora
Gallisa J, Fernández-Balart J, Pareja Ríos A, Baget-Bernal-
tos y vamos al apartado Analizar g Es- diz M. Impacto de la implantación de la cámara no midriá-
tadísticos descriptivos g Explorar y ajus- tica sobre la población diabética. Salud & Ciencia 2012;
tando en la pestaña «estadísticos« un 2(19): 158-62.
95% de intervalo de confianza, tenemos   7. Romero P, Baget M, Mendez I, Fernández J, Salvat M, Mar-
el siguiente resultado: nuestra media es tinez I. Diabetic macular edema and its relationship to re-
nal microangiopathy: a sample of Type I diabetes mellitus
de 0.81 D con un intervalo de confianza patients in a 15-year follow-up study. J Diabetes Complica-
de 0,67 a 0,94 D. Se muestran también tions. 2007 May-Jun; 21(3): 172-80.
otros parámetros, como la mediana, el   8. Bolstad, William M. (2004) Introduction to Bayesian Statis-
rango o la desviación típica. tics, John Wiley.

También podría gustarte