Documentos de Académico
Documentos de Profesional
Documentos de Cultura
la
U
de
tic
a
ds
sta
eB
ioe
td
ita
Un
AL
RA
rG
pe
Te
x
te
lab
or
at
Estadstica descriptiva
1. Guin de lectura.
1)
Por qu es mejor describir una variable categrica mediante sus frecuencias relativas que
la
U
2)
AB
de
ds
4)
tic
a
(o porcentaje) acumulado?
sta
son?
Qu sucede con las medidas de tendencia central cuando hay valores extremos?
6)
eB
ioe
5)
td
ita
7)
Un
9)
Qu mide la curtosis?
10)
11)
Una variable con sesgo, forzosamente presentar una curtosis mayor a tres?
at
pe
rG
RA
AL
-
8)
lab
or
12)
Te
x
te
13)
Mida la talla de cmo mnimo cinco personas de su entorno (familia, amigos, etc):
a. Comente las diversas fuentes de variabilidad existentes en la medicin que ha
realizado.
b. Construya una tabla de datos donde para cada individuo conste la talla, el sexo y la
edad.
c.
Calcule las medidas de tendencia central y dispersin que segn su opinin mejor
describen esta variable.
Estadstica descriptiva
2. Introduccin.
la
U
AB
Podramos definir la estadstica descriptiva como un conjunto de tcnicas que permiten resumir y
presentar de forma clara y concisa los datos registrados en una muestra y que, por tanto, nos da una
primera idea sobre la variabilidad de una medida. Para tal propsito, se puede considerar que existen
dos aproximaciones: la representacin grfica de variables y la presentacin de los estadsticos
relevantes para el resumen de cada una de ellas.
ds
tic
a
de
A pesar de que la representacin grfica nos da una primera impresin acerca de la variabilidad
obtenida, es decir si es muy dispersa, si presenta un rango de valores ms frecuentes que otros, si
existen valores extremos o si la variabilidad es simtrica respecto a un valor central, el problema
fundamental es ese, que es una impresin y adems visual, por lo que con facilidad puede inducirse
impresiones equivocadas nicamente modificando, por ejemplo, la escala de los grficos. Por esta razn
la descripcin de la variabilidad de una de una medida, de una variable aleatoria, debe efectuarse,
tambin y especialmente, a travs de estadsticos que sean capaces de mostrarnos y resumirnos la
informacin ms relevante inherente a los datos de una muestra.
ita
td
eB
ioe
sta
Es evidente que la mxima informacin que un investigador puede ofrecer a sus colegas es, de hecho,
todo el conjunto de datos recolectados, pero la comunicacin se convertira en algo confuso y demasiado
compleja. Analizar gran cantidad de datos observando exclusivamente los valores que toman no es
manejable y no permite obtener conclusiones. Resumir esa informacin, perdiendo lo mnimo posible, es
el objetivo de la estadstica descriptiva y es lo que vamos a estudiar durante este captulo, organizando
la explicacin segn el tipo de variable a describir dado que esto condiciona la forma de hacerlo.
AL
-
Un
lab
or
at
pe
rG
RA
El primer grupo lo constituyen variables cuyos posibles valores son clasificatorios, lo que permite ubicar a
cada unidad observacional (a partir de ahora hablaremos de individuo) en un grupo de forma unvoca.
Hay diversos tipos de variables categricas: pueden ser nominales, variables referentes a un atributo
(sexo, grupo sanguneo, etc); pueden representar un orden de magnitud, es decir variables categricas
ordinales (grado de dolor mucho, bastante, poco, muy poco-, la edad registrada en franjas, etc); pueden
ser el resultado de un conteo, nmero de veces que se produce un fenmeno y, en este caso, las
3
categoras no son ms que nmeros enteros (nmero de leucocitos por mm , accidentes laborales en
una empresa por mes, etc).
Te
x
te
El segundo grupo, las variables continuas, est formado por toda aquella variable cuyo valor es el
resultado de aplicacin de una escala mtrica y por lo tanto expresa el nmero de veces que la
observacin contiene a la unidad de medida y sus fracciones. Ejemplos de este tipo de variables son la
talla o el nivel de glucosa en sangre.
El resumen de los datos registrados en una variable categrica suele realizarse indicando la frecuencia
de aparicin de cada categora. Este procedimiento no suele ser indicado para variables continuas, dado
que la precisin de la medida, consistente en un nmero con varios decimales, hace muy poco probable
que se repitan los valores entre individuos distintos y, en consecuencia, aportar cuntas veces se repite
cada medida suele ser muy poco informativo. Adems la probabilidad de medidas coincidentes en varios
individuos disminuye a medida que la variable se expresa con ms decimales, con mayor precisin en
definitiva. Es lgico pensar que es fcil encontrar, en muestras grandes, individuos que pesen igual, por
ejemplo, 74,5 Kg., pero encontrar individuos que pesen 74,512 Kg. ya es mucho menos probable. Por
esa razn se acostumbra a utilizar otras tcnicas descriptivas, como veremos ms adelante.
Las variables categricas resultado de un conteo, como nmero de infartos agudos de miocardio sufridos
por cada individuo en diez aos de seguimiento, adems de poder expresar la frecuencia de los
Estadstica descriptiva
individuos con valores de x = 0 o 1 o 2, etc., es decir las frecuencias, permiten expresar y resumir la
informacin con las misma medidas-resumen que las variables de naturaleza continua, como la presin
arterial sistlica, indicando por ejemplo el promedio.
sta
ds
tic
a
de
la
U
AB
Esta caracterstica es la que en ciertos libros utilizan para dividir las variables en cualitativas y
cuantitativas, es decir, aquellas en las que no se puede ofrecer ms que la frecuencia de aparicin y las
que adems se pueden calcular propiedades numricas de informacin de la variable.
eB
ioe
ita
td
Las variables de naturaleza cuantitativa continua son las que poseen mayor cantidad de informacin, en
el sentido que siempre se pueden categorizar agrupando los valores en intervalos transformndola en
ordinal y, por ltimo, se podran convertir en nominales al colapsar el conjunto de categoras en
solamente dos que representaran la presencia o no de determinado atributo. El proceso contrario no es
posible.
rG
RA
AL
-
Un
Considere la variable edad. Por naturaleza estricta es una variable continua pues as es la naturaleza del
tiempo, sin embargo generalmente la expresamos como edad civil o aos cumplidos. Es decir de alguna
manera, una variable que es continua la categorizamos en aos cumplidos. Otra forma de tratarla,
bastante habitual, consiste en agrupar a los individuos segn franja etrea y estudiarla como ordinal.
Finalmente, aunque no es comn, podra generarse una nueva variable que clasificara a los individuos
segn si son o no mayores de cierta edad, es decir, segn si tienen o no el atributo de tener una edad
mayor de. Esa ltima variable sera categrica nominal.
lab
or
at
pe
Te
x
te
La mayora de las variables que se utilizan en Medicina en todas sus especialidades son de naturaleza
categrica, nominal u ordinal. La forma de describir la variabilidad de una propiedad cualitativa o
categrica es mediante la expresin de la frecuencia observada en cada posible categora, bien sea de
forma absoluta o relativa mediante la expresin en forma de proporcin o de porcentaje.
La distribucin de frecuencias.
La distribucin de frecuencias no es otra cosa que la expresin del nmero de casos que hay en cada
una de las categoras de la variable categrica que se describe. El nmero de casos puede expresarse
en valor absoluto o en valor relativo.
la
U
AB
Estadstica descriptiva
tic
a
de
El valor absoluto, o frecuencia absoluta, de personas con un nivel de escolaridad de enseanza superior
es 1849, lo cual representa un valor relativo, frecuencia relativa, de 15,8%. Note que en este caso la
frecuencia relativa se expresa en porcentaje (de 0 a 100), si bien podra expresarse en una escala de 0 a
1, es decir, en proporcin, y diramos que la proporcin de individuos con enseanza superior es del
0,158.
eB
ioe
sta
ds
Es fundamental que entienda que las frecuencias relativas permiten comparar entre distribuciones con
tamaos distintos. Ello permite, por ejemplo, comparar la distribucin del nivel de escolaridad de este
estudio, con un total de 11725 personas, con otro estudio de, supongamos, 500 personas. O en el mismo
estudio, podramos comparar el nivel de escolaridad de hombres y mujeres sin necesidad de que sean,
en total, el mismo nmero. Eso con la frecuencia absoluta no se puede hacer y es por eso que cuando
se describe una variable categrica suele mostrarse su distribucin en base a las frecuencias relativas,
no absolutas.
rG
RA
AL
-
Un
ita
td
Por otro lado note que el porcentaje acumulado (porcentaje de la categora concreta, ms todos los
porcentajes anteriores) solamente tiene inters en caso que la variable sea categrica ordinal, es decir,
sus categoras guarden un orden lgico entre ellas. En el caso del nivel de escolaridad, si bien ciertas
categoras guardan un orden lgico, entre alguna de ellas es dificil decidir cul va antes y cul despus.
Es el caso de FP, formacin profesional, o Bachillerato, que en realidad eran dos opciones del antiguo
sistema escolar que implicaban el mismo nmero de aos estudiados, si bien la primera se enfocaba al
aprendizaje de uno oficio y la segunda se orientaba fundamentalmente a preparar a los estudiantes para
su acceso a la universidad. En definitiva, considerando ambas opciones como Segundo grado,
podramos decir, mediante el porcentaje acumulado, que el 68,6% de los individuos de esta muestra
tenan escolaridad de segundo grado o superior. Note que 68,6% no es ms que la suma de los tres
porcentajes (15,8%, 15,7% y 37,1% de enseanza superior, FP y bachillerato).
pe
Representacin grfica.
Te
x
te
lab
or
at
Estadstica descriptiva
Diagrama de barras:
sta
ds
tic
a
de
la
U
AB
En el diagrama de barras a cada categora le corresponde una barra y su altura seala la frecuencia
absoluta o relativa (segn la eleccin del usuario en el programa informtico) asociada a esa categora.
eB
ioe
Diagrama de sectores:
Te
x
te
lab
or
at
pe
rG
RA
AL
-
Un
ita
td
En el diagrama de sectores cada categora est representada por una porcin cuya rea indica la
frecuencia absoluta o relativa de esa opcin.
Estadstica descriptiva
de
la
U
AB
El resultado de esta aplicacin nos indica que existe un continuo de posibles valores, limitado
exclusivamente por esa precisin, por lo que prcticamente la probabilidad de obtener uno concreto
tiende a cero cuanto ms precisa sea la medicin. Eso es, podran coincidir dos individuos que mideran
173 cm, pero si dispusiramos de un instrumento de medida ms preciso, lo ms probable es que no
midieran exactamente lo mismo y uno midera, por ejemplo, 1731 mm y el otro 1733 mm. Observe que
cuanto ms precisa la medicin, menos probable que coincidan varias observaciones en un valor
determinado.
ds
tic
a
sta
Las medidas de tendencia central son aquellas que intentan describir el centro de la distribucin, el punto
a partir del cual cuantificaremos la dispersin del conjunto de valores de una variable aleatoria.
ita
td
eB
ioe
Aunque por cuestiones culturales podra existir la tentacin de escoger el cero como punto de origen
para medir esa dispersin, el cero puede corresponder a un valor imposible cuando no incmodo de
utilizar. Por ejemplo el cero de temperatura no tiene demasiada utilidad en la medida de la temperatura
corporal, razn por la que los termmetros clnicos no tienen ms que la parte de la escala que se
corresponde con valores plausibles de temperatura corprea. Tampoco el cero de colesterol total en
sangre o de otras medidas, como presin arterial, peso o altura, reflejara una situacin posible en un
individuo vivo.
AL
-
Un
Luego debe seleccionarse un origen que sea cmodo y que de alguna forma nos permita en el futuro
calcular si una medida es muy o poco dispersa, alejada, respecto a otra independientemente del origen
de la misma.
RA
x=
Ec. 1
lab
or
at
pe
rG
La media aritmtica de una variable X, de la cual se conoce una muestra de n valores, se corresponde
con el concepto intuitivo de promedio y tiene como expresin:
te
As mismo, por parangn con los conceptos fsicos del momento en que se empez a desarrollar el
anlisis estadstico de la precisin y exactitud de las medidas en la Fsica, se puede definir la media
aritmtica como el centro de gravedad de los valores de la muestra.
Te
x
Si en la muestra de valores de la variable X hay valores repetidos, la frmula de la media aritmtica que
1
conduce a un clculo ms rpido es la que sigue :
x=
fx
i i
Ec. 2
Esta es la frmula que se aplica, tambin, cuando se trabaja no con los datos propiamente si no con una agrupacin de los
mismos en varios intervalos. En ese caso xi no se corresponde al dato concreto de cada individuo, si no al centro del intervalo en el
que se ubica. Afortunadamente esa forma de trabajar prcticamente ha desaparecido puesto que su objetivo consista en
simplificar los procedimientos de clculo, cosa hoy en da superada con el uso de los ordenadores.
Estadstica descriptiva
Expresin en la que fi son las frecuencias de los valores (nmero de individuos con ese valor) y xi es el
valor propiamente.
AB
Ejemplo: supongamos que medimos la frecuencia cardiaca en reposo a cinco personas. Sus resultados,
en pulsaciones por minuto (ppm), son: 64, 70, 59, 74 y 64.
ds
64 2 + 70 + 59 + 74 331
=
= 66,2
ppm
5
5
eB
ioe
sta
x=
de
64 + 70 + 59 + 74 + 64 331
=
= 66,2
ppm
5
5
tic
a
x=
la
U
Un
ita
td
AL
-
rG
RA
x=
64 2 + 70 + 59 + 74 + 120 451
=
= 75,2
ppm
6
6
te
lab
or
at
pe
Ejemplo: siguiendo con el ejemplo anterior, imagine que hubiramos seleccionado un individuo ms,
cuya frecuencia cardiaca hubiera sido 120 pulsaciones por minuto. Dando por vlida esa medida cul
hubiera sido la media?
Te
x
En este caso la media es superior a todos los valores de la muestra, excepto al valor extremo de 120 ppm.
Representa bien la media el centro de la distribucin?
Estadstica descriptiva
Hemos visto como la presencia de valores extremos afecta a la media obtenida en una muestra. Existen
muchas variables cuantitativas en el mbito de las ciencias de la salud que con frecuencia presentan
valores muy alejados del valor promedio y en ningn caso pueden ser considerados, a priori como
valores errneos.
Comentario:
de
la
U
AB
Segundo infarto agudo de miocardio. Hay tiempos muy cortos desde que se produjo el primero, de das e
incluso de horas, mientras que en otros casos el tiempo supera con facilidad dcadas. Qu ocurrira si
en una muestra de pocos enfermos un paciente presenta un segundo infarto al da siguiente y el resto en
un plazo de tres o cuatro aos? Cmo se vera afectada la media de la variable tiempo que transcurre
desde el primer infarto?
ds
tic
a
Para resolver estos problemas tan frecuentes en mediciones fisiolgicas y biolgicas en general, se
define una medida de tendencia central conocida por el nombre de mediana. La mediana,
, es el valor
~
de la variable
x por debajo del cual, en magnitud, est el 50% de los resultados. Evidentemente podra
definirse de forma simtrica indicando que es aquel valor por encima del cual se encuentra la mitad de
valores de la muestra.
eB
ioe
sta
ita
td
Ejemplo: para la frecuencia cardiaca con los cinco valores inicales (64, 70, 59, 74 y 64), la forma de
determinar la mediana consistira en ordenarlos e identificar el valor que se halla justo en el centro de
la distribucin:
Un
59, 64, 64, 70, 74 el valor que se halla en el centro es el tercero, la mediana es 64 ppm
AL
-
RA
59, 64, 64, 70, 74, 120 hay dos valores que se hallan en el centro, el tercero y el cuarto
pe
rG
Si los valores de la distribucin son pares, no hay un solo valor en el centro, si no dos. En ese caso se
calcula el promedio de los dos valores centrales:
64 + 70 134
~
x=
=
= 67
ppm
2
2
te
lab
or
at
Note que, en este caso, el valor extremo no ha afectado sensiblemente la descripcin del centro de la
distribucin realizado por la mediana. Ello se debe a que la mediana se basa en rangos, en las posiciones
de las observaciones dentro de la distribucin, no en su valor absoluto.
Te
x
La mediana pues, adems de depender numricamente de las unidades de medida al igual que la media
aritmtica, tiene las siguientes propiedades:
Estadstica descriptiva
AB
Este es el concepto de moda, x, valor alrededor del cual es ms frecuente obtener valores de la variable
X.
tic
a
de
la
U
No tiene propiedades importantes si no ms bien las que se pueden derivar del hecho de observar ms
de una moda. As si observamos dos modas, diramos que la distribucin o la muestra es bimodal y
generalmente este hecho se presenta cuando los datos de la muestra pertenecen a dos poblaciones. De
la misma forma podemos encontrar distribuciones plurimodales.
ds
Ejemplo: para la frecuencia cardiaca con los cinco valores inicales (64, 70, 59, 74 y 64). Cul es la
moda?
eB
ioe
sta
La moda es el valor que ms veces se repite, en este caso 64 ppm, que es el nico valor que aparece ms
de una vez en los datos de nuestra muestra.
td
En la prctica la moda no suele ser el estadstico usado para describir el centro de la distribucin.
Normalmente se elige entre la media o la mediana.
Un
ita
AL
-
Una vez definido el origen o los posibles descriptores del origen a partir del cual se puede determinar sin
ambigedades la dispersin, en este apartado analizaremos las posibles maneras de cuantificar la
dispersin de los datos de una muestra.
RA
Rango.
pe
rG
Se define como la diferencia entre los valores mximo y mnimo observados en la muestra, aunque en
algunos textos a esa diferencia se la conoce como recorrido, guardando el concepto de rango a la
expresin de esos dos valores citados.
lab
or
at
No tiene grandes aplicaciones ms que conocer, a efectos descriptivos, qu posibles valores de los que
tericamente define la variable hemos podido observar.
Te
x
te
Ejemplo: para la frecuencia cardiaca con los cinco valores inicales (64, 70, 59, 74 y 64). Cul es el
rango?
La diferencia entre el valor mximo y el mnimo, es decir, 74 59 = 15 ppm.
A la prctica este estadstico no suele usarse con frecuencia dado que los valores mximo y mnimo son
altamente inestables, pueden resultar ser valores extremos y en consecuencia pueden ofrecer una idea
equivocada del conjunto de la dispersin de los datos.
Estadstica descriptiva
AB
(x x)
=
Ec. 3
n 1
la
U
tic
a
de
ds
Ejemplo: frecuencia cardiaca en reposo (64, 70, 59, 74 y 64). Distancias y distancias al cuadrado.
sta
eB
ioe
(x x) = (64 66,2) + (70 66,2) + (59 66,2) + (74 66,2) + (64 66,2)=
i
td
ita
(x x) = (64 66,2) + (70 66,2) + (59 66,2) + (74 66,2) + (64 66,2) =
Un
AL
-
rG
RA
Al elevarlo al cuadrado las diferencias no se anulan porque todas quedan con signo positivo. Ahora ya
tenemos un valor que puede indicarnos la dispersin de cada valor de la distribucin respecto al centro,
pero, sin embargo, este valor tiene dos problemas.
lab
or
at
pe
Primero, el valor de las diferencias al cuadrado depende del nmero de observaciones de la muestra.
Esto es, al obtenerse siempre diferencias positivas, para cada valor que aadamos a la muestra, aunque
est cerca de la media, ir acumulndose a las diferencias al cuadrado ya obtenidas. Luego ser
imposible tener idea de la magnitud real de la dispersin de los valores respecto a la media.
Te
x
te
Para solventar este hecho, la suma de los cuadrados de la dieferencia se divide por el tamao muestral
2
menos uno , tal cual se expresaba en la ec. 3. As lo que obtenemos es el promedio de las diferencias al
cuadrado, y en consecuencia el valor ya no depende directamente del nmero de observaciones.
Ejemplo: frecuencia cardiaca en reposo (64, 70, 59, 74 y 64). Clculo de la varianza.
Ya calculamos la suma de diferencias al cuadrado, obteniendo 136,8 ppm2. Para calcular la varianza
muestral simplemente hay que dividir ese valor por el tamao muestral menos uno (en nuestro caso, 5-1):
s2 =
(x x)
i
n 1
136,8
= 34,2 ppm 2
4
Al tamao de la muestra se le resta uno debido a que ese valor se corresponde con el nmero de trminos linealmente
independientes. Esto se conoce como grados de libertad y escapa del objetivo de nuestra asignatura.
Estadstica descriptiva
Por tanto, el promedio de las diferencias de cada observacin, respecto a la media, al cuadrado, es de 34,2
ppm2.
x )2
de
Ec. 4
tic
a
n 1
ds
s=
(x
la
U
AB
El segundo problema es que la varianza tiene unidades que no coinciden con las de la media. En
realidad las unidades de la varianza se expresan como el cuadrado de las unidades de la media. Eso
dificulta enormemente la interpretacin ya que intentamos describir la dispersin en relacin a la media
en unidades distintas a sta. Para solventar este problema, simplemente se calcula la raz cuadrada de
la varianza muestral y obtenemos la desviacin estndar (DE), o desviacin tpica, que s se expresa
en las mismas unidades que la media:
sta
Ejemplo: frecuencia cardiaca en reposo (64, 70, 59, 74 y 64). Clculo de la desviacin estndar.
eB
ioe
td
Por tanto, la distribucin de los valores de frecuencia cardiaca en nuestra muestra se distribuye con un
centro en 66,2 ppm y un promedio de las diferencias del conjunto de valores, respecto a ste, de 5,8 ppm.
AL
-
Un
ita
En notacin cientfica, se expresa la media y su correspondiente DE entre parntesis: 66,2 ppm (5,8). A
veces, en vez de parntesis se usa la siguiente expresin: 66,2 ppm 5,8.
pe
rG
RA
Por tanto, la DE no es ms que la varianza en otra escala, la que coincide con la media y, en
consecuencia, se convierte en la medida natural de variabilidad respecto a la media.
at
te
lab
or
A veces lo que nos interesa es comparar la dispersin de dos distribuciones distintas, de una misma
medida en dos grupos o simplemente de dos medidas diferentes. Por ejemplo, podra interesarnos saber
qu distribucin es ms variable, si la frecuencia cardaca en hombres o mujeres. O, otro ejemplo, en un
mismo grupo de pacientes, si la distribucin de su frecuencia cardiaca es ms o menos variable que la
de su presin arterial sistlica.
Te
x
En estos casos la comparacin de las dos DE no nos facilita la informacin deseada. Es sencillo
imaginar que no tiene sentido comparar la DE de la talla con la DE del peso. Cmo podemos
compararlas si ni tan solo tienen las mismas unidades? Pero aunque las tuviesen, recuerde que la DE se
construye en relacin a la media, luego cada distribucin tendr su propia media y las desviaciones
estndares resultantes se habrn calculado sobre ellas, es decir, en relacin a orgenes diferentes,
3
invalidando su comparacin .
Reflexione si una desviacin de 3 cm en relacin a una distribucin con media 10 cm indica la misma variabilidad que una
desviacin de 3 cm para una distribucin con media 1500 cm.
Estadstica descriptiva
s
100
x
Ec. 5
AB
CV =
de
la
U
Como bien podr observar, el coeficiente de variacin CV es adimensional (no tiene unidades), lo cual
permite comparar mediciones correspondientes a variables distintas, con unidades distintas, y decidir
cul de ellas es ms dispersa.
tic
a
Ejemplo: frecuencia cardiaca en reposo (64, 70, 59, 74 y 64). Clculo del coeficiente de variacin.
sta
5,8
100 = 8,8
66,2
eB
ioe
CV =
ds
Ya calculamos media y DE de la frecuencia cardiaca en reposo. Concretamente, media igual a 66,2 ppm y
desviacin estndar de 5,8 ppm. Luego el CV es:
Un
ita
td
Imagine que en la misma muestra tomamos para cada individuo su valor de presin arterial sistlica,
obteniendo en milmetros de mercurio (mm Hg): 115, 106, 122, 114, 101. Si calcula la media de 111,6
mm Hg y DE de 8,2 mm Hg. Luego en este caso el CV ser:
AL
-
CV =
8,2
100 = 7,3
111,6
pe
rG
RA
Valor inferior al de la frecuencia cardiaca. Por tanto, aunque la DE de la frecuencia cardiaca es menor a la
de la presin arterial sistlica, en realidad su distribucin es ms dispersa.
lab
or
at
Distribucin de percentiles.
Te
x
te
Una forma sencilla, a veces nica, de determinar la dispersin de una variable y en cierta manera cmo
se distribuyen alrededor de la mediana, la constituyen los percentiles. Un percentil k es un valor de la
variable por debajo del cual se encuentra la proporcin llamada o indicada k. Por ejemplo, el percentil 30,
p30, es el valor de la variable por debajo del cual se encuentra el 30% de los datos.
Evidentemente la mediana, tal y como se ha definido anteriormente, no es ms que el percentil 50, p50.
Adems de la mediana, algunos percentiles reciben nombres especiales, como los deciles, ds, valores de
la variable por debajo del cual se encuentran las s dcimas partes de los datos, o bien los cuartiles, qr,
valores de la variable que dividen a la muestra en cuatro grupos del mismo tamao de datos, es decir
n/4.
La mediana concretamente se corresponde a un percentil, un decil y un cuartil determinado:
~
x = P50 = D5 = Q2
Ec. 6
Estadstica descriptiva
Ejemplo: frecuencia cardiaca en reposo (64, 70, 59, 74 y 64). Clculo de percentiles.
de
la
U
AB
El proceso para calcular los percentiles es sencillo, si bien en muestras pequeas no es posible calcularlos
todos de forma exacta.
tic
a
td
eB
ioe
sta
ds
En este caso, el percentil 20 se correspondera al valor 59. Sin embargo, no existe un valor exacto para el
percentil 25. Lo nico que se puede decir es que el percentil 25 est entre el valor 59 y 64. Algunos textos
proponen calcular un valor mediante una simple regla de tres. Otros simplemente proponen seleccionar
aquel valor que supere el percentil de inters (en este caso, el valor que supera el percentil 25 sera el
valor 64). Por fortuna habitiualmente se trabaja con muestras de tamao n bastante superior a 5, lo cual
relativiza mucho esta indefinicin.
ita
Rango intercuartlico.
AL
-
Un
Este estadstico cuantifica la distancia entre el tercer y el primer cuartil, es decir, entre el percentil 75 y
25. Es una de las medidas que suele acompaar a la mediana en caso que sta sea la elegida para
4
describir el centro de la distribucin .
RA
RI = Q3 Q1 = P75 P25
Ec. 7
pe
rG
at
Te
x
te
lab
or
Al calcular la varianza y la DE para valorar la dispersin de los datos respecto a la media, usamos el
mecanismo de elevar al cuadrado las diferencias de cada valor respecto a la media, con tal de evitar que
se anulen estas distancias al sumarlas. Ello nos incapacita para saber si existen ms valores por debajo
o por encima de la media, si son muchos o pocos y en resumen si la distribucin de los datos es
simtrica respecto a la media o no. Podemos tener una idea de si la distribucin es ms o menos
variable, pero no si es ms o menos dispersa en los valores por debajo de la media, respecto a los
valores por encima de la media.
Debemos encontrar pues algn mecanismo cuantificador del signo de las diferencias que nos permita
evaluar esa situacin.
A veces en vez del rango intercuartlico se utilizan otros dos percentiles an ms alejados, con frecuencia los percentiles 10 y 90,
o 5 y 95, o incluso 2,5 y 97,5.
Estadstica descriptiva
la
U
AB
Si la distribucin de valores fuese simtrica, ambas medidas de tendencia central coincidiran pero si las
distancias de los valores superiores a la media, respecto a sta, son en su conjunto diferentes a las
distancias de los valores inferiores, mediana y media no coincidirn, dado que la media se ver
empujada hacia donde estas distancias son mayores.
tic
a
de
Luego, la presencia de valores altos o mejor dicho, superiores en varias desviaciones estndar el de la
mediana, provocara que la media alcanzase un valor ms alto que sta. Al contrario, valores inferiores a
la mediana en mayor proporcin que valores superiores, produciran una disminucin del valor de la
media.
Un
ita
td
eB
ioe
sta
ds
Dicho de otra forma, el sesgo nos da una idea de dnde se concentran mayoritariamente las
observaciones, si se reparten por igual, por encima o por debajo de la media.
AL
-
pe
rG
RA
Adems del signo, podemos expresar la magnitud de esa diferencia? Evidentemente ahora poseemos
una medida natural de distancia o dispersin y es la desviacin estndar. Por lo tanto el coeficiente de
Pearson se construye como:
a=
x~
x
s
Ec. 8
lab
or
at
Te
x
te
El nico inconveniente de este parmetro tan simple de calcular y de usar es la ausencia de una
distribucin de probabilidad conocida asociada a los diversos valores de a al repetir muestras, por lo que
no podremos utilizarlo para hacer predicciones en la poblacin ni para comparar estrictamente, si bien al
ser adimensional puede ser utilizado para saber de todas las variables de un estudio cul de ellas es la
ms sesgada y en qu sentido.
Por eso, a la prctica, no se usa el coeficiente de sesgo de Pearson y s el coeficiente que se muestra a
continuacin.
Estadstica descriptiva
Otra manera de recuperar el signo de las diferencias, perdido al elevar al cuadrado al calcular la
varianza, es la de analizar las diferencias o distancias entre los valores y la media al cubo. Esta
operacin tiene dos consecuencias:
(x x )3
Ec. 9
de
m3 =
la
U
AB
Evidentemente la suma de estas diferencias al cubo es muy sensible al nmero de datos que constituye
la muestra, por lo que se acostumbra a expresar en promedio:
Ec. 10
sta
ns 3
eB
ioe
g3 =
((xi x )/ s )3 = (xi x )3
ds
tic
a
El hecho de que su resultado se exprese en unidades al cubo dificulta mucho su interpretacin. Para
resolver el problema, sin desvirtuar las propiedades de este parmetro, podemos expresar las
diferencias en unidades de desviacin estndar, por lo que el parmetro conocido en Estadstica como
momento de tercer orden respecto a la media, se transforma en:
ita
td
AL
-
Un
g3
rG
RA
pe
Medidas de forma.
lab
or
at
Hasta el momento se han definido los conceptos imprescindibles para concretar y cuantificar la
dispersin de una variable: origen de la medida, unidad de medida y signo mayoritario o tendencia.
Te
x
te
Con frecuencia, sin embargo, aparece un fenmeno que los estadsticos vistos hasta el momento no
pueden detectar ms que en algunos casos y es la presencia de valores, en proporcin muy pocos, a
muchas desviaciones estndar de la media. Ese conjunto de valores recibe el nombre de valores
extremos y se dice que forman colas.
Est claro que si las colas se producen slo en un sentido, por encima o por debajo de la media, el
hecho repercutir en el coeficiente de sesgo, pero no se podr discernir entre situaciones en que hay
mayoritariamente una tendencia de otras en la que existe una cola determinada por un nmero limitado
de observaciones. Adems, una distribucin puede ser simtrica pero con dos colas (valores extremos
en ambos lados de la distribucin). En ese caso, tampoco el coeficiente de sesgo sera capaz de
detectarlo.
Para ello se define el coeficiente de forma o curtosis, del griego kurtos o forma:
g4 =
((xi x )/ s )4 = (xi x )4
n
ns 4
Ec. 11
Estadstica descriptiva
la
U
AB
de
g4
eB
ioe
sta
ds
tic
a
AL
-
Un
ita
td
Representacin grfica.
pe
Histograma:
rG
RA
Si bien existen varios tipos de representaciones grficas para variables continuas, muchas con
propsitos especficos, habitualmente si lo que interesa es presentar visualmente la distribucin de una
variable de este estilo se utiliza o el histograma o el diagrama de cajas.
lab
or
at
Al describir grficamente una variable continua, se podra tener la tentacin de usar, al igual que con la
variable categrica, un grfico de barras. Sin embargo, cuanto mayor sea la precisin de medida, menos
informacin aporta un grfico de barras, llegando a visualizar en el lmite cul es la precisin con la que
se han determinado los datos.
Te
x
te
Observe la diferencia entre los dos diagramas de barras descritos en la siguiente figura. En el diagrama
de la izquierda, al representar el peso redondeado en kg. existen individuos con el mismo peso, as, por
ejemplo, hay un 3,1% de individuos cuyo peso es 71 kg. Sin embargo, si aumentamos la precisin de la
medida y la expresamos en hectogramos, la coincidencia disminuye y la mxima coincidencia se observa
en un 1,2% de individuos que tiene un peso de 700 hectogramos.
Evidentemente si el peso lo expressemos en decagramos o en gramos esa coincidencia ira
disminuyendo y finalmente el diagrama de barras sera de difcil distincin del propio eje X.
de
la
U
AB
Estadstica descriptiva
ds
tic
a
Figura. Diagrama de barras del peso en kg. y en hg. de los participantes en el estudio
Comentario:
eB
ioe
sta
Observe por otro lado que en el diagrama del peso expresado en hectogramos se puede observar como
de forma peridica existen barras que se corresponden a valores de peso en hectogramos finalizados en
0 o en 5. Es un claro ejemplo de efecto del redondeo por parte del individuo que realiza la medida, ya
que en principio cualquier cifra correspondiente a las unidades de los hectogramos debera ser posible y
no hay razn fsica para que sean ms frecuentes los pesos acabados en 0 o en 5.
ita
td
Estas caractersticas inherentes al diagrama de barras son las que desaconsejan su uso en las variables
de tipo continuo.
AL
-
Un
Una mejor descripcin grfica puede ser obtenida mediante el histograma. Esta representacin resuelve
el problema de la dependencia de las frecuencias o porcentajes de la precisin de la medida. As un
histograma es un grfico X,Y en el que se indica en Y con qu frecuencia absoluta o relativa se
presentan los valores de X agrupados en intervalos de valores o clases.
Te
x
te
lab
or
at
pe
rG
RA
Por ejemplo, en el grfico siguiente podr ver que cada barra no representa un valor concreto, si no un
intervalo de los mismos.
El grfico anterior agrupa los datos de X en intervalos del mismo tamao y, en consecuencia, la altura de
la barra resultante indica la frecuencia. Sin embargo, esto no debe ser siempre as, dado que nos podra
interesar agrupar las observaciones en intervalos de distinto tamao. En ese caso la frecuencia no queda
descrita con la altura de la barra, si no con el rea de la misma.
Estadstica descriptiva
Otra opcin grfica para representar variables continuas es el diagrama de cajas, representacin que se
est imponiendo en cuanto a su uso al histograma ya que ofrece generalmente una informacin mucho
ms detallada.
Diagrama de cajas:
ds
tic
a
de
la
U
AB
El diagrama de cajas nos da informacin acerca del primer cuartil (Q1), fondo de la caja, tercer cuartil
(Q3), lmite superior de la caja, y mediana, lnea que divide en dos la caja. Por lo tanto nos ofrece una
medida muy simple de dar la dispersin que es la de expresar el rango intercuatlico (Q3-Q1). Los
segmentos que surgen de las cajas hacia las dos direcciones se conocen con diferentes nombres,
siendo el ms utilizado el de bigotes, y no siempre se calcula igual segn el programa estadstico usado,
si bien el valor ms habitual suele ser 1,5 veces el rango intercuatlico. En general nos permite
determinar a partir de qu valores de la variable podemos decir que un valor es atpico, o sea, valores
ms all de los extremos de los bigotes se consideran atpicos para esa distribucin, mientras que
valores an ms alejados, los que estn a ms de 3 veces el rango intercuartil, se consideran
propiamente valores extremos.
lab
or
at
pe
rG
RA
AL
-
Un
ita
td
eB
ioe
sta
Dado que el diagrama de cajas suele ser un grfico que genera algo de confusin, la siguiente imagen
intenta resumir la informacin que nos aporta mediante un ejemplo:
te
Figura. Ejemplo de un diagrama de cajas (imagen tomada de: Navarro A, Martn M. Uso
profesional del SPSS: autoaprendizaje a travs de un estudio real. Bellaterra: Servei de
Publicacions de la UAB; 2002)
Te
x
En este ejemplo, de entrada, sorprende que los bigotes tengan distinta longitud, dado que por lo dicho
anteriromente deberan ser exactamente igual de largos, pues a partir de un punto determinado sta no
es ms que sumarle 1,5 veces la amplitud intercuartlica. Sin embargo, en la figura, el bigote inferior es
ms corto que el superior. Ello se debe a que el programa usado para dibujar este grfico (programa
5
SPSS), corta el bigote en el punto mnimo (para el bigote inferior) si ste no supera el extremo del
bigote. En el ejemplo, note que al tratarse de proteinas, es imposible un valor inferior a 0 (que de hecho
se corresponde con el mnimo observado) y, en consecuencia, la longitud del bigote queda cortada en
ese punto.
Estadstica descriptiva
la
U
AB
Las variables cuantitativas llamadas discretas incluyen toda variable cuya medicin es el resultado del
conteo de aparicin de un suceso que, en esencia, es de naturaleza cualitativa nominal o categrica.
Son categricas en s mismas pues al ser el resultado de la medida un nmero entero puede atribuirse al
valor la naturaleza de categora.
tic
a
de
Por ejemplo si estamos analizando el uso de un servicio mdico determinado por parte de los individuos
de una muestra, como puede ser el consultorio de atencin primaria, el fenmeno podemos aproximarlo
de dos maneras diferentes.
eB
ioe
sta
ds
AL
-
Un
ita
td
La descripcin ms adecuada de este tipo de variables depende en gran parte del nmero de posibles
valores que pueda tomar. Por ejemplo, piense en la variable nmero de das a la semana que se practica
una actividad deportiva continuada por ms de una hora. En ese caso los valores posibles van desde
cero a siete, si bien posiblemente el valor mximo no llegue a siete y se quede, por ejemplo, en cinco. En
ese caso, aunque pueden calculares e interpretarse los estadsticos de tendencia central, dispersin,
etc., quizs la interpretacin es ms clara usando esta variable discreta como si fuera una variable
categrica cualitativa (ordinal), especificando el porcentaje o porcentaje acumulado para cada nmero de
das en vez de especificar la media, mediana, etc. Si el nmero de categoras de una variable discreta es
muy bajo, suele describirse con la distribucin de frecuencias. Piense por ejemplo en variables como el
nmero de hijos o el total de episodios por inluenza padecidos el ltimo ao.
lab
or
at
pe
rG
RA
Si, por el contrario, la variable categrica discreta presenta un elevado nmero de posibles resultados, su
descripcin como si fuera una variable continua puede ofrecer mucha informacin. Piense por ejemplo
en la variable aos cumplidos en un estudio entre poblacin general. As, las propiedades de tendencia
central, dispersin, sesgo y curtosis se calculan e interpretan de la misma manera que para una variable
continua. Lo nico que hay que considerar es no expresar los resultados ms que con una cifra decimal.
No tiene sentido precisar centsimas en una medida que est expresada en nmeros enteros. La cifra de
las unidades s puede mantenerse para indicar entre qu dos valores es ms cercana la media aritmtica
o la desviacin estndar.
te
Representacin Grfica.
Te
x
Normalmente la representacin grfica ms adecuada para este tipo de variables es la definida como
diagrama de barras, ya que el histograma no tiene sentido en cuanto los valores intermedios entre
valores consecutivos son inexistentes. No puede existir una medicin de esta naturaleza con fracciones
de unidad o decimales.
Por ejemplo, la representacin del nmero de cigarrillos fumados al da, por individuo, es una variable
discreta que puede representarse a travs del siguiente grafico, donde cada barra representa un valor
concreto.
ds
tic
a
de
la
U
AB
Estadstica descriptiva
eB
ioe
sta
Te
x
te
lab
or
at
pe
rG
RA
AL
-
Un
ita
td
Si la variable de inters presentara un nmero bajo de posibles categoras (por ejemplo, n de hijos) el
diagrama de sectores podra ser otra opcin vlida.