En este capitulo
tratamos la
errs
pentane tens
potest
erent
Pere etd
Comets
Peeters
Eee
ees
Pine ae tet)
ena
Peer aetny
Todavia mais
important, los
stad
habriamos tenido gue
Duscar tn trabajo
onrado,
Darra» signifi
(MA)»; no se trata
de un club para
extadiicosdivoreiades
(véase el glosario det
final de libros
Descripcién de los datos
mediante nimeros
Medidas de centralizacion y de dispersié6n
a tepresentacién grifien de los datos es un primer
paso indispensable en el andliss de los mismos,
ppeto tiene dos imitaciones. En primer lugar, si alguien
te pregunta que describas lo fundamental de lo que es
's descubriendo, todo lo que puedes hacer es coger un
toro de papel y trazar un grafico. En segundo lugar,
no es mucho Jo que poxtemos hacer con los resultados,
salvo mostrarlos; no podemos comparar fcilmente los
resultados de dos 0 mis grupos a ver si existen diferen:
Gas importantes entre ellos." Serfa de una gran ayuda,
poder resumirlos resultados en unos pocos ntimeros, ¥
no es por easualidad que existan. Los dos més impor-
tantes son las medidas de centralizaién y las de disper
sign, (Trataremos ms adelante dos indices mds, deno-
rminados asimenta y curtosis,)
Sin embargo, antes de introducir estos dos té
ros, perimitasenos una pequelia licencia con el objeti-
vo de dar a conocer algo de la notacién taquigrstica
UNA LIGERA INCURSION
EN LA NOTACION
‘Un dato puntual conereto ~es decir, el valor de una va:
rable para un individuo determinado~ se representa
por la letra maytiscula X. La x mindscula se usa para
designar otras cosas que veremos a To largo de este ca:
pitulo, En la tabla 2-2, para el individo 1, X= 43. Re-
presentamos la media (més adelante damos la defini
‘i6n) colocando una barra encima dela.X: X. Hablando
tentte estadisticos podemos decir indistintamente «la
medias 0 «X barray2
EL nsimero de individuos de la muestra se represen.
ta por N. No hay acuerdo en utilizar una letra maytis-
cula o no, pero la mayorta de los libros utiliza la m-
niiscula para indicar el tamaiio de la muestra para uno
ie los grupos, i hay dos o mds, y uilizan Ia N mays:
cula para designar la tolalidad de la muestra, sumando
cl tamano de los diferentes grupos. Sino hay mds que
tun grupo, elige la que quieras y siempre encontrarés,
4
alguien que esté de acuerdo contigo. Si hay dos gropos
‘0 ms, gcémo nos las apanamos para dejar claro a cus
die
ferencias entre ntimeros, ya sean tamaiios de muestras,
valores de la variable o evalesquieza otros, utlizamos
subindices. Es decir, colocamos tn subindice a conti
nuadion de la letra correspondiente: n, indicard el
mai de la muestra del grupo 1; X, el valor de X para
el individuo 3, y asf sucesivamente.
Para indicar que debemos sumar una serie de nxime
os, utlizamos el simbolo , que es la sigma griega ma:
ylscula, (La sigma mindscula, 9, tiene un significado
de ellos se reliere la n? Cuando queremos estab:
completamente distinto, que veremos a continuacion).
Slexiste alguna ambigiedad acerca de qué datos debe
‘mos sumar, podemos expresar de manera explicta cud
les som mediante la notacion:
o-n
Que leemos, wsuma de los X-sub-j, para ide I hasta No
Esta es s6lo una manera un tanto cabalistica de decir
sstuma todas las X, una para cada uno de los N indivi
uose
X se reliere
n dato concreto, Xs el valor de X
para el individu i. nrepresenta el niimero de
individuos (lamafio de ta muestra) del grupo j.N es
cl tama total de la muestra, es la med
significa «sume
Mas adclante lo haremos todavia mas cabalistico ¢
incluso ensefiaremos algunas letras griegas mas. Pero
por ahora nuestro bagaje es suficiente y regresamos a
nuestro tema principalDESCRIPCION DH LOS DATOS MEDIANTE NOMEROS
MEDIDAS DE CENTRALIZACION
Lamedia
‘Aunque sélo sea para romper la monotonia vamos a
‘omenzar tratando los datos iniervallcos y proporci
rales y tecorrere} camino a la inversa, hacia los datos
ordinales y nominales. Echemos un vistazo a la figura
3-1, en fa que hemos afiadido un segundo grupo de
datos de oFinales vaciados a partir de los del capitulo
anterior. Como puiedes ver, la forma de su distibucién
fs idéntica a la del primero de los grupos, pero ha sido
dlesplazada 15 unidades a la derecha, ¢Hay alguna for:
ma de plasmar esto con nn niimero?? Una manera sen:
Gilla es sumar el niimero total de cuflas vaciadas por
‘eada uno de los dos grupos. Para el primer grupo, el
resultado es 3083. Pese a que no te hemos facilitado
Jos datos, la suma total del segundo grupo es 4583. Esto
nos dice inmediatamente que el segundo grupo trabajo
ids que el primero (o bien que tenia mis pacientes
nnecesitados de este servicio imprescindible)
Sin embargo, no siempre vamos a tener ef misino
snimero de individuos en cada grupo, Silos estudiantes
del segundo de ellos hubieran trabajado eon la misma
Intensidad, pero hubieran sido 50, el total de orinales
vvaciados hublera sido sélo de 2291. Bsevidente que una
forma mejor seria dividir la Suma total por el nfimero,
de individios, con lo que poxtriames comparar de ma-
nera inmediata dos o nds grupos entre sf, incluso en el
«cago en que tengan dilerente ntimero de individuos. Asi
Si dividimos cada total por 100 obtenemos 30,83 para
el primer grupo, y 45,83 para el segundo. Lo que he-
mos hecho ha sido calcular el mimero medio de eufias
vaciadas por cada persona. En el lenguaje estadistico
cste nimero reeibe el nombre de media aritmética
(MA) o, simplemente, media.
BI motivo por el que hemos aftadide et eaifieativo
saritméticas se debe 2 que existen otros tipos dein
dias, como Tas medias atménica y geomeétrica; esta titi-
mma la srataremos (muy brevemente) al final de este ca-
pitulo. Sin embargo, cuando el rérmino mediase usa sin
ningiin adjetivo, se reflere ala MA. Si-existe agin ries-
go de confusion (y esto existe siempre en este campo)
hharemos uso de la abreviatura. Con la notacién que
acabamos de aprender, la férmula correspondiente a la
‘media es:
om 62)
Deletreamos la ecuacién con esta formidable nota
ci6n por motivos didacticos. A partir de ahora, usare-
‘mos formas coneeptualmente més sencillas en el texto
salvo que pueda existr alguna ambigiiedad. Como 0
hay posibilidad de confusion acerca de qué valores de X
son los que se deen sumar, podemos simplifcar como
sigue:
La media aritmnética
63)
Ne ees
10
Numero de enfermeras
14
0 10 20 30 40 50 €0 70 80 90
Numero de cunas
La media ¢s la medida de centralizacion para datos
intervalicos y proporcionates.
Una medida de centralizacisn es el valor etipicon de
los datos
Una de las itonias de la estadistica es que el valor
mis tipico», 30,83 para el grupo 1, y 45,83 para el 2
‘no aparecen jams en los datos originales, Es decit, si
‘yuelves de nuievo ala tabla 2-2, no esperes encontrar a
nadie que haya vaciade 30,83 orinales, pero este valor
¢s el mds representative del grupo como entidad pro-
pla?
Lamediana
{Qué podemos hacer con datos ordinales? Es obvio (al
lens para nosotros} que, como se agrupan en catego
rigs ondenadas, no podemos summarlas in més y dividir=
las por el miimero de datos. Ni siquiera en cl caso en.
aque las distintas eateyorias estén representadas por Di
neros, como nivel 1a nivel IV de céncer, la «media no
tiene ningin significado En este ease usamos una me=
ida de centralizacién denominada mediana,
La median cs el valor que deja la mltad
de los individios por debajo de , y la tra ms
‘por encima,
Comencemos con un ejemplo sencillo: eanemos los
9 niimeros siguientes: 1,3, 3, 4, 6, 13,14, 14 y 18. Ob-
serva que ya hemos dado el primer paso, que consiste
‘en ordenar los valores. Bs irrelevante que este orden
sea de menora mayor 0a la inversa. Como hay un mi-
mero impar de valores, el que ocupa la pasicién cen-
tral el 6 en este caso, es la mediana; hay cuatro valores,
menores que él, y otros euatra que son mayores
‘Siaftadiézamos un valor més, por ejemplo el 17, en
Afamos un nimero par de elles y la mediana seria la
MA de los dos centrales, es decir (6413) # 2= 9,5. De
nuevo, la mitad de los valores queda por debajo de 9,5,
y la ofa mitad, por encima. (Esta introduecién es in
consistemte deste el punto de vista de la I6glea, Esta
‘mos caleulando la mediana porque se supone que la
‘media no se usa para datos ordinales. Si éste es el caso,
_cémo es posible calcular esta media para los dos valo~
1s
FIGURA 3-1
Grilicos de dos
‘erupos, con el
segundo desplazada
15 unidades a la
derecha
> Hasta ahora, has
aprendido que jams
formulas ona
reguotasi antes no
sabes la respuesta,
Sina nos ees,
puedes semar
Tos mers de
tabla 2:21
5 Bo es come aconsejar
‘alguien que no sabe
nada que no debe
cruzar un arvayo auya
profandidad media es
de 130cm,
“También parece
ridiculo escribir que
Ia estancia media es
ULXN (es decir
2.64, para aguelos de
estos que no saben
escribir en meres
romanos).16
FIGURA 3-2
‘Una distaibucion
bimodal de
las calificaciones
de una case.
FIGURA 3-3
Dos grupos que
difieren en el grado
de dispersisn.
id
a cat
est deter
sunt
vain y 7
otro wérming
LA NATURALEZA DE LOS DATOS Y LAESTADISTICA,
16
lh wih
B- C+
Calificaciones
Numero de estudiantes
i
Ay A A. Be B
res centrales? En sentido estricto, no se puede, pero lo
hacemos.)
Siel valor de la mediana se presenta més de una ver
{como en la sucesién 5.6777 10 10 11), algunos puristas
caleulan una mediana que depende del miimera de va
lores inferiores y superiores a la linea de divisién {por
cjemplo, hay dos sites por debaj, y uno, por encima).
Esto no sélo es dilicil de entender, sino que, por ora
parte, cl resultado difiere del de nuestra métado «im:
jpuro» en apenas unas cifras decimales
Lamoda
La mediana no puede utlizarse con datos nominates.
Estos son habitualmente categorias no muméricas y,
como dijimos al principio, podemos alterar el orden de
las mismas sin que pase absohitamente nada, Ast, el
concepto de «valor central» pierde todo su sentido. La
medida de centralizacién para datos nominales es la
moda,
Lam
la es la categoria con miayor fre
Cc D+ D DF
Si volvemos a la tabla 2-1, la materia clegida mas
veces era Economia: por tanto, sevia la moda. Si dos ea
tegorias presentaran la misma frecuencia, o cas” la dis
tribucién seria bimodal. Esto es fo que me ocurti6 en
tun curso de ecuaciones diferenciales que realié: si en-
tendias lo que estabas haciendo, el curso era una trivia
Hidad, mientras que en caso contrarlo, por mucho que
estudiaras, no habia nada que hacer. Asi, las notas fina
les tenian una apariencia global como puede verse en la
figura 3-2: una mayoria de sobresalientes (A) y suspen
08 altos (D), com alguna salpicadura de las notas res
lamtes (B, C y F). Si hubiera tres edispides en los datos,
usarlamos el término trinodal, pero esto no es cortiente
verlo en los libros porque los estadisticos tienen prob
mas para contar por encima de dos. Sin embargo, algu-
nas veces vers la palalora multimodal para desluar da
tos con un gran niimero de edspides* de una altura
pricticamente igual
MEDIDAS DE DISPERSION
Hasta aqui hemos visto que la distribucién de datos (es
decir, su forma) puede diferenciarse respecto a su ten:
ddencia central, pero hay otros aspectos en los que pie
den mostrar diferentes. Por ejemplo, echa un vistazo
4a figura 3-3, Ambas curvas tienen la misma media,
seftalada como X, pero ¢s evidente que no tienen la
mista forma; los valores de la variable en el grupo 2 se
agrupan mas alrededor de la media de lo que To hacen
los del grupo 1. Bn otras palabras, hay menos disper
sién en cl segundo grupo,
Una media de dspersién hace referencia a cémo
quedan agrupads los datos alrededor de la medida
de centtalizacida,
¥sta vee vamosa comenzar con datos nominales para
analiza Finalmente datos intervdlicos y proporcianales.
Bn realidad, para tacilitarnos vodavia més el trabajo,