Está en la página 1de 10

TÉCNICAS CUANTITATIVAS APLICADAS A LA BIBLIOTECONOMÍA Y DOCUMENTACIÓN

FÉLIX D E MOY A ANEGÓ N

JAVIER LÓPE Z

GIJÓN

CONCEPCIÓN GARCÍ A

CARO

DESCRIPCIÓN D E DATOS. ESTADÍSTICA DESCRIPTIVA

Con la estadística descriptiva lo que pretendemos hacer es un resumen de los datos, es decir extraer de ellos la información que consideramos más relevante. Este resumen de las observaciones será el primer paso para después poder realizar inferencias, que es el objeto de la estadística inductiva o inferencial. La estadística descriptiva, por tanto, solo se ocupa de resumir (describir) la muestra estudiada -las observaciones realizadas- y no establece relación alguna con la población a la que pertenece la muestra. Como veremos más ampliamente en el apartado de muestreo (3.1) las observa- ciones se pueden hacer sobre el total de los posibles valores de la variable, en este caso estaríamos trabajando con la población, o, por el contrario, si lo que tenemos es un conjunto representativo de elementos de una población, estaríamos trabajan- do con una muestra.

1.1. Medidas características de una distribución

1.1.1. Medidas de tendencia central

Si disponemos de un conjunto de datos homogéneos de una variable cuantitati- va les podemos aplicar ciertas medidas de resumen, pues, como acabamos de ver, la estadística descriptiva nos permite representar o resumir las características funda- mentales de un conjunto de datos no analizados. A estas medidas se les llama de centralización porque nos sirven para represen- tar el valor medio de los datos, es decir, el valor que refleja el tamaño del dato má s

14

Técnicas

cuantitativas aplicadas a la biblioteconomía

y

documentación

esperado. Ello nos indica la posición en la que se encuentra el centro de los datos y por eso se denominan medidas de tendencia central. Las medidas de centralización más utilizadas son la media, la mediana y la moda.

1.1.1.1. Media

La media la podemos definir como la suma de un conjunto de observaciones di- vidido por el número total de observaciones realizadas. Fórmula:

n

donde:

x

representa cada una de las magnitudes individuales de las observaciones.

X x

es la suma de todas las observaciones.

n

es

el número total de observaciones realizadas.

Cuando la media es de una muestra la representaremos como:

donde:

x =

^

n

n es el número total de observaciones realizadas (el tamaño de la muestra). Si la media es de una población la representaremos como:

donde:

N

H

es la media de la población.

N

el tamaño de la población.

Cuando los valores de la variable x están asociados a frecuencias la media se calcula con la fórmula siguiente:

donde:

/

es la frecuencia de cada valor de x.

n

es

el total de frecuencias de x.

EJEMPLO

Capítulo

1: Descripción

de datos. Estadística

descriptiva

15

Una biblioteca quiere conocer el tiempo medio que tardan los proveedores en

suministrar las peticiones que la biblioteca les hace, con la idea de conocer tanto el

tiempo medio en que se sirven los pedidos, como los proveedores que superan am-

pliamente esta media. Para ello cuenta con el tiempo en días que los proveedores

han tardado en suministrar distintos pedidos, que son los que aparecen en el gráfico

adjunto. Los días que cada

proveedor (P1

..

P15)

ha tardado en suministrar un pedi-

do son los valores que adquiere la variable x. Y el número de proveedores analiza-

do (15) es

n.

Por tanto si aplicamos la fórmula

  • - X *

tenemos que el sumatorio de x ( Y,x) es 150 y el número de proveedores es 15, lue-

go la media es:

x

=150/15-10

Por tanto, diez días es el tiempo medio que tardan en suministrar los pedidos. Si

representamos gráficamente estos resultados (véase gráfico adjunto) vemos que en

los diez días, que es la media, hemos trazado una línea y se ve claramente qué pro-

veedores tardan más o menos tiempo en función de la media. Con lo que la biblio-

teca estaría en condiciones de tomar las decisiones que considere oportunas con

respecto a los suministradores más lentos.

 

Tiempo de respuesta de

de

los i >rovee( lores

los i >rovee( lores

lores

lores

^ Media

^ Media

 

•i •i

— - \1 ül:™

 

i

^

 

•'•

"

'

 

1

L —

'

..

L^ ....

..

»„•••

.

J

. »

IU

.

.

.

J.

...

.

J .

MJUUUUUJJUUUJUJU U

x

"j—r

  • 1 | | | | | | | | H H H H H H H H Tiempo Tiempo Tiempo Tiempo Tiempo Tiempo Tiempo Tiempo j j j j j j j j

"zzzzL™T±tSI|' i MI! :^

 

|„ „„ „„

 

1 - -

-L ™

H

P1 :ZJ.:.±±

( p-

1

y.-.-» -

2

4

1

6

1

1

10

1 2

1 4

4

4

4

4

4

4

4

1.1.1.2. Mediana

La mediana es un número tal que, si ordenamos los datos de forma creciente o

decreciente, cumple la condición de ser mayor que una mitad y menor que la otra.

Es decir, es el valor que divide la distribución en dos partes iguales.

  • 16 Técnicas cuantitativas aplicadas a la biblioteconomía

y

documentación

Si el número de los casos es impar la mediana es el valor central, si el núme-

ro de casos es par la mediana sera la media de los dos valores centrales. Por tan-

to si n es impar la mediana será el dato (n+l)/2. Si el número de datos es par la

mediana se encontrará en el centro entre el dato n/2 y (n+2)/2 y como ya hemos

dicho entonces la mediana se obtiene al calcular la media de estos dos valores

centrales.

EJEMPLO

Una biblioteca que hace adquisiciones de libros antiguos quiere saber el tiempo

que tardan los proveedores

(P1

..

P15)

en suministrarles los pedidos, para hacerlo

constar en su informe anual sobre la biblioteca y para ello quiere calcular la media-

na. Los días que tardan los proveedores son:

Pl

P2

P3

P4

P5

P6

P7

24

65

25

62

26

"~

-58

27

P9

PIO

P l l

P12

P13

P14

P15

27

45

29

28

30

35

38

Si ponemos en orden creciente estos datos resulta:

 

Pl

P2

P4

P7

P9

P12

P l l

24

25

26

27

27

28

29

P14

P15

P8

PIO

P6

P4

P2

35

38

44

45

58

62

65

-i

P8

44

P13

30

Como el número de proveedores es impar (15) la mediana se encontrará en el

lugar (15+l)/2=8, y vemos que el valor del lugar octavo es 30, que es el valor de la

mediana (véase gráfico y tabla adjuntos). Treinta días es el valor mediano que tar-

dan los proveedores én suministrar los pedidos.

1.1.1.3. Moda

La moda de una distribución es el valor más frecuente. Si los datos de la distri-

bución están agrupados, la moda es el punto medio del intervalo que contiene el

mayor número de frecuencias.

Capítulo

1: Descripción

de datos. Estadística

descriptiva

17

Una distribución de observaciones puede no tener moda, es decir ningún valor

de la distribución aparece con más frecuencia.

Tiempo de respuesta de los proveedores

• Tiempo

P11

P13

EJEMPLO

Una

biblioteca especializada tiene recogido el tiempo en días que tardan los

usuarios (U1

U15)

en devolver los préstamos. Y para ajustar la política de présta-

mos al tiempo real que tardan los usuarios quiere calcular la moda de los tiempos de

demora. Los tiempos en días que han tardado los distintos usuarios en devolver los

préstamos son:

U l

U2

U3

U4

U5

U6

U7

U8

1

2

4

3

6

5

8

7

U9

U10

U l l

U12

U13

U14

U15

2

2

1

9

6

3

7

Como hemos visto la moda es el valor más frecuente, y podemos observar que

este valor es 2, dos días, por tanto, podría ser el plazo idóneo de préstamo para esta

biblioteca (véase gráfico adjunto).

También puede darse el caso de que dos valores tengan la misma frecuencia,

entonces podemos encontrarnos con una moda que no es única, es decir una distri-

bución con dos modas, a la que llamamos bimodal. Cuando nos encontramos con

una distribución bimodal podemos interpretar que no existe suficiente homogenei-

dad en la población, y de cara a su estudio podría ser conveniente subdividirla.

18

Técnicas

cuantitativas aplicadas a la biblioteconomía

y

documentación

Tiempos de demora en la devolución de los préstamos

U15

U13

U11

U9

U7

US

U3

U1

EJEMPLO

H5B

88855558558888 88B55555558

2

^

Moda 4

H

Días

10

Una biblioteca pública tiene recogido el número de personas que han asistido a

los 24 actos de extensión cultural que ha organizado durante el último año, con vis-

tas a realizar un estudio sobre las actividades de animación que realiza el centro.

Los datos de asistencia a los actos son:

  • 60 32

58

30

50

38

62

59

29

28

45

54

  • 25 31

51

32

27

61

58

33

48

52

35

'

34

, r ;^- :

•i¡--::;.r-.¡^í^s.

Asistentes a actividades culturales

Modas

A1

A3

A5

A7

A9

A11

A13

A15

A17

A19

A21

A23

 

|g Asistentes |

 

Capítulo

1: Descripción

de datos. Estadística

descriptiva

19

Si se observa esta distribución se ve que es bimodal (en 58 y 32 con una frecuen-

cia de 2), luego pueden existir dos grupos distintos de asistentes. Revisados los datos,

se constata que están agrupados todos los actos que organiza la biblioteca, pero sin

embargo hay actividades para adultos y para jóvenes y, si se desagregan, la moda de

los actos para jóvenes es de 58 y para adultos es de 32, por lo que se debe considerar

que es preferible estudiar por separado los actos para adultos de los organizados pa-

ra jóvenes, pues parece observarse comportamientos distintos en ambos grupos.

1.1.1.4. Cálculo de la media de datos agrupados

A veces necesitamos calcular la media de una distribución de frecuencias en la

que los datos están agrupados en intervalos. En este caso la fórmula que debe apli-

carse es:

 

-

I/ M

x =

 

n

donde:

/

es la frecuencia asociada a cada intervalo.

M

es el punto medio del intervalo.

n

es la frecuencia total (número total de observaciones).

EJEMPLO

Una biblioteca tiene un registro del número de documentos que cataloga y

del tiempo que tarda: en el intervalo de 5 a 9 minutos se han catalogado 10 docu-

mentos, 25 documentos han tardado en ser catalogados de 10 a 14 minutos, 15-19

minutos es el tiempo que se ha tardado para 31 documentos, 12 documentos se

han catalogado entre 20 y 24 minutos, de 25 a 29 minutos se ha necesitado para

catalogar 8 documentos, y por último para catalogar 10 documentos se ha nesesi-

tado de 30 a 34 minutos. A partir de estos datos, la biblioteca quiere conocer el

tiempo medio que tarda en catalogar. Para ello podemos construir una tabla, co-

mo la siguiente, que nos facilite el cálculo:

Tiempo

M

5-9

7

10-14

12

15-19

17

20-24

22

25-29

27

30-34

32

 

/

:

.

fM

10

70

25

300

31

527

12

264

8

216

10

320

n =

X/ = 9 6

ZfM

= 1697

llilillflsp™

VfflSS

W

¡HUI

mm-

.

i§§ j

20

Técnicas

cuantitativas aplicadas a la biblioteconomía

y

documentación

El cálculo es:

96

Por tanto, 17.68 minutos es el tiempo medio que tarda la biblioteca en catalogar.

1.1.1.5. Cálculo de la mediana de valores agrupados

Para calcular la mediana de datos agrupados aplicaremos la siguiente fórmula:

 

(

/

\

 

Md

= 1 +

 

f

donde:

l

es el límite inferior del intervalo que contiene la mediana,

n

es la frecuencia total.

F

es la frecuencia acumulativa correspondiente al limite inferior que contiene

la mediana.

es el número de casos del intervalo que contiene la mediana,

es la amplitud del intervalo que contiene la mediana.

EJEMPLO

Una biblioteca tiene recogidos los precios del material que adquiere: 3 documen-

tos han costado entre 1 y 500 pesetas, el precio de 13 ha oscilado entre 501 y 1.000,

entre 1.001 y 1.500 pesetas se han adquirido 25 documentos, 20 han tenido un precio

entre 1.501 y 2.000, el precio de 18 documentos se encuentra comprendido entre

2.001 y 2.500 pesetas, entre 2.501 y 3.000 se han adquirido 20 documentos y por últi-

mo 11 han tenido un precio que oscilaba entre 3.001 y 3.500. A partir de estos datos

la biblioteca quiere conocer el precio mediano de los materiales que adquiere.

Para realizar este cálculo podemos construir una tabla como la siguiente:

Precio

Frecuencia (f)

Frec. acumulada (F)

Amplitud

intervalo (i)

1-500

3

3

500

501-1.000

13

16

1.001-1.500

25

41

n

1.501-2.000

20

61

"

2.001-2.500

18

79

"

2.501-3.000

20

99

3.001-3.500

11

110

"

Wsm

-

-

jtíF

Capítulo

1: Descripción

de datos. Estadística

descriptiva

21

Para conocer el límite inferior del intervalo que contiene la mediana (/), dividi-

remos el número total de observaciones por dos, 110/2=55, la mediana se encontra-

rá en el intervalo que tenga la frecuencia acumulada más cerca de 55,

que

es el in -

tervalo 1.501-2.000 (tiene una frecuencia de 61), el límite inferior es por tanto 1501.

n es la frecuencia total, que como vemos en la tabla es 110. F es la frecuencia acu-

mulativa que corresponde al límite inferior que contiene la mediana, que es 41. E l

número de casos del intervalo que contiene la mediana (f) es 20 y la amplitud del

intervalo que contiene la mediana (i) es 500.

*

Por tanto si sustituimos estos valores en la fórmula

tenemos:

 

f

/

\

 

Md

= 1 +

y2-F

 

f

Md

= 1501 +

 

500 = 1851

20

Luego el precio mediano del material que adquiere esta biblioteca es de 1.851 pe-

setas.

1.1.1.6. Comparación de la media y la mediana

Tanto la media como la mediana son, como hemos visto, medidas de centraliza-

ción, pero sin embargo, y según los casos, una puede ser más útil que otra a la hora

de dar información sobre los conjuntos de datos. Para saber cuando puede ser más

útil aplicar una u otra, vamos a ver algunas diferencias entre estas medidas.

Para calcular la media utilizamos todos los datos, sin embargo para la mediana

esto no sucede. A l utilizar todos los datos para el cálculo de la media ocurre que si

hay valores extremos la media se verá bastante afectada, por el contrario la existen-

cia de valores extremos afecta muy poco a la mediana.

En el ejemplo que hemos visto para la media el resultado era 10, si calculamos

la mediana de ese ejemplo también nos da 10. Sin embargo en el ejemplo de la me-

diana vemos que su valor es 30, pero si calculamos la media nos da 37.53

Con estos ejemplos se puede ver que cuando hay más casos extremos en una di-

rección que en otra (distribución con gran asimetría) la mediana

será má s apropia-

da que la media. Y por eso, en el caso de la biblioteca que quiere conocer el tiempo

que tardan en suministrarle los libros antiguos para incluirlo en su informe anual

-debido a que se dan valores extremos- es más apropiado el cálculo de la mediana

que de la media.

También hay que tener presente, aunque no es objeto de estudio en este libro,

que para utilizar la media necesitamos una escala de intervalo. Sin embargo, la me-

diana se puede utilizar tanto en las escalas de intervalo como en las ordinales.