Está en la página 1de 26

Probabilidad y Estadstica (I.I.

Tema 1

Tema 1
ESTADSTICA DESCRIPTIVA
Cuando coloquialmente se habla de Estadstica, se suele pensar en una relacin de datos
numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del
concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a
la influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de
difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de
informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin,
turismo, tendencias polticas, etc.
Slo cuando nos adentramos en un mundo ms especfico como es el campo de la
investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a
percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios,
en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca,
no puedan ser abordadas desde la perspectiva de las leyes determistas.
La ESTADSTICA es la ciencia que se ocupa de la ordenacin y anlisis de datos
procedentes de muestras y de la realizacin de inferencias sobre las poblaciones de las que
stas proceden.
Generalmente se pueden distinguir dos fases en la realizacin de cualquier experimento o
estudio cientfico. Una primera, que consiste en la observacin y anlisis de los hechos que
acontecen (recogida de informacin, colecciones de datos) y otra segunda, de
interpretacin y obtencin de conclusiones. La estadstica descriptiva es la primera
herramienta para el manejo de los datos y proporciona mtodos para resumirlos y
organizarlos.
Describe, analiza y representa un grupo de datos utilizando
mtodos numricos y grficos que resumen y presentan la
informacin contenida en ellos. Es la 1 fase de toda
investigacin.

Implica realizar inferencias acerca de la poblacin a partir


de los datos muestrales y requiere clculo de
probabilidades.

1.- Conceptos Bsicos. Tipos de variables


Veamos los conceptos generales necesarios para estructurar de alguna forma la
informacin.
Poblacin: Es el conjunto de referencia sobre el que van a recaer las observaciones, todos
los elementos que porten informacin sobre el fenmeno que se estudia (por ejemplo, si

Probabilidad y Estadstica (I.I.)

Tema 1

estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas
de dicha ciudad). Generalmente este conjunto viene definido por comprensin, es decir,
citando la propiedad que lo caracteriza (habitantes de Telde con edades comprendidas
entre 3 y 7 aos inclusive). Las poblaciones pueden ser finitas o infinitas, dependiendo del
nmero de elementos que las forman.
Individuo: Es cada uno de los elementos que componen la poblacin estadstica en estudio.
As, si estudiamos la altura de los nios de una clase, cada alumno es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo. Es un ser observable que
no tiene por qu ser una persona, puede ser un objeto, un ser vivo, etc
Muestra: Es un subconjunto de individuos que seleccionamos de la poblacin. Se suelen
tomar muestras cuando es muy difcil o costosa la observacin de todos los elementos de la
poblacin. El nmero de elementos de la misma se llama tamao de la muestra. Se deben
escoger los individuos de la muestra de manera que sean representativos de la poblacin de
la que proceden, es decir, que conserven las propiedades de aquella. As, si se estudia el
precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las
viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo.
Caracteres o variables estadsticas: El carcter es cualquier cualidad o propiedad
inherente al individuo. Por ejemplo, si el individuo observado es un libro, podremos
describirlo mediante los caracteres peso, tamao, nmero de hojas, color de las pastas,
etc A cada una de estas caractersticas la llamamos variable estadstica y la
representamos normalmente por las letras maysculas X, Y, Z,
Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad,
el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc
Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en
unas elecciones, el estado civil, el sexo, la nacionalidad, etc A los primeros se les llama
caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a
los segundos caracteres cualitativos o categricos (y variables cualitativas a las variables
que los representan).
Una clasificacin que podemos hacer de las variables estadsticas es:
Variables cualitativas: cuando las modalidades posibles son de tipo nominal. Por ejemplo, el
grupo sanguneo tiene por modalidades A, B, AB, O ; o bien una variable A de color:

Variables cuasicuantitativas: son las que, aunque sus modalidades son de tipo nominal, es
posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de
un corredor en una competicin de 20 participantes, su clasificacin C es tal que:

Otro ejemplo de variable cuasicuantitativa es el nivel de dolor, D, que sufre un paciente


ante un tratamiento mdico:

Probabilidad y Estadstica (I.I.)

Tema 1

Variables cuantitativas: son las que tienen por modalidades cantidades numricas con las
que podemos hacer operaciones aritmticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
Discretas: Toman valores aislados y no pueden tomar ningn valor entre dos
consecutivos fijados, slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc, pero nunca podr ser 3,45);
n de monedas que una persona lleva en el bolsillo (0, 1, 2, ). Es obvio que cada
valor de la variable es un nmero natural X N.
Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre
pueden tomar valores entre dos consecutivos, por muy prximos que los fijemos.
Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h; altura de
las personas, medida del tiempo,...etc. En este caso los valores de las variables son
nmeros reales X
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin del
aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una
regla que ofrece dos decimales de precisin, podemos obtener

En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el
. Por tanto cada
verdadero valor de la misma se encuentra en un intervalo de radio
una de las observaciones de X representa ms bien un intervalo que un valor concreto.
Modalidades o valores de las variables: Es cada uno de los posibles valores que puede
tomar una carcter y se representan con las letras minsculas x1, x2, , xn. Por ejemplo, el
carcter o variable estadstica cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. El carcter o variable estadstica cuantitativa edad
puede tomar las modalidades o valores: 10 aos, 12 aos, 15 aos, etc
Una variable estadstica puede tomar distintos valores y cada uno de ellos puede aparecer
repetido ms de una vez en la muestra que se estudia de la poblacin.
A veces el conjunto de modalidades o valores que puede tomar una variable son muy
numerosas (v.g. cuando una variable es continua) y conviene reducir su nmero,
agrupndolas en una cantidad inferior de clases. Estas clases deben ser construidas de
modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y slo una de las clases.
Las variables estadsticas tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin sobre una caracterstica (por
ejemplo: edad de los alumnos de una clase).

Probabilidad y Estadstica (I.I.)

Tema 1

Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, informacin sobre


dos caractersticas de la poblacin, que pueden o no estar relacionadas, (por ejemplo: edad
y altura de los alumnos de una clase).
Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, informacin
sobre tres o ms caractersticas de la poblacin, que pueden o no estar relacionadas (por
ejemplo: edad, altura y peso de los alumnos de una clase).
2.- Organizacin de los datos. Tablas de frecuencias.
Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos
organizarlos. La tabla de frecuencias es la representacin estructurada, en forma de
tabla, de toda la informacin que se ha recogido sobre la variable que se estudia.
Variable

Frecuencias absolutas

Frecuencias relativas

(Valor)

Simple

Acumulada

Simple

x1

n1

N1= n1

f1 = n1 / N

F1= f1

x2

n2

N2= n1 + n2

f2 = n2 / N

F2= f1 + f2

...

...

...

...

...

xn-1

nn-1

Nn-1= n1 + n2 +
fn-1 = nn-1 / N
...+ nn-1

Fn-1= f1 + f2 + +
f n-1

xn

nn

Nn = n = N

Fn = f =1

fn = nn / N

Acumulada

en la cual utilizamos la siguiente notacin:


- N = tamao de la muestra = nmero total de observaciones
- xi = cada uno de los distintos valores discretos de la variable. Si las modalidades o valores
posibles de la variable en estudio son muy numerosas y estn agrupadas en clases c1, c2, c3,
cn, los valores xi, i = 1, , n corresponden a las marcas de cada una de las clases (punto
medio del intervalo de clase).
- ni = frecuencia absoluta de xi = nmero de observaciones en la muestra que toman el valor
xi
- fi = frecuencia relativa de xi = proporcin de observaciones en la muestra que toman el
valor xi .
Las siguientes frecuencias acumuladas se calculan sobre variables cuantitativas o cuasi
cuantitativas. No tienen sentido para variables cualitativas. Para su clculo se requiere que
los valores estn ordenados en orden ascendente.
- Ni = frecuencia absoluta acumulada de xi = nmero de observaciones en la muestra que
toman valor menor o igual que xi
- Fi = frecuencia relativa acumulada de xi = proporcin de observaciones en la muestra que
toman valor menor o igual que xi
Observar que se cumplen las siguientes igualdades:

Veamos un ejemplo:
Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

Probabilidad y Estadstica (I.I.)

Tema 1

Alumno

Estatura

Alumno

Estatura

Alumno

Estatura

Alumno 1

1,25

Alumno 11

1,23

Alumno 21

1,21

Alumno 2

1,28

Alumno 12

1,26

Alumno 22

1,29

Alumno 3

1,27

Alumno 13

1,30

Alumno 23

1,26

Alumno 4

1,21

Alumno 14

1,21

Alumno 24

1,22

Alumno 5

1,22

Alumno 15

1,28

Alumno 25

1,28

Alumno 6

1,29

Alumno 16

1,30

Alumno 26

1,27

Alumno 7

1,30

Alumno 17

1,22

Alumno 27

1,26

Alumno 8

1,24

Alumno 18

1,25

Alumno 28

1,23

Alumno 9

1,27

Alumno 19

1,20

Alumno 29

1,22

Alumno 10

1,29

Alumno 20

1,28

Alumno 30

1,21

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de


frecuencias:
Variable

Frecuencias absolutas

Frecuencias relativas

(Valor)

Simple

Acumulada

Simple

Acumulada

1,20

3,3%

3,3%

1,21

13,3%

16,6%

1,22

13,3%

30,0%

1,23

11

6,6%

36,6%

1,24

12

3,3%

40,0%

1,25

14

6,6%

46,6%

1,26

17

10,0%

56,6%

1,27

20

10,0%

66,6%

1,28

24

13,3%

80,0%

1,29

27

10,0%

90,0%

1,30

30

10,0%

100,0%

Si la variable que intentamos estudiar no es discreta (como en el ejemplo anterior), sino


que es continua (puede tomar cualquier valor de la recta real), o bien, siendo discreta, los
valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas
veces; entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos
una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.
Veamos un ejemplo.
Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los
siguientes resultados (cm):
Habitante

Estatura

Habitante

Estatura

Habitante

Estatura

Habitante 1

1,15

Habitante 11

1,53

Habitante 21

1,21

Habitante 2

1,48

Habitante 12

1,16

Habitante 22

1,59

Habitante 3

1,57

Habitante 13

1,60

Habitante 23

1,86

Probabilidad y Estadstica (I.I.)

Tema 1

Habitante 4

1,71

Habitante 14

1,81

Habitante 24

1,52

Habitante 5

1,92

Habitante 15

1,98

Habitante 25

1,48

Habitante 6

1,39

Habitante 16

1,20

Habitante 26

1,37

Habitante 7

1,40

Habitante 17

1,42

Habitante 27

1,16

Habitante 8

1,64

Habitante 18

1,45

Habitante 28

1,73

Habitante 9

1,77

Habitante 19

1,20

Habitante 29

1,62

Habitante 10

1,49

Habitante 20

1,98

Habitante 30

1,01

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de


30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una
frecuencia relativa del 3,3%. Esta tabla nos aportara escasa informacin.
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin
queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e
informativa:
Estatura

Frecuencias absolutas

Frecuencias relativas

Cm

Simple

Acumulada

Simple

Acumulada

1,01 - 1,10

3,3%

3,3%

1,11 - 1,20

10,0%

13,3%

1,21 - 1,30

10,0%

23,3%

1,31 - 1,40

6,6%

30,0%

1,41 - 1,50

15

20,0%

50,0%

1,51 - 1,60

19

13,3%

63,3%

1,61 - 1,70

22

10,0%

73,3%

1,71 - 1,80

25

10,0%

83,3%

1,81 - 1,90

27

6,6%

90,0%

1,91 - 2,00

30

10,0%

100,0%

El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el
analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero
puede que menos representativa e informativa sea la tabla. Hemos de elegir un nmero de
intervalos que equilibre estos dos aspectos y que en cada caso el investigador los
acomodar a la forma y cantidad de informacin obtenida.
A la diferencia entre el extremo superior e inferior del intervalo se le llama amplitud del
intervalo y puede ser constante o variable. Al punto medio de cada intervalo se le llama
marca de clase. Es el valor que representa la informacin que contiene el intervalo. Se
entiende que cuando se hace una agrupacin en intervalos de clase, se est interesado slo
en el nmero de observaciones que caen dentro del mismo y no en la distribucin de stos
en su interior, que siempre se supone homognea, de ah la prdida de informacin a que
nos referamos antes.
La divisin de los intervalos se puede hacer de forma automtica o atendiendo a la divisin
natural del recorrido de la variable en estudio. Existen varias reglas automticas para
determinar el nmero de intervalos a usar en la construccin de una tabla. Los programas

Probabilidad y Estadstica (I.I.)

Tema 1

estadsticos de uso habitual, las usan a menudo en su configuracin estndar, aunque


tambin permiten que el usuario decida por su cuenta las caractersticas de los intervalos
que desea usar.
Una de las reglas ms conocidas fue propuesta por Herbert Sturges y calcula el nmero k
de intervalos mediante la expresin
k = 1 + log2(n) = 1 + 3.322 * log(n)
donde n es el tamao de la muestra.
Ejemplo:
Tenemos las siguientes calificaciones obtenidas en un examen por 15 alumnos diferentes
(evaluadas entre 1 y 7 puntos, se aprueba a partir de 4).
1.9, 2.3, 2.5, 3.2, 3.5, 3.7, 3.9, 4.1, 4.3, 4.9, 5.3, 5.5, 5.8, 6.5, 6.8.
Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicacin
automtica dara lugar a la siguiente tabla:
Notas

N de alumnos

1.8 2.8

2.8 3.8

3.8 4.8

4.8 5.8

5.8 6.8

TOTAL

15

Si, por otra parte, se analizan los datos segn el punto de vista del usuario, resulta mejor
construir esta otra tabla
Notas

N de alumnos

1.0 2.0

2.0 3.0

3.0 4.0

4.0 5.0

5.0 - 6 .0

6.0 - 7.0

TOTAL

15

Probabilidad y Estadstica (I.I.)

Tema 1

Esta segunda tabla se puede interpretar en forma mucho ms til, en particular, porque la
nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la
menor nota para aprobar. En este caso el resumen estadstico permite determinar ms
fcilmente el nmero de aprobados y suspensos en un examen.
3.- Descripciones grficas de los datos:
Hemos visto que la tabla estadstica resume los datos que disponemos de una poblacin, de
forma que sta se puede analizar de una manera ms sistemtica y resumida. Para darnos
cuenta de un slo vistazo de las caractersticas de la poblacin resulta an ms
esclarecedor el uso de grficos y diagramas, cuya construccin abordamos en esta seccin.
La representacin grfica de una distribucin de frecuencias depende del tipo de datos que
la constituya.
Datos correspondientes a un carcter cualitativo
La representacin grfica de este tipo de datos est basada en la proporcionalidad de las
reas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones:
a. Diagrama de sectores (tambin llamados de tarta o de queso):
Est representacin grfica consiste en dividir un crculo (360) en tantos sectores
circulares como modalidades presente el carcter cualitativo, asignando un ngulo central a
cada sector circular proporcional a la frecuencia absoluta ni, ,o relativa fi, consiguiendo de
esta manera un sector con rea proporcional tambin a ni o fi .
El arco de cada porcin se calcula usando una regla de tres:

N 360
360 * ni
xi =
ni x i
N

Si se comparan dos poblaciones de diferente tamao es conveniente usar frecuencias


relativas en la representacin para no llevarse a engaos.
Ejemplo:
As, los ngulos que corresponden a las cuatro modalidades de la tabla adjunta sern:
Nmero de casos ngulo(grados)
Rehusaron ciruga

26

234

Rehusaron radiacin

27

Empeoraron
por
una
enfermedad
ajena al cncer

10

90

Otras causas

Y su representacin en un diagrama de sectores ser:

Probabilidad y Estadstica (I.I.)

Tema 1

b. Diagrama de rectngulos:
Esta representacin grfica consiste en construir tantos rectngulos como modalidades
presente el carcter cualitativo en estudio, todos ellos con base de igual amplitud. La altura
se toma igual a la frecuencia absoluta o relativa (segn la distribucin de frecuencias que
estemos representando), consiguiendo de esta manera rectngulos con reas
proporcionales a las frecuencias que se quieren representar. Igual que antes, si se
comparan dos poblaciones de diferente tamao es conveniente usar frecuencias relativas
en la representacin ya que en otro caso podran resultar engaosas.
Ejemplo:
La representacin grfica de la distribucin de frecuencias absolutas del ejemplo anterior
ser de la forma:

Probabilidad y Estadstica (I.I.)

Tema 1

c. Pictogramas:
Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para
ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos
alusivos al tema de estudio para representar dicha informacin, y el tamao o el nmero o
de estos dibujos dentro de una grfica queda determinado por la frecuencia
correspondiente. Estos son dos ejemplos:

El de la izquierda representa la poblacin de los Estados Unidos (cada hombrecillo


representa a dos millones de habitantes), el de la derecha representa la masa de tres
planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada
representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene ms 17
veces ms masa que la Tierra).
Datos correspondientes a un carcter cuantitativo
Para las variables cuantitativas, consideraremos dos tipos de grficos, en funcin de que
para realizarlos se usen las frecuencias simples (absolutas o relativas) o las frecuencias
acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se
representa el nmero o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el nmero de elementos que presentan una
modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias
acumuladas, lo que da lugar a grficos crecientes, y es obvio que este tipo de
grficos no tiene sentido para variables cualitativas.

10

Probabilidad y Estadstica (I.I.)

Tema 1

Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para
cada una de ellas as como los nombres especficos que reciben.
Grficos para variables discretas:
a. Diagrama de barras:
Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia
absoluta o relativa, dependiendo de la distribucin de frecuencias que estemos
representando.
Ejemplo:
As, la representacin grfica de la distribucin de frecuencias del ejemplo del n de hijos
ser:

b. Diagrama de frecuencias acumuladas:


Esta representacin grfica se corresponde con la de una funcin constante entre cada dos
valores de la variable a representar, e igual en cada tramo a la frecuencia relativa
acumulada (o absoluta acumulada si se trata de representar una distribucin de frecuencias
absolutas) hasta el menor de los dos valores de la variable que construyen el tramo en el
que es constante.
Ejemplo:
Tambin para el ejemplo del Nmero de Hijos, se tendr un diagrama de frecuencias
acumuladas como el del siguiente grfico:

11

Probabilidad y Estadstica (I.I.)

Tema 1

Grficos para variables contnuas:


Al igual que antes, existen tambin dos tipos de representaciones grficas dependiendo de
si la distribucin de frecuencias en estudio es de datos acumulados o de datos sin acumular.
a. Histograma:
Al ser esta representacin una representacin por reas, hay que distinguir si los
intervalos en los que aparecen agrupados los datos son de igual amplitud o no.
Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y
al ser

Frecuencia (rea) = amplitud del intervalo altura


la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad
(generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuacin
anterior se cumpla.
Ejemplo;
En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual amplitud, la
representacin grfica ser:

12

Probabilidad y Estadstica (I.I.)

Tema 1

Ejemplo:
Si tuviramos una distribucin de frecuencias como la siguiente, correspondiente a
puntuaciones obtenidas en un test psicolgico y en la que los intervalos son de diferente
amplitud
Ii

ni

fi

0-20

8/70

20-30

9/70

30-40

12

12/70

40-45

10

10/70

45-50

9/70

50-60

10

10/70

60-80

8/70

80-100

4/70

?ni= 70

?fi=1

Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura
de 2/70 para que el rea sea la frecuencia relativa 8/70. Procediendo de la misma manera
con el resto de los intervalos obtendramos como representacin grfica la figura
siguiente:

13

Probabilidad y Estadstica (I.I.)

Tema 1

Obsrvese que la suma de todas las reas debe ser 1, tanto si los intervalos de la
distribucin de frecuencias relativas son o no de igual amplitud.
b. Polgono de frecuencias acumuladas:
Se utiliza para representar distribuciones de frecuencias (relativas o absolutas)
acumuladas. Consiste en representar la grfica de una funcin que una por segmentos las
alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos
igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al
extremo inferior del primer intervalo y siendo constante a partir del extremo superior del
ltimo.
Ejemplo:
As, para el ejemplo de los Niveles de Colinesterasa, el polgono de frecuencias relativas
acumuladas tendr una representacin grfica de la forma:

14

Probabilidad y Estadstica (I.I.)

Tema 1

3.- Descripciones numricas de una variable:


Al analizar los datos contenidos en una muestra, un paso importante es presentar diversos
resmenes numricos (estadsticas) de la informacin que contiene. De los muchos aspectos
de los datos, que intentamos representar numricamente con estadsticas, tres son los ms
importantes:
su posicin,
su dispersin,
su forma.
Medidas de posicin
Las medidas de posicin nos facilitan informacin sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas caractersticas de esta serie de
datos. Son de dos tipos:
a) Medidas de posicin central
Informan sobre los valores medios de la serie de datos. Las principales medidas de posicin
central son las que definiremos a continuacin. Para ver ejemplos de clculo, utilizaremos la
tabla de distribucin de frecuencias con los datos de la estatura de los alumnos que ya
hemos visto anteriormente.
Variable

Frecuencias absolutas

Frecuencias relativas

(Valor)

Simple

Acumulada

Simple

Acumulada

1,20

3,3%

3,3%

1,21

13,3%

16,6%

1,22

13,3%

30,0%

1,23

11

6,6%

36,6%

1,24

12

3,3%

40,0%

1,25

14

6,6%

46,6%

1,26

17

10,0%

56,6%

1,27

20

10,0%

66,6%

1,28

24

13,3%

80,0%

1,29

27

10,0%

90,0%

1,30

30

10,0%

100,0%

1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las ms utilizadas:
a) Media aritmtica: La media aritmtica de una variable estadstica es la suma
de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es
decir, si la tabla de valores de una variable X es

15

Probabilidad y Estadstica (I.I.)

Tema 1

X ni fi
x1 n1 f1
... ... ...

xk nk fk
la media es el valor que podemos escribir de las siguientes formas equivalentes:

Si los datos no estn ordenados en una tabla, entonces

Observacin: Hemos supuesto implcitamente en la definicin de media que


tratbamos con una variable X discreta. Si la variable es continua tendremos que
cambiar los valores de xi por las marcas de clase correspondientes. En general, la
media aritmtica obtenida a partir de las marcas de clase ci, diferir de la media
obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que
ser tanto mayor cuanto mayor sea la diferencia entre los valores reales y las
marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos.
A pesar de las buenas propiedades que ofrece la media, sta posee algunos
inconvenientes:

Uno de ellos es que es muy sensible a los valores extremos de la variable: ya


que todas las observaciones intervienen en el clculo de la media, la
aparicin de una observacin extrema, har que la media se desplace en esa
direccin. En consecuencia,
no es recomendable usar la media como medida central en las distribuciones
muy asimtricas;
Depende de la divisin en intervalos en el caso de variables continuas.
Si consideramos una variable discreta, por ejemplo, el nmero de hijos en
las familias de Mlaga el valor de la media puede no pertenecer al conjunto
de valores de la variable; Por ejemplo
hijos.

Ejemplo:

x=

(1,20 *1) + (1,21 * 4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)


= 1.253
30

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

16

Probabilidad y Estadstica (I.I.)

Tema 1

b) Media geomtrica: La media geomtrica


los valores de la variable:

, es la media de los logaritmos de

Luego

Si los datos estn agrupados en una tabla, entonces se tiene:

Se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo


estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de
datos de la muestra).
Ejemplo:

X = 1.201 *1.12 4 * 1.22 4 * ... *1.29 3 *1.30 3

30

= 1.253

En este ejemplo la media aritmtica y la media geomtrica coinciden, pero no tiene siempre
por qu ser as.
Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la
media geomtrica. La media geomtrica se suele utilizar en series de datos como tipos de
inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo
sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin
central ms utilizada.
2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores). Es una medida de
posicin central que resulta ser un caso particular de percentil (es el percentil 50).
Entre las propiedades de la mediana, vamos a destacar las siguientes:

Como medida descriptiva, tiene la ventaja de no estar afectada por las


observaciones extremas, ya que no depende de los valores que toma la variable, sino
del orden de las mismas. Por ello es adecuado su uso en distribuciones asimtricas.
Es de clculo rpido y de interpretacin sencilla.
A diferencia de la media, la mediana de una variable discreta es siempre un valor de
la variable que estudiamos (ej. La mediana de una variable nmero de hijos toma
siempre valores enteros).

As, si en la siguiente distribucin de frecuencias,

xi

ni

17

Ni

Probabilidad y Estadstica (I.I.)

Tema 1

7
ordenamos los valores en orden creciente,
que cumple la definicin de mediana.

0 0 0 1 1 2 2

el 1 ser el valor

Datos sin agrupar: Para datos sin agrupar, la Mediana ser la primera observacin que deja debajo de s
estrictamente a las [N/2] observaciones menores, x[N/2] + 1.
Ejemplo:
La distribucin de frecuencias acumuladas del ejemplo del nmero de hijos era
N de hijos(xi)

Frecuencias Acumuladas(Ni)

11

19

23

25

y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana ser Me= 2.


Datos Agrupados: Las grficas siguientes, correspondientes a polgonos de frecuencias absolutas
acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar:

El ms sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la
mediana es Me = xj.
Si la situacin es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la
mediana, est en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomndose en ese caso, por razonamientos de
proporcionalidad, como mediana el valor

siendo cj la amplitud del intervalo [xj-1, xj).


Ejemplo:
La distribucin de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo

Ii

7'5-9

18

9-10'5

10'5-12

12-13'5

13'5-15

15-16'5

Probabilidad y Estadstica (I.I.)

Tema 1

Frecuencia

ni

10

10

Frecuencia Acumulada

Ni

11

21

31

32

34

Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estar en el intervalo [10'5 , 12), y aplicando la frmula
anterior, ser

Ejemplo:
La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de los valores y por
arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas
acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la mediana se situara
exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos
valores se encuentra la divisin entre el 50% inferior y el 50% superior.
3.- Moda: es el valor que ms se repite en la muestra.
Ejemplo:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie
cuenta con 3 modas.
b) Medidas de posicin no centrales
Informan de como se distribuye el resto de los valores de la serie. Permiten conocer otros
puntos caractersticos de la distribucin que no son los valores centrales. Entre otros
indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos
iguales. Vamos a utilizar los mismos datos anteriores para calcular los cuartiles. Los deciles
y percentiles se calculan de igual manera, aunque haran falta distribuciones con mayor
nmero de datos.
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
1 cuartil: es el valor 1,22 cm, ya que por debajo suyo se sita el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro
25% de la frecuencia.

19

Probabilidad y Estadstica (I.I.)

Tema 1

3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro
25% de la frecuencia. Adems, por encima suyo queda el restante 25% de la
frecuencia.
Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez
(como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central
sera realmente una de las repeticiones.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente,
en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. O
ms formalmente:
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que
deja por debajo de si el k% de la poblacin. Esta definicin nos recuerda a la mediana, pues
como consecuencia de la definicin es evidente que Med = P50
En el caso de una variable continua, el intervalo donde se encuentra Pk (li-1, li], se calcula
buscando el que deja debajo de si al k% de las observaciones. Dentro de l, Pk se obtiene
segn la relacin:

Ejemplo (variable discreta)


Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus cuartiles.

xi ni

Ni

0 14

14

10

24

2 15

39

3 26

65

4 20

85

5 15

100

n = 100
Solucin:
1. Primer cuartil:

2. Segundo cuartil:

20

Probabilidad y Estadstica (I.I.)

Tema 1

3. Tercer cuartil:
Ejemplo (variable continua)
Calcular los cuartiles en la siguiente distribucin de una variable continua:

li-1 - li

ni

Ni

0-1

10

10

1-2

12

22

2-3

12

34

3-4

10

44

4-5

51

n = 51
Solucin:
1. Primer cuartil:

2. Segundo cuartil:

3. Tercer cuartil :

Comentario.
No hay slo un criterio para calcular percentiles. De hecho, importantes paquetes estadsticos para ordenador
devuelven resultados diferentes debido a que usan criterios similares, pero no iguales. No debe causar sorpresa,
entonces, encontrar estas diferencias originadas por la falta de un procedimiento universalmente aceptado.
Esta tcnica explicada anteriormente sirve para calcular los deciles y la mediana igualmente.

Medidas de dispersin
Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o
menos concentrados, o ms o menos dispersos. Supongamos que tenemos los tres conjuntos

21

Probabilidad y Estadstica (I.I.)

Tema 1

de datos indicados. Si calculamos la media, la mediana y la moda para cada uno de ellos
tenemos lo siguiente:
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podramos llegar a la conclusin equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas:

vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersin de los
datos es total, en el tercero es la mxima concentracin y el segundo es una situacin
intermedia.
Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las
siguientes. Para ver ejemplos de clculos volveremos a utilizar la tabla de la estatura de los
alumnos de una clase usada anteriormente.
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor ms elevado y el valor ms bajo. Muchas veces esta medida no es suficiente. En los
conjuntos 1 y 2 anteriores el rango resulta ser el mismo: 50 40 = 10.
Ejemplo: la diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20), y
por tanto su rango es 10 cm.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obtenido
se divide por el tamao de la muestra.

22

Probabilidad y Estadstica (I.I.)

Tema 1

La varianza siempre ser mayor o igual que cero, y slo ser cero si todas las observaciones
son idnticas (y por tanto la media es igual a cualquiera de las observaciones). Mientras ms
se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media.
Por el contrario, mientras mayor sea la varianza, ms dispersos estn. Otra forma de
expresar la varianza es la siguiente. Tomemos el numerador:

Si la varianza en lugar de aparecer dividida por n, aparece dividida por n-1, la llamamos
cuasivarianza.

Tanto la varianza como la cuasivarianza se expresan en el cuadrado de las unidades de la


variable observada.
Ejemplo: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la frmula:

Por lo tanto, la varianza es 0,0010


3.- Desviacin tpica o desviacin estndar: Se calcula como raz cuadrada de la varianza.
A la raz cuadrada de la cuasivarianza se la conoce como cuasidesviacin tpica. La
desviacin tpica y la cuasidesviacin tpica se miden en las mismas unidades que la variable
observada.

Ejemplo:

Luego:
4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin
tpica y la media de la muestra.

Cv =

Ejemplo:

Cv =

0.0320
= 0.0255
1.253
23

Probabilidad y Estadstica (I.I.)

Tema 1

El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el


nivel de dispersin de dos muestras. Esto no ocurre con la desviacin tpica, ya que viene
expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los
alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones tpicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus
coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar.

Medidas de forma
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie
de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la
curva:
a) Asimetra
El concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta
la misma forma a izquierda y derecha de un valor central, considerado el centro de simetra
(media aritmtica)

Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher,


que viene definido:

Los resultados pueden ser los siguientes:


g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la
derecha de la media que a su izquierda)
g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la
izquierda de la media que a su derecha)
Ejemplo: Vamos a calcular el Coeficiente de Asimetra de Fisher de la serie de datos
referidos a la estatura de un grupo de alumnos que ya hemos utilizado. Recordemos que la
media de esta muestra es 1,253

24

Probabilidad y Estadstica (I.I.)

Tema 1

(xi - xm)3 *ni

(xi - xm)2 *ni

0,000110

0,030467

1
0.000110
30
Luego: g 1 =
= 0.1586
1 3
2
0.030467
30
Por lo tanto el Coeficiente de Fisher de Simetra de esta muestra es -0,1586, lo que
quiere decir que presenta una distribucin asimtrica negativa (se concentran ms valores
a la izquierda de la media que a su derecha).
b) Curtosis
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores
alrededor de la zona central de la distribucin o cuan aplastada o apuntada es la forma de
la distribucin respecto de la distribucin normal.
Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los
valores centrales de la variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los
valores centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los
valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente frmula:

Los resultados pueden ser los siguientes:


g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).

25

Probabilidad y Estadstica (I.I.)

Tema 1

g2 < 0 (distribucin platicrtica).


Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la
estatura de un grupo de alumnos:
Recordemos que la media de esta muestra es 1,253
(xi - xm)4 *ni

(xi - xm)2 *ni

0,00004967

0,03046667

1
0.00004967
30
Luego: g 2 =
3 = 1.39
1
2
0.03046667
30
Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que
se trata de una distribucin platicrtica, es decir, con una reducida concentracin
alrededor de los valores centrales de la distribucin.

26

También podría gustarte