Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva-1 PDF
Estadistica Descriptiva-1 PDF
Tema 1
Tema 1
ESTADSTICA DESCRIPTIVA
Cuando coloquialmente se habla de Estadstica, se suele pensar en una relacin de datos
numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del
concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a
la influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de
difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de
informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin,
turismo, tendencias polticas, etc.
Slo cuando nos adentramos en un mundo ms especfico como es el campo de la
investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a
percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios,
en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca,
no puedan ser abordadas desde la perspectiva de las leyes determistas.
La ESTADSTICA es la ciencia que se ocupa de la ordenacin y anlisis de datos
procedentes de muestras y de la realizacin de inferencias sobre las poblaciones de las que
stas proceden.
Generalmente se pueden distinguir dos fases en la realizacin de cualquier experimento o
estudio cientfico. Una primera, que consiste en la observacin y anlisis de los hechos que
acontecen (recogida de informacin, colecciones de datos) y otra segunda, de
interpretacin y obtencin de conclusiones. La estadstica descriptiva es la primera
herramienta para el manejo de los datos y proporciona mtodos para resumirlos y
organizarlos.
Describe, analiza y representa un grupo de datos utilizando
mtodos numricos y grficos que resumen y presentan la
informacin contenida en ellos. Es la 1 fase de toda
investigacin.
Tema 1
estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas
de dicha ciudad). Generalmente este conjunto viene definido por comprensin, es decir,
citando la propiedad que lo caracteriza (habitantes de Telde con edades comprendidas
entre 3 y 7 aos inclusive). Las poblaciones pueden ser finitas o infinitas, dependiendo del
nmero de elementos que las forman.
Individuo: Es cada uno de los elementos que componen la poblacin estadstica en estudio.
As, si estudiamos la altura de los nios de una clase, cada alumno es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo. Es un ser observable que
no tiene por qu ser una persona, puede ser un objeto, un ser vivo, etc
Muestra: Es un subconjunto de individuos que seleccionamos de la poblacin. Se suelen
tomar muestras cuando es muy difcil o costosa la observacin de todos los elementos de la
poblacin. El nmero de elementos de la misma se llama tamao de la muestra. Se deben
escoger los individuos de la muestra de manera que sean representativos de la poblacin de
la que proceden, es decir, que conserven las propiedades de aquella. As, si se estudia el
precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las
viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo.
Caracteres o variables estadsticas: El carcter es cualquier cualidad o propiedad
inherente al individuo. Por ejemplo, si el individuo observado es un libro, podremos
describirlo mediante los caracteres peso, tamao, nmero de hojas, color de las pastas,
etc A cada una de estas caractersticas la llamamos variable estadstica y la
representamos normalmente por las letras maysculas X, Y, Z,
Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad,
el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc
Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en
unas elecciones, el estado civil, el sexo, la nacionalidad, etc A los primeros se les llama
caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a
los segundos caracteres cualitativos o categricos (y variables cualitativas a las variables
que los representan).
Una clasificacin que podemos hacer de las variables estadsticas es:
Variables cualitativas: cuando las modalidades posibles son de tipo nominal. Por ejemplo, el
grupo sanguneo tiene por modalidades A, B, AB, O ; o bien una variable A de color:
Variables cuasicuantitativas: son las que, aunque sus modalidades son de tipo nominal, es
posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de
un corredor en una competicin de 20 participantes, su clasificacin C es tal que:
Tema 1
Variables cuantitativas: son las que tienen por modalidades cantidades numricas con las
que podemos hacer operaciones aritmticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
Discretas: Toman valores aislados y no pueden tomar ningn valor entre dos
consecutivos fijados, slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc, pero nunca podr ser 3,45);
n de monedas que una persona lleva en el bolsillo (0, 1, 2, ). Es obvio que cada
valor de la variable es un nmero natural X N.
Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre
pueden tomar valores entre dos consecutivos, por muy prximos que los fijemos.
Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h; altura de
las personas, medida del tiempo,...etc. En este caso los valores de las variables son
nmeros reales X
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin del
aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una
regla que ofrece dos decimales de precisin, podemos obtener
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el
. Por tanto cada
verdadero valor de la misma se encuentra en un intervalo de radio
una de las observaciones de X representa ms bien un intervalo que un valor concreto.
Modalidades o valores de las variables: Es cada uno de los posibles valores que puede
tomar una carcter y se representan con las letras minsculas x1, x2, , xn. Por ejemplo, el
carcter o variable estadstica cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. El carcter o variable estadstica cuantitativa edad
puede tomar las modalidades o valores: 10 aos, 12 aos, 15 aos, etc
Una variable estadstica puede tomar distintos valores y cada uno de ellos puede aparecer
repetido ms de una vez en la muestra que se estudia de la poblacin.
A veces el conjunto de modalidades o valores que puede tomar una variable son muy
numerosas (v.g. cuando una variable es continua) y conviene reducir su nmero,
agrupndolas en una cantidad inferior de clases. Estas clases deben ser construidas de
modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y slo una de las clases.
Las variables estadsticas tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin sobre una caracterstica (por
ejemplo: edad de los alumnos de una clase).
Tema 1
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
x1
n1
N1= n1
f1 = n1 / N
F1= f1
x2
n2
N2= n1 + n2
f2 = n2 / N
F2= f1 + f2
...
...
...
...
...
xn-1
nn-1
Nn-1= n1 + n2 +
fn-1 = nn-1 / N
...+ nn-1
Fn-1= f1 + f2 + +
f n-1
xn
nn
Nn = n = N
Fn = f =1
fn = nn / N
Acumulada
Veamos un ejemplo:
Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):
Tema 1
Alumno
Estatura
Alumno
Estatura
Alumno
Estatura
Alumno 1
1,25
Alumno 11
1,23
Alumno 21
1,21
Alumno 2
1,28
Alumno 12
1,26
Alumno 22
1,29
Alumno 3
1,27
Alumno 13
1,30
Alumno 23
1,26
Alumno 4
1,21
Alumno 14
1,21
Alumno 24
1,22
Alumno 5
1,22
Alumno 15
1,28
Alumno 25
1,28
Alumno 6
1,29
Alumno 16
1,30
Alumno 26
1,27
Alumno 7
1,30
Alumno 17
1,22
Alumno 27
1,26
Alumno 8
1,24
Alumno 18
1,25
Alumno 28
1,23
Alumno 9
1,27
Alumno 19
1,20
Alumno 29
1,22
Alumno 10
1,29
Alumno 20
1,28
Alumno 30
1,21
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
1,20
3,3%
3,3%
1,21
13,3%
16,6%
1,22
13,3%
30,0%
1,23
11
6,6%
36,6%
1,24
12
3,3%
40,0%
1,25
14
6,6%
46,6%
1,26
17
10,0%
56,6%
1,27
20
10,0%
66,6%
1,28
24
13,3%
80,0%
1,29
27
10,0%
90,0%
1,30
30
10,0%
100,0%
Estatura
Habitante
Estatura
Habitante
Estatura
Habitante 1
1,15
Habitante 11
1,53
Habitante 21
1,21
Habitante 2
1,48
Habitante 12
1,16
Habitante 22
1,59
Habitante 3
1,57
Habitante 13
1,60
Habitante 23
1,86
Tema 1
Habitante 4
1,71
Habitante 14
1,81
Habitante 24
1,52
Habitante 5
1,92
Habitante 15
1,98
Habitante 25
1,48
Habitante 6
1,39
Habitante 16
1,20
Habitante 26
1,37
Habitante 7
1,40
Habitante 17
1,42
Habitante 27
1,16
Habitante 8
1,64
Habitante 18
1,45
Habitante 28
1,73
Habitante 9
1,77
Habitante 19
1,20
Habitante 29
1,62
Habitante 10
1,49
Habitante 20
1,98
Habitante 30
1,01
Frecuencias absolutas
Frecuencias relativas
Cm
Simple
Acumulada
Simple
Acumulada
1,01 - 1,10
3,3%
3,3%
1,11 - 1,20
10,0%
13,3%
1,21 - 1,30
10,0%
23,3%
1,31 - 1,40
6,6%
30,0%
1,41 - 1,50
15
20,0%
50,0%
1,51 - 1,60
19
13,3%
63,3%
1,61 - 1,70
22
10,0%
73,3%
1,71 - 1,80
25
10,0%
83,3%
1,81 - 1,90
27
6,6%
90,0%
1,91 - 2,00
30
10,0%
100,0%
El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el
analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero
puede que menos representativa e informativa sea la tabla. Hemos de elegir un nmero de
intervalos que equilibre estos dos aspectos y que en cada caso el investigador los
acomodar a la forma y cantidad de informacin obtenida.
A la diferencia entre el extremo superior e inferior del intervalo se le llama amplitud del
intervalo y puede ser constante o variable. Al punto medio de cada intervalo se le llama
marca de clase. Es el valor que representa la informacin que contiene el intervalo. Se
entiende que cuando se hace una agrupacin en intervalos de clase, se est interesado slo
en el nmero de observaciones que caen dentro del mismo y no en la distribucin de stos
en su interior, que siempre se supone homognea, de ah la prdida de informacin a que
nos referamos antes.
La divisin de los intervalos se puede hacer de forma automtica o atendiendo a la divisin
natural del recorrido de la variable en estudio. Existen varias reglas automticas para
determinar el nmero de intervalos a usar en la construccin de una tabla. Los programas
Tema 1
N de alumnos
1.8 2.8
2.8 3.8
3.8 4.8
4.8 5.8
5.8 6.8
TOTAL
15
Si, por otra parte, se analizan los datos segn el punto de vista del usuario, resulta mejor
construir esta otra tabla
Notas
N de alumnos
1.0 2.0
2.0 3.0
3.0 4.0
4.0 5.0
5.0 - 6 .0
6.0 - 7.0
TOTAL
15
Tema 1
Esta segunda tabla se puede interpretar en forma mucho ms til, en particular, porque la
nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la
menor nota para aprobar. En este caso el resumen estadstico permite determinar ms
fcilmente el nmero de aprobados y suspensos en un examen.
3.- Descripciones grficas de los datos:
Hemos visto que la tabla estadstica resume los datos que disponemos de una poblacin, de
forma que sta se puede analizar de una manera ms sistemtica y resumida. Para darnos
cuenta de un slo vistazo de las caractersticas de la poblacin resulta an ms
esclarecedor el uso de grficos y diagramas, cuya construccin abordamos en esta seccin.
La representacin grfica de una distribucin de frecuencias depende del tipo de datos que
la constituya.
Datos correspondientes a un carcter cualitativo
La representacin grfica de este tipo de datos est basada en la proporcionalidad de las
reas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones:
a. Diagrama de sectores (tambin llamados de tarta o de queso):
Est representacin grfica consiste en dividir un crculo (360) en tantos sectores
circulares como modalidades presente el carcter cualitativo, asignando un ngulo central a
cada sector circular proporcional a la frecuencia absoluta ni, ,o relativa fi, consiguiendo de
esta manera un sector con rea proporcional tambin a ni o fi .
El arco de cada porcin se calcula usando una regla de tres:
N 360
360 * ni
xi =
ni x i
N
26
234
Rehusaron radiacin
27
Empeoraron
por
una
enfermedad
ajena al cncer
10
90
Otras causas
Tema 1
b. Diagrama de rectngulos:
Esta representacin grfica consiste en construir tantos rectngulos como modalidades
presente el carcter cualitativo en estudio, todos ellos con base de igual amplitud. La altura
se toma igual a la frecuencia absoluta o relativa (segn la distribucin de frecuencias que
estemos representando), consiguiendo de esta manera rectngulos con reas
proporcionales a las frecuencias que se quieren representar. Igual que antes, si se
comparan dos poblaciones de diferente tamao es conveniente usar frecuencias relativas
en la representacin ya que en otro caso podran resultar engaosas.
Ejemplo:
La representacin grfica de la distribucin de frecuencias absolutas del ejemplo anterior
ser de la forma:
Tema 1
c. Pictogramas:
Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para
ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos
alusivos al tema de estudio para representar dicha informacin, y el tamao o el nmero o
de estos dibujos dentro de una grfica queda determinado por la frecuencia
correspondiente. Estos son dos ejemplos:
10
Tema 1
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para
cada una de ellas as como los nombres especficos que reciben.
Grficos para variables discretas:
a. Diagrama de barras:
Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia
absoluta o relativa, dependiendo de la distribucin de frecuencias que estemos
representando.
Ejemplo:
As, la representacin grfica de la distribucin de frecuencias del ejemplo del n de hijos
ser:
11
Tema 1
12
Tema 1
Ejemplo:
Si tuviramos una distribucin de frecuencias como la siguiente, correspondiente a
puntuaciones obtenidas en un test psicolgico y en la que los intervalos son de diferente
amplitud
Ii
ni
fi
0-20
8/70
20-30
9/70
30-40
12
12/70
40-45
10
10/70
45-50
9/70
50-60
10
10/70
60-80
8/70
80-100
4/70
?ni= 70
?fi=1
Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura
de 2/70 para que el rea sea la frecuencia relativa 8/70. Procediendo de la misma manera
con el resto de los intervalos obtendramos como representacin grfica la figura
siguiente:
13
Tema 1
Obsrvese que la suma de todas las reas debe ser 1, tanto si los intervalos de la
distribucin de frecuencias relativas son o no de igual amplitud.
b. Polgono de frecuencias acumuladas:
Se utiliza para representar distribuciones de frecuencias (relativas o absolutas)
acumuladas. Consiste en representar la grfica de una funcin que una por segmentos las
alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos
igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al
extremo inferior del primer intervalo y siendo constante a partir del extremo superior del
ltimo.
Ejemplo:
As, para el ejemplo de los Niveles de Colinesterasa, el polgono de frecuencias relativas
acumuladas tendr una representacin grfica de la forma:
14
Tema 1
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
1,20
3,3%
3,3%
1,21
13,3%
16,6%
1,22
13,3%
30,0%
1,23
11
6,6%
36,6%
1,24
12
3,3%
40,0%
1,25
14
6,6%
46,6%
1,26
17
10,0%
56,6%
1,27
20
10,0%
66,6%
1,28
24
13,3%
80,0%
1,29
27
10,0%
90,0%
1,30
30
10,0%
100,0%
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las ms utilizadas:
a) Media aritmtica: La media aritmtica de una variable estadstica es la suma
de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es
decir, si la tabla de valores de una variable X es
15
Tema 1
X ni fi
x1 n1 f1
... ... ...
xk nk fk
la media es el valor que podemos escribir de las siguientes formas equivalentes:
Ejemplo:
x=
16
Tema 1
Luego
30
= 1.253
En este ejemplo la media aritmtica y la media geomtrica coinciden, pero no tiene siempre
por qu ser as.
Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la
media geomtrica. La media geomtrica se suele utilizar en series de datos como tipos de
inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo
sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin
central ms utilizada.
2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores). Es una medida de
posicin central que resulta ser un caso particular de percentil (es el percentil 50).
Entre las propiedades de la mediana, vamos a destacar las siguientes:
xi
ni
17
Ni
Tema 1
7
ordenamos los valores en orden creciente,
que cumple la definicin de mediana.
0 0 0 1 1 2 2
el 1 ser el valor
Datos sin agrupar: Para datos sin agrupar, la Mediana ser la primera observacin que deja debajo de s
estrictamente a las [N/2] observaciones menores, x[N/2] + 1.
Ejemplo:
La distribucin de frecuencias acumuladas del ejemplo del nmero de hijos era
N de hijos(xi)
Frecuencias Acumuladas(Ni)
11
19
23
25
El ms sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la
mediana es Me = xj.
Si la situacin es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la
mediana, est en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomndose en ese caso, por razonamientos de
proporcionalidad, como mediana el valor
Ii
7'5-9
18
9-10'5
10'5-12
12-13'5
13'5-15
15-16'5
Tema 1
Frecuencia
ni
10
10
Frecuencia Acumulada
Ni
11
21
31
32
34
Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estar en el intervalo [10'5 , 12), y aplicando la frmula
anterior, ser
Ejemplo:
La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de los valores y por
arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas
acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la mediana se situara
exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos
valores se encuentra la divisin entre el 50% inferior y el 50% superior.
3.- Moda: es el valor que ms se repite en la muestra.
Ejemplo:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie
cuenta con 3 modas.
b) Medidas de posicin no centrales
Informan de como se distribuye el resto de los valores de la serie. Permiten conocer otros
puntos caractersticos de la distribucin que no son los valores centrales. Entre otros
indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos
iguales. Vamos a utilizar los mismos datos anteriores para calcular los cuartiles. Los deciles
y percentiles se calculan de igual manera, aunque haran falta distribuciones con mayor
nmero de datos.
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
1 cuartil: es el valor 1,22 cm, ya que por debajo suyo se sita el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro
25% de la frecuencia.
19
Tema 1
3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro
25% de la frecuencia. Adems, por encima suyo queda el restante 25% de la
frecuencia.
Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez
(como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central
sera realmente una de las repeticiones.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente,
en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. O
ms formalmente:
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que
deja por debajo de si el k% de la poblacin. Esta definicin nos recuerda a la mediana, pues
como consecuencia de la definicin es evidente que Med = P50
En el caso de una variable continua, el intervalo donde se encuentra Pk (li-1, li], se calcula
buscando el que deja debajo de si al k% de las observaciones. Dentro de l, Pk se obtiene
segn la relacin:
xi ni
Ni
0 14
14
10
24
2 15
39
3 26
65
4 20
85
5 15
100
n = 100
Solucin:
1. Primer cuartil:
2. Segundo cuartil:
20
Tema 1
3. Tercer cuartil:
Ejemplo (variable continua)
Calcular los cuartiles en la siguiente distribucin de una variable continua:
li-1 - li
ni
Ni
0-1
10
10
1-2
12
22
2-3
12
34
3-4
10
44
4-5
51
n = 51
Solucin:
1. Primer cuartil:
2. Segundo cuartil:
3. Tercer cuartil :
Comentario.
No hay slo un criterio para calcular percentiles. De hecho, importantes paquetes estadsticos para ordenador
devuelven resultados diferentes debido a que usan criterios similares, pero no iguales. No debe causar sorpresa,
entonces, encontrar estas diferencias originadas por la falta de un procedimiento universalmente aceptado.
Esta tcnica explicada anteriormente sirve para calcular los deciles y la mediana igualmente.
Medidas de dispersin
Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o
menos concentrados, o ms o menos dispersos. Supongamos que tenemos los tres conjuntos
21
Tema 1
de datos indicados. Si calculamos la media, la mediana y la moda para cada uno de ellos
tenemos lo siguiente:
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podramos llegar a la conclusin equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas:
vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersin de los
datos es total, en el tercero es la mxima concentracin y el segundo es una situacin
intermedia.
Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las
siguientes. Para ver ejemplos de clculos volveremos a utilizar la tabla de la estatura de los
alumnos de una clase usada anteriormente.
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor ms elevado y el valor ms bajo. Muchas veces esta medida no es suficiente. En los
conjuntos 1 y 2 anteriores el rango resulta ser el mismo: 50 40 = 10.
Ejemplo: la diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20), y
por tanto su rango es 10 cm.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obtenido
se divide por el tamao de la muestra.
22
Tema 1
La varianza siempre ser mayor o igual que cero, y slo ser cero si todas las observaciones
son idnticas (y por tanto la media es igual a cualquiera de las observaciones). Mientras ms
se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media.
Por el contrario, mientras mayor sea la varianza, ms dispersos estn. Otra forma de
expresar la varianza es la siguiente. Tomemos el numerador:
Si la varianza en lugar de aparecer dividida por n, aparece dividida por n-1, la llamamos
cuasivarianza.
Ejemplo:
Luego:
4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin
tpica y la media de la muestra.
Cv =
Ejemplo:
Cv =
0.0320
= 0.0255
1.253
23
Tema 1
Medidas de forma
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie
de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la
curva:
a) Asimetra
El concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta
la misma forma a izquierda y derecha de un valor central, considerado el centro de simetra
(media aritmtica)
24
Tema 1
0,000110
0,030467
1
0.000110
30
Luego: g 1 =
= 0.1586
1 3
2
0.030467
30
Por lo tanto el Coeficiente de Fisher de Simetra de esta muestra es -0,1586, lo que
quiere decir que presenta una distribucin asimtrica negativa (se concentran ms valores
a la izquierda de la media que a su derecha).
b) Curtosis
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores
alrededor de la zona central de la distribucin o cuan aplastada o apuntada es la forma de
la distribucin respecto de la distribucin normal.
Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los
valores centrales de la variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los
valores centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los
valores centrales de la variable.
25
Tema 1
0,00004967
0,03046667
1
0.00004967
30
Luego: g 2 =
3 = 1.39
1
2
0.03046667
30
Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que
se trata de una distribucin platicrtica, es decir, con una reducida concentracin
alrededor de los valores centrales de la distribucin.
26