Está en la página 1de 43

Estadstica Descriptiva

Introduccin
Podemos definir la Estadstica como la ciencia que nos facilita los mtodos precisos
para la obtencin y descripcin de datos, as como los mtodos de anlisis, inter-
pretacin y obtencin de conclusiones a partir de la informacin recogida. Estas dos
vertientes dan lugar a dos partes bien diferenciadas de la Estadstica:
1. La Estadstica descriptiva o deductiva, que tiene por objeto la recogida,
ordenacin, anlisis y representacin de los datos obtenidos por las
observaciones. En esta parte de la Estadstica no se hace uso del clculo de
probabilidades y se limita a realizar deducciones directamente a partir de los
datos y parmetros obtenidos.
2. La Estadstica inferencial o inductiva, que tiene por objeto conocer y analizar
un colectivo a partir del estudio de una parte del mismo, llamado muestra.
Esta parte de la Estadstica se apoya fuertemente en el clculo de
probabilidades.
Llamaremos poblacin a cualquier colectivo de individuos u objetos de cualquier
ndole a los que se puede asociar una o varias caractersticas comunes. Cada ele-
mento de la poblacin se denomina individuo o unidad estadstica. Es frecuente
que el nmero de individuos de una poblacin (lo que se denomina tamao de la
misma) sea muy grande (posiblemente infinito), lo que aconseja tomar una parte
representativa de tamao manejable, denominada muestra. A la eleccin de mues-
tras se le denomina muestreo y existen muchos criterios sobre la eleccin de mues-
tras. No vamos a entrar en este tema, sino slo digamos que cualquier individuo de
la poblacin debe tener la misma probabilidad de estar en la muestra, que es mucho
ms importante la representatividad de la muestra que su tamao y que su composi-
cin debe estar en proporcin con la composicin de la poblacin.
Se denomina variable estadstica a una caracterstica, aspecto, fenmeno, rasgo o
cualidad que presenta cada individuo de la poblacin y que puede tomar distintos
valores (si se expresan numricamente) o modalidades (en caso contrario). Se deno-
tan por letras maysculas (X, Y, Z, ), mientras que los valores que puede tomar la
variable estadstica X se denotan con letras minsculas (x
1
, x
2
, x
3
, ). El conjunto
de los valores o modalidades que puede tomar una variable estadstica se llama
dominio de dicha variable. Atendiendo a su dominio, las variables estadsticas se
clasifican en:
Variables estadsticas cualitativas: su dominio son valores no numricos, es
decir, que no se pueden medir; por ejemplo, la profesin de una persona, su
estado civil, el idioma elegido, etc.
Variables estadsticas cuantitativas: su dominio son valores numricos que s
se pueden medir; por ejemplo, la altura de una persona, el dimetro de una
pieza de precisin, el cociente intelectual de un alumno, etc. Si la variable
cuantitativa slo puede tomar un nmero finito de valores distintos, se
denomina variable cuantitativa discreta (por ejemplo, la edad de los alumnos
de una clase), mientras que en caso contrario se denomina variable
cuantitativa continua (por ejemplo, la presin sangunea de los enfermos de
un determinado hospital). Normalmente, si una variable discreta puede tomar
un elevado nmero de valores distintos, se considera como si fuese tambin
una variable conitinua (por ejemplo, el salario de los alumnos de Arquitectura
Tcnica egresados el curso 2007/2008).
Ordenacin y presentacin de datos
Dada una variable estadstica cuantitativa discreta X, se llama frecuencia absoluta
del valor x
k
, y se representa por f
k
, al nmero de veces que aparece en una deter-
minda muestra. Se llama frecuencia relativa del valor x
k
, y se representa por h
k
, al
cociente h
k
=
f
k
n
, siendo n el nmero de individuos de la muestra. Tambin podemos
indicar la frecuencia relativa en trminos de porcentajes; se llama porcentaje del
valor x
k
, y se representa por p
k
, a p
k
= 100 h
k
.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos
una sucesin de valores x
1
< x
2
< < x
m
, siendo m el nmero de valores distintos
que toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada
del valor x
h
, y se representa por F
k
, a F
k
= f
1
+f
2
+f
k
. De igual forma, se llama
frecuencia relativa acumulada del valor x
k
, y se representa por H
k
, a
H
k
= h
1
+h
2
++h
k
=
F
k
n
. La tabla o distribucin de frecuencias de una variable
estadstica discreta est formada por cinco columnas: valores, frecuencias absolu-
tas, frecuencias relativas (o porcentajes), frecuencias absolutas acumuladas y fre-
cuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un nmero muy
grande de posibles valores) es muy conveniente agrupar los datos en clases. Una
clase es un intervalo [a, b), de forma que un valor x
k
pertenece a dicha clase si
a x
k
< b (obsrvese que toda clase es un intervalo cerrado por la izquierda y
abierto por la derecha). Los extremos a, b del intervalo se denominan lmites de
clase, y el punto medio |
a+b
2
] se denomina marca de clase.
2 Tema 6 Estadistica.nb
Con el fin de que la clasificacin est bien hecha, los intervalos se deben construir
de la misma amplitud y de forma que el lmite superior de una clase coincida con el
lmite inferior de la siguiente. Ahora bien, cul es el nmero idneo de clases que
debemos escoger a la hora de agrupar? No existe una respuesta tajante a esta pre-
gunta; uno de los criterios ms sencillos establece que el nmero de clases debe ser
aproximadamente igual a la raz cuadrada positiva del nmero de datos.
Veamos ahora cmo podemos definir los valores x
k
de una variable estadstica X
con Mathematica, calcular sus frecuencias absolutas f
k
y representar grficamente
stas. Estudiaremos por separado los casos de variable discreta y de variable
continua.
Variable estadstica discreta
Consideremos primero una variable discreta; por ejemplo, supongamos que las
notas de matemticas de 30 alumnos sean las siguientes :
5 3 4 1 2 8 9 8 7 6
6 7 9 8 7 7 1 0 1 5
9 9 8 0 8 8 8 9 5 7
Los valores de esta variable discreta se definen en Mathematica como una lista, es
decir, separados por comas y encerrados entre sendas llaves:
not as 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8,
7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Obsrvese que en este ejemplo hemos introducido los datos por filas, pero
podramos haberlos introducido tambin por columnas. A la hora de definir la vari-
able el orden en que introduzcamos sus valores es indiferente. Sin embargo, una
vez definida conviene reordenar los datos de menor a mayor; para ello, usamos el
comando Sort[var], guardando el resultado en una nueva variable:
not asor d Sor t not as
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
O bien podemos definir la variable ya ordenada:
Tema 6 Estadistica.nb 3
not as Sor t 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
Para obtener la distribucin de frecuencias absolutas de una variable var podemos
usar el comando Tally[var]. Tngase presente que antes de aplicar este comando
es recomendable que la variable est ordenada. Este comando devuelve una matriz
con dos columnas; la primera contiene los valores que toma la variable y la segunda
sus respectivas frecuencias absolutas; para visualizar el resultado como una matriz
hemos de emplear el comando MatrixForm[mat]:
not as2 Tal l ynot as
Mat r i xFor mnot as2
0, 2, 1, 3, 2, 1, 3, 1, 4, 1,
5, 3, 6, 2, 7, 5, 8, 7, 9, 5
0 2
1 3
2 1
3 1
4 1
5 3
6 2
7 5
8 7
9 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y as sucesivamente. Pode-
mos definir por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente:
not asVal or es not as2Al l , 1
not asFr ecuenci as not as2Al l , 2
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
2, 3, 1, 1, 1, 3, 2, 5, 7, 5
4 Tema 6 Estadistica.nb
La distribucin de frecuencias acumuladas se puede obtener aplicando el comando
Accumulate[lista] :
not asFr ecAcum Accumul at enot asFr ecuenci as
2, 5, 6, 7, 8, 11, 13, 18, 25, 30
Y la distribucin de frecuencias relativas se obtiene dividiendo (cuando se aplica una
operacin aritmtica a una lista, se realiza dicha operacin a cada elemento de ella)
las frecuencias absolutas por el nmero total de elementos de la muestra, el cual se
puede obtener con el comando Length[lista]:
n Lengt hnot as
not asFr ecRel not asFr ecuenci as n
Nnot asFr ecRel
30

1
15
,
1
10
,
1
30
,
1
30
,
1
30
,
1
10
,
1
15
,
1
6
,
7
30
,
1
6

0. 0666667, 0. 1, 0. 0333333, 0. 0333333, 0. 0333333,


0. 1, 0. 0666667, 0. 166667, 0. 233333, 0. 166667
Aun cuando la distribucin de frecuencias de una variable estadstica discreta con-
tiene toda la informacin, a veces es ms conveniente expresarla mediante un gr-
fico, con el fin de hacerla ms clara y evidente. Para comparar datos cuantitativos de
tipo discreto son muy tiles los denominados diagramas de barras. Para trazarlos
se representan sobre el eje de abscisas los valores de la variable discreta y sobre el
eje de ordenadas las frecuencias absolutas. A continuacin, por los puntos marca-
dos en el eje de abscisas se levantan trazos gruesos o barras de longitud igual a la
frecuencia correspondiente. Para visualizar un diagrama de barras con Mathematica
podemos usar el comando BarChart[frec], siendo frec la lista que contiene las fre-
cuencias absolutas de la variable dada:
Tema 6 Estadistica.nb 5
Bar Char t not asFr ecuenci as
Si queremos colocar en el eje de abscisas los valores de la variable correspondi-
entes a cada barra debemos usar la opcin ChartLabels->var:
Bar Char t not asFr ecuenci as, Char t Label s not asVal or es
Obsrvese que al pasar el cursor por encima de una barra se muestra el valor corre-
spondiente de la frecuencia absoluta que representa dicha barra. Para conocer ms
opciones grficas de este comando podemos acudir a la ayuda de Mathematica.
Hay ocasiones en las que los datos de que disponemos son las frecuencias absolu-
tas de los valores que toma una variable discreta; en estos casos, podemos definir
directamente las dos listas, correspondientes a sus valores y a sus frecuencias abso-
lutas asociadas. Por ejemplo, supongamos que en un muestreo realizado por una
empresa con el fin de estudiar el nmero de hijos por familia espaola se han encon-
trado los siguientes resultados:
6 Tema 6 Estadistica.nb
Nmer o de hi j os 0 1 2 3 4 5
Nmer o de f ami l i as 10 16 20 18 12 12
Entonces, la variable queda definida mediante las siguientes dos listas (es necesario
escribir ambas en el mismo orden, de manera que podamos asociar cada valor con
su frecuencia absoluta):
nhi j os 0, 1, 2, 3, 4, 5
nf ami l i as 10, 16, 20, 18, 12, 12
0, 1, 2, 3, 4, 5
10, 16, 20, 18, 12, 12
En este caso, para saber el nmero total de individuos de la muestra hemos de
sumar todas las frecuencias absolutas, lo cual podemos hacer mediante el comando
Total[lista]:
nf amt ot al Tot al nf ami l i as
88
A partir de aqu las distribuciones de frecuencias acumuladas y relativas se calculan
igual que antes. Sin embargo, para poder calcular parmetros estadsticos, Mathe-
matica requiere como argumento una lista que contenga todos las observaciones de
la variable, es decir, una lista en la que cada valor distinto est repetido tantas veces
como indique su frecuencia absoluta (vase la ayuda del programa sobre Decriptive
Statistics). Para obtener dicha lista, podemos proceder como sigue.
Primero definimos una lista con 10 elementos iguales a cero, para lo cual podemos
aplicar el comando Table[expr,{i,imin,imax}], el cual genera una lista cuyos elemen-
tos se obtienen al sustituir en expr el valor de la variable i desde imin hasta imax:
l i st 0 Tabl e0, i , 1, 10
0, 0, 0, 0, 0, 0, 0, 0, 0, 0
Repetimos este proceso con los restantes valores que toma la variable estadstica:
Tema 6 Estadistica.nb 7
l i st 1 Tabl e1, i , 1, 16
l i st 2 Tabl e2, i , 1, 20
l i st 3 Tabl e3, i , 1, 18
l i st 4 Tabl e4, i , 1, 12
l i st 5 Tabl e5, i , 1, 12
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2
3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3
4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
Finalmente, combinamos todas estas listas definidas en una nica lista aplicando el
comando Join[lista1,lista2,...]:
hi j os J oi nl i st 0, l i st 1, l i st 2, l i st 3, l i st 4, l i st 5
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3,
3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4,
4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
Variable estadstica continua
Consideremos ahora una variable continua. Por ejemplo, supongamos que las
edades de las personas que acuden a un logopeda son las que se reflejan en la
siguiente tabla:
3 2 11 13 4 3 2 4 5 6 7 3
4 5 3 2 5 6 27 15 4 21 12 4
3 6 29 13 6 17 6 13 6 5 12 26
Consideremos la variable edad una variable continua, dada la gran diversidad de
valores que puede tomar. En Mathematica, los valores que toma una variable con-
tinua se pueden definir como si fuese una variable discreta; es decir:
8 Tema 6 Estadistica.nb
edad Sor t 3, 2, 11, 13, 4, 3, 2, 4, 5,
6, 7, 3, 4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12,
4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26
2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6,
6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29
El nmero de datos de los que disponemos nos lo da, como vimos antes, el
comando Length[var]:
edadNum Lengt hedad
36
Como hay 36 datos en total, debemos de tomar 36 = 6 clases. Como la variable
est ordenada, vemos que la edad mnima es de 2 aos y la edad mxima es de 29
aos. Si el intervalo de edades lo extendemos desde 0 aos hasta 30 aos, al dividir
por 6 se tiene que la amplitud de cada clase debe ser de 5 aos. Es decir, que las
seis clases sern [0, 5), [5, 10), [10, 15), [15, 20), [20, 25) y [25, 30). Con el
comando BinCounts(lista,{{clases}}) podemos agrupar los datos de que
disponemos en las clases que queramos:
edadFr ec Bi nCount sedad, 0, 5, 10, 15, 20, 25, 30
13, 11, 6, 2, 1, 3
Es decir, que hay 13 pacientes con edades comprendidas entre 0 y 5 aos, 11
pacientes con edades comprendidas entre 5 y 10 aos, 6 pacientes con edades
entre 10 y 15 aos, 2 pacientes con edades entre 15 y 20 aos, un nico paciente
con edad entre 20 y 25 aos y 3 pacientes con edades comprendidas entre 25 y 30
aos. Hemos de definir tambin la lista que contiene las marcas de las clases
empleadas:
edadVal 2. 5, 7. 5, 12. 5, 17. 5, 22. 5, 27. 5
2. 5, 7. 5, 12. 5, 17. 5, 22. 5, 27. 5
Una vez que ya hemos pasado de una variable estadstica continua a otra variable
discreta, las frecuencias acumuladas y relativas se calculan igual que en el caso de
variables estadsticas discretas.
Si los datos de que disponemos son las frecuencias absolutas de los valores que
toma una variable continua, podemos definir directamente las dos listas, correspondi-
Tema 6 Estadistica.nb 9
entes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo, supong-
amos que la siguiente tabla refleja el nmero de alumnos que han tardado un determi-
nado tiempo en resolver un problema de matemticas que se les ha propuesto:
Nmer o de al umnos 3 6 10 12 9
empo t ar dado en mi n. 10, 12 12, 14 14, 16 16, 18 18, 20
Definimos entonces las dos listas asociadas, una con las marcas de las clases y la
otra con las respectivas frecuencias absolutas:
al umnCl ases 11, 13, 15, 17, 19
al umnFr ecabs 3, 6, 10, 12, 9
11, 13, 15, 17, 19
3, 6, 10, 12, 9
Tambin tendremos que definir una lista que contenga todas las observaciones, en
este caso usando las marcas de las clases como valores de la variable (hay, por
tanto, cierta prdida de informacin). Para ello, procederemos como ya hicimos con
las variables discretas:
l i st a1 Tabl e11, i , 1, 3;
l i st a2 Tabl e13, i , 1, 5;
l i st a3 Tabl e15, i , 1, 10;
l i st a4 Tabl e17, i , 1, 12;
l i st a5 Tabl e19, i , 1, 9;
al umnos J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
11, 11, 11, 13, 13, 13, 13, 13, 15, 15, 15, 15, 15,
15, 15, 15, 15, 15, 17, 17, 17, 17, 17, 17, 17, 17,
17, 17, 17, 17, 19, 19, 19, 19, 19, 19, 19, 19, 19
Como ocurra con las variables estadsticas discretas, una representacin grfica de
la distribucin de frecuencias puede en muchos casos hacerla ms clara y eficiente.
Para variables estadsticas continuas, o bien para variables estadsticas discretas
con un gran nmero de datos, que se han agrupado en clases se suelen emplear los
denominados histogramas. Para construir un histograma se representan sobre el
eje de abscisas los lmites de las clases. Sobre dicho eje se construyen rectngulos
que tienen por base la amplitud de cada clase y cuya altura es igual a la frecuencia
absoluta correspondiente (con mayor exactitud, dicha altura debera ser tal que el
rea de cada rectngulo fuese igual a la frecuencia de la correspondiente clase,
10 Tema 6 Estadistica.nb
pero en Mathematica la altura de cada rectngulo conicide con la frecuencia
absoluta).
En Mathematica, el comando Histogram(datos,{{clases}}) representa grficamente
el histograma de la variable estadstica datos (antes de haberla agrupado en
clases), agrupndola en las clases indicadas en el segundo argumento. Por ejemplo,
recordando la variable edad (que representaba las edades de los pacientes de un
logopeda), su histograma se representa mediante el siguiente comando:
Hi st ogr amedad, 0, 5, 10, 15, 20, 25, 30
Ejercicios propuestos
En el curso 1996/1997 se diplomaron 328 alumnos en esta Escuela. La siguiente
tabla muestra el nmero total de cursos acadmicos transcurridos desde su
ingreso en ella. Hallar la distribucin de frecuencias, dibujar el diagrama de barras
correspondiente y definir la lista con todas las observa-
ciones.-
Nmer o de aos 3 4 5 6 7 8 9 10 11 12 13 16 18 21
Nmer o de al umnos 18 67 88 63 43 30 6 3 3 2 1 2 1 1
En el examen primer parcial de Fundamentos Matemticos del curso 2000/2001
se presentaron 468 alumnos. La siguiente tabla muestra el nmero de alumnos
que obtuvieron la nota que se indica. Hallar la distribucin de frecuencias, definir
la lista con todas las observaciones y dibujar su his-
tograma.-
Tema 6 Estadistica.nb 11
Not a 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10
N al umnos 24 23 37 61 55 117 77 53 25 6
Medidas de centralizacin
Cuando disponemos de un conjunto de datos de una variable estadstica cuantitativa
resulta conveniente completar la distribucin de frecuencias con ciertas medidas
resumen. Las ms importantes son las de tendencia central o centralizacin, que
indican el valor medio de los datos, y las de dispersin, que miden su variabilidad.
Empecemos estudiando las medidas de centralizacin.
En este apartado, y en los siguientes, emplearemos la variable edad de los
pacientes de un logopeda, que definimos antes como la variable edad. Compara-
remos los parmetros extadsticos que obtengamos con los correspondientes a la
agrupacin en clases que realizamos antes. Usando dicha agrupacin en clases, la
nueva variable (que denominaremos edadagru) que recoge todas las observaciones
es la siguiente
l i st a1 Tabl e2. 5, i , 1, 13;
l i st a2 Tabl e7. 5, i , 1, 11;
l i st a3 Tabl e12. 5, i , 1, 6;
l i st a4 Tabl e17. 5, i , 1, 2;
l i st a5 Tabl e22. 5, i , 1, 1;
l i st a6 Tabl e27. 5, i , 1, 3;
edadagr u
J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5, l i st a6
2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5,
2. 5, 2. 5, 2. 5, 2. 5, 7. 5, 7. 5, 7. 5, 7. 5, 7. 5, 7. 5,
7. 5, 7. 5, 7. 5, 7. 5, 7. 5, 12. 5, 12. 5, 12. 5, 12. 5,
12. 5, 12. 5, 17. 5, 17. 5, 22. 5, 27. 5, 27. 5, 27. 5
Media
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente,
12 Tema 6 Estadistica.nb
se define la media de la distribucin como:
m =
1
N
_
k=1
n
x
k
f
k
Si la variable estadstica X es continua y sus datos se encuentran agrupados en
clases, se toman como valores x
1
, x
2
, , x
n
las marcas de cada clase.
La media es la medida de centralizacin ms utilizada por su fcil clculo y por tener
en cuenta todos los datos. Sin embargo, hay casos en los que se deben utilizar otras
medidas de centralizacin. Por ejemplo, si la variable toma algunos valores
extremos poco significativos, stos pueden distorsionar la media. Por otra parte, si
los datos estn agrupados en clases y alguna de ellas es abierta, no es posible calcu-
lar la media.
En Mathematica, la media de una variable estadstica var se calcula con el comando
Mean[var]. Como ejemplo, calculamos la edad media de los pacientes de nuestro
logopeda:
edadMedi a Meanedad
NedadMedi a
313
36
8. 69444
Podemos comprobar que si agrupamos esta variable continua en clases se pierde
informacin (se sustituye cada valor real de la variable por la marca de la clase a la
que pertenece) y resultan parmetros estadsticos diferentes:
edadagr uMedi a Meanedadagr u
9. 16667
Mediana
Dada una variable estadstica X, ordenemos en orden creciente de magnitud todos
los valores que toma sin agruparlos. Si el nmero de datos es impar, la mediana de
la distribucin es el valor central, es decir, el valor tal que hay tantos valores por
debajo de l que por encima. Si el nmero de datos es par, la mediana es el valor
medio de los dos valores centrales. La mediana de una variable estadstica presenta
las siguientes caractersticas:
Tema 6 Estadistica.nb 13
1. Es til cuando entre los datos existe uno ostensiblemente extremo que
distorsiona la media o cuando no es posible calcular sta.
2. Depende del orden de los datos y no de su valor.
3. Grficamente, la mediana es la abscisa tal que la vertical levantada sobre ella
divide al histograma en dos partes de igual rea.
4. No utiliza todos los datos de que se dispone.
En Mathematica, la mediana de una variable estadstica var se calcula con el
comando Median[var]. Como ejemplo, calculamos la mediana de la edad de los
pacientes de nuestro logopeda:
edadMedi ana Medi anedad
6
Hallamos tambin la mediana de la variable agrupada en clases, la cual siempre
proporciona como resultado la marca de una de las clases (es decir, la denominada
clase mediana):
edadagr uMedi ana Medi anedadagr u
7. 5
Moda
Dada una variable estadstica X, se llama moda de la distribucin al valor de dicha
variable que presenta mayor frecuencia absoluta. Si la variable estadstica est agru-
pada en clases, se llama clase modal a la clase de mayor frecuencia absoluta. La
moda no tiene por qu ser nica, puesto que puede haber varios valores de la vari-
able que alcancen la misma frecuencia absoluta mxima. Se dice en este caso que
la distribucin es bimodal, trimodal, etc. La moda de una variable estadstica pre-
senta las siguientes caractersticas:
1. Representa el valor dominante, y no existe si la frecuencia es constante.
2. No intervienen todos los datos de que se dispone.
3. Grficamente, la moda es la abscisa del punto de interseccin de las rectas
que unen los lmites de la clase modal con los lmites de las dos clases
contiguas.
En Mathematica, la moda de una variable estadstica var se calcula con el comando
Commonest[var]. Como ejemplo, calculamos la moda de la edad de los pacientes
de nuestro logopeda:
14 Tema 6 Estadistica.nb
edadModa Commonest edad
6
Obsrvese que este comando devuelve una lista con todas las modas que tenga la
variable. En este ejemplo, como la distribucin es unimodal, devuelve una lista con
un nico elemento. Hallamos tambin la moda de la variable agrupada en clases; en
este caso, como el resultado es siempre una marca de clase, lo que se obtiene es la
denominada clase modal, en este caso el intervalo [0,5):
edadagr uModa Commonest edadagr u
2. 5
Percentiles
Al igual que la mediana de una variable estadstica divida el conjunto de valores de
sta (sin agrupar) en dos partes con el mismo nmero de datos, se llaman per-
centiles a 99 valores de la variable estadstica que dividen la serie de datos (sin
agrupar) en 100 partes iguales. Es decir, el percentil 15 (que se representa como
P
15
) es el valor que debe tomar la variable estadstica dada para que como mximo
el 15% de los datos queden por debajo de l y como mximo el restante 85% de los
datos queden por encima de l. En realidad no se trata de una medida de central-
izacin, sino que constituye lo que se denomina una medida de posicin. Son
casos particulares los percentiles 25, 50 y 75, que se denominan cuartiles y se
denotan por Q
1
, Q
2
y Q
3
, respectivamente.
En Mathematica, el precentil 100 r de una variable estadstica var se calcula con el
comando Quantile[var,r] (es decir, si queremos calcular el percentil 65, el segundo
argumento deber ser 0.65). Como ejemplo, calculamos el percentil 85 de la edad
de los pacientes de nuestro logopeda:
edadPer cent i l 85 Quant i l eedad, 0. 85
15
Hallamos ahora el mismo percentil para la variable agrupada en clases:
edadagr uPer c85 Quant i l eedadagr u, 0. 85
17. 5
Tema 6 Estadistica.nb 15
Al igual que en los comandos anteriores, Mathematica slo proporciona la marca de
la clase ([15,20) en este ejemplo) a la que pertenece el percentil buscado.
Ejercicio propuesto
Se consideran las dos variables estadsticas definidas en los dos primeros ejerci-
cios de este tema (duracin de los estudios y notas de matemticas). Hallar las
respectivas medidas de centralizacin y el percentil 20 de cada distribucin.
Medidas de dispersin
La investigacin acerca de una variable estadstica queda incompleta si slo se
estudian las medidas de centralizacin, siendo imprescindible conocer si los datos
numricos estn concentrados o no alrededor de los valores centrales. A esto es a
lo que se le llama dispersin, y a los parmetros que miden estas desviaciones
respecto de la media se les llama medidas o parmetros de dispersin
Recorrido
Se llama recorrido o rango de una distribucin a la diferencia entre el mayor y el
menor valor de la variable estadstica. Conforme menor es el rango mayor es la
representatividad de los valores centrales, en cuyo caso diremos que la distribucin
es menos dispersa. Su clculo es muy elemental, pero al depender slo de los val-
ores extremos basta que uno de ellos se separe mucho para que el recorrido se vea
muy afectado. Para evitar esto se utilizan tambin el rango intercuartlico Q
3
-Q
1
y
el rango entre percentiles P
90
-P
10
.
En Mathematica, como los datos de la variable estn ordenados de menor a mayor,
la simple diferencia entre el primer valor y el ltimo proporciona el rango de la
variable:
16 Tema 6 Estadistica.nb
edad
edadRango 29 2
O bi en, si n necesi dad de
vi sual i zar l os dat os de l a var i abl e
edadRango edadLengt hedad edad1
2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6,
6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29
27
27
Por otra parte, el rango intercuartlico o el rango entre percentiles lo obtenemos a
partir del clculo de stos:
edadRangoCuar t i l es
Quant i l eedad, 0. 75 Quant i l eedad, 0. 25
edadRangoPer cent i l es
Quant i l eedad, 0. 9 Quant i l eedad, 0. 1
8
18
Desviacin media
Se llama desviacin media o desviacin respecto de la media de una distribucin a
la media aritmtica de los valores absolutos de las desviaciones observadas
respecto de un determinado valor medio m. Es decir, dada una distribucin de N
observaciones de una variable estadstica en la que se alcanzan los valores
x
1
, x
2
, , x
n
con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente, su
desviacin media viene dada por:
DM =
1
N
_
k=1
n
f
k
x
k
- m
En Mathematica, la desviacin media de una variable estadstica var se calcula con
el comando MeanDeviation[var]. Como ejemplo, calculamos la desviacin media
de la edad de los pacientes de nuestro logopeda:
Tema 6 Estadistica.nb 17
edadDM MeanDevi at i onedad
NedadDM
157
27
5. 81481
Hallamos tambin la desviacin media de la variable agrupada:
edadagr uDM MeanDevi at i onedadagr u
5. 83333
Desviacin tpica
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente,
se define la desviacin tpica de la distribucin como:
s =
1
N - 1
_
k=1
n
f
k
(x
k
- m)
2
siendo m la media de la distribucin.
Se llama varianza de una variable estadstica al cuadrado de su desviacin tpica, y
se representa por s
2
.
Tanto la varianza como la desviacin tpica dependen de todos los datos, as como
la media, y no se pueden calcular en los casos en que sta no se pueda obtener. La
varianza tiene el inconveniente de que no viene expresada en las mismas unidades
que los datos (si, por ejemplo, stos se miden en m, la varianza se mide en m
2
). En
cambio, la desviacin tpica viene expresada en las mismas unidades.
En Mathematica, la desviacin tpica de una variable estadstica var se calcula con
el comando StandardDeviation[var], mientras que su varianza se calcula con el
comando Variance[var]. Como ejemplo, calculamos la desviacin tpica y la vari-
anza de las edades de los pacientes de nuestro logopeda:
18 Tema 6 Estadistica.nb
edadDT St andar dDevi at i onedad
NedadDT
edadVar Var i anceedad
NedadVar
13663
7
6
7. 3633
13663
252
54. 2183
Podemos comprobar que la varianza es el cuadrado de la desviacin tpica:
edadVar edadDT^2
0
Hallamos tambin la desviacin tpica y la varianza de la variable agrupada:
edadagr uDT St andar dDevi at i onedadagr u
edadagr uVar Var i anceedadagr u
7. 55929
57. 1429
La informacin conjunta que proporciona la media y la desviacin tpica puede precis-
arse de la siguiente forma: entre la media y k veces la desviacin tpica existe, como
mnimo, el 100 |1-
1
k
2
]% de las observaciones. Es decir, entre la media y 2 desvia-
ciones tpicas est al menos el 100 |1-
1
4
] = 75% de las observaciones, y entre la
media y 3 desviaciones tpicas se encuentra al menos el 100 |1-
1
9
] = 89% de las
observaciones. En nuestro ejemplo:
Tema 6 Estadistica.nb 19
val 1 edadMedi a 2 edadDT
Nval 1
val 2 edadMedi a 2 edadDT
Nval 2
313
36

13663
7
3
23. 4211
313
36

13663
7
3
6. 03216
Por lo tanto, al menos el 75% de los datos se encuentran en el intervalo
[-6.03, 23.42].
Coeficiente de variacin
Se define el coeficiente de variacin (CV) de una distribucin de valores de una
variable estadstica como el cociente entre su desviacin tpica s y el valor absoluto
de su media m, es decir, CV =
s
m
. En ocasiones se multiplica este coeficiente por
100 para proporcionar valores percentuales. El coeficiente de variacin de una
poblacin homognea es tpicamente menor que la unidad. Si este coeficiente es
mayor que 1.5 conviene estudiar posibles fuentes de heterogeneidad en los datos
(utilizacin de distintos instrumentos de medida, distintos momentos temporales,
etc.).
Algunas veces resulta deseable comparar diversos grupos en relacin a su relativa
homogeneidad cuando los grupos tienen medias diferentes, pero puede motivar
cierta confusin la comparacin de las magnitudes absolutas de las deviaciones
tpicas. En esos casos resulta aconsejable utilizar como elemento de comparacin la
desviacin tpica en relacin a la media, es decir, el coeficiente de variacin.
Por ejemplo, calculemos el coeficiente de variacin de nuestra poblacin de
pacientes del logopeda:
20 Tema 6 Estadistica.nb
edadCV edadDTedadMedi a
NedadCV
6
13663
7
313
0. 846898
por lo que se trata de una variable estadstica homognea. Hallamos tambin el
coeficiente de variacin de la edad agrupada:
edadagr uCV edadagr uDTedadagr uMedi a
0. 82465
Ejercicio propuesto
Se consideran las dos variables estadsticas definidas en los dos primeros ejerci-
cios de este tema (duracin de los estudios y notas de matemticas). Hallar en
ambos casos las medidas de dispersin. Cul de las dos distribuciones es ms
homognea?
Medidas de forma
La forma de la representacin grfica de una distribucin de frecuencias proporciona
en muchas ocasiones informacin til sobre la variable estadstica analizada. Las
dos caractersticas de forma ms importante son la de asimetra o sesgo, que
establece si la distribucin es simtrica respecto de la media o no, y la de apun-
tamiento o curtosis, que seala si la distribucin es ms puntiaguda o ms plana
que la distribucin normal, tambin conocida como campana de Gauss.
Asimetra o sesgo
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente,
se define el coeficiente de asimetra o coeficiente de sesgo como:
Tema 6 Estadistica.nb 21
g
3
=
1
s
3

1
N
_
k=1
n
f
k
(x
k
- m)
3
siendo s la desviacin tpica de la variable y m su media.
Si g
3
= 0, la distribucin es simtrica respecto de la mediana; entonces, si la distribu-
cin es unimodal, las tres medidas de centralizacin, meda, mediana y moda,
coinciden.
Si g
3
> 0, la distribucin presenta asimetra positiva; entonces, dicha distribucin
est sesgada a la derecha, vindose en su representacin grfica una cola para
valores mayores de la mediana.
Si g
3
< 0, la distribucin presenta asimetra negativa; entonces, dicha distribucin
est sesgada a la izquierda, vindose en su representacin grfica una cola para
valores menores de la mediana.
En Mathematica, el coeficiente de asimetra de una variable estadstica var se cal-
cula con el comando Skewness[var]. Por ejemplo, el coeficiente de asimetra de las
edades de nuestros pacientes se calcular como:
edadSesgo Skewnessedad
NedadSesgo
25966046
68315 68315
1. 45423
luego presenta una notable asimetra positiva, como se aprecia en el histograma
dibujado ms arriba (recurdese que la mediana de la distribucin es 7.5). Hallamos
tambin el coeficiente de sesgo de la variable agrupada:
edadagr uSesgo Skewnessedadagr u
1. 22984
Apuntamiento o curtosis
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente,
22 Tema 6 Estadistica.nb
se define el coeficiente de apuntamiento o coeficiente de curtosis como:
g
4
=
1
s
4

1
N
_
k=1
n
f
k
(x
k
- m)
4
- 3
siendo s la desviacin tpica de la variable y m su media.
Este coeficiente indica el grado de elevacin del diagrama de barras de las frecuen-
cias relativas de la distribucin. Este grado de elevacin se traduce en el reparto de
la frecuencia entre el centro y los extremos de la grfica. Como medida de referen-
cia de dicho grado de elevacin se toma la curva normal o campana de Gauss, la
cual se muestra en la siguiente figura:
Si g
4
= 0, la distribucin presenta el mismo grado de elevacin que la curva normal
con la misma varianza y se denomina distribucin mesocrtica.
Si g
4
> 0, la distribucin es ms apuntada que la curva normal con la misma vari-
anza y se denomina distribucin leptocrtica.
Si g
4
< 0, la distribucin es menos apuntada que la curva normal con la misma vari-
anza y se denomina distribucin platicrtica.
En Mathematica, el coeficiente de curtosis de una variable estadstica var se calcula
con el comando Kurtosis[var]. Hay que tener presente que este comando devuelve
el valor 3 para una distribucin mesocrtica, por lo que al resultado que proporcione
hay que restarle 3 para obtener el valor correcto. Por ejemplo, el coeficiente de curto-
sis de las edades de nuestros pacientes se calcular como:
Tema 6 Estadistica.nb 23
edadCur t osi s Kur t osi sedad 3
NedadCur t osi s
5470108698
4666939225
1. 1721
por lo que la distribucin es ms puntiaguda que la curva normal (con la misma vari-
anza). Hallamos tambin el coeficiente de curtosis de la variable agrupada:
edadagr uCur t osi s Kur t osi sedadagr u 3
0. 66
la cual es ahora ms plana que la curva normal (con la misma varianza).
Ejercicio propuesto
Se consideran las dos variables estadsticas definidas en los dos primeros ejerci-
cios de este tema (duracin de los estudios y notas de matemticas). Hallar en
ambos casos las medidas de forma e interpretarlas.
Problemas resueltos
Mostramos en este apartado una coleccin de problemas del tema de Estadstica
descriptiva resueltos con la ayuda de Mathematica. Todos los problemas estn
explicados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cmo
utilizar el programa Mathematica para resolver los problemas de la asignatura.
Problema 1
La siguiente tabla muestra los pesos de los alumnos de una clase. Definir la corre-
spondiente distribucin de frecuencias, dibujar su diagrama de barras y hallar
todas las medidas de centralizacin, dispersin y forma estudiadas.
24 Tema 6 Estadistica.nb
74 75 74 77 76 74 75 77 76
76 75 75 74 76 77 77 74 76
76 77 77 74 75 75 75 75 76
76 77 77 74 74 74 76 77 78
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
pesos Sor t 74, 75, 74, 77, 76, 74, 75, 77, 76, 76,
75, 75, 74, 76, 77, 77, 74, 76, 76, 77, 77, 74, 75,
75, 75, 75, 76, 76, 77, 77, 74, 74, 74, 76, 77, 78
74, 74, 74, 74, 74, 74, 74, 74, 74, 75, 75, 75,
75, 75, 75, 75, 75, 76, 76, 76, 76, 76, 76, 76,
76, 76, 77, 77, 77, 77, 77, 77, 77, 77, 77, 78
Para dibujar su diagrama de barras hemos de calcular antes la distribucin de fre-
cuencias absolutas, que mostramos en forma matricial:
pesos2 Tal l ypesos
Mat r i xFor mpesos2
74, 9, 75, 8, 76, 9, 77, 9, 78, 1
74 9
75 8
76 9
77 9
78 1
Es decir, hay 9 alumnos que pesan 74 Kg, 8 que pesan 75 Kg y as sucesivamente.
Definimos por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente, de la
matriz anterior:
Tema 6 Estadistica.nb 25
pesosVal pesos2Al l , 1
pesosFr ec pesos2Al l , 2
74, 75, 76, 77, 78
9, 8, 9, 9, 1
Dibujamos ahora el diagrama de barras :
Bar Char t pesosFr ec, Char t Label s pesosVal
Calculamos ahora todas las medidas de centralizacin: media, mediana y moda,
usando la variable pesos definida al principio del problema.
pesosMedi a Meanpesos
NpesosMedi a
pesosMedi ana Medi anpesos
pesosModa Commonest pesos
907
12
75. 5833
76
74, 76, 77
El hecho de que la media y la mediana sean ligeramente distintas quiere decir que la
distribucin no es del todo simtrica. Por otra parte, el hecho de obtener tres modas
26 Tema 6 Estadistica.nb
(puesto que hay tres valores de la variable con la misma frecuencia mxima 9)
implica que se trata de una distribucin trimodal de frecuencias.
Calculamos ahora las medidas de dispersin: rango, rango intercuartlico, desviacin
media, desviacin tpica, varianza y coeficiente de variacin.
pesosRango 78 74
pesosRangoCuar t i l es
Quant i l epesos, 0. 75 Quant i l epesos, 0. 25
pesosDM MeanDevi at i onpesos
NpesosDM
pesosDT St andar dDevi at i onpesos
NpesosDT
pesosVAR Var i ancepesos
NpesosVAR
pesosCV NpesosDTpesosMedi a
4
3
227
216
1. 05093
29
5
2
1. 20416
29
20
1. 45
0. 0159315
El valor obtenido para el coeficiente de variacin, que es la medida de dispersin
que ms informacin da, nos indica que se trata de una distribucin bastante
Tema 6 Estadistica.nb 27
homognea, luego la media calculada antes es muy representativa de la variable
estadstica.
Calculamos finalmente las medidas de forma: sesgo y curtosis.
pesosSesgo Skewnesspesos
NpesosSesgo
pesosCur t osi s Kur t osi spesos 3
NpesosCur t osi s
146
203 203
0. 0504788

49830
41209
1. 2092
El valor obtenido para el coeficiente de sesgo o de asimetra, muy prximo a 0, nos
indica que la distribucin de frecuencias es bastante simtrica, aunque algo sesgada
a la derecha, lo que est en consonancia con lo que concluimos a partir de las medi-
das de centralizacin. Por su parte, el valor obtenido para el coeficiente de curtosis
nos indica que se trata de una distribucin de frecuencias platicrtica, bastante ms
plana que la distribucin normal.
Problema 2
Con el fin de estimar la media y la desviacin tpica del tiempo empleado en
realizar cierto trabajo, se encomend la ejecucin del mismo a 50 obreros y se
midi el tiempo invertido por cada uno de ellos. Los datos obtenidos, expresados
en segundos, fueron los sigu-
ientes:
293 248 254 246 227 314 302 361 283
234 252 243 262 189 256 283 222 211
312 306 189 202 213 196 178 231 286
345 184 176 217 302 258 249 302 199
323 262 189 214 313 296 252 301 214
28 Tema 6 Estadistica.nb
a) Agrupar la muestra en intervalos de clase de amplitud 10 segundos, redonde-
ando si fuera necesario, y dibujar el histograma de frecuencias.
b) Obtener la mediana y los cuartiles de la distribucin de frecuencias obtenida en
el apartado anterior.
c) Calcular la media, la desviacin tpica y la varianza de la muestra.
d) Calcular el percentil P
80
de la muestra y obtener el porcentaje de obreros que
se espera que tarden ms de 301 segundos en realizar el trabajo.
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
a) Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
t i empo
Sor t 293, 248, 254, 246, 227, 314, 302, 361, 283, 295,
234, 252, 243, 262, 189, 256, 283, 222, 211, 237, 312,
306, 189, 202, 213, 196, 178, 231, 286, 238, 345,
184, 176, 217, 302, 258, 249, 302, 199, 187, 323,
262, 189, 214, 313, 296, 252, 301, 214, 226
176, 178, 184, 187, 189, 189, 189, 196, 199, 202,
211, 213, 214, 214, 217, 222, 226, 227, 231, 234,
237, 238, 243, 246, 248, 249, 252, 252, 254, 256,
258, 262, 262, 283, 283, 286, 293, 295, 296, 301,
302, 302, 302, 306, 312, 313, 314, 323, 345, 361
Vemos que el menor tiempo tardado por algn empleado es de 176 segundos y el
mayor es de 361 segundos. Para que las marcas de clase sean nmeros redondos,
vamos a redondear estos valores extremos a 175 y a 365 segundos, respectiva-
mente. Entonces, las clases en las que vamos a agrupar sern [175,185), [185,195),
[195,205), [205,215), [215,225), [225,235), [235,245), [245,255), [255,265),
[265,275), [275,285), [285,295), [295,305), [305,315), [315,325), [325,335),
[335,345), [345,355) y [355,365); agrupamos la variable en estas clases y calcu-
lamos su distribucin de frecuencias absolutas y acumuladas (stas las necesitare-
mos ms tarde en este mismo problema):
Tema 6 Estadistica.nb 29
t i empoagr uFr ec Bi nCount st i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
t i empoagr uFr ecAcum Accumul at et i empoagr uFr ec
t i empoagr uVal 180, 190, 200, 210, 220, 230, 240, 250,
260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 360
3, 4, 3, 4, 2, 4, 3, 6, 4, 0, 2, 2, 6, 4, 1, 0, 0, 1, 1
3, 7, 10, 14, 16, 20, 23, 29, 33,
33, 35, 37, 43, 47, 48, 48, 48, 49, 50
180, 190, 200, 210, 220, 230, 240, 250, 260,
270, 280, 290, 300, 310, 320, 330, 340, 350, 360
Tambin tendremos que definir una lista que contenga todas las observaciones, en
este caso usando las marcas de las clases como valores de la variable:
30 Tema 6 Estadistica.nb
l i st a1 Tabl e180, i , 1, 3;
l i st a2 Tabl e190, i , 1, 4;
l i st a3 Tabl e200, i , 1, 3;
l i st a4 Tabl e210, i , 1, 4;
l i st a5 Tabl e220, i , 1, 2;
l i st a6 Tabl e230, i , 1, 4;
l i st a7 Tabl e240, i , 1, 3;
l i st a8 Tabl e250, i , 1, 6;
l i st a9 Tabl e260, i , 1, 4;
l i st a10 Tabl e280, i , 1, 2;
l i st a11 Tabl e290, i , 1, 2;
l i st a12 Tabl e300, i , 1, 6;
l i st a13 Tabl e310, i , 1, 4;
l i st a14 Tabl e320, i , 1, 1;
l i st a15 Tabl e350, i , 1, 1;
l i st a16 Tabl e360, i , 1, 1;
t i empoagr u J oi nl i st a1, l i st a2, l i st a3, l i st a4,
l i st a5, l i st a6, l i st a7, l i st a8, l i st a9, l i st a10,
l i st a11, l i st a12, l i st a13, l i st a14, l i st a15, l i st a16
180, 180, 180, 190, 190, 190, 190, 200, 200, 200,
210, 210, 210, 210, 220, 220, 230, 230, 230, 230,
240, 240, 240, 250, 250, 250, 250, 250, 250, 260,
260, 260, 260, 280, 280, 290, 290, 300, 300, 300,
300, 300, 300, 310, 310, 310, 310, 320, 350, 360
Dibujamos ahora su histograma, para lo cual podemos usar la variable sin agrupar:
Tema 6 Estadistica.nb 31
Hi st ogr amt i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
o bien la variable agrupada:
Bar Char t t i empoagr uFr ec, Char t Label s t i empoagr uVal
b) Hallamos primero la mediana de la distribucin; para que el resultado sea el ms
preciso, habra que usar la variable inicial, sin agrupar en clases, pero segn pone
en el enunciado hemos de usar la distribucin de frecuencias obtenida en el
apartado anterior, tras agrupar en clases:
t i empoMedi ana Medi ant i empoagr u
250
32 Tema 6 Estadistica.nb
Por lo tanto, la mediana de la distribucin se encuentra en la clase [245,255).
Hallamos ahora los tres cuartiles, que coinciden con los percentiles P
25
, P
50
y P
75
:
t i empoQ1 Quant i l et i empoagr u, 0. 25
t i empoQ2 Quant i l et i empoagr u, 0. 5
t i empoQ3 Quant i l et i empoagr u, 0. 75
210
250
300
c) Calculamos los parmetros estadsticos que solicita el enunciado; como ahora no
dice qu distribucin de frecuencias usar, emplearemos la distribucin inicial, sin
agrupar en clases, pues los resultados obtenidos son ms precisos:
t i empoMedi a Meant i empo
Nt i empoMedi a
t i empoDT St andar dDevi at i ont i empo
Nt i empoDT
t i empoVAR Var i ancet i empo
Nt i empoVAR
6286
25
251. 44
2740858
35
47. 3015
2740858
1225
2237. 44
Tema 6 Estadistica.nb 33
d) Calculamos el percentil pedido en el enunciado, usando la variable sin agrupar:
t i empoP80 Quant i l et i empo, 0. 80
301
Este valor nos indica que el 80% de los operarios tardan como mximo 301 segun-
dos en terminar el trabajo. Por lo tanto, se espera que el 20% de ellos tarden ms de
301 segundos.
Problema 3
El nmero de unidades de un determinado producto adquiridas anualmente por
110 consumidores entrevistados se distribuye de la siguiente forma:
N de uni dades 20 30 30 40 40 50 50 60 60 100
N de consumi dor es 25 20 35 15 15
a) Definir la distribucin de frecuencias y dibujar su histograma.
b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y el
nmero de unidades vendidas ms frecuente.
c) Si, una vez ordenados los grupos de consumidores por orden ascendente de
sus adquisiciones, se quieren clasificar en cuatro grupos de igual nmero de con-
sumidores cada uno, cul sera el nmero de unidades vendidas que delimitaran
el grupo de consumidores que ms unidades han adquirido?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
a) Definimos primero la distribucin de frecuencias usando la agrupacin en clases
dada en el enunciado (obsrvese que no tenemos acceso a los datos originales de
cada consumidor). Para ello debemos definir primero los valores de la variable (las
marcas de las clases) y luego las respectivas frecuencias absolutas (en el mismo
orden):
34 Tema 6 Estadistica.nb
vent asVal 25, 35, 45, 55, 80
vent asFr ec 25, 20, 35, 15, 15
vent asFr ecAcum Accumul at event asFr ec
25, 35, 45, 55, 80
25, 20, 35, 15, 15
25, 45, 80, 95, 110
Definimos ahora una lista con todas las observaciones de la variable:
l i st a1 Tabl e25, i , 1, 25;
l i st a2 Tabl e35, i , 1, 20;
l i st a3 Tabl e45, i , 1, 35;
l i st a4 Tabl e55, i , 1, 15;
l i st a5 Tabl e80, i , 1, 15;
vent as J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 35, 35, 35,
35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35,
35, 35, 35, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 55, 55, 55, 55,
55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 80, 80,
80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80
Dibujamos el histograma, usando la variable recin creada y las clases definidas en
el enunciado:
Tema 6 Estadistica.nb 35
Hi st ogr amvent as, 20, 30, 40, 50, 60, 100
b) Las unidades medias adquiridas nos las da la media de la distribucin:
vent asMedi a Meanvent as
Nvent asMedi a
985
22
44. 7727
La mediana de las observaciones nos la da la mediana de la distribucin:
vent asMedi ana Medi anvent as
45
lo que quiere decir que dicha mediana se encuentra en la clase [40,50).
Finalmente, el nmero de unidades vendidas ms frecuentemente nos lo da la moda
de la distribucin:
vent asModa Commonest vent as
45
lo que indica que la clase modal es tambin [40,50).
c) Los cuatro grupos con igual nmero de consumidores cada uno de ellos nos los
proporcionan los tres cuartiles de la distribucin. El grupo formado por los consumi-
36 Tema 6 Estadistica.nb
dores que ms unidades ha adquirido est delimitado entre el tercer cuartil y el valor
mximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil
Q
3
, que coincide con el percentil P
75
:
val or Mi ni mo Quant i l event as, 0. 75
55
Problema 4
Los importes de las facturas, en miles de , de dos empresas que trabajan en el
mismo sector tienen las siguientes distribu-
ciones:
Empr esa A Empr esa B
I mpor t es N de f act ur as I mpor t es N de f act ur as
0 50 72 0 50 81
50 100 41 50 100 12
100 200 12 100 200 10
200 500 41 200 500 12
500 700 7 500 700 8
a) En cul de las dos empresas el importe medio de las facturas es ms represen-
tativo?
b) En la Empresa A, cul es el importe mnimo de las facturas del conjunto for-
mado por el 30% de las facturas de importe ms elevado?
c) Supuesta una ordenacin de los datos de la Empresa A de menor a mayor
cuanta de las facturas, entre qu dos valores oscila el 50% central de la distribu-
cin?
d) En cul de las dos empresas es la distribucin ms simtrica? Y en cul es
ms parecida a la distribucin normal?
a) Definimos en primer lugar tanto las marcas de las clases como las respectivas
distribuciones de frecuencias absolutas de las dos variables estadsticas definidas
en el enunciado:
Tema 6 Estadistica.nb 37
mar cas 25, 75, 150, 350, 600
empAFr ec 72, 41, 12, 41, 7
empBFr ec 81, 12, 10, 12, 8
25, 75, 150, 350, 600
72, 41, 12, 41, 7
81, 12, 10, 12, 8
Definimos ahora las listas que contienen todas las observaciones de las dos vari-
ables. Comenzamos con la empresa A:
l i st a1 Tabl e25, i , 1, 72;
l i st a2 Tabl e75, i , 1, 41;
l i st a3 Tabl e150, i , 1, 12;
l i st a4 Tabl e350, i , 1, 41;
l i st a5 Tabl e600, i , 1, 7;
empA J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 600, 600, 600, 600, 600, 600, 600
Consideramos ahora la empresa B:
38 Tema 6 Estadistica.nb
l i st a1 Tabl e25, i , 1, 81;
l i st a2 Tabl e75, i , 1, 12;
l i st a3 Tabl e150, i , 1, 10;
l i st a4 Tabl e350, i , 1, 12;
l i st a5 Tabl e600, i , 1, 8;
empB J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 150, 150, 150, 150, 150, 150, 150, 150, 150,
150, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 600, 600, 600, 600, 600, 600, 600, 600
Para analizar la representatividad de la media de una distribucin de frecuencias
debemos emplear el coeficiente de variacin, el cual se define como el cociente
entre la desviacin tpica y el valor absoluto de la media; calculamos estos dos
parmetros estadsticos para cada una de las dos variables que hemos definido:
Tema 6 Estadistica.nb 39
empAMedi a MeanempA
empADT St andar dDevi at i onempA
empBMedi a MeanempB
empBDT St andar dDevi at i onempB
25225
173
25
305178
7439
4475
41
25
105873
2501
Calculamos finalmente el coeficiente de variacin de las dos variables definidas:
empACV empADTempAMedi a
NempACV
empBCV empBDTempBMedi a
NempBCV
52795794
43
1009
1. 09818
4340793
61
179
1. 49028
La media ms representativa es la que corresponde a la empresa A, puesto que en
ella el coeficiente de variacin es ms pequeo.
b) El conjunto formado por el 30% de las facturas de mayor importe es el que est
40 Tema 6 Estadistica.nb
comprendido entre el percentil P
70
y el mayor valor de la variable; el importe mnimo
de ese conjunto ser, por tanto, dicho percentil P
70
:
val mi n Quant i l eempA, 0. 7
150
luego dicho importe mnimo es de 150000 .
c) El 50% central de los valores de la variable est comprendido entre los cuartiles
Q
1
y Q
3
, que equivalen a los percentiles P
25
y P
75
, respectivamente:
per c25 Quant i l eempA, 0. 25
per c75 Quant i l eempA, 0. 75
25
350
luego el 50% central de la distribucin est comprendido entre 25000 y 350000 .
d) Para analizar la simetra de ambas distribuciones calculamos el coeficiente de
sesgo de cada una de ellas:
empASesgo SkewnessempA
NempASesgo
empBSesgo SkewnessempB
NempBSesgo
275637499
406904 305178
1. 22622
19109211
35291 70582
2. 03813
Aunque ambas distribuciones presentan una asimetra positiva, luego estn ses-
gadas hacia la derecha, la distribucin correspondiente a los datos de la empresa B
es la ms asimtrica de las dos. Para analizar cul de las dos distribuciones pre-
Tema 6 Estadistica.nb 41
senta una forma ms similar a la de la distribucin normal, calculamos el coeficiente
de curtosis de cada una de las dos distribuciones:
empACur Kur t osi sempA 3
NempACur
empBCur Kur t osi sempB 3
NempBCur
17770544507
41392716304
0. 429316
7491958607
2490909362
3. 00772
Aunque ambas distribuciones son leptocrticas, es decir, son ms puntiagudas que
la distribucin normal, la que ms se asemeja a sta es la correspondiente a la
empresa A. Estos dos resultados tambin podemos observarlos en las correspondi-
entes representaciones grficas, mediante sendos histogramas:
42 Tema 6 Estadistica.nb
Hi st ogr amempA, 0, 50, 100, 200, 500, 700
Hi st ogr amempB, 0, 50, 100, 200, 500, 700
Tema 6 Estadistica.nb 43

También podría gustarte