Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccin
Podemos definir la Estadstica como la ciencia que nos facilita los mtodos precisos
para la obtencin y descripcin de datos, as como los mtodos de anlisis, inter-
pretacin y obtencin de conclusiones a partir de la informacin recogida. Estas dos
vertientes dan lugar a dos partes bien diferenciadas de la Estadstica:
1. La Estadstica descriptiva o deductiva, que tiene por objeto la recogida,
ordenacin, anlisis y representacin de los datos obtenidos por las
observaciones. En esta parte de la Estadstica no se hace uso del clculo de
probabilidades y se limita a realizar deducciones directamente a partir de los
datos y parmetros obtenidos.
2. La Estadstica inferencial o inductiva, que tiene por objeto conocer y analizar
un colectivo a partir del estudio de una parte del mismo, llamado muestra.
Esta parte de la Estadstica se apoya fuertemente en el clculo de
probabilidades.
Llamaremos poblacin a cualquier colectivo de individuos u objetos de cualquier
ndole a los que se puede asociar una o varias caractersticas comunes. Cada ele-
mento de la poblacin se denomina individuo o unidad estadstica. Es frecuente
que el nmero de individuos de una poblacin (lo que se denomina tamao de la
misma) sea muy grande (posiblemente infinito), lo que aconseja tomar una parte
representativa de tamao manejable, denominada muestra. A la eleccin de mues-
tras se le denomina muestreo y existen muchos criterios sobre la eleccin de mues-
tras. No vamos a entrar en este tema, sino slo digamos que cualquier individuo de
la poblacin debe tener la misma probabilidad de estar en la muestra, que es mucho
ms importante la representatividad de la muestra que su tamao y que su composi-
cin debe estar en proporcin con la composicin de la poblacin.
Se denomina variable estadstica a una caracterstica, aspecto, fenmeno, rasgo o
cualidad que presenta cada individuo de la poblacin y que puede tomar distintos
valores (si se expresan numricamente) o modalidades (en caso contrario). Se deno-
tan por letras maysculas (X, Y, Z, ), mientras que los valores que puede tomar la
variable estadstica X se denotan con letras minsculas (x
1
, x
2
, x
3
, ). El conjunto
de los valores o modalidades que puede tomar una variable estadstica se llama
dominio de dicha variable. Atendiendo a su dominio, las variables estadsticas se
clasifican en:
Variables estadsticas cualitativas: su dominio son valores no numricos, es
decir, que no se pueden medir; por ejemplo, la profesin de una persona, su
estado civil, el idioma elegido, etc.
Variables estadsticas cuantitativas: su dominio son valores numricos que s
se pueden medir; por ejemplo, la altura de una persona, el dimetro de una
pieza de precisin, el cociente intelectual de un alumno, etc. Si la variable
cuantitativa slo puede tomar un nmero finito de valores distintos, se
denomina variable cuantitativa discreta (por ejemplo, la edad de los alumnos
de una clase), mientras que en caso contrario se denomina variable
cuantitativa continua (por ejemplo, la presin sangunea de los enfermos de
un determinado hospital). Normalmente, si una variable discreta puede tomar
un elevado nmero de valores distintos, se considera como si fuese tambin
una variable conitinua (por ejemplo, el salario de los alumnos de Arquitectura
Tcnica egresados el curso 2007/2008).
Ordenacin y presentacin de datos
Dada una variable estadstica cuantitativa discreta X, se llama frecuencia absoluta
del valor x
k
, y se representa por f
k
, al nmero de veces que aparece en una deter-
minda muestra. Se llama frecuencia relativa del valor x
k
, y se representa por h
k
, al
cociente h
k
=
f
k
n
, siendo n el nmero de individuos de la muestra. Tambin podemos
indicar la frecuencia relativa en trminos de porcentajes; se llama porcentaje del
valor x
k
, y se representa por p
k
, a p
k
= 100 h
k
.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos
una sucesin de valores x
1
< x
2
< < x
m
, siendo m el nmero de valores distintos
que toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada
del valor x
h
, y se representa por F
k
, a F
k
= f
1
+f
2
+f
k
. De igual forma, se llama
frecuencia relativa acumulada del valor x
k
, y se representa por H
k
, a
H
k
= h
1
+h
2
++h
k
=
F
k
n
. La tabla o distribucin de frecuencias de una variable
estadstica discreta est formada por cinco columnas: valores, frecuencias absolu-
tas, frecuencias relativas (o porcentajes), frecuencias absolutas acumuladas y fre-
cuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un nmero muy
grande de posibles valores) es muy conveniente agrupar los datos en clases. Una
clase es un intervalo [a, b), de forma que un valor x
k
pertenece a dicha clase si
a x
k
< b (obsrvese que toda clase es un intervalo cerrado por la izquierda y
abierto por la derecha). Los extremos a, b del intervalo se denominan lmites de
clase, y el punto medio |
a+b
2
] se denomina marca de clase.
2 Tema 6 Estadistica.nb
Con el fin de que la clasificacin est bien hecha, los intervalos se deben construir
de la misma amplitud y de forma que el lmite superior de una clase coincida con el
lmite inferior de la siguiente. Ahora bien, cul es el nmero idneo de clases que
debemos escoger a la hora de agrupar? No existe una respuesta tajante a esta pre-
gunta; uno de los criterios ms sencillos establece que el nmero de clases debe ser
aproximadamente igual a la raz cuadrada positiva del nmero de datos.
Veamos ahora cmo podemos definir los valores x
k
de una variable estadstica X
con Mathematica, calcular sus frecuencias absolutas f
k
y representar grficamente
stas. Estudiaremos por separado los casos de variable discreta y de variable
continua.
Variable estadstica discreta
Consideremos primero una variable discreta; por ejemplo, supongamos que las
notas de matemticas de 30 alumnos sean las siguientes :
5 3 4 1 2 8 9 8 7 6
6 7 9 8 7 7 1 0 1 5
9 9 8 0 8 8 8 9 5 7
Los valores de esta variable discreta se definen en Mathematica como una lista, es
decir, separados por comas y encerrados entre sendas llaves:
not as 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8,
7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Obsrvese que en este ejemplo hemos introducido los datos por filas, pero
podramos haberlos introducido tambin por columnas. A la hora de definir la vari-
able el orden en que introduzcamos sus valores es indiferente. Sin embargo, una
vez definida conviene reordenar los datos de menor a mayor; para ello, usamos el
comando Sort[var], guardando el resultado en una nueva variable:
not asor d Sor t not as
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
O bien podemos definir la variable ya ordenada:
Tema 6 Estadistica.nb 3
not as Sor t 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
Para obtener la distribucin de frecuencias absolutas de una variable var podemos
usar el comando Tally[var]. Tngase presente que antes de aplicar este comando
es recomendable que la variable est ordenada. Este comando devuelve una matriz
con dos columnas; la primera contiene los valores que toma la variable y la segunda
sus respectivas frecuencias absolutas; para visualizar el resultado como una matriz
hemos de emplear el comando MatrixForm[mat]:
not as2 Tal l ynot as
Mat r i xFor mnot as2
0, 2, 1, 3, 2, 1, 3, 1, 4, 1,
5, 3, 6, 2, 7, 5, 8, 7, 9, 5
0 2
1 3
2 1
3 1
4 1
5 3
6 2
7 5
8 7
9 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y as sucesivamente. Pode-
mos definir por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente:
not asVal or es not as2Al l , 1
not asFr ecuenci as not as2Al l , 2
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
2, 3, 1, 1, 1, 3, 2, 5, 7, 5
4 Tema 6 Estadistica.nb
La distribucin de frecuencias acumuladas se puede obtener aplicando el comando
Accumulate[lista] :
not asFr ecAcum Accumul at enot asFr ecuenci as
2, 5, 6, 7, 8, 11, 13, 18, 25, 30
Y la distribucin de frecuencias relativas se obtiene dividiendo (cuando se aplica una
operacin aritmtica a una lista, se realiza dicha operacin a cada elemento de ella)
las frecuencias absolutas por el nmero total de elementos de la muestra, el cual se
puede obtener con el comando Length[lista]:
n Lengt hnot as
not asFr ecRel not asFr ecuenci as n
Nnot asFr ecRel
30
1
15
,
1
10
,
1
30
,
1
30
,
1
30
,
1
10
,
1
15
,
1
6
,
7
30
,
1
6
1
N
_
k=1
n
f
k
(x
k
- m)
3
siendo s la desviacin tpica de la variable y m su media.
Si g
3
= 0, la distribucin es simtrica respecto de la mediana; entonces, si la distribu-
cin es unimodal, las tres medidas de centralizacin, meda, mediana y moda,
coinciden.
Si g
3
> 0, la distribucin presenta asimetra positiva; entonces, dicha distribucin
est sesgada a la derecha, vindose en su representacin grfica una cola para
valores mayores de la mediana.
Si g
3
< 0, la distribucin presenta asimetra negativa; entonces, dicha distribucin
est sesgada a la izquierda, vindose en su representacin grfica una cola para
valores menores de la mediana.
En Mathematica, el coeficiente de asimetra de una variable estadstica var se cal-
cula con el comando Skewness[var]. Por ejemplo, el coeficiente de asimetra de las
edades de nuestros pacientes se calcular como:
edadSesgo Skewnessedad
NedadSesgo
25966046
68315 68315
1. 45423
luego presenta una notable asimetra positiva, como se aprecia en el histograma
dibujado ms arriba (recurdese que la mediana de la distribucin es 7.5). Hallamos
tambin el coeficiente de sesgo de la variable agrupada:
edadagr uSesgo Skewnessedadagr u
1. 22984
Apuntamiento o curtosis
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente,
22 Tema 6 Estadistica.nb
se define el coeficiente de apuntamiento o coeficiente de curtosis como:
g
4
=
1
s
4
1
N
_
k=1
n
f
k
(x
k
- m)
4
- 3
siendo s la desviacin tpica de la variable y m su media.
Este coeficiente indica el grado de elevacin del diagrama de barras de las frecuen-
cias relativas de la distribucin. Este grado de elevacin se traduce en el reparto de
la frecuencia entre el centro y los extremos de la grfica. Como medida de referen-
cia de dicho grado de elevacin se toma la curva normal o campana de Gauss, la
cual se muestra en la siguiente figura:
Si g
4
= 0, la distribucin presenta el mismo grado de elevacin que la curva normal
con la misma varianza y se denomina distribucin mesocrtica.
Si g
4
> 0, la distribucin es ms apuntada que la curva normal con la misma vari-
anza y se denomina distribucin leptocrtica.
Si g
4
< 0, la distribucin es menos apuntada que la curva normal con la misma vari-
anza y se denomina distribucin platicrtica.
En Mathematica, el coeficiente de curtosis de una variable estadstica var se calcula
con el comando Kurtosis[var]. Hay que tener presente que este comando devuelve
el valor 3 para una distribucin mesocrtica, por lo que al resultado que proporcione
hay que restarle 3 para obtener el valor correcto. Por ejemplo, el coeficiente de curto-
sis de las edades de nuestros pacientes se calcular como:
Tema 6 Estadistica.nb 23
edadCur t osi s Kur t osi sedad 3
NedadCur t osi s
5470108698
4666939225
1. 1721
por lo que la distribucin es ms puntiaguda que la curva normal (con la misma vari-
anza). Hallamos tambin el coeficiente de curtosis de la variable agrupada:
edadagr uCur t osi s Kur t osi sedadagr u 3
0. 66
la cual es ahora ms plana que la curva normal (con la misma varianza).
Ejercicio propuesto
Se consideran las dos variables estadsticas definidas en los dos primeros ejerci-
cios de este tema (duracin de los estudios y notas de matemticas). Hallar en
ambos casos las medidas de forma e interpretarlas.
Problemas resueltos
Mostramos en este apartado una coleccin de problemas del tema de Estadstica
descriptiva resueltos con la ayuda de Mathematica. Todos los problemas estn
explicados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cmo
utilizar el programa Mathematica para resolver los problemas de la asignatura.
Problema 1
La siguiente tabla muestra los pesos de los alumnos de una clase. Definir la corre-
spondiente distribucin de frecuencias, dibujar su diagrama de barras y hallar
todas las medidas de centralizacin, dispersin y forma estudiadas.
24 Tema 6 Estadistica.nb
74 75 74 77 76 74 75 77 76
76 75 75 74 76 77 77 74 76
76 77 77 74 75 75 75 75 76
76 77 77 74 74 74 76 77 78
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
pesos Sor t 74, 75, 74, 77, 76, 74, 75, 77, 76, 76,
75, 75, 74, 76, 77, 77, 74, 76, 76, 77, 77, 74, 75,
75, 75, 75, 76, 76, 77, 77, 74, 74, 74, 76, 77, 78
74, 74, 74, 74, 74, 74, 74, 74, 74, 75, 75, 75,
75, 75, 75, 75, 75, 76, 76, 76, 76, 76, 76, 76,
76, 76, 77, 77, 77, 77, 77, 77, 77, 77, 77, 78
Para dibujar su diagrama de barras hemos de calcular antes la distribucin de fre-
cuencias absolutas, que mostramos en forma matricial:
pesos2 Tal l ypesos
Mat r i xFor mpesos2
74, 9, 75, 8, 76, 9, 77, 9, 78, 1
74 9
75 8
76 9
77 9
78 1
Es decir, hay 9 alumnos que pesan 74 Kg, 8 que pesan 75 Kg y as sucesivamente.
Definimos por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente, de la
matriz anterior:
Tema 6 Estadistica.nb 25
pesosVal pesos2Al l , 1
pesosFr ec pesos2Al l , 2
74, 75, 76, 77, 78
9, 8, 9, 9, 1
Dibujamos ahora el diagrama de barras :
Bar Char t pesosFr ec, Char t Label s pesosVal
Calculamos ahora todas las medidas de centralizacin: media, mediana y moda,
usando la variable pesos definida al principio del problema.
pesosMedi a Meanpesos
NpesosMedi a
pesosMedi ana Medi anpesos
pesosModa Commonest pesos
907
12
75. 5833
76
74, 76, 77
El hecho de que la media y la mediana sean ligeramente distintas quiere decir que la
distribucin no es del todo simtrica. Por otra parte, el hecho de obtener tres modas
26 Tema 6 Estadistica.nb
(puesto que hay tres valores de la variable con la misma frecuencia mxima 9)
implica que se trata de una distribucin trimodal de frecuencias.
Calculamos ahora las medidas de dispersin: rango, rango intercuartlico, desviacin
media, desviacin tpica, varianza y coeficiente de variacin.
pesosRango 78 74
pesosRangoCuar t i l es
Quant i l epesos, 0. 75 Quant i l epesos, 0. 25
pesosDM MeanDevi at i onpesos
NpesosDM
pesosDT St andar dDevi at i onpesos
NpesosDT
pesosVAR Var i ancepesos
NpesosVAR
pesosCV NpesosDTpesosMedi a
4
3
227
216
1. 05093
29
5
2
1. 20416
29
20
1. 45
0. 0159315
El valor obtenido para el coeficiente de variacin, que es la medida de dispersin
que ms informacin da, nos indica que se trata de una distribucin bastante
Tema 6 Estadistica.nb 27
homognea, luego la media calculada antes es muy representativa de la variable
estadstica.
Calculamos finalmente las medidas de forma: sesgo y curtosis.
pesosSesgo Skewnesspesos
NpesosSesgo
pesosCur t osi s Kur t osi spesos 3
NpesosCur t osi s
146
203 203
0. 0504788
49830
41209
1. 2092
El valor obtenido para el coeficiente de sesgo o de asimetra, muy prximo a 0, nos
indica que la distribucin de frecuencias es bastante simtrica, aunque algo sesgada
a la derecha, lo que est en consonancia con lo que concluimos a partir de las medi-
das de centralizacin. Por su parte, el valor obtenido para el coeficiente de curtosis
nos indica que se trata de una distribucin de frecuencias platicrtica, bastante ms
plana que la distribucin normal.
Problema 2
Con el fin de estimar la media y la desviacin tpica del tiempo empleado en
realizar cierto trabajo, se encomend la ejecucin del mismo a 50 obreros y se
midi el tiempo invertido por cada uno de ellos. Los datos obtenidos, expresados
en segundos, fueron los sigu-
ientes:
293 248 254 246 227 314 302 361 283
234 252 243 262 189 256 283 222 211
312 306 189 202 213 196 178 231 286
345 184 176 217 302 258 249 302 199
323 262 189 214 313 296 252 301 214
28 Tema 6 Estadistica.nb
a) Agrupar la muestra en intervalos de clase de amplitud 10 segundos, redonde-
ando si fuera necesario, y dibujar el histograma de frecuencias.
b) Obtener la mediana y los cuartiles de la distribucin de frecuencias obtenida en
el apartado anterior.
c) Calcular la media, la desviacin tpica y la varianza de la muestra.
d) Calcular el percentil P
80
de la muestra y obtener el porcentaje de obreros que
se espera que tarden ms de 301 segundos en realizar el trabajo.
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
a) Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
t i empo
Sor t 293, 248, 254, 246, 227, 314, 302, 361, 283, 295,
234, 252, 243, 262, 189, 256, 283, 222, 211, 237, 312,
306, 189, 202, 213, 196, 178, 231, 286, 238, 345,
184, 176, 217, 302, 258, 249, 302, 199, 187, 323,
262, 189, 214, 313, 296, 252, 301, 214, 226
176, 178, 184, 187, 189, 189, 189, 196, 199, 202,
211, 213, 214, 214, 217, 222, 226, 227, 231, 234,
237, 238, 243, 246, 248, 249, 252, 252, 254, 256,
258, 262, 262, 283, 283, 286, 293, 295, 296, 301,
302, 302, 302, 306, 312, 313, 314, 323, 345, 361
Vemos que el menor tiempo tardado por algn empleado es de 176 segundos y el
mayor es de 361 segundos. Para que las marcas de clase sean nmeros redondos,
vamos a redondear estos valores extremos a 175 y a 365 segundos, respectiva-
mente. Entonces, las clases en las que vamos a agrupar sern [175,185), [185,195),
[195,205), [205,215), [215,225), [225,235), [235,245), [245,255), [255,265),
[265,275), [275,285), [285,295), [295,305), [305,315), [315,325), [325,335),
[335,345), [345,355) y [355,365); agrupamos la variable en estas clases y calcu-
lamos su distribucin de frecuencias absolutas y acumuladas (stas las necesitare-
mos ms tarde en este mismo problema):
Tema 6 Estadistica.nb 29
t i empoagr uFr ec Bi nCount st i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
t i empoagr uFr ecAcum Accumul at et i empoagr uFr ec
t i empoagr uVal 180, 190, 200, 210, 220, 230, 240, 250,
260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 360
3, 4, 3, 4, 2, 4, 3, 6, 4, 0, 2, 2, 6, 4, 1, 0, 0, 1, 1
3, 7, 10, 14, 16, 20, 23, 29, 33,
33, 35, 37, 43, 47, 48, 48, 48, 49, 50
180, 190, 200, 210, 220, 230, 240, 250, 260,
270, 280, 290, 300, 310, 320, 330, 340, 350, 360
Tambin tendremos que definir una lista que contenga todas las observaciones, en
este caso usando las marcas de las clases como valores de la variable:
30 Tema 6 Estadistica.nb
l i st a1 Tabl e180, i , 1, 3;
l i st a2 Tabl e190, i , 1, 4;
l i st a3 Tabl e200, i , 1, 3;
l i st a4 Tabl e210, i , 1, 4;
l i st a5 Tabl e220, i , 1, 2;
l i st a6 Tabl e230, i , 1, 4;
l i st a7 Tabl e240, i , 1, 3;
l i st a8 Tabl e250, i , 1, 6;
l i st a9 Tabl e260, i , 1, 4;
l i st a10 Tabl e280, i , 1, 2;
l i st a11 Tabl e290, i , 1, 2;
l i st a12 Tabl e300, i , 1, 6;
l i st a13 Tabl e310, i , 1, 4;
l i st a14 Tabl e320, i , 1, 1;
l i st a15 Tabl e350, i , 1, 1;
l i st a16 Tabl e360, i , 1, 1;
t i empoagr u J oi nl i st a1, l i st a2, l i st a3, l i st a4,
l i st a5, l i st a6, l i st a7, l i st a8, l i st a9, l i st a10,
l i st a11, l i st a12, l i st a13, l i st a14, l i st a15, l i st a16
180, 180, 180, 190, 190, 190, 190, 200, 200, 200,
210, 210, 210, 210, 220, 220, 230, 230, 230, 230,
240, 240, 240, 250, 250, 250, 250, 250, 250, 260,
260, 260, 260, 280, 280, 290, 290, 300, 300, 300,
300, 300, 300, 310, 310, 310, 310, 320, 350, 360
Dibujamos ahora su histograma, para lo cual podemos usar la variable sin agrupar:
Tema 6 Estadistica.nb 31
Hi st ogr amt i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
o bien la variable agrupada:
Bar Char t t i empoagr uFr ec, Char t Label s t i empoagr uVal
b) Hallamos primero la mediana de la distribucin; para que el resultado sea el ms
preciso, habra que usar la variable inicial, sin agrupar en clases, pero segn pone
en el enunciado hemos de usar la distribucin de frecuencias obtenida en el
apartado anterior, tras agrupar en clases:
t i empoMedi ana Medi ant i empoagr u
250
32 Tema 6 Estadistica.nb
Por lo tanto, la mediana de la distribucin se encuentra en la clase [245,255).
Hallamos ahora los tres cuartiles, que coinciden con los percentiles P
25
, P
50
y P
75
:
t i empoQ1 Quant i l et i empoagr u, 0. 25
t i empoQ2 Quant i l et i empoagr u, 0. 5
t i empoQ3 Quant i l et i empoagr u, 0. 75
210
250
300
c) Calculamos los parmetros estadsticos que solicita el enunciado; como ahora no
dice qu distribucin de frecuencias usar, emplearemos la distribucin inicial, sin
agrupar en clases, pues los resultados obtenidos son ms precisos:
t i empoMedi a Meant i empo
Nt i empoMedi a
t i empoDT St andar dDevi at i ont i empo
Nt i empoDT
t i empoVAR Var i ancet i empo
Nt i empoVAR
6286
25
251. 44
2740858
35
47. 3015
2740858
1225
2237. 44
Tema 6 Estadistica.nb 33
d) Calculamos el percentil pedido en el enunciado, usando la variable sin agrupar:
t i empoP80 Quant i l et i empo, 0. 80
301
Este valor nos indica que el 80% de los operarios tardan como mximo 301 segun-
dos en terminar el trabajo. Por lo tanto, se espera que el 20% de ellos tarden ms de
301 segundos.
Problema 3
El nmero de unidades de un determinado producto adquiridas anualmente por
110 consumidores entrevistados se distribuye de la siguiente forma:
N de uni dades 20 30 30 40 40 50 50 60 60 100
N de consumi dor es 25 20 35 15 15
a) Definir la distribucin de frecuencias y dibujar su histograma.
b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y el
nmero de unidades vendidas ms frecuente.
c) Si, una vez ordenados los grupos de consumidores por orden ascendente de
sus adquisiciones, se quieren clasificar en cuatro grupos de igual nmero de con-
sumidores cada uno, cul sera el nmero de unidades vendidas que delimitaran
el grupo de consumidores que ms unidades han adquirido?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `"
a) Definimos primero la distribucin de frecuencias usando la agrupacin en clases
dada en el enunciado (obsrvese que no tenemos acceso a los datos originales de
cada consumidor). Para ello debemos definir primero los valores de la variable (las
marcas de las clases) y luego las respectivas frecuencias absolutas (en el mismo
orden):
34 Tema 6 Estadistica.nb
vent asVal 25, 35, 45, 55, 80
vent asFr ec 25, 20, 35, 15, 15
vent asFr ecAcum Accumul at event asFr ec
25, 35, 45, 55, 80
25, 20, 35, 15, 15
25, 45, 80, 95, 110
Definimos ahora una lista con todas las observaciones de la variable:
l i st a1 Tabl e25, i , 1, 25;
l i st a2 Tabl e35, i , 1, 20;
l i st a3 Tabl e45, i , 1, 35;
l i st a4 Tabl e55, i , 1, 15;
l i st a5 Tabl e80, i , 1, 15;
vent as J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 35, 35, 35,
35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35,
35, 35, 35, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 55, 55, 55, 55,
55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 80, 80,
80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80
Dibujamos el histograma, usando la variable recin creada y las clases definidas en
el enunciado:
Tema 6 Estadistica.nb 35
Hi st ogr amvent as, 20, 30, 40, 50, 60, 100
b) Las unidades medias adquiridas nos las da la media de la distribucin:
vent asMedi a Meanvent as
Nvent asMedi a
985
22
44. 7727
La mediana de las observaciones nos la da la mediana de la distribucin:
vent asMedi ana Medi anvent as
45
lo que quiere decir que dicha mediana se encuentra en la clase [40,50).
Finalmente, el nmero de unidades vendidas ms frecuentemente nos lo da la moda
de la distribucin:
vent asModa Commonest vent as
45
lo que indica que la clase modal es tambin [40,50).
c) Los cuatro grupos con igual nmero de consumidores cada uno de ellos nos los
proporcionan los tres cuartiles de la distribucin. El grupo formado por los consumi-
36 Tema 6 Estadistica.nb
dores que ms unidades ha adquirido est delimitado entre el tercer cuartil y el valor
mximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil
Q
3
, que coincide con el percentil P
75
:
val or Mi ni mo Quant i l event as, 0. 75
55
Problema 4
Los importes de las facturas, en miles de , de dos empresas que trabajan en el
mismo sector tienen las siguientes distribu-
ciones:
Empr esa A Empr esa B
I mpor t es N de f act ur as I mpor t es N de f act ur as
0 50 72 0 50 81
50 100 41 50 100 12
100 200 12 100 200 10
200 500 41 200 500 12
500 700 7 500 700 8
a) En cul de las dos empresas el importe medio de las facturas es ms represen-
tativo?
b) En la Empresa A, cul es el importe mnimo de las facturas del conjunto for-
mado por el 30% de las facturas de importe ms elevado?
c) Supuesta una ordenacin de los datos de la Empresa A de menor a mayor
cuanta de las facturas, entre qu dos valores oscila el 50% central de la distribu-
cin?
d) En cul de las dos empresas es la distribucin ms simtrica? Y en cul es
ms parecida a la distribucin normal?
a) Definimos en primer lugar tanto las marcas de las clases como las respectivas
distribuciones de frecuencias absolutas de las dos variables estadsticas definidas
en el enunciado:
Tema 6 Estadistica.nb 37
mar cas 25, 75, 150, 350, 600
empAFr ec 72, 41, 12, 41, 7
empBFr ec 81, 12, 10, 12, 8
25, 75, 150, 350, 600
72, 41, 12, 41, 7
81, 12, 10, 12, 8
Definimos ahora las listas que contienen todas las observaciones de las dos vari-
ables. Comenzamos con la empresa A:
l i st a1 Tabl e25, i , 1, 72;
l i st a2 Tabl e75, i , 1, 41;
l i st a3 Tabl e150, i , 1, 12;
l i st a4 Tabl e350, i , 1, 41;
l i st a5 Tabl e600, i , 1, 7;
empA J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 600, 600, 600, 600, 600, 600, 600
Consideramos ahora la empresa B:
38 Tema 6 Estadistica.nb
l i st a1 Tabl e25, i , 1, 81;
l i st a2 Tabl e75, i , 1, 12;
l i st a3 Tabl e150, i , 1, 10;
l i st a4 Tabl e350, i , 1, 12;
l i st a5 Tabl e600, i , 1, 8;
empB J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 150, 150, 150, 150, 150, 150, 150, 150, 150,
150, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 600, 600, 600, 600, 600, 600, 600, 600
Para analizar la representatividad de la media de una distribucin de frecuencias
debemos emplear el coeficiente de variacin, el cual se define como el cociente
entre la desviacin tpica y el valor absoluto de la media; calculamos estos dos
parmetros estadsticos para cada una de las dos variables que hemos definido:
Tema 6 Estadistica.nb 39
empAMedi a MeanempA
empADT St andar dDevi at i onempA
empBMedi a MeanempB
empBDT St andar dDevi at i onempB
25225
173
25
305178
7439
4475
41
25
105873
2501
Calculamos finalmente el coeficiente de variacin de las dos variables definidas:
empACV empADTempAMedi a
NempACV
empBCV empBDTempBMedi a
NempBCV
52795794
43
1009
1. 09818
4340793
61
179
1. 49028
La media ms representativa es la que corresponde a la empresa A, puesto que en
ella el coeficiente de variacin es ms pequeo.
b) El conjunto formado por el 30% de las facturas de mayor importe es el que est
40 Tema 6 Estadistica.nb
comprendido entre el percentil P
70
y el mayor valor de la variable; el importe mnimo
de ese conjunto ser, por tanto, dicho percentil P
70
:
val mi n Quant i l eempA, 0. 7
150
luego dicho importe mnimo es de 150000 .
c) El 50% central de los valores de la variable est comprendido entre los cuartiles
Q
1
y Q
3
, que equivalen a los percentiles P
25
y P
75
, respectivamente:
per c25 Quant i l eempA, 0. 25
per c75 Quant i l eempA, 0. 75
25
350
luego el 50% central de la distribucin est comprendido entre 25000 y 350000 .
d) Para analizar la simetra de ambas distribuciones calculamos el coeficiente de
sesgo de cada una de ellas:
empASesgo SkewnessempA
NempASesgo
empBSesgo SkewnessempB
NempBSesgo
275637499
406904 305178
1. 22622
19109211
35291 70582
2. 03813
Aunque ambas distribuciones presentan una asimetra positiva, luego estn ses-
gadas hacia la derecha, la distribucin correspondiente a los datos de la empresa B
es la ms asimtrica de las dos. Para analizar cul de las dos distribuciones pre-
Tema 6 Estadistica.nb 41
senta una forma ms similar a la de la distribucin normal, calculamos el coeficiente
de curtosis de cada una de las dos distribuciones:
empACur Kur t osi sempA 3
NempACur
empBCur Kur t osi sempB 3
NempBCur
17770544507
41392716304
0. 429316
7491958607
2490909362
3. 00772
Aunque ambas distribuciones son leptocrticas, es decir, son ms puntiagudas que
la distribucin normal, la que ms se asemeja a sta es la correspondiente a la
empresa A. Estos dos resultados tambin podemos observarlos en las correspondi-
entes representaciones grficas, mediante sendos histogramas:
42 Tema 6 Estadistica.nb
Hi st ogr amempA, 0, 50, 100, 200, 500, 700
Hi st ogr amempB, 0, 50, 100, 200, 500, 700
Tema 6 Estadistica.nb 43