P. 1
Estadistica Con Matematica

Estadistica Con Matematica

|Views: 10|Likes:
Publicado porCarlos Suero Tejuca

More info:

Published by: Carlos Suero Tejuca on Feb 27, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/12/2014

pdf

text

original

Estadística Descriptiva

Introducción
Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos
para la obtención y descripción de datos, así como los métodos de análisis, inter-
pretación y obtención de conclusiones a partir de la información recogida. Estas dos
vertientes dan lugar a dos partes bien diferenciadas de la Estadística:
1. La Estadística descriptiva o deductiva, que tiene por objeto la recogida,
ordenación, análisis y representación de los datos obtenidos por las
observaciones. En esta parte de la Estadística no se hace uso del cálculo de
probabilidades y se limita a realizar deducciones directamente a partir de los
datos y parámetros obtenidos.
2. La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar
un colectivo a partir del estudio de una parte del mismo, llamado muestra.
Esta parte de la Estadística se apoya fuertemente en el cálculo de
probabilidades.
Llamaremos población a cualquier colectivo de individuos u objetos de cualquier
índole a los que se puede asociar una o varias características comunes. Cada ele-
mento de la población se denomina individuo o unidad estadística. Es frecuente
que el número de individuos de una población (lo que se denomina tamaño de la
misma) sea muy grande (posiblemente infinito), lo que aconseja tomar una parte
representativa de tamaño manejable, denominada muestra. A la elección de mues-
tras se le denomina muestreo y existen muchos criterios sobre la elección de mues-
tras. No vamos a entrar en este tema, sino sólo digamos que cualquier individuo de
la población debe tener la misma probabilidad de estar en la muestra, que es mucho
más importante la representatividad de la muestra que su tamaño y que su composi-
ción debe estar en proporción con la composición de la población.
Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o
cualidad que presenta cada individuo de la población y que puede tomar distintos
valores (si se expresan numéricamente) o modalidades (en caso contrario). Se deno-
tan por letras mayúsculas (X, Y, Z, …), mientras que los valores que puede tomar la
variable estadística X se denotan con letras minúsculas (x
1
, x
2
, x
3
, …). El conjunto
de los valores o modalidades que puede tomar una variable estadística se llama
dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se
clasifican en:
è Variables estadísticas cualitativas: su dominio son valores no numéricos, es
decir, que no se pueden medir; por ejemplo, la profesión de una persona, su
estado civil, el idioma elegido, etc.
è Variables estadísticas cuantitativas: su dominio son valores numéricos que sí
se pueden medir; por ejemplo, la altura de una persona, el diámetro de una
pieza de precisión, el cociente intelectual de un alumno, etc. Si la variable
cuantitativa sólo puede tomar un número finito de valores distintos, se
denomina variable cuantitativa discreta (por ejemplo, la edad de los alumnos
de una clase), mientras que en caso contrario se denomina variable
cuantitativa continua (por ejemplo, la presión sanguínea de los enfermos de
un determinado hospital). Normalmente, si una variable discreta puede tomar
un elevado número de valores distintos, se considera como si fuese también
una variable conitinua (por ejemplo, el salario de los alumnos de Arquitectura
Técnica egresados el curso 2007/2008).
Ordenación y presentación de datos
Dada una variable estadística cuantitativa discreta X, se llama frecuencia absoluta
del valor x
k
, y se representa por f
k
, al número de veces que aparece en una deter-
minda muestra. Se llama frecuencia relativa del valor x
k
, y se representa por h
k
, al
cociente h
k
=
f
k
n
, siendo n el número de individuos de la muestra. También podemos
indicar la frecuencia relativa en términos de porcentajes; se llama porcentaje del
valor x
k
, y se representa por p
k
, a p
k
= 100ÿ h
k
.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos
una sucesión de valores x
1
< x
2
< ∫< x
m
, siendo m el número de valores distintos
que toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada
del valor x
h
, y se representa por F
k
, a F
k
= f
1
+f
2
+∫f
k
. De igual forma, se llama
frecuencia relativa acumulada del valor x
k
, y se representa por H
k
, a
H
k
= h
1
+h
2
+∫+h
k
=
F
k
n
. La tabla o distribución de frecuencias de una variable
estadística discreta está formada por cinco columnas: valores, frecuencias absolu-
tas, frecuencias relativas (o porcentajes), frecuencias absolutas acumuladas y fre-
cuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un número muy
grande de posibles valores) es muy conveniente agrupar los datos en clases. Una
clase es un intervalo [a, b), de forma que un valor x
k
pertenece a dicha clase si
a § x
k
< b (obsérvese que toda clase es un intervalo cerrado por la izquierda y
abierto por la derecha). Los extremos ¦a, b¦ del intervalo se denominan límites de
clase, y el punto medio |
a+b
2
] se denomina marca de clase.
2 Tema 6 Estadistica.nb
Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir
de la misma amplitud y de forma que el límite superior de una clase coincida con el
límite inferior de la siguiente. Ahora bien, ¿cuál es el número idóneo de clases que
debemos escoger a la hora de agrupar? No existe una respuesta tajante a esta pre-
gunta; uno de los criterios más sencillos establece que el número de clases debe ser
aproximadamente igual a la raíz cuadrada positiva del número de datos.
Veamos ahora cómo podemos definir los valores x
k
de una variable estadística X
con Mathematica, calcular sus frecuencias absolutas f
k
y representar gráficamente
éstas. Estudiaremos por separado los casos de variable discreta y de variable
continua.
ü Variable estadística discreta
Consideremos primero una variable discreta; por ejemplo, supongamos que las
notas de matemáticas de 30 alumnos sean las siguientes :
5 3 4 1 2 8 9 8 7 6
6 7 9 8 7 7 1 0 1 5
9 9 8 0 8 8 8 9 5 7
Los valores de esta variable discreta se definen en Mathematica como una lista, es
decir, separados por comas y encerrados entre sendas llaves:
not as  5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8,
7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Obsérvese que en este ejemplo hemos introducido los datos por filas, pero
podríamos haberlos introducido también por columnas. A la hora de definir la vari-
able el orden en que introduzcamos sus valores es indiferente. Sin embargo, una
vez definida conviene reordenar los datos de menor a mayor; para ello, usamos el
comando Sort[var], guardando el resultado en una nueva variable:
not asor d  Sor t not as
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
O bien podemos definir la variable ya ordenada:
Tema 6 Estadistica.nb 3
not as  Sor t 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7,
7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
Para obtener la distribución de frecuencias absolutas de una variable var podemos
usar el comando Tally[var]. Téngase presente que antes de aplicar este comando
es recomendable que la variable esté ordenada. Este comando devuelve una matriz
con dos columnas; la primera contiene los valores que toma la variable y la segunda
sus respectivas frecuencias absolutas; para visualizar el resultado como una matriz
hemos de emplear el comando MatrixForm[mat]:
not as2  Tal l ynot as
Mat r i xFor mnot as2
0, 2, 1, 3, 2, 1, 3, 1, 4, 1,
5, 3, 6, 2, 7, 5, 8, 7, 9, 5
0 2
1 3
2 1
3 1
4 1
5 3
6 2
7 5
8 7
9 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y así sucesivamente. Pode-
mos definir por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente:
not asVal or es  not as2Al l , 1
not asFr ecuenci as  not as2Al l , 2
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
2, 3, 1, 1, 1, 3, 2, 5, 7, 5
4 Tema 6 Estadistica.nb
La distribución de frecuencias acumuladas se puede obtener aplicando el comando
Accumulate[lista] :
not asFr ecAcum Accumul at enot asFr ecuenci as
2, 5, 6, 7, 8, 11, 13, 18, 25, 30
Y la distribución de frecuencias relativas se obtiene dividiendo (cuando se aplica una
operación aritmética a una lista, se realiza dicha operación a cada elemento de ella)
las frecuencias absolutas por el número total de elementos de la muestra, el cual se
puede obtener con el comando Length[lista]:
n  Lengt hnot as
not asFr ecRel  not asFr ecuenci as n
Nnot asFr ecRel 
30

1
15
,
1
10
,
1
30
,
1
30
,
1
30
,
1
10
,
1
15
,
1
6
,
7
30
,
1
6

0. 0666667, 0. 1, 0. 0333333, 0. 0333333, 0. 0333333,
0. 1, 0. 0666667, 0. 166667, 0. 233333, 0. 166667
Aun cuando la distribución de frecuencias de una variable estadística discreta con-
tiene toda la información, a veces es más conveniente expresarla mediante un grá-
fico, con el fin de hacerla más clara y evidente. Para comparar datos cuantitativos de
tipo discreto son muy útiles los denominados diagramas de barras. Para trazarlos
se representan sobre el eje de abscisas los valores de la variable discreta y sobre el
eje de ordenadas las frecuencias absolutas. A continuación, por los puntos marca-
dos en el eje de abscisas se levantan trazos gruesos o barras de longitud igual a la
frecuencia correspondiente. Para visualizar un diagrama de barras con Mathematica
podemos usar el comando BarChart[frec], siendo frec la lista que contiene las fre-
cuencias absolutas de la variable dada:
Tema 6 Estadistica.nb 5
Bar Char t not asFr ecuenci as
Si queremos colocar en el eje de abscisas los valores de la variable correspondi-
entes a cada barra debemos usar la opción ChartLabels->var:
Bar Char t not asFr ecuenci as, Char t Label s  not asVal or es
Obsérvese que al pasar el cursor por encima de una barra se muestra el valor corre-
spondiente de la frecuencia absoluta que representa dicha barra. Para conocer más
opciones gráficas de este comando podemos acudir a la ayuda de Mathematica.
Hay ocasiones en las que los datos de que disponemos son las frecuencias absolu-
tas de los valores que toma una variable discreta; en estos casos, podemos definir
directamente las dos listas, correspondientes a sus valores y a sus frecuencias abso-
lutas asociadas. Por ejemplo, supongamos que en un muestreo realizado por una
empresa con el fin de estudiar el número de hijos por familia española se han encon-
trado los siguientes resultados:
6 Tema 6 Estadistica.nb
Númer o de hi j os 0 1 2 3 4 5
Númer o de f ami l i as 10 16 20 18 12 12
Entonces, la variable queda definida mediante las siguientes dos listas (es necesario
escribir ambas en el mismo orden, de manera que podamos asociar cada valor con
su frecuencia absoluta):
nhi j os  0, 1, 2, 3, 4, 5
nf ami l i as  10, 16, 20, 18, 12, 12
0, 1, 2, 3, 4, 5
10, 16, 20, 18, 12, 12
En este caso, para saber el número total de individuos de la muestra hemos de
sumar todas las frecuencias absolutas, lo cual podemos hacer mediante el comando
Total[lista]:
nf amt ot al  Tot al nf ami l i as
88
A partir de aquí las distribuciones de frecuencias acumuladas y relativas se calculan
igual que antes. Sin embargo, para poder calcular parámetros estadísticos, Mathe-
matica requiere como argumento una lista que contenga todos las observaciones de
la variable, es decir, una lista en la que cada valor distinto esté repetido tantas veces
como indique su frecuencia absoluta (véase la ayuda del programa sobre Decriptive
Statistics). Para obtener dicha lista, podemos proceder como sigue.
Primero definimos una lista con 10 elementos iguales a cero, para lo cual podemos
aplicar el comando Table[expr,{i,imin,imax}], el cual genera una lista cuyos elemen-
tos se obtienen al sustituir en expr el valor de la variable i desde imin hasta imax:
l i st 0  Tabl e0, i , 1, 10
0, 0, 0, 0, 0, 0, 0, 0, 0, 0
Repetimos este proceso con los restantes valores que toma la variable estadística:
Tema 6 Estadistica.nb 7
l i st 1  Tabl e1, i , 1, 16
l i st 2  Tabl e2, i , 1, 20
l i st 3  Tabl e3, i , 1, 18
l i st 4  Tabl e4, i , 1, 12
l i st 5  Tabl e5, i , 1, 12
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2
3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3
4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
Finalmente, combinamos todas estas listas definidas en una única lista aplicando el
comando Join[lista1,lista2,...]:
hi j os  J oi nl i st 0, l i st 1, l i st 2, l i st 3, l i st 4, l i st 5
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3,
3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4,
4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
ü Variable estadística continua
Consideremos ahora una variable continua. Por ejemplo, supongamos que las
edades de las personas que acuden a un logopeda son las que se reflejan en la
siguiente tabla:
3 2 11 13 4 3 2 4 5 6 7 3
4 5 3 2 5 6 27 15 4 21 12 4
3 6 29 13 6 17 6 13 6 5 12 26
Consideremos la variable edad una variable continua, dada la gran diversidad de
valores que puede tomar. En Mathematica, los valores que toma una variable con-
tinua se pueden definir como si fuese una variable discreta; es decir:
8 Tema 6 Estadistica.nb
edad  Sor t 3, 2, 11, 13, 4, 3, 2, 4, 5,
6, 7, 3, 4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12,
4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26
2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6,
6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29
El número de datos de los que disponemos nos lo da, como vimos antes, el
comando Length[var]:
edadNum Lengt hedad
36
Como hay 36 datos en total, debemos de tomar 36 = 6 clases. Como la variable
está ordenada, vemos que la edad mínima es de 2 años y la edad máxima es de 29
años. Si el intervalo de edades lo extendemos desde 0 años hasta 30 años, al dividir
por 6 se tiene que la amplitud de cada clase debe ser de 5 años. Es decir, que las
seis clases serán [0, 5), [5, 10), [10, 15), [15, 20), [20, 25) y [25, 30). Con el
comando BinCounts(lista,{{clases}}) podemos agrupar los datos de que
disponemos en las clases que queramos:
edadFr ec  Bi nCount sedad, 0, 5, 10, 15, 20, 25, 30
13, 11, 6, 2, 1, 3
Es decir, que hay 13 pacientes con edades comprendidas entre 0 y 5 años, 11
pacientes con edades comprendidas entre 5 y 10 años, 6 pacientes con edades
entre 10 y 15 años, 2 pacientes con edades entre 15 y 20 años, un único paciente
con edad entre 20 y 25 años y 3 pacientes con edades comprendidas entre 25 y 30
años. Hemos de definir también la lista que contiene las marcas de las clases
empleadas:
edadVal  2. 5, 7. 5, 12. 5, 17. 5, 22. 5, 27. 5
2. 5, 7. 5, 12. 5, 17. 5, 22. 5, 27. 5
Una vez que ya hemos pasado de una variable estadística continua a otra variable
discreta, las frecuencias acumuladas y relativas se calculan igual que en el caso de
variables estadísticas discretas.
Si los datos de que disponemos son las frecuencias absolutas de los valores que
toma una variable continua, podemos definir directamente las dos listas, correspondi-
Tema 6 Estadistica.nb 9
entes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo, supong-
amos que la siguiente tabla refleja el número de alumnos que han tardado un determi-
nado tiempo en resolver un problema de matemáticas que se les ha propuesto:
Númer o de al umnos 3 6 10 12 9
empo t ar dado en mi n.  10, 12 12, 14 14, 16 16, 18 18, 20
Definimos entonces las dos listas asociadas, una con las marcas de las clases y la
otra con las respectivas frecuencias absolutas:
al umnCl ases  11, 13, 15, 17, 19
al umnFr ecabs  3, 6, 10, 12, 9
11, 13, 15, 17, 19
3, 6, 10, 12, 9
También tendremos que definir una lista que contenga todas las observaciones, en
este caso usando las marcas de las clases como valores de la variable (hay, por
tanto, cierta pérdida de información). Para ello, procederemos como ya hicimos con
las variables discretas:
l i st a1  Tabl e11, i , 1, 3;
l i st a2  Tabl e13, i , 1, 5;
l i st a3  Tabl e15, i , 1, 10;
l i st a4  Tabl e17, i , 1, 12;
l i st a5  Tabl e19, i , 1, 9;
al umnos  J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
11, 11, 11, 13, 13, 13, 13, 13, 15, 15, 15, 15, 15,
15, 15, 15, 15, 15, 17, 17, 17, 17, 17, 17, 17, 17,
17, 17, 17, 17, 19, 19, 19, 19, 19, 19, 19, 19, 19
Como ocurría con las variables estadísticas discretas, una representación gráfica de
la distribución de frecuencias puede en muchos casos hacerla más clara y eficiente.
Para variables estadísticas continuas, o bien para variables estadísticas discretas
con un gran número de datos, que se han agrupado en clases se suelen emplear los
denominados histogramas. Para construir un histograma se representan sobre el
eje de abscisas los límites de las clases. Sobre dicho eje se construyen rectángulos
que tienen por base la amplitud de cada clase y cuya altura es igual a la frecuencia
absoluta correspondiente (con mayor exactitud, dicha altura debería ser tal que el
área de cada rectángulo fuese igual a la frecuencia de la correspondiente clase,
10 Tema 6 Estadistica.nb
pero en Mathematica la altura de cada rectángulo conicide con la frecuencia
absoluta).
En Mathematica, el comando Histogram(datos,{{clases}}) representa gráficamente
el histograma de la variable estadística datos (antes de haberla agrupado en
clases), agrupándola en las clases indicadas en el segundo argumento. Por ejemplo,
recordando la variable edad (que representaba las edades de los pacientes de un
logopeda), su histograma se representa mediante el siguiente comando:
Hi st ogr amedad, 0, 5, 10, 15, 20, 25, 30
ü Ejercicios propuestos
En el curso 1996/1997 se diplomaron 328 alumnos en esta Escuela. La siguiente
tabla muestra el número total de cursos académicos transcurridos desde su
ingreso en ella. Hallar la distribución de frecuencias, dibujar el diagrama de barras
correspondiente y definir la lista con todas las observa-
ciones.-
Númer o de años 3 4 5 6 7 8 9 10 11 12 13 16 18 21
Númer o de al umnos 18 67 88 63 43 30 6 3 3 2 1 2 1 1
En el examen primer parcial de Fundamentos Matemáticos del curso 2000/2001
se presentaron 468 alumnos. La siguiente tabla muestra el número de alumnos
que obtuvieron la nota que se indica. Hallar la distribución de frecuencias, definir
la lista con todas las observaciones y dibujar su his-
tograma.-
Tema 6 Estadistica.nb 11
Not a 0  1 1  2 2  3 3  4 4  5 5  6 6  7 7  8 8  9 9  10
Nº al umnos 24 23 37 61 55 117 77 53 25 6
Medidas de centralización
Cuando disponemos de un conjunto de datos de una variable estadística cuantitativa
resulta conveniente completar la distribución de frecuencias con ciertas medidas
resumen. Las más importantes son las de tendencia central o centralización, que
indican el valor medio de los datos, y las de dispersión, que miden su variabilidad.
Empecemos estudiando las medidas de centralización.
En este apartado, y en los siguientes, emplearemos la variable edad de los
pacientes de un logopeda, que definimos antes como la variable edad. Compara-
remos los parámetros extadísticos que obtengamos con los correspondientes a la
agrupación en clases que realizamos antes. Usando dicha agrupación en clases, la
nueva variable (que denominaremos edadagru) que recoge todas las observaciones
es la siguiente
l i st a1  Tabl e2. 5, i , 1, 13;
l i st a2  Tabl e7. 5, i , 1, 11;
l i st a3  Tabl e12. 5, i , 1, 6;
l i st a4  Tabl e17. 5, i , 1, 2;
l i st a5  Tabl e22. 5, i , 1, 1;
l i st a6  Tabl e27. 5, i , 1, 3;
edadagr u 
J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5, l i st a6
2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5, 2. 5,
2. 5, 2. 5, 2. 5, 2. 5, 7. 5, 7. 5, 7. 5, 7. 5, 7. 5, 7. 5,
7. 5, 7. 5, 7. 5, 7. 5, 7. 5, 12. 5, 12. 5, 12. 5, 12. 5,
12. 5, 12. 5, 17. 5, 17. 5, 22. 5, 27. 5, 27. 5, 27. 5
ü Media
Consideremos una variable estadística X que toma los valores x
1
, x
2
, …, x
n
. Dada
una distribución de N observaciones de dicha variable estadística en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, …, f
n
, respectivamente,
12 Tema 6 Estadistica.nb
se define la media de la distribución como:
m =
1
N
ÿ _
k=1
n
x
k
ÿ f
k
Si la variable estadística X es continua y sus datos se encuentran agrupados en
clases, se toman como valores x
1
, x
2
, …, x
n
las marcas de cada clase.
La media es la medida de centralización más utilizada por su fácil cálculo y por tener
en cuenta todos los datos. Sin embargo, hay casos en los que se deben utilizar otras
medidas de centralización. Por ejemplo, si la variable toma algunos valores
extremos poco significativos, éstos pueden distorsionar la media. Por otra parte, si
los datos están agrupados en clases y alguna de ellas es abierta, no es posible calcu-
lar la media.
En Mathematica, la media de una variable estadística var se calcula con el comando
Mean[var]. Como ejemplo, calculamos la edad media de los pacientes de nuestro
logopeda:
edadMedi a  Meanedad
NedadMedi a
313
36
8. 69444
Podemos comprobar que si agrupamos esta variable continua en clases se pierde
información (se sustituye cada valor real de la variable por la marca de la clase a la
que pertenece) y resultan parámetros estadísticos diferentes:
edadagr uMedi a  Meanedadagr u
9. 16667
ü Mediana
Dada una variable estadística X, ordenemos en orden creciente de magnitud todos
los valores que toma sin agruparlos. Si el número de datos es impar, la mediana de
la distribución es el valor central, es decir, el valor tal que hay tantos valores por
debajo de él que por encima. Si el número de datos es par, la mediana es el valor
medio de los dos valores centrales. La mediana de una variable estadística presenta
las siguientes características:
Tema 6 Estadistica.nb 13
1. Es útil cuando entre los datos existe uno ostensiblemente extremo que
distorsiona la media o cuando no es posible calcular ésta.
2. Depende del orden de los datos y no de su valor.
3. Gráficamente, la mediana es la abscisa tal que la vertical levantada sobre ella
divide al histograma en dos partes de igual área.
4. No utiliza todos los datos de que se dispone.
En Mathematica, la mediana de una variable estadística var se calcula con el
comando Median[var]. Como ejemplo, calculamos la mediana de la edad de los
pacientes de nuestro logopeda:
edadMedi ana  Medi anedad
6
Hallamos también la mediana de la variable agrupada en clases, la cual siempre
proporciona como resultado la marca de una de las clases (es decir, la denominada
clase mediana):
edadagr uMedi ana  Medi anedadagr u
7. 5
ü Moda
Dada una variable estadística X, se llama moda de la distribución al valor de dicha
variable que presenta mayor frecuencia absoluta. Si la variable estadística está agru-
pada en clases, se llama clase modal a la clase de mayor frecuencia absoluta. La
moda no tiene por qué ser única, puesto que puede haber varios valores de la vari-
able que alcancen la misma frecuencia absoluta máxima. Se dice en este caso que
la distribución es bimodal, trimodal, etc. La moda de una variable estadística pre-
senta las siguientes características:
1. Representa el valor dominante, y no existe si la frecuencia es constante.
2. No intervienen todos los datos de que se dispone.
3. Gráficamente, la moda es la abscisa del punto de intersección de las rectas
que unen los límites de la clase modal con los límites de las dos clases
contiguas.
En Mathematica, la moda de una variable estadística var se calcula con el comando
Commonest[var]. Como ejemplo, calculamos la moda de la edad de los pacientes
de nuestro logopeda:
14 Tema 6 Estadistica.nb
edadModa  Commonest edad
6
Obsérvese que este comando devuelve una lista con todas las modas que tenga la
variable. En este ejemplo, como la distribución es unimodal, devuelve una lista con
un único elemento. Hallamos también la moda de la variable agrupada en clases; en
este caso, como el resultado es siempre una marca de clase, lo que se obtiene es la
denominada clase modal, en este caso el intervalo [0,5):
edadagr uModa  Commonest edadagr u
2. 5
ü Percentiles
Al igual que la mediana de una variable estadística dividía el conjunto de valores de
ésta (sin agrupar) en dos partes con el mismo número de datos, se llaman per-
centiles a 99 valores de la variable estadística que dividen la serie de datos (sin
agrupar) en 100 partes iguales. Es decir, el percentil 15 (que se representa como
P
15
) es el valor que debe tomar la variable estadística dada para que como máximo
el 15% de los datos queden por debajo de él y como máximo el restante 85% de los
datos queden por encima de él. En realidad no se trata de una medida de central-
ización, sino que constituye lo que se denomina una medida de posición. Son
casos particulares los percentiles 25, 50 y 75, que se denominan cuartiles y se
denotan por Q
1
, Q
2
y Q
3
, respectivamente.
En Mathematica, el precentil 100ÿ r de una variable estadística var se calcula con el
comando Quantile[var,r] (es decir, si queremos calcular el percentil 65, el segundo
argumento deberá ser 0.65). Como ejemplo, calculamos el percentil 85 de la edad
de los pacientes de nuestro logopeda:
edadPer cent i l 85  Quant i l eedad, 0. 85
15
Hallamos ahora el mismo percentil para la variable agrupada en clases:
edadagr uPer c85  Quant i l eedadagr u, 0. 85
17. 5
Tema 6 Estadistica.nb 15
Al igual que en los comandos anteriores, Mathematica sólo proporciona la marca de
la clase ([15,20) en este ejemplo) a la que pertenece el percentil buscado.
ü Ejercicio propuesto
Se consideran las dos variables estadísticas definidas en los dos primeros ejerci-
cios de este tema (duración de los estudios y notas de matemáticas). Hallar las
respectivas medidas de centralización y el percentil 20 de cada distribución.
Medidas de dispersión
La investigación acerca de una variable estadística queda incompleta si sólo se
estudian las medidas de centralización, siendo imprescindible conocer si los datos
numéricos están concentrados o no alrededor de los valores centrales. A esto es a
lo que se le llama dispersión, y a los parámetros que miden estas desviaciones
respecto de la media se les llama medidas o parámetros de dispersión
ü Recorrido
Se llama recorrido o rango de una distribución a la diferencia entre el mayor y el
menor valor de la variable estadística. Conforme menor es el rango mayor es la
representatividad de los valores centrales, en cuyo caso diremos que la distribución
es menos dispersa. Su cálculo es muy elemental, pero al depender sólo de los val-
ores extremos basta que uno de ellos se separe mucho para que el recorrido se vea
muy afectado. Para evitar esto se utilizan también el rango intercuartílico Q
3
-Q
1
y
el rango entre percentiles P
90
-P
10
.
En Mathematica, como los datos de la variable están ordenados de menor a mayor,
la simple diferencia entre el primer valor y el último proporciona el rango de la
variable:
16 Tema 6 Estadistica.nb
edad
edadRango  29  2
 O bi en, si n necesi dad de
vi sual i zar l os dat os de l a var i abl e 
edadRango  edadLengt hedad  edad1
2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6,
6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29
27
27
Por otra parte, el rango intercuartílico o el rango entre percentiles lo obtenemos a
partir del cálculo de éstos:
edadRangoCuar t i l es 
Quant i l eedad, 0. 75  Quant i l eedad, 0. 25
edadRangoPer cent i l es 
Quant i l eedad, 0. 9  Quant i l eedad, 0. 1
8
18
ü Desviación media
Se llama desviación media o desviación respecto de la media de una distribución a
la media aritmética de los valores absolutos de las desviaciones observadas
respecto de un determinado valor medio m. Es decir, dada una distribución de N
observaciones de una variable estadística en la que se alcanzan los valores
x
1
, x
2
, …, x
n
con frecuencias absolutas f
1
, f
2
, …, f
n
, respectivamente, su
desviación media viene dada por:
DM =
1
N
ÿ _
k=1
n
f
k
ÿ ¦x
k
- m¦
En Mathematica, la desviación media de una variable estadística var se calcula con
el comando MeanDeviation[var]. Como ejemplo, calculamos la desviación media
de la edad de los pacientes de nuestro logopeda:
Tema 6 Estadistica.nb 17
edadDM MeanDevi at i onedad
NedadDM
157
27
5. 81481
Hallamos también la desviación media de la variable agrupada:
edadagr uDM MeanDevi at i onedadagr u
5. 83333
ü Desviación típica
Consideremos una variable estadística X que toma los valores x
1
, x
2
, …, x
n
. Dada
una distribución de N observaciones de dicha variable estadística en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, …, f
n
, respectivamente,
se define la desviación típica de la distribución como:
s =
1
N - 1
ÿ _
k=1
n
f
k
ÿ (x
k
- m)
2
siendo m la media de la distribución.
Se llama varianza de una variable estadística al cuadrado de su desviación típica, y
se representa por s
2
.
Tanto la varianza como la desviación típica dependen de todos los datos, así como
la media, y no se pueden calcular en los casos en que ésta no se pueda obtener. La
varianza tiene el inconveniente de que no viene expresada en las mismas unidades
que los datos (si, por ejemplo, éstos se miden en m, la varianza se mide en m
2
). En
cambio, la desviación típica viene expresada en las mismas unidades.
En Mathematica, la desviación típica de una variable estadística var se calcula con
el comando StandardDeviation[var], mientras que su varianza se calcula con el
comando Variance[var]. Como ejemplo, calculamos la desviación típica y la vari-
anza de las edades de los pacientes de nuestro logopeda:
18 Tema 6 Estadistica.nb
edadDT  St andar dDevi at i onedad
NedadDT
edadVar  Var i anceedad
NedadVar 
13663
7
6
7. 3633
13663
252
54. 2183
Podemos comprobar que la varianza es el cuadrado de la desviación típica:
edadVar  edadDT^2
0
Hallamos también la desviación típica y la varianza de la variable agrupada:
edadagr uDT  St andar dDevi at i onedadagr u
edadagr uVar  Var i anceedadagr u
7. 55929
57. 1429
La información conjunta que proporciona la media y la desviación típica puede precis-
arse de la siguiente forma: entre la media y k veces la desviación típica existe, como
mínimo, el 100ÿ |1-
1
k
2
]% de las observaciones. Es decir, entre la media y 2 desvia-
ciones típicas está al menos el 100ÿ |1-
1
4
] = 75% de las observaciones, y entre la
media y 3 desviaciones típicas se encuentra al menos el 100ÿ |1-
1
9
] = 89% de las
observaciones. En nuestro ejemplo:
Tema 6 Estadistica.nb 19
val 1  edadMedi a  2 edadDT
Nval 1
val 2  edadMedi a  2 edadDT
Nval 2
313
36

13663
7
3
23. 4211
313
36

13663
7
3
6. 03216
Por lo tanto, al menos el 75% de los datos se encuentran en el intervalo
[-6.03, 23.42].
ü Coeficiente de variación
Se define el coeficiente de variación (CV) de una distribución de valores de una
variable estadística como el cociente entre su desviación típica s y el valor absoluto
de su media m, es decir, CV =
s
¦m¦
. En ocasiones se multiplica este coeficiente por
100 para proporcionar valores percentuales. El coeficiente de variación de una
población homogénea es típicamente menor que la unidad. Si este coeficiente es
mayor que 1.5 conviene estudiar posibles fuentes de heterogeneidad en los datos
(utilización de distintos instrumentos de medida, distintos momentos temporales,
etc.).
Algunas veces resulta deseable comparar diversos grupos en relación a su relativa
homogeneidad cuando los grupos tienen medias diferentes, pero puede motivar
cierta confusión la comparación de las magnitudes absolutas de las deviaciones
típicas. En esos casos resulta aconsejable utilizar como elemento de comparación la
desviación típica en relación a la media, es decir, el coeficiente de variación.
Por ejemplo, calculemos el coeficiente de variación de nuestra población de
pacientes del logopeda:
20 Tema 6 Estadistica.nb
edadCV  edadDTedadMedi a
NedadCV
6
13663
7
313
0. 846898
por lo que se trata de una variable estadística homogénea. Hallamos también el
coeficiente de variación de la edad agrupada:
edadagr uCV  edadagr uDTedadagr uMedi a
0. 82465
ü Ejercicio propuesto
Se consideran las dos variables estadísticas definidas en los dos primeros ejerci-
cios de este tema (duración de los estudios y notas de matemáticas). Hallar en
ambos casos las medidas de dispersión. ¿Cuál de las dos distribuciones es más
homogénea?
Medidas de forma
La forma de la representación gráfica de una distribución de frecuencias proporciona
en muchas ocasiones información útil sobre la variable estadística analizada. Las
dos características de forma más importante son la de asimetría o sesgo, que
establece si la distribución es simétrica respecto de la media o no, y la de apun-
tamiento o curtosis, que señala si la distribución es más puntiaguda o más plana
que la distribución normal, también conocida como campana de Gauss.
ü Asimetría o sesgo
Consideremos una variable estadística X que toma los valores x
1
, x
2
, …, x
n
. Dada
una distribución de N observaciones de dicha variable estadística en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, …, f
n
, respectivamente,
se define el coeficiente de asimetría o coeficiente de sesgo como:
Tema 6 Estadistica.nb 21
g
3
=
1
s
3
ÿ
1
N
ÿ _
k=1
n
f
k
ÿ (x
k
- m)
3
siendo s la desviación típica de la variable y m su media.
Si g
3
= 0, la distribución es simétrica respecto de la mediana; entonces, si la distribu-
ción es unimodal, las tres medidas de centralización, meda, mediana y moda,
coinciden.
Si g
3
> 0, la distribución presenta asimetría positiva; entonces, dicha distribución
está sesgada a la derecha, viéndose en su representación gráfica una cola para
valores mayores de la mediana.
Si g
3
< 0, la distribución presenta asimetría negativa; entonces, dicha distribución
está sesgada a la izquierda, viéndose en su representación gráfica una cola para
valores menores de la mediana.
En Mathematica, el coeficiente de asimetría de una variable estadística var se cal-
cula con el comando Skewness[var]. Por ejemplo, el coeficiente de asimetría de las
edades de nuestros pacientes se calculará como:
edadSesgo  Skewnessedad
NedadSesgo
25966046
68315 68315
1. 45423
luego presenta una notable asimetría positiva, como se aprecia en el histograma
dibujado más arriba (recuérdese que la mediana de la distribución es 7.5). Hallamos
también el coeficiente de sesgo de la variable agrupada:
edadagr uSesgo  Skewnessedadagr u
1. 22984
ü Apuntamiento o curtosis
Consideremos una variable estadística X que toma los valores x
1
, x
2
, …, x
n
. Dada
una distribución de N observaciones de dicha variable estadística en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, …, f
n
, respectivamente,
22 Tema 6 Estadistica.nb
se define el coeficiente de apuntamiento o coeficiente de curtosis como:
g
4
=
1
s
4
ÿ
1
N
ÿ _
k=1
n
f
k
ÿ (x
k
- m)
4
- 3
siendo s la desviación típica de la variable y m su media.
Este coeficiente indica el grado de elevación del diagrama de barras de las frecuen-
cias relativas de la distribución. Este grado de elevación se traduce en el reparto de
la frecuencia entre el centro y los extremos de la gráfica. Como medida de referen-
cia de dicho grado de elevación se toma la curva normal o campana de Gauss, la
cual se muestra en la siguiente figura:
Si g
4
= 0, la distribución presenta el mismo grado de elevación que la curva normal
con la misma varianza y se denomina distribución mesocúrtica.
Si g
4
> 0, la distribución es más apuntada que la curva normal con la misma vari-
anza y se denomina distribución leptocúrtica.
Si g
4
< 0, la distribución es menos apuntada que la curva normal con la misma vari-
anza y se denomina distribución platicúrtica.
En Mathematica, el coeficiente de curtosis de una variable estadística var se calcula
con el comando Kurtosis[var]. Hay que tener presente que este comando devuelve
el valor 3 para una distribución mesocúrtica, por lo que al resultado que proporcione
hay que restarle 3 para obtener el valor correcto. Por ejemplo, el coeficiente de curto-
sis de las edades de nuestros pacientes se calculará como:
Tema 6 Estadistica.nb 23
edadCur t osi s  Kur t osi sedad  3
NedadCur t osi s
5470108698
4666939225
1. 1721
por lo que la distribución es más puntiaguda que la curva normal (con la misma vari-
anza). Hallamos también el coeficiente de curtosis de la variable agrupada:
edadagr uCur t osi s  Kur t osi sedadagr u  3
0. 66
la cual es ahora más plana que la curva normal (con la misma varianza).
ü Ejercicio propuesto
Se consideran las dos variables estadísticas definidas en los dos primeros ejerci-
cios de este tema (duración de los estudios y notas de matemáticas). Hallar en
ambos casos las medidas de forma e interpretarlas.
Problemas resueltos
Mostramos en este apartado una colección de problemas del tema de Estadística
descriptiva resueltos con la ayuda de Mathematica. Todos los problemas están
explicados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cómo
utilizar el programa Mathematica para resolver los problemas de la asignatura.
ü Problema 1
La siguiente tabla muestra los pesos de los alumnos de una clase. Definir la corre-
spondiente distribución de frecuencias, dibujar su diagrama de barras y hallar
todas las medidas de centralización, dispersión y forma estudiadas.
24 Tema 6 Estadistica.nb
74 75 74 77 76 74 75 77 76
76 75 75 74 76 77 77 74 76
76 77 77 74 75 75 75 75 76
76 77 77 74 74 74 76 77 78
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `" 
Definimos primero los valores que toma la variable estadística, como una lista de
números separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
pesos  Sor t 74, 75, 74, 77, 76, 74, 75, 77, 76, 76,
75, 75, 74, 76, 77, 77, 74, 76, 76, 77, 77, 74, 75,
75, 75, 75, 76, 76, 77, 77, 74, 74, 74, 76, 77, 78
74, 74, 74, 74, 74, 74, 74, 74, 74, 75, 75, 75,
75, 75, 75, 75, 75, 76, 76, 76, 76, 76, 76, 76,
76, 76, 77, 77, 77, 77, 77, 77, 77, 77, 77, 78
Para dibujar su diagrama de barras hemos de calcular antes la distribución de fre-
cuencias absolutas, que mostramos en forma matricial:
pesos2  Tal l ypesos
Mat r i xFor mpesos2
74, 9, 75, 8, 76, 9, 77, 9, 78, 1
74 9
75 8
76 9
77 9
78 1
Es decir, hay 9 alumnos que pesan 74 Kg, 8 que pesan 75 Kg y así sucesivamente.
Definimos por separado los valores de la variable y sus frecuencias absolutas en
sendas variables, extrayendo la primera y segunda columna, respectivamente, de la
matriz anterior:
Tema 6 Estadistica.nb 25
pesosVal  pesos2Al l , 1
pesosFr ec  pesos2Al l , 2
74, 75, 76, 77, 78
9, 8, 9, 9, 1
Dibujamos ahora el diagrama de barras :
Bar Char t pesosFr ec, Char t Label s  pesosVal 
Calculamos ahora todas las medidas de centralización: media, mediana y moda,
usando la variable pesos definida al principio del problema.
pesosMedi a  Meanpesos
NpesosMedi a
pesosMedi ana  Medi anpesos
pesosModa  Commonest pesos
907
12
75. 5833
76
74, 76, 77
El hecho de que la media y la mediana sean ligeramente distintas quiere decir que la
distribución no es del todo simétrica. Por otra parte, el hecho de obtener tres modas
26 Tema 6 Estadistica.nb
(puesto que hay tres valores de la variable con la misma frecuencia máxima 9)
implica que se trata de una distribución trimodal de frecuencias.
Calculamos ahora las medidas de dispersión: rango, rango intercuartílico, desviación
media, desviación típica, varianza y coeficiente de variación.
pesosRango  78  74
pesosRangoCuar t i l es 
Quant i l epesos, 0. 75  Quant i l epesos, 0. 25
pesosDM MeanDevi at i onpesos
NpesosDM
pesosDT  St andar dDevi at i onpesos
NpesosDT
pesosVAR  Var i ancepesos
NpesosVAR
pesosCV  NpesosDTpesosMedi a
4
3
227
216
1. 05093
29
5
2
1. 20416
29
20
1. 45
0. 0159315
El valor obtenido para el coeficiente de variación, que es la medida de dispersión
que más información da, nos indica que se trata de una distribución bastante
Tema 6 Estadistica.nb 27
homogénea, luego la media calculada antes es muy representativa de la variable
estadística.
Calculamos finalmente las medidas de forma: sesgo y curtosis.
pesosSesgo  Skewnesspesos
NpesosSesgo
pesosCur t osi s  Kur t osi spesos  3
NpesosCur t osi s
146
203 203
0. 0504788

49830
41209
1. 2092
El valor obtenido para el coeficiente de sesgo o de asimetría, muy próximo a 0, nos
indica que la distribución de frecuencias es bastante simétrica, aunque algo sesgada
a la derecha, lo que está en consonancia con lo que concluimos a partir de las medi-
das de centralización. Por su parte, el valor obtenido para el coeficiente de curtosis
nos indica que se trata de una distribución de frecuencias platicúrtica, bastante más
plana que la distribución normal.
ü Problema 2
Con el fin de estimar la media y la desviación típica del tiempo empleado en
realizar cierto trabajo, se encomendó la ejecución del mismo a 50 obreros y se
midió el tiempo invertido por cada uno de ellos. Los datos obtenidos, expresados
en segundos, fueron los sigu-
ientes:
293 248 254 246 227 314 302 361 283
234 252 243 262 189 256 283 222 211
312 306 189 202 213 196 178 231 286
345 184 176 217 302 258 249 302 199
323 262 189 214 313 296 252 301 214
28 Tema 6 Estadistica.nb
a) Agrupar la muestra en intervalos de clase de amplitud 10 segundos, redonde-
ando si fuera necesario, y dibujar el histograma de frecuencias.
b) Obtener la mediana y los cuartiles de la distribución de frecuencias obtenida en
el apartado anterior.
c) Calcular la media, la desviación típica y la varianza de la muestra.
d) Calcular el percentil P
80
de la muestra y obtener el porcentaje de obreros que
se espera que tarden más de 301 segundos en realizar el trabajo.
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `" 
a) Definimos primero los valores que toma la variable estadística, como una lista de
números separados por comas y encerrados entre llaves, y los ordenamos de menor
a mayor:
t i empo 
Sor t 293, 248, 254, 246, 227, 314, 302, 361, 283, 295,
234, 252, 243, 262, 189, 256, 283, 222, 211, 237, 312,
306, 189, 202, 213, 196, 178, 231, 286, 238, 345,
184, 176, 217, 302, 258, 249, 302, 199, 187, 323,
262, 189, 214, 313, 296, 252, 301, 214, 226
176, 178, 184, 187, 189, 189, 189, 196, 199, 202,
211, 213, 214, 214, 217, 222, 226, 227, 231, 234,
237, 238, 243, 246, 248, 249, 252, 252, 254, 256,
258, 262, 262, 283, 283, 286, 293, 295, 296, 301,
302, 302, 302, 306, 312, 313, 314, 323, 345, 361
Vemos que el menor tiempo tardado por algún empleado es de 176 segundos y el
mayor es de 361 segundos. Para que las marcas de clase sean números redondos,
vamos a redondear estos valores extremos a 175 y a 365 segundos, respectiva-
mente. Entonces, las clases en las que vamos a agrupar serán [175,185), [185,195),
[195,205), [205,215), [215,225), [225,235), [235,245), [245,255), [255,265),
[265,275), [275,285), [285,295), [295,305), [305,315), [315,325), [325,335),
[335,345), [345,355) y [355,365); agrupamos la variable en estas clases y calcu-
lamos su distribución de frecuencias absolutas y acumuladas (éstas las necesitare-
mos más tarde en este mismo problema):
Tema 6 Estadistica.nb 29
t i empoagr uFr ec  Bi nCount st i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
t i empoagr uFr ecAcum Accumul at et i empoagr uFr ec
t i empoagr uVal  180, 190, 200, 210, 220, 230, 240, 250,
260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 360
3, 4, 3, 4, 2, 4, 3, 6, 4, 0, 2, 2, 6, 4, 1, 0, 0, 1, 1
3, 7, 10, 14, 16, 20, 23, 29, 33,
33, 35, 37, 43, 47, 48, 48, 48, 49, 50
180, 190, 200, 210, 220, 230, 240, 250, 260,
270, 280, 290, 300, 310, 320, 330, 340, 350, 360
También tendremos que definir una lista que contenga todas las observaciones, en
este caso usando las marcas de las clases como valores de la variable:
30 Tema 6 Estadistica.nb
l i st a1  Tabl e180, i , 1, 3;
l i st a2  Tabl e190, i , 1, 4;
l i st a3  Tabl e200, i , 1, 3;
l i st a4  Tabl e210, i , 1, 4;
l i st a5  Tabl e220, i , 1, 2;
l i st a6  Tabl e230, i , 1, 4;
l i st a7  Tabl e240, i , 1, 3;
l i st a8  Tabl e250, i , 1, 6;
l i st a9  Tabl e260, i , 1, 4;
l i st a10  Tabl e280, i , 1, 2;
l i st a11  Tabl e290, i , 1, 2;
l i st a12  Tabl e300, i , 1, 6;
l i st a13  Tabl e310, i , 1, 4;
l i st a14  Tabl e320, i , 1, 1;
l i st a15  Tabl e350, i , 1, 1;
l i st a16  Tabl e360, i , 1, 1;
t i empoagr u  J oi nl i st a1, l i st a2, l i st a3, l i st a4,
l i st a5, l i st a6, l i st a7, l i st a8, l i st a9, l i st a10,
l i st a11, l i st a12, l i st a13, l i st a14, l i st a15, l i st a16
180, 180, 180, 190, 190, 190, 190, 200, 200, 200,
210, 210, 210, 210, 220, 220, 230, 230, 230, 230,
240, 240, 240, 250, 250, 250, 250, 250, 250, 260,
260, 260, 260, 280, 280, 290, 290, 300, 300, 300,
300, 300, 300, 310, 310, 310, 310, 320, 350, 360
Dibujamos ahora su histograma, para lo cual podemos usar la variable sin agrupar:
Tema 6 Estadistica.nb 31
Hi st ogr amt i empo,
175, 185, 195, 205, 215, 225, 235, 245, 255, 265,
275, 285, 295, 305, 315, 325, 335, 345, 355, 365
o bien la variable agrupada:
Bar Char t t i empoagr uFr ec, Char t Label s  t i empoagr uVal 
b) Hallamos primero la mediana de la distribución; para que el resultado sea el más
preciso, habría que usar la variable inicial, sin agrupar en clases, pero según pone
en el enunciado hemos de usar la distribución de frecuencias obtenida en el
apartado anterior, tras agrupar en clases:
t i empoMedi ana  Medi ant i empoagr u
250
32 Tema 6 Estadistica.nb
Por lo tanto, la mediana de la distribución se encuentra en la clase [245,255).
Hallamos ahora los tres cuartiles, que coinciden con los percentiles P
25
, P
50
y P
75
:
t i empoQ1  Quant i l et i empoagr u, 0. 25
t i empoQ2  Quant i l et i empoagr u, 0. 5
t i empoQ3  Quant i l et i empoagr u, 0. 75
210
250
300
c) Calculamos los parámetros estadísticos que solicita el enunciado; como ahora no
dice qué distribución de frecuencias usar, emplearemos la distribución inicial, sin
agrupar en clases, pues los resultados obtenidos son más precisos:
t i empoMedi a  Meant i empo
Nt i empoMedi a
t i empoDT  St andar dDevi at i ont i empo
Nt i empoDT
t i empoVAR  Var i ancet i empo
Nt i empoVAR
6286
25
251. 44
2740858
35
47. 3015
2740858
1225
2237. 44
Tema 6 Estadistica.nb 33
d) Calculamos el percentil pedido en el enunciado, usando la variable sin agrupar:
t i empoP80  Quant i l et i empo, 0. 80
301
Este valor nos indica que el 80% de los operarios tardan como máximo 301 segun-
dos en terminar el trabajo. Por lo tanto, se espera que el 20% de ellos tarden más de
301 segundos.
ü Problema 3
El número de unidades de un determinado producto adquiridas anualmente por
110 consumidores entrevistados se distribuye de la siguiente forma:
Nº de uni dades 20  30 30  40 40  50 50  60 60  100
Nº de consumi dor es 25 20 35 15 15
a) Definir la distribución de frecuencias y dibujar su histograma.
b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y el
número de unidades vendidas más frecuente.
c) Si, una vez ordenados los grupos de consumidores por orden ascendente de
sus adquisiciones, se quieren clasificar en cuatro grupos de igual número de con-
sumidores cada uno, ¿cuál sería el número de unidades vendidas que delimitarían
el grupo de consumidores que más unidades han adquirido?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Cl ear " Gl obal `" 
a) Definimos primero la distribución de frecuencias usando la agrupación en clases
dada en el enunciado (obsérvese que no tenemos acceso a los datos originales de
cada consumidor). Para ello debemos definir primero los valores de la variable (las
marcas de las clases) y luego las respectivas frecuencias absolutas (en el mismo
orden):
34 Tema 6 Estadistica.nb
vent asVal  25, 35, 45, 55, 80
vent asFr ec  25, 20, 35, 15, 15
vent asFr ecAcum Accumul at event asFr ec
25, 35, 45, 55, 80
25, 20, 35, 15, 15
25, 45, 80, 95, 110
Definimos ahora una lista con todas las observaciones de la variable:
l i st a1  Tabl e25, i , 1, 25;
l i st a2  Tabl e35, i , 1, 20;
l i st a3  Tabl e45, i , 1, 35;
l i st a4  Tabl e55, i , 1, 15;
l i st a5  Tabl e80, i , 1, 15;
vent as  J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 35, 35, 35,
35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35, 35,
35, 35, 35, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 55, 55, 55, 55,
55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 55, 80, 80,
80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80
Dibujamos el histograma, usando la variable recién creada y las clases definidas en
el enunciado:
Tema 6 Estadistica.nb 35
Hi st ogr amvent as, 20, 30, 40, 50, 60, 100
b) Las unidades medias adquiridas nos las da la media de la distribución:
vent asMedi a  Meanvent as
Nvent asMedi a
985
22
44. 7727
La mediana de las observaciones nos la da la mediana de la distribución:
vent asMedi ana  Medi anvent as
45
lo que quiere decir que dicha mediana se encuentra en la clase [40,50).
Finalmente, el número de unidades vendidas más frecuentemente nos lo da la moda
de la distribución:
vent asModa  Commonest vent as
45
lo que indica que la clase modal es también [40,50).
c) Los cuatro grupos con igual número de consumidores cada uno de ellos nos los
proporcionan los tres cuartiles de la distribución. El grupo formado por los consumi-
36 Tema 6 Estadistica.nb
dores que más unidades ha adquirido está delimitado entre el tercer cuartil y el valor
máximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil
Q
3
, que coincide con el percentil P
75
:
val or Mi ni mo  Quant i l event as, 0. 75
55
ü Problema 4
Los importes de las facturas, en miles de €, de dos empresas que trabajan en el
mismo sector tienen las siguientes distribu-
ciones:
Empr esa A Empr esa B
I mpor t es Nº de f act ur as I mpor t es Nº de f act ur as
0  50 72 0  50 81
50  100 41 50  100 12
100  200 12 100  200 10
200  500 41 200  500 12
500  700 7 500  700 8
a) ¿En cuál de las dos empresas el importe medio de las facturas es más represen-
tativo?
b) En la Empresa A, ¿cuál es el importe mínimo de las facturas del conjunto for-
mado por el 30% de las facturas de importe más elevado?
c) Supuesta una ordenación de los datos de la Empresa A de menor a mayor
cuantía de las facturas, ¿entre qué dos valores oscila el 50% central de la distribu-
ción?
d) ¿En cuál de las dos empresas es la distribución más simétrica? ¿Y en cuál es
más parecida a la distribución normal?
a) Definimos en primer lugar tanto las marcas de las clases como las respectivas
distribuciones de frecuencias absolutas de las dos variables estadísticas definidas
en el enunciado:
Tema 6 Estadistica.nb 37
mar cas  25, 75, 150, 350, 600
empAFr ec  72, 41, 12, 41, 7
empBFr ec  81, 12, 10, 12, 8
25, 75, 150, 350, 600
72, 41, 12, 41, 7
81, 12, 10, 12, 8
Definimos ahora las listas que contienen todas las observaciones de las dos vari-
ables. Comenzamos con la empresa A:
l i st a1  Tabl e25, i , 1, 72;
l i st a2  Tabl e75, i , 1, 41;
l i st a3  Tabl e150, i , 1, 12;
l i st a4  Tabl e350, i , 1, 41;
l i st a5  Tabl e600, i , 1, 7;
empA  J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 75, 75, 75, 75, 75, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 350, 350, 600, 600, 600, 600, 600, 600, 600
Consideramos ahora la empresa B:
38 Tema 6 Estadistica.nb
l i st a1  Tabl e25, i , 1, 81;
l i st a2  Tabl e75, i , 1, 12;
l i st a3  Tabl e150, i , 1, 10;
l i st a4  Tabl e350, i , 1, 12;
l i st a5  Tabl e600, i , 1, 8;
empB  J oi nl i st a1, l i st a2, l i st a3, l i st a4, l i st a5
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
25, 25, 25, 75, 75, 75, 75, 75, 75, 75, 75, 75, 75,
75, 75, 150, 150, 150, 150, 150, 150, 150, 150, 150,
150, 350, 350, 350, 350, 350, 350, 350, 350, 350, 350,
350, 350, 600, 600, 600, 600, 600, 600, 600, 600
Para analizar la representatividad de la media de una distribución de frecuencias
debemos emplear el coeficiente de variación, el cual se define como el cociente
entre la desviación típica y el valor absoluto de la media; calculamos estos dos
parámetros estadísticos para cada una de las dos variables que hemos definido:
Tema 6 Estadistica.nb 39
empAMedi a  MeanempA
empADT  St andar dDevi at i onempA
empBMedi a  MeanempB
empBDT  St andar dDevi at i onempB
25225
173
25
305178
7439
4475
41
25
105873
2501
Calculamos finalmente el coeficiente de variación de las dos variables definidas:
empACV  empADTempAMedi a
NempACV
empBCV  empBDTempBMedi a
NempBCV
52795794
43
1009
1. 09818
4340793
61
179
1. 49028
La media más representativa es la que corresponde a la empresa A, puesto que en
ella el coeficiente de variación es más pequeño.
b) El conjunto formado por el 30% de las facturas de mayor importe es el que está
40 Tema 6 Estadistica.nb
comprendido entre el percentil P
70
y el mayor valor de la variable; el importe mínimo
de ese conjunto será, por tanto, dicho percentil P
70
:
val mi n  Quant i l eempA, 0. 7
150
luego dicho importe mínimo es de 150000 €.
c) El 50% central de los valores de la variable está comprendido entre los cuartiles
Q
1
y Q
3
, que equivalen a los percentiles P
25
y P
75
, respectivamente:
per c25  Quant i l eempA, 0. 25
per c75  Quant i l eempA, 0. 75
25
350
luego el 50% central de la distribución está comprendido entre 25000 € y 350000 €.
d) Para analizar la simetría de ambas distribuciones calculamos el coeficiente de
sesgo de cada una de ellas:
empASesgo  SkewnessempA
NempASesgo
empBSesgo  SkewnessempB
NempBSesgo
275637499
406904 305178
1. 22622
19109211
35291 70582
2. 03813
Aunque ambas distribuciones presentan una asimetría positiva, luego están ses-
gadas hacia la derecha, la distribución correspondiente a los datos de la empresa B
es la más asimétrica de las dos. Para analizar cuál de las dos distribuciones pre-
Tema 6 Estadistica.nb 41
senta una forma más similar a la de la distribución normal, calculamos el coeficiente
de curtosis de cada una de las dos distribuciones:
empACur  Kur t osi sempA  3
NempACur 
empBCur  Kur t osi sempB  3
NempBCur 
17770544507
41392716304
0. 429316
7491958607
2490909362
3. 00772
Aunque ambas distribuciones son leptocúrticas, es decir, son más puntiagudas que
la distribución normal, la que más se asemeja a ésta es la correspondiente a la
empresa A. Estos dos resultados también podemos observarlos en las correspondi-
entes representaciones gráficas, mediante sendos histogramas:
42 Tema 6 Estadistica.nb
Hi st ogr amempA, 0, 50, 100, 200, 500, 700
Hi st ogr amempB, 0, 50, 100, 200, 500, 700
Tema 6 Estadistica.nb 43

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->