Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estad Descr Univ
Estad Descr Univ
Estadstica descriptiva
univariante
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 11 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Introduccin terica
Como elementos introductorios de este captulo, es conveniente recordar defini-
ciones de elementos importantes, ya desarrolladas en diferentes materiales como
los libros referenciados 1, 2 y 3, tales como:
Una variable discreta est limitada para ciertos valores, generalmente nmeros ente-
ros. Se diferencian de las continuas en que, dadas dos observaciones suficientemente
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 13 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
prximas, no se puede encontrar ninguna observacin de la variable entre ellas.
Son ejemplos el nmero de hijos de las familias, el nmero de vehculos que tienen
las empresas, el nmero de turistas que visitan un pas, etc.
Tablas de frecuencia
Antes de construir las tablas de frecuencias, hay que realizar una serie de definiciones:
Se llama frecuencia absoluta del valor xi al nmero de veces que aparece repetida
la observacin en la recopilacin de datos. Se representa por ni .
Las frecuencias acumuladas tambin cumplen dos propiedades triviales como con-
secuencia de sus definiciones: suponiendo que se dispusiera de k datos diferentes,
se cumple que N k = n y Fk = 1.
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 14 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Estas definiciones permiten resumir los datos. Sin embargo, la manera ms
adecuada para sintetizar los datos es mediante lo que se denomina tabla de
frecuencias. En ella aparecen distribuidas los datos segn las frecuencias.
Al mismo tiempo refleja todos los conceptos mencionados con anterioridad.
Un intervalo se suele representar por [Li-1, Li) y se define como el conjunto for-
mado por todos los valores reales que son mayores o iguales que Li-1 (Extremo
inferior) y menores que Li (Extremo superior).
Se llama marca de clase a la media aritmtica de los dos extremos del intervalo. Es
evidentemente el valor central del intervalo ya que equidista de los extremos. Se
L +L
denota por ci . Se calcula ci = i1 i .
2
Se llama amplitud de un intervalo a la distancia que hay entre los extremos. Se
denota por ai y se calcula ai = Li Li-1.
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 15 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
En consecuencia, para averiguar la amplitud de la clase calculamos:
Amplitud =
Grficos estadsticos
Los grficos tambin son muy tiles para describir los conjuntos de datos (referen-
cias 15, 20 y 23). De hecho, un grfico estadstico permite formarse una primera
idea de la distribucin de los datos tan solo con una observacin. No obstante, hay
que tener cuidado pues en algunas ocasiones los grficos presentan tendencias
no atribuibles al quehacer matemtico.
Para calcular el ngulo asociado a cada frecuencia se aplica una simple propor-
n
cin: el ngulo asociado a una frecuencia absoluta ni es igual a f i 360 ( f i = i ).
Para la frecuencia absoluta acumulada se razona de la misma manera. n
Diagrama de barras: Se utiliza para representar los datos que no estn agrupados.
Consiste en colocar sobre un eje horizontal los distintos valores que toma la va-
riable estadstica, y sobre cada uno de ellos levantar un rectngulo de altura igual
a la frecuencia (del tipo que se est representando). Todos los rectngulos deben
tener la misma amplitud.
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 16 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Medidas de posicin
Son coeficientes que tratan de representar una determinada distribucin; pueden
ser de dos tipos, centrales y no centrales.
Medidas Centrales
Media aritmtica
Si se considera una variable estadstica X que tiene k valores diferentes, que se re-
presentan por xi y sus frecuencias para ni , entonces la media aritmtica se calcula:
n1 x1 + n2 x2 + ....... + nk xk
Media aritmtica:
n
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 17 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Media aritmtica ponderada
A veces, no todos los valores de la variable tienen el mismo peso. Es decir, cada
uno de los valores que toma la variable tiene asignado un nmero que indica su
importancia, el cual es independiente de la propia frecuencia absoluta.
x w n i i i
X wi = i=1
k
w n i i
i=1
Media geomtrica
Puede utilizarse para mostrar cambios porcentuales en una serie de nmeros posi-
tivos. Por lo tanto, tiene una amplia aplicacin en los negocios y en la economa.
La media geomtrica proporciona una medida precisa de un cambio porcentual
medio en una serie de nmeros. Se representa por G y su clculo efectuando la
notacin habitual sigue la siguiente expresin.
Media harmnica
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 18 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Mediana
Datos no agrupados
Datos agrupados
n
N i1
Me = Li1 + 2 ai donde,
ni
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 19 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Li-1 Lmite inferior
Ni-1 Es la frecuencia absoluta acumulada de la clase anterior a la clase mediana
ni Es la frecuencia de la clase mediana
ai Es la amplitud de la clase mediana
En esta frmula en primer lugar se considera el supuesto de que los datos es-
tn uniformemente distribuidos dentro de cada intervalo. Teniendo este hecho en
cuenta, se puede observar que la frmula es una relacin de proporcionalidad entre
las posiciones que ocupan los valores de la variable y la amplitud de los intervalos.
Moda
Es el valor de la variable que ms veces se repite, es decir, el valor que tiene mayor
frecuencia absoluta.
Datos no agrupados
Datos agrupados
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 20 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Donde:
Del mismo modo que la mediana, la frmula tiene el supuesto de que los datos
estn uniformemente repartidas dentro de cada intervalo. Adems, siguiendo este
criterio se puede observar que la moda estar ms cerca de aquel intervalo adya-
cente con mayor frecuencia absoluta.
Medidas no Centrales
Percentiles o cuantiles
Podemos decir que los cuantiles son unas medidas de posicin que dividen la dis-
tribucin en un cierto nmero de partes.
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 21 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Datos no agrupados
Primero se calcula la posicin que ocupa el cuantil que se est estimando. As, si
Qa representa el cuantil que deja por debajo de l un a (%) de los datos:
a
n N i Qa = xi
si N i1
100
a x +x
en el supuesto que n = N i Q = i i+1
100 2
Datos agrupados
a
n N i1
Me = Li1 + 100 ai donde,
ni
Medidas de dispersin
Son complementarias de las de posicin, en el sentido que sealan la dispersin
del conjunto de todos los datos de la distribucin, respecto de la medida o medidas
de localizacin adoptadas.
Recorrido
Se define como la diferencia entre el mayor y menor valor de las variables de una
distribucin de datos, es decir:
Re = max(xi ) min(xi )
Recorrido intercuartlico
Se define como la distancia que hay entre el tercer y el primer cuartil, es decir:
Re = C3 C1
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 22 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Desviacin media respecto de la mediana
x Me n i i
D Me = i=1
n
Varianza
Por otra parte, una de las principales dificultades que presenta la varianza es la
unidad, ya que viene dada en unidades al cuadrado (h2, m2, etc.). La manera de
solucionar esta circunstancia es estimando la raz cuadrada.
(x X) n i
2
i
s = s2 = i=1
n
Por otra parte, se pueden definir dos estadsticos de dispersin ms, llamados qua-
sivariancia y cuasidesviacin tpica como:
n 2 n
s n1
2
= s yi s n1 = s
n 1 n 1
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 23 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Estos estadsticos tienen mucho inters en la Estadstica Inferencial como se ver
en captulos posteriores.
Las medidas de dispersin absolutas son unos indicadores que presentan dificulta-
des a la hora de comparar la representatividad de las medidas de tendencia central
entre dos distrubucions de datos diferentes. Por ello, a veces se recurre a medidas
de dispersin relativas.
Medidas de forma
Las medidas de asimetra permiten determinar, sin que sea necesario hacer las
representaciones grficas, el grado de simetra que presentan los datos respecto a
un valor central de la variable estadstica, normalmente la media aritmtica. Por
tanto, esta medida debe reflejar dos aspectos: la distancia de cada observacin
respecto a la media aritmtica (es decir, la diferencia entre cada valor y la media
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 24 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
aritmtica: xi x y la frecuencia de cada una de estas distancias (la que coincidi-
( )
r, evidentemente, con la frecuencia de cada observacin). De esta manera, intuiti-
vamente, si predominan las distancias negativas sobre las positivas (por ser ms
frecuentes o ser distancias muy grandes), entonces la distribucin es asimtrica a
izquierdas. Si por el contrario, se da la situacin opuesta entonces la distribucin
es asimtrica a derechas. Para finalizar, si las distancias negativas y las positivas
se compensan, entonces la distribucin es simtrica.
Ahora pues, lo que hay que encontrar es el estadstico que determine la asimetra
de la distribucin de datos. Como la asimetra est directamente relacionada con
las desviaciones respecto a la media aritmtica, una primera aproximacin puede
k
(x X)n i i
i=1
ser la media de las desviaciones, es decir, . Sin embargo, ya es cono-
n
cido que esta suma es cero (propiedades de la media aritmtica).
Por otra parte, como lo que nos interesa es conocer el signo de las desviaciones,
tampoco podemos emplear el cuadrado de las desviaciones. As pues, parece co-
herente tomar una potencia de grado tres de las desviaciones y calcular la media.
As, si llamamos
k
(x X) n i
3
i
i=1
m= ,
n
por lo que se cumple:
(x X) n i
3
i
i=1
m n
g1 = =
s 3 k
3
(xi X)2 ni
i=1
n
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 25 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Curtosis
Para estudiar el grado de curtosis de una distribucin hay que tomar un modelo teri-
co como referencia, la representacin grfica tenga forma de campana simtrica. No
es extrao pues, que se tome el modelo normal, ya que, como ya se ha mencionado
con anterioridad, se puede decir que es el modelo campaniforme por antonomasia.
De esta manera, tomando este modelo como referencia, se dice que una distribu-
cin es leptocrtica si es ms apuntada que la distribucin normal. Si es menos
apuntada se le llama platicrtica. Finalmente, si tiene el mismo apuntamiento que
una distribucin normal se le llama mesocrtica.
Del mismo modo que en el caso del estudio de la asimetra, hay un coeficiente que
permite clasificar los datos segn la curtosis. En este caso, el coeficiente no es tan
intuitivo, por lo que nicamente se dar la definicin y su interpetacin. Como en
el caso de la otra medida de forma, este indicador tampoco tiene dimensin.
(x X) ni
4
i
i=1
g2 = n 3
2
k
(xi X)2 ni
i=1
n
(x X) n i
4
i
i=1
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 26 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Cajas y bigotes (Box-plot)
Un diagrama de cajas y bigote (conocido tambin como Box and whisker plot
en ingls), es una representacin grfica de los datos que permite determinar con
mucha facilidad y de una manera visual la tendencia central, la variabilidad, la
asimetra y la existencia de valores anmalos de un conjunto de observaciones
(outliers). De alguna manera, se puede decir que es uno de los grficos que ms y
mejor resumen los conjuntos de datos.
Medidas de concentracin
Las infinitas posibilidades que pueden adoptar los valores se encuentran entre los
dos extremos:
el que recibe x1 = el que recibe x 2 = ....... = el que recibe x k1 = 0 y el que recibe x k = el total
Se supone que hay una distribucin de rentas ( xi ni) donde i toma los valores de 1
hasta k (por ejemplo, xi son los sueldos y n el nmero de personas que cobran ese
sueldo) de la que se formar una tabla con las columnas siguientes:
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 27 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
u=x n
1 1 1
u =x n +x n
2 1 1 2 2
u =x n +x n +x n
3 1 1 2 2 3 3
u =x n +x n +x n +x n
4 1 1 2 2 3 3 4 4
.....................................................
u = x n + x n + x n + x n + . + x n
k 1 1 2 2 3 3 4 4 k k
j
u j = xi ni para cualquier valor de j desde 1 hasta k.
i=1
Ni
pi =
n
ui
qi =
uk
Ni ui
pi = qi = pi - qi
xi ni xi ni Ni u
i
n uk
x n x n N u p q p -q
1 1 1 1 1 1 1 1 1 1
x n x n N u p q p -q
2 2 2 2 2 2 2 2 2 2
x n x n Nk uk 100 100 0
k k k k
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 28 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100
Como se puede ver, la ltima columna es la diferencia entre las dos penltimas;
esta diferencia sera 0 para la concentracin mnima en la que se cumple pi = qi
para cualquier i, por tanto su diferencia sera cero.
k1
( p q ) i i
p i
j=1
P. Juan Verdoy / M. J. Beltrn / M. J. Peris - ISBN: 978-84-15444-38-1 29 Problemas resueltos de estadstica aplicada a las ciencias sociales - UJI - DOI: http://dx.doi.org/10.6035/Sapientia100