Está en la página 1de 15

Estadística descriptiva unidimensional.

1 Estadística descriptiva.
La estadística es un conjunto de métodos que nos ayudan a tomar decisiones razonables, incluso en
casos de incertidumbre. Es un método de descripción numérica de conjuntos numerosos, que utiliza
el número como soporte objetivo.
La estadística descriptiva trata de describir y analizar un conjunto de elementos dado sin sacar
conclusiones o diferencias sobre conjuntos mayores.
La Estadística descriptiva se aplica a todos los dominios de investigación cuantitativa: investi-
gación demográfica, económica, agronómica, biológica, industrial... etc.

2 Unidades estadísticas.
Llamaremos unidades estadísticas o individuos a los elementos que componen la población que se
estudia.
La población puede ser un conjunto de personas, objetos, número de coches que salen de una
fábrica, número de objetos defectuosos en un proceso, o conjuntos abstractos de cosas (no de acci-
dentes de carretera).
Es indispensable en todo estudio estadístico definir con precisión cuál será la población a estudiar.
Por ejemplo, si estudiamos los habitantes de Granada, tendremos que dejar claro si los extranjeros
residentes son elementos de estudio. El campo estadístico debe estar siempre bien definido.

3 Caracteres. Variables estadísticas.


Cada individuo de una población puede describirse o estudiarse según uno o varios caracteres, que
no son más que las características o propiedades respecto de las cuales se está realizando el estudio
de una población concreta. Por ejemplo, el color del pelo, es un carácter de estudio de una población.
Cada carácter puede tener distintas modalidades. Las modalidades son las distintas situaciones
posibles de un carácter dado. Por ejemplo, si el carácter a estudiar es la edad de los individuos de
una población, las modalidades serán las distintas edades de los individuos de dicha población.
Las modalidades de un mismo carácter deben ser a la vez incompatibles y exhaustivas: cada
individuo de la población presenta una y solamente una de las modalidades del carácter.
Los caracteres más sencillos son los dicotómicos, que son los que poseen dos modalidades. Un
carácter puede ser dicotómico por su propia naturaleza intrínseca, o bien por propia conveniencia
del estudio que se realiza.
El número de modalidades de un carácter puede variar según la información que se pueda o se
quiera recoger.

3.1 Tipos de Caracteres.


Caracteres cualitativos: Un carácter se dice cualitativo si sus diversas modalidades no son med-
ibles, pues se refieren a una cualidad. Por ejemplo, el sexo, la profesión, el color del pelo, el
estado matrimonial, etc., son caracteres cualitativos.

Caracteres cuantitativos: Un carácter se dice cuantitativo si sus diversas modalidades son med-
ibles o numerables, es decir, si a cada una de las modalidades se le asigna un número (por
ejemplo la altura de un colectivo de individuos). Este número (variable con la modalidad pero
específico de cada modalidad) se llama variable estadística: las diferentes modalidades de un
carácter cuantitativo son los diferentes valores posibles o los diferentes grupos de valores posi-
bles de la variable estadística.

1
3.2 Tipos de variables estadísticas.
Variables estadísticas discretas: Una variable estadística es discreta si sus valores posibles son
valores aislados. El caso más frecuente de variables discretas es aquel en que los valores posi-
bles son números enteros o múltiplos enteros de un número fijo. Ejemplos de variables discretas
son:

– el número de hijos de una familia,


– el número (o la proporción) de piezas defectuosas de un lote de 1.000 piezas,
– el número de obreros de una obra en construcción.

Variables estadísticas continuas: Una variable estadística es continua si sus valores posibles
están en número infinito y a priori son cualesquiera en un intervalo de valores. Ejemplos son:

– el diámetro de una pieza,


– el contenido en carbono de una aleación,
– la temperatura de un cuerpo,
– la velocidad de un móvil, ...

Los valores de las variables estadísticas continuas se agrupan en intervalos o clases, que con-
sideramos como modalidades de variable. Así, por ejemplo, para determinar el peso de una
persona, podemos dividir los datos en las clases siguientes: menos de 60, de 60 a 70, de 70 a 75,
etc. El número de clases que se toma al agrupar los datos en intervalos es indistinto, pero
es lógico que a mayor cantidad de clases, habrá más información y mejor.

Distribuciones estadísticas de un carácter. Tablas


estadísticas. Representaciones gráficas.
4 Tablas estadísticas.
Consideremos una población de N individuos con el carácter C. Supongamos que C tiene k modali-
dades distintas: c1 , c2 , ..., ck .
Representemos por ni al número de individuos que poseen la modalidad ci . A la cantidad ni la
denominaremos frecuencia absoluta, correspondiente a la modalidad ci .
Llamaremos frecuencia relativa, correspondiente a la modalidad ci , a la cantidad:
ni
fi =
N
En ambas definiciones, se cumplen las siguientes relaciones:

k
∑ ni = n1 + n2 + + nk = N
i =1
k
∑ fi = f1 + f2 + + fk = 1
i =1

La primera relación es evidente por definición de frecuencia absoluta. La segunda es fácil de


demostrar, ya que
k k
ni ∑ik=1 ni N
∑ i ∑N
f = =
N
=
N
= 1.
i =1 i =1

2
Las distintas modalidades de un carácter C, así como las frecuencias correspondientes, se suelen
distribuir en tablas numéricas o estadísticas:

C frecuencias absolutas frecuencias relativas


c1 n1 f1
.. .. ..
. . .
ci ni fi
.. .. ..
. . .
ck nk fk
∑ik=1 ni = N k
∑ i =1 f i =1

Los ni son estadísticamente equivalentes (es decir, indistinguibles).


En las variables estadísticas, las tablas estadísticas son análogas, cambiando modalidades por
valores de la variable si es discreta o por clases si es continua. Generalmente, en las variables discretas,
si a la variable de estudio se la representa por X, sus distintos valores cuantitativos se designarán por
xi , quedando la tabla estadística como sigue:

X frecuencias absolutas frecuencias relativas


x1 n1 f1
.. .. ..
. . .
xi ni fi
.. .. ..
. . .
xk nk fk
∑ik=1 ni = N ∑ik=1 f i = 1

En el caso de que la variable estadística sea continua, hay que agrupar, como ya se ha dicho, en
intervalos o clases, determinando también si los extremos son cerrados o abiertos. Se consignarán
además las marcas de clase de cada intervalo:

marcas de
C clase frecuencias absolutas frecuencias relativas
ci = ei +2ei 1
[ e0 , e1 ) c1 n1 f1
.. .. .. ..
. . . .
[ ei 1 , ei ) ci ni fi
.. .. .. ..
. . . .
[ ek 1 , ek ) ck nk fk
∑ik=1 ni = N k
∑ i =1 f i =1

4.1 Frecuencias acumuladas.


Para poder facilitar el cálculo de parámetros estadísticos de interés, que nos permitirán obtener una
información valiosa sobre los datos estudiados, son útiles las conocidas como frecuencias acumu-
ladas, distinguiéndose dos tipos:

Frecuencias acumuladas absolutas: Se define la frecuencia acumulada absoluta correspondi-


ente al valor xi de la variable estadística X como el número de elementos de la población que
tienen un valor de la variable menor o igual que xi . Se representará por Ni . Es evidente a partir
de la definición que Ni = n1 + n2 + + ni = ∑ij=1 n j . Observemos que esta definición de-
pende ostensiblemente del orden en que aparezcan los valores de la variable. Por ello, siempre
se supondrán que están ordenados en orden creciente o ascendente.

3
Frecuencias acumuladas relativas: Se definen como la proporción de elementos de la población
con un valor de la variable menor o igual que xi (hemos de suponer aquí igualmente que los
valores de la variable están también ordenados en orden creciente). Se representará por Fi . Por
consiguiente, tendremos que
i
Ni
Fi =
N
= f1 + f2 + + fi = ∑ f j.
j =1

Recibe el nombre de Distribución de Frecuencias al conjunto de los valores que presenta la vari-
able junto con sus frecuencias. Dependiendo del tipo de frecuencias que se consideren hablaremos
de Distribución de Frecuencias Absolutas, Distribución de Frecuencias Relativas Acumuladas, etc.
Una tabla estadística típica, para una variable estadística discreta X que toma los valores x1 , x2 , , xk
y con los tipos de frecuencias estudiados podría ser la siguiente:

xi ni fi Ni Fi
x1 n1 f1 N1 = n1 F1 = f 1
x2 n2 f2 N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. ..
. . . . .
xi ni fi Ni = n1 + + ni Fi = f 1 + + fi
.. .. .. .. ..
. . . . .
xk nk fk Nk = n1 + + nk = N Fk = f 1 + + fk = 1
N 1

Cuando la variable estadística es continua, los datos se agrupan en intervalos o clases, que repre-
sentaremos por [ei 1 , ei ), y como la notación de intervalo nos indica, el extremo inferior pertenece a la
clase, pero el extremo superior no pertenece a la clase (en todo caso a la clase siguiente). Cada clase,
como ya se mencionó con anterioridad, se representará por un valor característico o marca de clase,
que normalmente será su punto medio, o lo que es lo mismo, la media aritmética de los extremos,
que aquí también representaremos por xi :
ei + ei 1
xi = ,
2
y el rol que desempeña este valor es el mismo que el de los valores de las variables estadísticas
discretas.
Otro dato que también se puede destacar en este contexto es la llamada Amplitud del Intervalo,
que no es más que la longitud del intervalo en cuestión y que se calcula restando sus extremos:

a i = ei ei 1.

Los intervalos que se consideren al estudiar una población, pueden ser de igual o de distinta longitud,
si bien es recomendable siempre que sea posible que sean de igual longitud (aunque como se verá,
no siempre es posible).
Una tabla de frecuencias correspondiente a una variable típicamente continua podría ser la sigu-
iente:
ei + ei 1
[ ei 1 , ei ) ni xi = 2 ai fi Ni Fi
[ e0 , e1 ) n1 x1 a1 f1 N1 = n1 F1 = f 1
[ e1 , e2 ) n2 x2 a2 f2 N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. .. .. ..
. . . . . . .
[ ei 1 , ei ) ni xi ai fi Ni = n1 + + ni Fi = f 1 + + fi
.. .. .. .. .. .. ..
. . . . . . .
[ ek 1 , ek ) nk xk ak fk Nk = n1 + + nk = N Fk = f 1 + + fk = 1
N 1

4
Es usual también expresar los intervalos [ei 1 , ei ) uniendo sus extremos con un guión (no con-
fundirlo con una diferencia o resta): ei 1 ei .
Veamos ejemplos de cómo se confeccionan tablas estadísticas como las anteriores.

Ejemplo 1 Se lanza un dado 25 veces, obteniéndose los siguientes resultados:

2, 3, 6, 1, 2, 5, 1, 2, 4, 5, 1, 2, 4, 3, 6, 3, 6, 5, 5, 4, 1, 5, 6, 1, 3

Expresar los datos en una tabla estadística.

Basta contabilizar los resultados obtenidos para los distintos valores posibles, obteniéndose las
frecuencias siguientes:
xi ni fi Ni Fi
1 5 0, 2 5 0, 2
2 4 0, 16 9 0, 36
3 4 0, 16 13 0, 52
4 3 0, 12 16 0, 62
5 5 0, 2 21 0, 84
6 4 0, 16 25 1

Ejemplo 2 La tabla siguiente muestra los salarios, en miles de euros, de 100 personas de una empresa inter-
nacional:
Salarios ni
40 70 2
70 80 5
80 100 10
100 200 35
200 300 43
300 350 5
100
Obtener para ella la correspondiente tabla de frecuencias.

Añadimos a la tabla anterior los datos de interés:

Salarios ni xi ai fi Ni Fi
40 70 2 55 30 0, 02 2 0, 02
70 80 5 75 10 0, 05 7 0, 07
80 100 10 90 20 0, 10 17 0, 17
100 200 35 150 100 0, 35 52 0, 52
200 300 43 250 100 0.43 95 0, 95
300 350 5 325 50 0, 05 100 1
100 1

4.2 Caracteres cualitativos.


Para los caracteres cualitativos normalmente se utilizan los Diagramas de barras o rectángulos, los
Diagramas de sectores, los Pictogramas y los Cartogramas.

5
4.2.1 Diagramas de barras (o rectángulos).
Los diagramas de barras son especialmente útiles cuando se desea comparar datos cualitativos pero
también son útiles para el estudio de los datos cuantitativos de tipo discreto.
Se representan utilizando unos ejes de coordenadas cartesianas. Para trazarlos se representan
sobre el eje de abscisas los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas
o relativas, según proceda. A continuación, por los puntos marcados en el eje de abscisas se levantan
trazos gruesos, barras, o bien rectángulos, de longitud igual a la frecuencia correspondiente. Veamos
algunos ejemplos.

Ejemplo 3 Representar mediante un diagrama de barras los datos correspondientes al carácter color del pelo
de los alumnos de una clase de 4o de ESO:

Color ni
Rubio 4
Castaño 10
Moreno 6

Solución. El gráfico que usaremos es el diagrama de barras:

12
10
8
6
4
2
0
Rubio Castaño Moreno

El diagrama de barras propiamente dicho sería como el anterior, pero usando líneas más bien en
vez de rectángulos. La funcionalidad es la misma, la de representar con una longitud el número de
individuos con una determinada modalidad del carácter estudiado.

Ejemplo 4 Representar mediante un diagrama de barras los datos de la tabla siguiente; los datos corresponden
a los resultados obtenidos por los alumnos de una clase en un examen de Matemáticas:

Notas en el examen
1 2 3 4 5 6 7 8 9 10
de Matemáticas
No de alumnos 3 2 4 5 5 4 3 3 2 1

Solución. El gráfico solicitado es el siguiente:

6
Nº de Alumnos

5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10
Notas

6
Ejemplo 5 La superficie sembrada (en miles de Ha) de lentejas en España durante los años 1970 a 1974 fue la
siguiente:
Año 1970 1971 1972 1973 1974
Superficie 68 75 87 99 105
Representar los datos en un diagrama de barras.

Solución. El diagrama de barras correspondiente es el que sigue:

Como vemos, las barras se han representado con una cierta profundidad, que sumada con el efecto
del gradiente del fondo, otorga al gráfico una elegancia y efecto visual agradable para la persona que
recibe la información.

4.2.2 Diagrama de sectores.


En estos diagramas se representa la frecuencia de cada modalidad dentro de un círculo, que será di-
vidido en tantos sectores circulares como modalidades tenga el carácter que estemos estudiando. La
condición clave en estos gráficos es que el área de cada sector deberá ser proporcional a la frecuen-
cia de la modalidad correspondiente. Como cada sector se puede determinar mediante un ángulo
central, deberemos determinar dicho ángulo mediante una sencilla regla de tres, que nos determina
una proporción que pasamos a describir: si representamos por N al total de los individuos de la
o
población, por ni a la frecuencia de la modalidad correspondiente, y por gi a los grados del sector
correspondiente, entonces la proporción aludida será:
o
360o g
= i,
N ni

de donde cada sector tendrá un ángulo central igual a:

o 360o ni
gi = .
N
Para finalizar, los sectores se pueden trazar por ejemplo en el sentido de las agujas del reloj, em-
pezando desde un radio, normalmente el vertical superior, o bien por el horizontal de la derecha, si
bien no existen convencionalismos al respecto sobre dónde empezar o en qué orden se deben colocar
los sectores.

Ejemplo 6 Veamos un ejemplo de cómo se obtiene el diagrama se sectores correspondiente a los datos del
ejemplo 3.

Solución. La tabla del ejemplo de referencia se reproduce de nuevo a continuación:

Color ni
Rubio 4
Castaño 10
Moreno 6

7
Los grados de los ángulos centrales de los sectores de cada modalidad se obtienen según el proced-
imiento descrito más arriba:
o 360o 4
Rubio ! g1 = = 72o
20
o 360o 10
Castaño ! g2 = = 180o
20
o 360o 6
Moreno ! g3 = = 108o
20
Y la suma de los ángulos nos dan los 360o que debe tener un ángulo completo. El diagrama de
sectores correspondiente es el siguiente. Lo damos con varios formatos posibles. El lector puede
utilizar cualquiera de ellos en sus representaciones, aunque el más sencillo de elaborar es obviamente
el sector plano, sin profundidad espacial.

Rubio
Moreno
Moreno Rubio

Castaño
Castaño

4.3 Variables estadísticas discretas.


Los gráficos que se utilizan usualmente en este tipo de variables son básicamente los siguientes: Dia-
gramas de barras, Polígono de frecuencias absolutas, Polígono de frecuencias relativas, Diagrama de frecuencias
acumuladas absolutas y Diagrama de frecuencias acumuladas relativas.

4.3.1 Diagrama de barras.


En el apartado 4.2.1 tuvimos ocasión de mostrar cómo se representan estos diagramas. De hecho, se
dieron allí dos ejemplos (Ejemplos 4 y 5) que reflejaban cómo se elaboran estos diagramas cuando tra-
bajamos con variables estadísticas de tipo discreto. Daremos seguidamente otro ejemplo, en donde
como novedad veremos la posibilidad de confeccionar gráficos de este tipo pero para las restantes
frecuencias que pueden elaborarse en una tabla estadística. Nos referimos a los diagramas de frecuen-
cias relativas, de frecuencias acumuladas absolutas y los de frecuencias acumuladas relativas.

Ejemplo 7 Al preguntar a 50 personas, elegidas al azar, por el número de miembros que componen la unidad
familiar a la que pertenecen, se han obtenido los datos de la tabla siguiente:

No de miembros Frecuencias absolutas Frecuencias relativas


1 8 0,16
2 23 0,46
3 12 0,24
4 6 0,12
5 1 0,02
Totales 50 1

Representar los datos anteriores con diagramas de barras.

8
Solución. Los siguientes diagramas muestran las frecuencias absolutas y las frecuencias relativas.
Estos diagramas se les denomina, respectivamente, diagrama de barras de frecuencias absolutas y dia-
grama de barras de frecuencias relativas.

25 1

20 0,8

15 0,6

10 0,4

5 0,2

0 0
1 2 3 4 5 1 2 3 4 5

Diagrama de frecuencias absolutas Diagrama de frecuencias relativas

Con los datos anteriores podríamos haber representado también las frecuencias acumuladas ab-
solutas y las acumuladas relativas. Los gráficos obtenidos en tal caso se llaman, como ya se ha antici-
pado anteriormente, diagramas de frecuencias acumuladas absolutas y de frecuencias acumuladas relativas.
Completamos en primer lugar la tabla anterior con las frecuencias necesarias:
xi ni fi Ni Fi
1 8 0,16 8 0,16
2 23 0,46 31 0,62
3 12 0,24 43 0,86
4 6 0,12 49 0,98
5 1 0,02 50 1
Total 50 1
En este caso, los diagramas que se obtendrían serían los siguientes:

60 1
50
0,8
40
0,6
30
0,4
20
0,2
10
0 0
1 2 3 4 5 1 2 3 4 5

Diagrama de frecuencias acumuladas absolutas Diagrama de frecuencias acumuladas relativas

4.3.2 Polígonos de frecuencias absolutas (y relativas).


Este tipo de diagramas se pueden obtener a partir de los diagramas de barras sin más que unir los
extremos superiores de las barras que aparecen en el gráfico mediante una poligonal. También es
corriente construir dichos gráficos usando única y exclusivamente dicha poligonal. Los polígonos de
frecuencias absolutas y relativas que se obtendrían del ejemplo 7 serían los siguientes:

25 0,5

20 0,4

15 0,3

10 0,2

5 0,1

0 0
1 2 3 4 5 1 2 3 4 5

Otro ejemplo en el que se muestra únicamente el polígono de frecuencias lo damos a continuación.

9
Ejemplo 8 Obtener el polígono de frecuencias absolutas correspondiente a los datos de la tabla siguiente, que
muestra la cantidad de gatos atropellados en una carretera durante los años 2002 a 2007:

Años 2002 2003 2004 2005 2006 2007


No de gatos 3 5 6 4 2 5

Solución. El gráfico solicitado es el siguiente:

7
6
5
4
3
2
1
0
2002 2003 2004 2005 2006 2007

4.4 Variables estadísticas continuas.


Esencialmente, los dos gráficos que podemos utilizar para representar los datos de una variable es-
tadística continua son los Histogramas y los Polígonos de frecuencias (absolutas o relativas).

4.4.1 Histogramas.
Son los diagramas más representativos de las variables estadísticas continuas. Se utilizan cuando
dichas variables se encuentran delimitadas mediante intervalos. Dependiendo de si la amplitud de
cada intervalo sea la misma o no, distinguimos dos casos:

(a) Los intervalos poseen la misma amplitud. El histograma se representa utilizando unos ejes
de coordenadas cartesianos, marcando sobre el eje horizontal (o de abscisas) los extremos de
cada intervalo, y levantando sobre cada uno de ellos rectángulos de altura igual a la frecuencia
absoluta (o relativa, según se desee representar) correspondiente.

(b) Los intervalos no poseen la misma amplitud. Se procederá como en el caso anterior, pero con-
siderando que la altura de cada rectángulo será igual a la razón naii entre la frecuencia absoluta
fi
y la amplitud del intervalo correspondiente (o a la razón ai si lo que se desean representar son
las frecuencias relativas).

El histograma posee la propiedad siguiente: la superficie de cada rectángulo es proporcional


a la frecuencia absoluta (o relativa) del intervalo sobre el que se levanta. En el caso particular de
que los intervalos tengan siempre la misma amplitud, la altura de cada rectángulo es proporcional
a su frecuencia absoluta (relativa), por lo que podría considerarse como una generalización al caso
continuo de los diagramas de barras, ya estudiados para variables estadísticas de tipo discreto.
Mostramos a continuación dos ejemplos que nos permiten visualizar más claramente cada una
de las situaciones anteriores.

Ejemplo 9 Las alturas de 40 estudiantes, obtenidas de una clase de Bachillerato, son:

Alturas 160 165 165 170 170 175 175 180 180 185
ni 4 7 10 13 6

Representar los datos anteriores en un histograma de frecuencias absolutas.

10
Solución. El diagrama es el siguiente:

14
12
10
8
6
4
2
0
160 165 170 175 180 185

Ejemplo 10 Representar con un histograma las edades de 40 jóvenes colaboradores de la Cruz Roja:

Edades 14 15 15 17 17 18 18 20 20 23
ni 6 14 11 6 3

Solución. Como los intervalos no poseen las mismas amplitudes, añadiremos a la tabla anterior los
datos correspondientes a las amplitudes de cada intervalo así como las razones entre sus frecuencias
y dichas amplitudes, que representaremos por hi = naii .

Edades 14 15 15 17 17 18 18 20 20 23
ni 6 14 11 6 3
ai 1 2 1 2 3
hi 6 7 11 3 1

Con los datos anteriores, el histograma correspondiente es:

10

14 15 17 18 20 23

4.4.2 Polígonos de frecuencias.


Se obtienen como en el caso de las variables estadísticas discretas, pero ahora uniendo los extremos
superiores de cada rectángulo mediante una línea poligonal. Se consideran los mismos casos que
en la representación de los histogramas, de modo que en el caso de que los intervalos no tengan la
misma amplitud habrá que representarlos con una altura proporcional a la razón entre la frecuenci
absoluta (relativa) y la amplitud de cada intervalo.

11
Los correspondientes polígonos de frecuencias de los ejemplos anteriores son los siguientes:

10

14 15 17 18 20 23

Medidas Estadísticas.
Existen distintos tipos de medidas, según el papel que juegan:

1. Medidas de centralización: Buscan características del centro de la distribución: media, moda y


mediana. También se las suele denominar como medidas de posición central.

2. Medidas de posición: Indican, una vez ordenados, cuántos elementos quedan a la izquierda o
derecha de uno dado: cuartiles, deciles, centiles o percentiles.

3. Medidas de dispersión: Proporcionan una idea sobre la separación de los datos: rango o recor-
rido, desviación media, varianza, desviación típica y coeficiente de variación.

4. Medidas de forma: Proporcionan una idea de la simetría y apuntamiento de la distribución:


coeficiente de asimetría y coeficiente de apuntamiento.

5 Medidas de centralización.
5.1 Media.
Es la media aritmética de los valores del carácter en estudio. Se calcula al sumar todos los valores
y dividir por el total de individuos de la población. Por tanto, es una medida de posición central o
de centralización que puede asignarse únicamente a variables estadísticas. Si la variable estadística
en estudio es de tipo discreto, llamémosla X, toma los valores x1 , x2 , ..., xk con frecuencias absolutas
n1 , n2 , ..., nk , respectivamente, entonces la media aritmética, que representaremos por x, se define por:

1 k
∑ik=1 ni xi k
x=
N ∑ ni xi = N
= ∑ f i xi (1)
i =1 i =1

donde, como siempre, N es el total de observaciones (o total de la población).


Si la variable estadística es de tipo continuo, la fórmula anterior sigue siendo válida sin más que
considerar que cada clase se representa por su correspondiente marca de clase, y serán estos valores
los que se asignarán a los xi de la fórmula (1).
Mostramos a continuación ejemplos del cálculo de la media aritmética en los casos de variables
discretas y continuas.

Ejemplo 11 Las notas de un examen de Estadística en una clase fueron las siguientes:

Notas ( xi ) 2 3 4 5 6 7 8 9 10
No alumnos (ni ) 1 1 5 7 7 4 4 2 1

Obtener la nota media.

12
Solución. completamos la tabla con los valores de los productos ni xi :

Notas ( xi ) 2 3 4 5 6 7 8 9 10
No alumnos (ni ) 1 1 5 7 7 4 4 2 1 N = 32
ni xi 2 3 20 35 42 28 32 18 10 190

Con los datos anteriores, la nota media será:

∑9i=1 ni xi 190
x= = 5, 94 puntos
N 32

Ejemplo 12 En un cierto barrio se ha constatado que las familias residentes se han distribuido, según su
tamaño, de la siguiente forma:

Tamaño familias 0 2 2 4 4 6 6 8 8 10
No familias 110 200 90 75 25

Obtener el tamaño medio de cada familia.

Solución. Completaremos en primer lugar la tabla anterior con los datos necesarios:

Tamaño ni xi ni xi
0 2 110 1 110
2 4 200 3 600
4 6 90 5 450
6 8 75 7 525
8 10 25 9 225
500 1910
Con los datos anteriores, obtenemos que la media solicitada es:

∑5i=1 ni xi 1910
x= = = 3, 82 miembros
N 500

6 Medidas de dispersión.
Al estudiar cada carácter de cualquier población o muestra, se pueden observar con inmediatez las
diferencias existentes entre los resultados individuales de las observaciones. La variabilidad en los
resultados es inherente a cada fenómeno aleatorio, originando en el conjunto de los datos observados
una cierta homogeneidad o heterogeneidad, según que las diferencias u oscilaciones entre ellos sea
pequeña o grande. Este grado de variabilidad o disparidad o esparcimiento mutuo de los datos
estadísticos es lo que en estadística se denomina dispersión.

6.1 Varianza y desviación típica o estándar.


Definición 13 La varianza de una variable estadística discreta se define como la media aritmética de los
cuadrados de las desviaciones de los datos con respecto a la media. La varianza de una variable estadística
discreta X suele representarse indistintamente por V ( X ) o por σ2 . Si la variable estadística X toma los valores
x1 , x2 , ..., xk , con frecuencias absolutas n1 , n2 , ..., nk , respectivamente, entonces la varianza viene dada por:

∑ik=1 ni ( xi x )2 k
V ( X ) = σ2 =
N
= ∑ f i ( xi x )2 .
i =1

Cuando la variable estadística X sea de tipo continuo, cambiaremos entonces los xi de la expresión anterior por
las marcas de clase de las distintas clases en que esté agrupada dicha variable.

13
Normalmente la varianza puede calcularse de manera más asequible mediante la tesis del cono-
cido por Teorema de König.

Teorema 14 (König) La varianza de una variable estadística de tipo discreto X que toma los valores x1 , x2 , ..., xk ,
con frecuencias absolutas n1 , n2 , ..., nk cumple la identidad:

∑ik=1 ni ( xi x )2 ∑ik=1 ni xi2


σ2 = = x2
N N
Demostración. En efecto:

∑ik=1 ni ( xi x )2 1 k
1 k
2x k
x2 k
σ2 =
N
= σ2 =
N ∑ ni (xi2 2xi x + x2 ) ==
N ∑ ni xi2 N ∑ ni xi + N ∑ ni =
i =1 i =1 i =1 i =1

∑ik=1 ni xi2 ∑ik=1


ni xi 1 k
∑ik=1 ni xi2
=
N
2x
N
+ x2 =
N ∑ ni xi2 2x2 + x2 =
N
x2
i =1

como queríamos.

Definición 15 En las mismas condiciones de la definición anterior, llamaremos desviación típica o estándar
de la variable X a la raíz cuadrada de la varianza. La representaremos por σ. En tal caso:
s v
q u k
k
∑ i =1 i i
n ( x x ) 2 u
σ = V (X) = = t ∑ f i ( x i x )2 ,
N i =1

cambiando los xi por las marcas de clase si la variable es continua.

Aplicando el Teorema 14 es inmediato que la desviación típica puede obtenerse mediante la ex-
presión: s
∑ik=1 ni xi2
σ= x2 ,
N
mucho más práctica de aplicar en el cálculo rudimentario.

6.2 Interpretación de la desviación típica.


La desviación típica nos da una estimación bastante interesante de la dispersión de los datos de una
variable estadística. Además, tiene una interpretación analítica muy precisa de cómo están distribui-
dos, pues se puede demostrar que la proporción de datos que se encuentran en el intervalo

(x tσ, x + tσ)

es como mínimo
1
. 1
t2
Por ejemplo, la proporción de datos incluidos en el intervalo ( x 2σ, x + 2σ) es como mínimo 1
1
22
= 34 , es decir, el 75% de la población total. También podemos deducir que la proporción de datos
que se encuentran en el intervalo ( x 3σ, x + 3σ) es como mínimo 1 312 = 0, 88, es decir, el 88% de
la población total.
La desviación típica es, por tanto, una medida bastante precisa de la dispersión de los datos
alrededor de la media aritmética de la distribución, siendo preferida, en general, a las demás medidas
absolutas de dispersión.

14
6.3 Observaciones a la varianza y la desviación típica.
1. Tanto la varianza como la desviación típica dependen de todos los valores de la distribución,
así como la media.

2. En los casos en que no sea posible calcular la media aritmética, no será posible tampoco obtener
la varianza y la desviación típica, por ser funciones de la media aritmética.

3. La varianza tiene el inconveniente de que no viene expresada en las mismas unidades que los
datos, debido a que las desviaciones van elevadas al cuadrado. Así, por ejemplo, si los datos son
metros, la varianza vendrá dada en metros cuadrados. En cambio, la desviación típica viene
expresada en las mismas unidades que los datos de la distribución, de ahí que la desviación
típica resulte más interesante que la varianza como parámetro para estimar la dispersión de los
datos de una distribución.

6.4 Coeficiente de Variación de Pearson.


El coeficiente de variación media de Pearson, o simplemente coeficiente de variación, se define como la
razón entre la desviación típica (o estándar) y la media. Lo representaremos por:
σ
CV = .
x
Este coeficiente es la medida de dispersión relativa más importante y fiable.
La utilidad del coeficiente de variación será especialmente relevante cuando se desean comparar
las variabilidades de dos distribuciones de frecuencias, aunque los datos vengan expresados en dis-
tintas unidades de medida. Nos dará una estimación de la mayor o menor variabilidad de los datos
de una serie estadística.
El coeficiente de variación representa el número de veces que la desviación típica contiene a la
media aritmética, por tanto, cuanto mayor sea el coeficiente de variación significa que mayor número
de veces contiene la desviación típica a la media aritmética y por tanto la media aritmética es menos
representativa. Resumidamente:

1. Si x < σ, entonces la media no tendrá representatividad.

2. Si σ = 0, entonces CV = 0, entonces la media asume la máxima representatividad y en partic-


ular no existe dispersión de los datos.

3. Si x = 0, el coeficiente de variación no se puede calcular y por tanto tampoco se puede utilizar.

Actividad 16 Obtener la media, la varianza, la desviación típica y el coeficiente de variación de la siguiente


distribución estadística:
[0, 2) [2, 4) [4, 6) [6, 8) [8, 10)
4 9 15 7 5

15

También podría gustarte