Está en la página 1de 12

UNIDAD 3: Descripción numérica I 1

Libro de Peña y Romo

Descripción numérica (I)


Las técnicas estudiadas en el capítulo anterior permiten una descripción visual de
la distribución de una variable mediante tablas y gráficos. En muchos casos, el resumen
puede hacerse eficazmente de una forma más sencilla y precisa: utilizando valores
numéricos que den idea de la ubicación o del centro de los datos —medidas de posición—
, usando cantidades que informen de la concentración de las observaciones alrededor de
dicho centro —medidas de dispersión— y mediante números que reflejen otros rasgos de
la distribución, como asimetría o apuntamiento. En este capítulo se consideran los valores
basados en la suma de cantidades y el siguiente se dedicará a las que se construyen a partir
de la ordenación de las observaciones.

4.1. La media

Una descripción elemental de la localización de un conjunto de datos puede


hacerse determinando su centro. La idea de media o promedio formaliza el concepto
intuitivo de punto de equilibrio o centro de gravedad de las observaciones. Algunos
ejemplos son la calificación media obtenida por un grupo de personas en un examen, el
ingreso medio por familia en una comunidad o el número medio de hijos por pareja en un
determinado país. Dado un conjunto de observaciones

la media se representa mediante x y se obtiene dividiendo la suma de todos los


datos por el número de ellos, es decir,

donde la letra griega £ (sigma mayúscula) recibe el nombre de sumatorio y se


utiliza para escribir de forma abreviada la suma

Ejemplo 4.1.

Las medias de las variables GTINE (gasto) y AHORRO del conjunto de datos de
la Tabla 11 son 260.597 pesetas y 14.762,7 pesetas, respectivamente. Estas cantidades
permiten hacerse una primera idea de las magnitudes —la posición— de ambas variables.
Así, para estos datos, las familias gastan, en promedio, unas veinte veces más que la
cantidad que ahorran, o, en otras palabras, el ahorro es del orden del cinco por ciento del
gasto.

de un conjunto de observaciones a su media es igual a cero; es decir, puede


probarse que
2

La interpretación de la media como centro de los datos se apoya en una propiedad


que afirma que la suma de las desviaciones

También se puede demostrar que si se multiplican todas las observaciones de una


variable por una misma cantidad, la media de los nuevos datos queda multiplicada por el
mismo valor; es decir,

Esto se debe a que, cuando las desviaciones se calculan con respecto a la media,
las negativas se compensan con las positivas. Otra propiedad importante de la media es
que, si sumamos diferentes variables, la media de la suma es la suma de las respectivas
medias; es decir,

Ejemplo 4.2.

En el conjunto de datos de la Tabla 11, la media de cada una de las variables de


gasto Gl (alimentación, bebidas y tabaco), G2 (vestido y calzado) y G4 (menaje) es
107.631,19358 y 19.880 pesetas, respectivamente. La media del gasto total en estos tres
conceptos es 146.867 pesetas, es decir, la suma de los valores anteriores. Se observa que
el gasto medio en alimentación, bebidas y tabaco es, aproximadamente, unas cinco veces
el valor del gasto en cada uno de los restantes conceptos.
Si dividimos por mil todas las observaciones de la variable Gl para expresarla en
miles de pesetas, la media de la nueva variable, gasto en miles de pesetas, es 107,6 que
coincide con la media de Gl dividida por la misma constante.

4.2. La desviación típica


3

Figura 4.1. Dos conjuntos de datos distintos con la misma media.

La Figura 4.1 presenta dos conjuntos de datos muy distintos con la misma media.
Como puede verse fácilmente, la diferencia no radica en rasgos como la simetría —ambos
son razonablemente simétricos— sino en su concentración —o dispersión— alrededor de
la media común. Este ejemplo pone de manifiesto la conveniencia de complementar la
media (que es medida de posición) con un valor numérico que exprese la idea de
variabilidad de los datos alrededor suyo.
Una forma natural de construir una medida de dispersión sería promediar las
desviaciones a la media

En el apartado anterior hemos visto que estas cantidades suman cero. Una manera
—no la única— de evitar que los distintos signos se compensen es elevarlas al cuadrado,
de manera que todas las desviaciones sean no negativas. La raíz cuadrada del promedio
de estas cantidades recibe el nombre de desviación típica y se representa por:

La desviación típica toma valores no negativos y mide la dispersión: a mayor


desviación típica, mayor dispersión de los datos con respecto a su media. Su cuadrado
recibe el nombre de varianza y se representa por sí. La varianza se utiliza en operaciones
matemáticas ya que, al evitar la raíz cuadrada, tiene propiedades aritméticas más
cómodas.
En la Figura 4.2 aparecen cuatro histogramas correspondientes a conjuntos de cien
datos con diferentes desviaciones típicas. Es evidente cómo aumenta la desviación típica
al crecer la dispersión de los datos.
Es claro que en el caso de concentración extrema (todos los datos iguales —y, por
tanto, iguales a la media—), las desviaciones a la media son iguales a cero y, asi, la
desviación típica también será cero.
Ejemplo 43.
Las setenta y cinco observaciones de la variable GTINE tienen una desviación
típica igual a 170.385. Los ciento veintisiete datos del grupo uno de la variable NOTAS
tienen una desviación típica de 1,97.
A CONTINUACIÓN, EXISTE UN CUADRO A DESARROLLAR POR EL
ALUMNO.
4

Figura 4.2. Histogramas correspondientes a conjuntos de cien datos con


dispersiones distintas: ( a ) s x = 1,00; ( b ) sx = 2,00; ( c ) sx = 3,69; ( d ) sx = 433.

La desviación típica puede obtenerse mediante una expresión de cálculo más


sencillo que la que aparece en la definición. En efecto, es fácil probar que es igual a la
raíz cuadrada de la cantidad obtenida restando el cuadrado de la media a la media de los
cuadrados de las observaciones, es decir,

Como ocurría con la media, la desviación típica también tiene buenas propiedades
con respecto a las transformaciones lineales de las variables. Asi, se puede demostrar que
si pasamos de la variable x a la variable ax + b, la desviación típica de la nueva variable
es la inicial multiplicada por la magnitud de la constante a, sin tener en cuenta su signo;
es decir,
donde \a\ representa el valor absoluto de o, es decir, a siempre con signo positivo
5
(por ejemplo, |—3| = 3; |5| = 5).
Es natural el hecho de que la constante b —que sólo contribuye a la transfor-
mación trasladando los datos—, no suponga modificación de la desviación típica, que es
medida de dispersión y no de posición.
La regla de Chebychev permite otra interpretación de la desviación típica como
medida de concentración. Este resultado establece que, para cualquier conjunto de datos,
la proporción de observaciones que distan menos de m desviaciones típicas de la media
es como mínimo

Figura 4.3. Porcentajes de datos según la regla de Chebychev.

Así, por ejemplo, en la Figura 4.3 puede verse el porcentaje mínimo de datos que
según la regla de Chebychev, están a menos distancia de la media que las
correspondientes desviaciones típicas.
Como puede apreciarse en el ejemplo siguiente, la generalidad de la regla de
Chebychev —es cierta para cualquier conjunto de datos— hace que sus prescripciones
sean muy conservadoras.

Ejemplo 4.4.

La Figura 4.4 es el diagrama de tallos y hojas para las calificaciones del grupo 1
que aparecía en la Figura 3.15 del capítulo anterior. La media de estos datos es 429 y su
desviación típica es 1,97. La regla de Chebychev afirma que, al menos, el 75 por 100 de
las observaciones dista menos de dos desviaciones típicas de la media, es decir, en este
caso, al menos 96 datos deben estar entre x — 2sx = 025 y je + 2sx = 8,23; contando en
el diagrama, se comprueba que hay 120 observaciones en esa situación, lo que confirma
el resultado de Chebychev.

A continuación, existe una figura a desarrollar por el alumno.

Veremos en el Capítulo 18 que para distribuciones relativamente regulares —


como la del Ejemplo 4.4— pueden hacerse afirmaciones más precisas sobre la posición
relativa de los datos respecto a la media.

4.3. El coeficiente de variación.


Para comparar la dispersión de variables que aparecen en unidades distintas o que
toman valores de magnitudes muy diferentes, es necesario disponer de una medida de
variabilidad que no dependa de las unidades o del tamaño de los datos. Así, no representa
lo mismo una variabilidad de 100.000 pesetas en observaciones de economía doméstica
6
que en datos correspondientes a economías de distintos países.
Las unidades de la media y de la desviación típica coinciden con las de las
observaciones. Una manera natural de construir una medida de variabilidad que cumpla
los requisitos anteriores es el llamado coeficiente de variación:

A continuación, existe una figura a desarrollar por el alumno.

siempre que la media no sea cero (las barras del denominador representan el valor
absoluto que, como ya dijimos, indican que debe prescindirse del signo de la media).

Ejemplo 4.5.

Las desviaciones típicas de las variables Gl y G2 de la Tabla 2.1 son,


respectivamente, sGl " 53.8963 pesetas y sG1 = 23.783,8 pesetas. En cambio, los
coeficientes de variación para ambas variables son CVC1 = 0,49 y CVG2 = 1,21
Aunque la desviación típica del primer conjunto de datos es mayor que la del
segundo, ello se debe más a que la magnitud de los datos de gasto en G1 es grande (nótese
que Gl = 107.631 pesetas y G2 — 19.357 pesetas) que a que realmente estén menos
concentrados alrededor de su media que los de G2.

El ejemplo anterior pone de manifiesto cómo la relación entre las desviaciones


típicas de cada una de las variables no es necesariamente la misma que la existente entre
sus coeficientes de variación. Esto resalta el hecho de que el coeficiente de variación es
insensible a la magnitud de las observaciones.

4.4. Los coeficientes de asimetría y apuntamiento.


Además de la posición y la dispersión, la simetría es otro rasgo interesante en una
distribución de frecuencias. La simetría de los datos alrededor de la media puede
estudiarse examinando de nuevo las desviaciones x1 — 3c, x2 — xr., xN_, — x, xN —
X-
Al principio del capítulo vimos que su suma es cero. Después, hemos utilizado el
promedio de sus cuadrados como medida de variabilidad: al elevarlas al cuadrado,
eliminábamos los signos y, por tanto, la influencia de la posición relativa de los datos a
uno u otro lado de la media, para considerar sólo las distancias. Si ahora queremos
cuantificar la simetría, es necesario conservar la información acerca tanto del signo como
de la distancia de cada dato a la media —centro de simetría—. Este razonamiento lleva a
utilizar una potencia impar de las desviaciones que, como hemos visto, no puede ser la
primera pues su suma es cero. Así, aparece como natural el usar el promedio del cubo de
las desviaciones para medir la asimetría.
7

Figura 4.5. Coeficientes de asimetría para las variables: (a ) ESPM; ( b ) GTINE; (c )

El coeficiente de asimetría se define como la formula arriba expuesta, que es una


cantidad sin unidades que vale cero si la distribución es simétrica alrededor de la media,
pues, en ese caso, las magnitudes y signos del numerador se compensan.

Ejemplo 4.6.

La Figura 4.5 presenta tres distribuciones con distintas formas de simetría y sus
correspondientes coeficientes de asimetría. En la parte (a) aparece el histograma de la
variable ESPM (esperanza de vida de las mujeres en los países del mundo), que es
asimétrico a la izquierda y cuyo coeficiente de asimetría es:
8

La asimetría a la izquierda responde al hecho de que hay pocos países donde la


esperanza de vida es muy baja, muchos con valores intermedios y ninguno con esperanza
de vida muy grande. El apartado (b) contiene la distribución de la variable de gasto
GTINE que es —como suelen serlo las variables de gasto— asimétrica a la derecha, es
decir, aparecen algunos valores de gasto muy grandes. Su coeficiente de asimetría es 1,33.
Por fin, el apartado (c) corresponde a la distribución simétrica de la variable NOTAS con
coeficiente de asimetría igual a —0,03.

Otra característica de interés en una distribución es su apuntamiento o kurtosis,


que describe lo picuda o plana que es la distribución. Un razonamiento como el realizado
para la simetría nos conduce a considerar ahora las cuartas potencias de las desviaciones
a la media. El coeficiente de apuntamiento se define como

En algunos programas informáticos con aplicaciones estadísticas no aparece


directamente el coeficiente de apuntamiento o kurtosis, sino que se da su valor relativo
con respecto al de una distribución que se toma como patrón (la distribución normal que
se verá en el Capítulo 18).

Ejemplo 4.7.

En la Figura 4.6 pueden verse tres histogramas con sus respectivos valores del
coeficiente de apuntamiento. Nótese que las escalas del eje vertical son distintas. Los
datos de (b) son los de la variable ITOTAL de la Tabla 2.1 que expresan el ingreso total
y los del apartado (c) corresponden a la variable Gl que computa el gasto en aumentación,
bebidas y tabaco.
9

Figura 4.6. Histogramas para tres conjuntos de datos con coeficientes de apuntamiento: CApx =
2$0; ( b ) CApx = 5,95; ( c) CApx = 4,57.

4.5. Descripción numérica para distribuciones de frecuencias

En muchas ocasiones no se conoce el conjunto original de datos, sino que sólo


tenemos a nuestra disposición una distribución de frecuencias. A partir de ella también
pueden definirse cantidades análogas a las anteriores que permiten describir
numéricamente la distribución. Supongamos que se quiere estudiar una distribución de
frecuencias con marcas de clase

y frecuencias relativas

respectivamente. La noción de media introducida en la sección 4.1 se puede


adaptar a esta situación de la forma siguiente. La expresión que definía la media se puede
reescribir como
10

y esta última fórmula puede interpretarse en el sentido de que la media de un


conjunto de datos es la suma de productos de los datos por sus frecuencias relativas.
Aplicando esta idea a la distribución de frecuencias de que disponemos, la media para los
datos ya agrupados en clases sería

es decir, la suma de los productos de las marcas de clase por sus frecuencias
relativas. De forma similar, se pueden introducir las correspondientes versiones
para datos agrupados de la desviación típica y los coeficientes de asimetría y
apuntamiento, que vienen dados por /

Ejemplo 4.8.

En la Figura 3.6 aparecían cuatro histogramas con diferente número de clases


correspondientes a las 768 observaciones de la variable NOTAS. La media de este
conjunto de datos es 4,76. Supongamos que no dispusiéramos del conjunto de datos, sino
sólo del histograma de la parte (a). A partir de esta información, la media que se obtiene
es 4,78. Si tuviéramos a nuestra disposición sólo la parte (b) de la figura, el valor que
podríamos obtener para la media sería 4,74.

4.6. Resumen.

La idea de media expresa la noción de punto de equilibrio de un conjunto de


observaciones y describe la posición de los datos. La desviación típica mide la dispersión
de las observaciones alrededor de la media. El coeficiente de variación informa sobre la
variabilidad de los datos independientemente de su magnitud y de las unidades utilizadas.
Otros rasgos como la asimetría o el apuntamiento de la distribución pueden estudiarse
mediante el coeficiente de asimetría y el coeficiente de apuntamiento, respectivamente.
Si en vez del conjunto de datos, se dispone sólo de la distribución de frecuencias, pueden
definirse cantidades análogas a las anteriores.

4.7. Ejercicios.

4.1. a) Hallar la media y la desviación típica de la variable CAPITAS en la


Tabla 2.1. ¿Cuál es su interpretación?
b) ¿Tiene sentido hablar de la media de la variable SOC? ¿Por qué?
4.2. a) Proponer dos conjuntos de quince datos cada uno que tengan la misma
11
media y diferente desviación típica.
b) Proponer dos conjuntos de quince datos cada uno que tengan la misma
desviación típica y diferente media.
43. Hallar la media y la desviación típica de los datos del Ejercicio 3.2. ¿Qué
conclusiones pueden extraerse?
4.4. a) Calcular la media de las observaciones del Ejercicio 3.3.
b) Obtener las desviaciones de los datos a la media y comprobar que suman cero.
c) Hallar la desviación típica de los datos utilizando las dos expresiones que
aparecen en el texto. ¿Con cuál resulta más sencillo?
4.5. El propietario de una pequeña empresa tiene asignado un sueldo de 650000
pesetas mensuales. Los salarios de los empleados aparecen en la tabla siguiente:

80.000 85.000 123.000 147.000 143.000 83.000


84.000 184000 163.000 195.000 142.000. 81.000
92000 157.000 153.000 285.000 315-000 99.000

a) ¿Cuál es el salario medio de todos los que trabajan en la empresa, incluyendo


al propietario? ¿Cuál es la desviación típica?
b) Si se decide aumentar el salario a cada uno en 30.000 pesetas, ¿cómo varía la
media? ¿Y la desviación típica?
c) Si se aumenta sólo el sueldo del dueño en 100.000 pesetas, ¿qué ocurre con la
media?
4.6. En una ciudad existen tres grandes plantas de fabricación de automóviles que
llamaremos A, B y C. La primera emplea a 542 personas y su salario medio es de 180.000
pesetas. En la segunda trabajan 843 empleados y su ingreso medio es de 143.500 pesetas.
Finalmente, la paga media de los 1.538 trabajadores de C es 135.578 pesetas. ¿Cómo
podría hallarse el salario medio de los empleados en la industria del automóvil de dicha
ciudad? (Este concepto recibe el nombre de media ponderada.)
4.7. Estudiantes de cuatro grupos diferentes han realizado el mismo examen de
una materia. El número de alumnos de cada clase es 87, 81, 69 y 24, respectivamente, La
nota media en cada grupo ha sido 4,8, 52, 6,2 y 4,3.
a) Hallar la nota media de todos los estudiantes.
b) ¿Cómo podría obtenerse la desviación típica?

4.8. a) Hallar la media y la desviación típica de la variable ESPM (esperanza de


vida de las mujeres) del Apéndice A.
b) Utilizar la regla de Chebychev para determinar qué porcentaje de observaciones
deben estar entre 55,7 y 783.
c) Comprobar directamente en el diagrama de tallos y hojas de la Figura 3.14 el
número de datos que cumplen esa condición.

4.9. a) Calcular la media y la desviación típica de los datos correspondientes al


grupo 2 de la variable NOTAS que aparece en el Apéndice A.
b) Establecer mediante la regla de Chebychev la proporción de observaciones que
deben aparecer entre la media menos dos desviaciones típicas y la media más dos
desviaciones típicas.
c) Construir un diagrama de tallos y hojas para estos datos.
d) Hallar directamente mediante el diagrama de tallos y hojas cuántas
observaciones verifican la condición en (b).
e) Comparar los resultados con los obtenidos en el Ejercicio 4.8. ¿A qu< se deben
12
las diferencias?

4.10. Una cadena de distribución en grandes superficies compra frutos secos en


bolsas de diez kilogramos y los envasa y comercializa en recipientes de cien gramos. Los
datos siguientes corresponden al peso real (en gramos) de contenido de quince recipientes
pequeños:

98 106 88 91 94 93 95 89 97 87 93 96 84 99 90

A continuación, se da el peso real en gramos de veinte de las bolsas que compra


la cadena:

9834 9657 9978 10122 9654 9845 9932 9846 9952 9934
9912 9734 9852 9935 9899 9898 9945 9911 9923 9834

a) Hallar la media y la desviación típica de cada uno de los conjuntos de datos.


b) ¿Tiene sentido comparar ambas desviaciones típicas?
c) ¿Qué debe utilizarse para comparar la variabilidad de ambos conjuntos?
d) ¿Cuál de los conjuntos tiene mayor variabilidad?

4.11. a) Hallar la media y la desviación típica de la variable CAPITAS en la Tabla


2.1.
b) Obtener los mismos valores a partir de la distribución de frecuencia de la Tabla
3.1
c) ¿Podrían hallarse estas cantidades utilizando la distribución de frecuencia
acumuladas de la Tabla 3?3?
d) Comentar los resultados.

4.12 a) Obtener la media y la desviación típica de los valores de la variar GTTNE


de la Tabla 11.
b) Calcular los coeficientes de asimetría y apuntamiento.
c) Hallar la media y la desviación típica de la variable a partir de distribución de
frecuencias de la Tabla 3.4.
d) Obtener los coeficientes de asimetría y apuntamiento a partir de distribución de
frecuencias de la Tabla 3.4.
e) Hallar la media y la desviación típica de la variable utilizando histograma de la
Figura 3.4.
f) Interpretar los resultados.

4.13. a) Elegir cuatro números entre cero y diez, ambos inclusive, para q tengan
la mínima desviación típica.
b) Elegir cuatro números entre cero y diez, ambos inclusive, para q tengan la
máxima desviación típica.
c) ¿Hay más de una respuesta válida para (a)? ¿Y para (b)?

También podría gustarte