Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística I
Bloque I
GRADO EN
ADMINISTRACIÓN Y
Estadística Descriptiva
DIRECCIÓN DE EMPRESAS
Aplicada a la Empresa y
Probabilidad
1.1. Introducción
1.2. Conceptos básicos
1
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Tema 1
ANÁLISIS DE UNA VARIABLE
Esta lección tiene por objeto introducir técnicas y herramientas de análisis descriptivo
cuando el interés se centra en una sola característica presente en todos los elementos
analizados. Después de una breve introducción (sección 1.1), comenzaremos a construir nuestro
edificio estadístico con la sección 1.2, asentando una serie de definiciones que resultan básicas
para el resto del curso. Así, veremos el concepto de estadística en su doble acepción y
aprenderemos a identificar la población de interés, sus elementos y su tamaño. También
definiremos lo que es un carácter y distinguiremos entre caracteres cuantitativos y cualitativos.
Aprenderemos a representar analítica y gráficamente una distribución. Para la representación
analítica aplicaremos el proceso de reducción estadística (tabulación). A partir del proceso de
tabulación obtendremos una distribución de frecuencias. Por último, aprenderemos a
representar gráficamente las distribuciones de frecuencias.
Una vez representada analítica y gráficamente una distribución, debe procederse al análisis
descriptivo de la misma. La descripción de una variable, como la de cualquier fenómeno, se
hace fijando la atención en sus características más importantes y obteniendo unos pocos
coeficientes (indicadores) asociados con esas características. Esos coeficientes son una síntesis
representativa de la distribución y permiten la comparación con otras distribuciones. Al obtener
la distribución de frecuencias de una variable se consigue reducir o condensar en pocas cifras
el conjunto de observaciones relativas a dicha variable. Pero con mucha frecuencia, el proceso
de reducción hay que continuarlo hasta su grado máximo, hasta sustituir todos los valores
observados por uno, que recibe el nombre de medida de tendencia central o promedio. A la
definición, propiedades y uso de los promedios queda consagrada la sección 3 de este tema.
En esta lección también vamos a tratar de cuantificar cuánto de representativos son tales
promedios de la distribución (sección 1.4). Esto lo haremos comprobando el grado de
concentración de los restantes valores de la variable con respecto a esos promedios, esto es,
vamos a ver si los valores están muy separados (dispersos) o si por el contrario están cercanos
unos de otros (concentrados) y por ello cercanos al promedio. Para ello definiremos medidas
de dispersión, tanto absolutas como relativas. También veremos algunas medidas o indicadores
de la forma de la distribución (asimetría) (sección 1.5). Introduciremos el concepto de momento
de una distribución, que supone una generalización de sus características.
Para finalizar, nos interesaremos por el grado de desigualdad en el reparto del total de los
valores de una variable entre los elementos de la población (sección 1.6) introduciendo algunos
instrumentos de medida de la concentración o desigualdad (curva de Lorenz e índice de Gini).
2
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
1.1. INTRODUCCIÓN
La palabra estadística tiene dos significados o acepciones. Una estadística (en minúsculas) es
una colección de datos numéricos, que se presentan de forma ordenada y sistemática. En
España, las fuentes estadísticas oficiales de ámbito nacional y autonómico forman el Sistema
Estadístico Nacional. El Instituto Nacional de Estadística (INE – www.ine.es) es el organismo
que coordina esas distintas fuentes. En Andalucía, el Instituto de Estadística y Cartografía de
Andalucía (IECA - http://www.juntadeandalucia.es/institutodeestadisticaycartografia/) es el
organismo dedicado a la producción estadística.
Por su parte, la Estadística, como ciencia, tiene como objetivo estudiar el comportamiento de
los fenómenos de masas, de cara a obtener las regularidades en ese comportamiento que
permitan describir tales fenómenos y predecir su evolución futura. Está formada por el conjunto
de métodos y técnicas que permiten la obtención, organización, síntesis, descripción e
interpretación de los datos, necesarias para la toma de decisiones en condiciones de
incertidumbre. Como se desprende de la definición, para la Estadística el hecho aislado pierde
importancia en favor del comportamiento colectivo.
Diagrama 1.1
Estadística Descriptiva e Inferencia Estadística
INVESTIGADOR
ESTADÍSTICA Afirmaciones
exhaustiva DESCRIPTIVA categóricas
(población) (seguridad)
Observación
INFERENCIA Afirmaciones
parcial ESTADÍSTICA no categóricas
(muestra, pero (pero
el interés se incertidumbre
centra en la controlada)
población)
MUNDO REAL
Fenómenos
- Variabilidad
- Incertidumbre
3
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
¿Por qué es importante la Estadística para la Economía? La Ciencia Económica tiene por
objeto el estudio del comportamiento del hombre y de la sociedad, en general, frente a estímulos
de carácter económico y social. Supongamos que mantenemos la idea de que el consumo de un
determinado producto es una función creciente de la renta de los hogares, es decir, que a mayor
renta, mayor consumo y viceversa o, por ejemplo, que la calificación en una determinada
asignatura aumenta con el número de horas que el alumno dedica a estudiarla. ¿Cómo podemos
verificar estas hipótesis? En Física, por ejemplo, podemos recrear condiciones en el laboratorio
y, sin alterarlas, repetir los experimentos cuantas veces se deseen, por lo que es posible obtener
leyes fijas o universales (por ejemplo, la Ley de la Gravedad). Pero esto no puede hacerse con
los consumidores ni con los alumnos, volviendo a los ejemplos planteados anteriormente.
Esta sección persigue revisar una serie de definiciones que resultan básicas para el resto de este
curso de Estadística y que nos permitirán hablar un lenguaje estadístico común:
Llamaremos elemento a cada uno de los entes o fenómenos que integran la población.
Ejemplos: cada uno de los hoteles de la Costa del Sol, cada uno de los centros de salud de una
región, cada uno de los alumnos de una Universidad.
Los caracteres o características son las propiedades o rasgos comunes a todos los elementos
de la población en los que se centra el interés de la investigación. Ejemplos: número de
4
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
habitaciones, número de estrellas, número de empleados, beneficios, etc. de cada uno de los
hoteles de la Costa del Sol.
Ejemplo:
Se pide identificar la población, los elementos y el carácter de interés, sabiendo que lo que se
pretende analizar es:
Los atributos a veces vienen expresados numéricamente mediante una escala nominal u
ordinal:
- Escala nominal: con los valores numéricos de este tipo de escala pueden establecerse
claramente equivalencias o diferencias, pero no se puede afirmar que uno sea superior
a otro (no se pueden ordenar). Ejemplo: sexo (hombre=0, mujer=1), religión
(1=católica, 2=protestante, 3=musulmana, etc.).
5
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
- Escala ordinal: Se tiene una medida ordinal cuando, además de incluir las propiedades
de la medida nominal (equivalencia o diferencia), se incluye la propiedad de que las
categorías pueden ser ordenadas en el sentido de menor que, mayor que o igual que. No
tienen sentido operaciones aritméticas como la sustracción o la adición. Ejemplos: grado
de satisfacción con el trabajo medida en una escala de 0 a 10, calidad de un determinado
servicio (muy mala, mala, buena, muy buena).
b) Caracteres cuantitativos: Son los que se describen por propia naturaleza mediante
números. Reciben el nombre de variables. Ejemplos: peso, altura, edad, renta. Aunque
todos los elementos poseen el mismo carácter, éste no se presenta con la misma intensidad
en cada uno de ellos. La observación de este tipo de caracteres en los distintos elementos
de la población produce números, que son los valores de la variable. Pueden medirse
mediante una escala de intervalo o de razón:
- Escala de razón: Posee las mismas características que la escala de intervalo con la
diferencia que cuentan con un cero absoluto; es decir, el valor cero representa la
ausencia total de medida, por lo que se puede realizar cualquier operación aritmética y
lógica. Este tipo de escala permite el nivel más alto de medición. Algunos ejemplos son
la altura, el peso, la longitud, el salario.
- Variables discretas: Se definen como aquellas variables que, entre dos valores
próximos, pueden tomar a lo sumo un número finito de valores. Estas variables pueden
tomar en total un número finito o infinito numerable de valores. Ejemplos: número de
contratos firmados, número de quejas recibidas, número de errores en una cadena de
producción.
Téngase en cuenta que una variable puede estudiarse en forma de atributo, pero lo
contrario no es cierto. Así, para estudiar una variable en forma de atributo basta con agrupar
los valores de la variable en categorías. Algunos ejemplos: estatura o renta (baja, media, alta).
Esas categorías son modalidades, pero ahora cabe en ellas una ordenación jerárquica (escala
6
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
ordinal), porque proceden de la agrupación de los valores de una variable. Sin embargo un
atributo no puede estudiarse como una variable, ni siquiera en el caso que las modalidades se
expresen numéricamente, puesto que esa denominación numérica será siempre meramente
convencional. Así, por ejemplo, podemos asignar números a las modalidades del estado civil
de la siguiente manera: soltero (1), casado (2), viudo (3), separado (4) y divorciado (5), pero tal
asignación es absolutamente arbitraria.
Ejemplo:
Una vez seleccionados los caracteres (atributos y variables) que vamos a investigar, se procede
a observarlos en los elementos de la población. Si se trata de una variable, la observación
consistirá en medir el valor numérico que toma en cada elemento. Los números que obtengamos
de esa medida los llamaremos observaciones, datos o valores.
b) Parcial: Se observa sólo una parte de la población y no la totalidad, bien porque la población
es infinita (ejemplo, estrellas del firmamento) o porque su tamaño es muy grande, de manera
que el coste en tiempo o dinero que supondría la observación exhaustiva resultaría
demasiado elevado. Éste es el tipo más común de observación estadística, pudiendo dividirse
en:
7
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Sin embargo, es necesario tener muy presente que con los datos de la muestra sólo
podemos conocer con total seguridad las características de esos valores muestrales; entre
éstas y las características de la población habrá siempre una diferencia, que se conoce
como error muestral. El error muestral es, pues, el que se produce por el hecho de estudiar
una característica en la muestra en lugar de en la población. Los resultados de cualquier
análisis descriptivo efectuado sobre una muestra sólo pueden ser aproximaciones a los
resultados que se tendrían si se analizaran todos los elementos de la población. Es
precisamente este error el que lleva a que las decisiones en relación con las características
poblacionales se tomen en condiciones de incertidumbre.
• Muestreo aleatorio: los elementos se eligen al azar, teniendo todos los elementos de la
población la misma probabilidad de ser elegidos como integrantes de la muestra.
Ahora podemos entender la diferencia entre censo y encuesta. El censo es una investigación
estadística en la que se observan todos los elementos de la población (observación exhaustiva).
Suelen ser operaciones de gran envergadura, realizadas de manera periódica pero distante en el
tiempo, con el objetivo de estudiar las características estructurales y más estáticas de las
poblaciones. Algunos ejemplos son el Censo de Población o el Censo de Viviendas elaborados
por el INE. Por su parte, una encuesta es una investigación estadística en la que la recogida de
la información se realiza mediante una muestra (observación parcial). Con ella se pretende
estudiar fenómenos coyunturales o más dinámicos, por lo que su periodicidad es más corta que
8
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
la del Censo (mensual, trimestral, anual). Algunos ejemplos de encuestas son la Encuesta de
Población Activa (INE), la Encuesta de Calidad de Vida en el Trabajo (Ministerio de Empleo
y Seguridad Social) y el Panel de Hogares de la Unión Europea para España (INE).
c) Datos de panel: Supone una combinación de los anteriores. En este caso se observa el
carácter de interés en varios elementos y, para cada uno de ellos, en distintos momentos del
tiempo. Cuando se fija un elemento, las observaciones asociadas son temporales, mientras
que si se fija un instante temporal, las observaciones son transversales. Ejemplo: Alumnos
matriculados anualmente en cada una de las universidades españolas en el período 1985-
2012.
La observación de los caracteres de interés (variables y/o atributos) en todos los elementos de
la población o muestra constituye la primera fase de la investigación estadística. El resultado
es, a veces, un conjunto pequeño de datos, que pueden presentarse sin necesidad de someterlos
a ningún tratamiento especial. Sin embargo, lo más frecuente es que se obtenga una gran masa
de información, difícilmente manejable sin que antes se proceda a su organización, resumen o
condensación.
9
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
gráficas son útiles para captar de un solo vistazo sus características más importantes. Como
veremos, el tipo de gráfico a utilizar viene marcado por la naturaleza del carácter que se
pretende analizar y por la manera adoptada para resumir la información.
En lo que queda de lección consideraremos que el interés del analista se centra exclusivamente
en un carácter cuantitativo, es decir, en una sola variable.
¿Cómo se obtiene y presenta una tabla estadística para una variable? Simbólicamente,
nuestra variable de interés se representará por la letra mayúscula X, mientras que para cada una
de sus posibles realizaciones (es decir, valores) se utilizará la letra minúscula x. Vamos a
suponer que contamos con un número N elevado de observaciones, lo que lleva a la necesidad
de aplicar la reducción estadística. En estas condiciones, la manera de obtener una estadística
de una sola variable depende del número de valores distintos que tome la variable, que
simbolizaremos de aquí en adelante por k. Así, podemos distinguir entre:
I. Estadísticas para datos no agrupados: son estadísticas para N grande, pero la variable de
interés toma un número k pequeño de valores distintos.
II. Estadísticas para datos agrupados en intervalos: son estadísticas para N grande, pero k
elevado.
Tabla 1.1
Distribución de frecuencias absolutas
en estadísticas para datos no agrupados
xi ni
x1 n1
x2 n2
xk nk
i =k
Total N = ∑ ni
i =1
10
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo:
Tomemos como variable a analizar la edad de los 150 jóvenes asistentes a un curso de
formación ocupacional. La tabla 1.2 recoge los datos que resultan de la observación de nuestra
variable de interés en cada uno de los elementos de la población, tal y como han sido recogidos
por el observador. Vemos que resulta difícil extraer conclusiones sobre las características de la
distribución de la edad inspeccionando los datos tal y como han sido recolectados. El número
de observaciones es elevado (N=150), lo que hace necesario organizar la información de manera
distinta, aplicando algún proceso de reducción estadística que facilite la interpretación. La clave
de este proceso reside en el hecho de que nuestra variable sólo toma 4 valores distintos (k=4),
por lo que es posible tabular la información de la manera recogida en la tabla 1.3.
Tabla 1.2
Edad de los asistentes a un curso de formación
(datos según recolección)
18 20 18 18 20 18 18 18 18 18 18 18 18 18 18
18 19 18 18 19 19 18 18 19 18 20 19 18 18 19
18 18 18 19 18 18 18 19 18 18 19 18 18 19 18
19 18 18 19 18 19 18 18 18 19 20 18 18 18 18
18 18 19 18 19 18 18 19 18 18 18 18 18 19 18
18 19 18 18 19 18 18 18 18 18 20 19 18 18 18
19 18 18 19 18 18 19 18 18 19 20 18 18 18 18
18 18 19 18 18 19 18 20 18 18 18 19 18 18 19
18 19 18 19 18 20 19 18 18 19 18 19 18 19 18
19 18 18 19 18 19 21 18 19 18 19 18 18 18 21
Tabla 1.3
Edad de los asistentes a un curso de formación
(frecuencias absolutas)
xi ni
18 100
19 40
20 8
21 2
150
Como vemos, junto a cada valor de la variable aparece el número de veces que se ha observado
entre los elementos de la población. De esta distribución pueden recuperarse los datos
originales, lo que implica que no hay pérdida de información debida a la reducción estadística.
11
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
genera un punto en el gráfico. Para su mejor visualización, se suele materializar en barras las
ordenadas correspondientes a esos puntos, de ahí que este gráfico reciba el nombre de diagrama
de barras. En la figura 1.1 se representa el diagrama de barras correspondiente a nuestro
ejemplo.
Figura 1.1
Edad de los asistentes a un curso de formación
(diagrama de barras)
ni
120
100
80
60
40
20
0
18 19 20 21 xi
12
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
i =k
Por tratarse de porcentajes, en este caso se cumple que ∑p
i =1
i = 100.
Para el ejemplo que venimos utilizando en esta sección, los cálculos indicados anteriormente
proporcionan los resultados reflejados en la tabla 1.4.
Tabla 1.4
Edad de los asistentes a un curso de formación
(frecuencias relativas)
n n
xi ni fi = i pi = i ⋅100
N N
18 100 0,667 66,7
19 40 0,267 26,7
20 8 0,053 5,3
21 2 0,013 1,3
Total 150 1 100
Se observa que los asistentes de 18 años representan una proporción del total de 0,667, es
decir, un 66,7%. De igual manera podríamos decir que la proporción de asistentes con edad
igual a 21 años es de 0,013, correspondiéndoles una presencia porcentual del 1,3%.
Se cumple que:
N1 = n1
Nk = N
ni = N i − N i -1 (salvo para i = 1).
N n +n + + ni j =i
Fi = i = 1 2 = f1 + f 2 + + fi = ∑ f j
N N j =1
13
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
j =i
Pi = Fi ⋅100 = p1 + p2 + + pi = ∑ p j
j =1
La tabla 1.5 ofrece las distribuciones de frecuencias acumuladas para nuestro ejemplo. En
esa tabla, N 2 , por ejemplo, indica que 140 asistentes tienen una edad de 19 años o inferior,
F 2 indica que la proporción que representa tales alumnos sobre el total observado es 0,933,
lo que supone un 93,3%, tal y como refleja P 2 .
Tabla 1.5
Edad de los asistentes a un curso de formación
xi ni fi Ni Fi Pi
18 100 0,667 100 0,667 66,7
19 40 0,267 140 0,933 93,3
20 8 0,053 148 0,987 98,7
21 2 0,013 150 1 100
Total 150 1
Figura 1.2
Edad de los alumnos de Estadística
(diagrama escalonado)
Ni
150
125
100
75
50
25
0
16 17 18 19 20 21 22 23 xi
14
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
La tabla 1.6 recoge las distintas distribuciones que pueden obtenerse cuando los datos no
aparecen agrupados en intervalos:
Tabla 1.6
Distribución de frecuencias para datos no agrupados
frecuencias
frecuencias frecuencias frecuencias relativas
frecuencias frecuencias relativas absolutas relativas porcentuales
valores absolutas relativa porcentuales acumuladas acumuladas acumuladas
xi ni fi pi Ni Fi Pi
n
x1 n1 f1 = 1 p1 = f1 ⋅100 N1 = n1 F1 = f1 P1 = p1
N
n
x2 n2 f2 = 2 p2 = f 2 ⋅100 N 2 = N1 + n2 F2 = F1 + f 2 P2 = P1 + p2
N
ni
xi ni fi = pi = f i ⋅100 N i = N i −1 + ni Fi = Fi −1 + fi Pi = Pi −1 + pi
N
En él se señalan las operaciones a efectuar para pasar de un tipo de frecuencia a otro. Así, por
ejemplo, para pasar de ni a pi deberemos dividir ni por N, para conseguir fi , y a continuación
multiplicar por 100.
Las trayectorias marcadas por las flechas también se pueden recorrer en sentido inverso,
efectuando la operación inversa a la indicada. Así, por ejemplo, para pasar de Pi a Fi deberemos
dividir Pi por 100.
Téngase en cuenta también que cualquier trayectoria señalada por las flechas es válida para
obtener una frecuencia a partir de otra. Así, por ejemplo, podemos tomar dos caminos
alternativos para conseguir Fi a partir de ni :
Opción 1: ni → fi → Fi
Opción 2: ni → Ni → Fi
Diagrama 2
15
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
ni acumulación
→ Ni
↓ ↓
x ()1
N
x ()
N
1
↓ ↓
fi acumulación
→ Fi
↓ ↓
x100 x100
↓ ↓
pi acumulación
→ Pi
Cuando el número total de observaciones es muy elevado y la variable de interés toma muchos
valores distintos (N y k grandes) resulta necesario agrupar los datos en intervalos antes de su
presentación mediante una tabla estadística. En general, éste resulta ser el caso de variables
continuas, aunque también es aplicable a variables discretas cuando el número de valores
distintos es muy elevado.
Para elaborarlas se procederá a agrupar los valores de la variable en clases o intervalos abiertos
por la izquierda y cerrados por la derecha, es decir, (L i-1 - L i ], salvo el primero, que será un
intervalo cerrado [L 0 – L 1 ]. La amplitud del intervalo i se define como ai = Li − Li −1 , la
diferencia entre su límite superior e inferior.
La tabla 1.7 presenta una estadística para datos agrupados genérica. Esto es también una
distribución de frecuencias ya que junto a cada intervalo i se presenta su frecuencia absoluta
(n i ), que no es más que el número de elementos de la población en los que la variable toma
valores incluidos en ese intervalo.
Tabla 1.7
Distribución de frecuencias absolutas
en estadísticas para datos agrupados
frecuencia
Intervalos absoluta
L i-1 - L i ni
[L 0 – L 1 ] n1
(L 1 – L 2 ] n2
(L k-1 – L k ] nk
i =k
Total N = ∑ ni
i =1
16
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Agrupando los datos de esta forma se gana en manejabilidad de los mismos aunque, como
contraprestación, la información después de tabulada pierde precisión, generándose lo que se
denominan errores de agrupamiento. Estos errores tienen como consecuencia que resulte
imposible reproducir los datos originales partiendo del resultado de la tabulación.
ni
hi =
ai
Lo visto hasta ahora permite identificar la principal diferencia entre las estadísticas para datos
no agrupados y las correspondientes a datos agrupados. En las primeras, la tabla recoge los
valores que toma la variable objeto de estudio, mientras que en las segundas esa información
se ha perdido parcialmente, por cuanto esos valores aparecen agrupados en intervalos. Sin
embargo, la información individual resulta necesaria para calcular características importantes
de las distribuciones, como veremos más adelante.
Para solucionar en parte este problema, cada intervalo se representa por su marca de clase,
denotada por xi , y que no es más que su punto central, calculado como la semisuma de los
límites:
L + Li
Marca de clase del intervalo i = xi = i −1
2
A partir de las distribuciones de frecuencias absolutas con datos agrupados en intervalos pueden
obtenerse las correspondientes estadísticas derivadas, tal y como refleja de manera genérica la
tabla 1.8.
17
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Tabla 1.8
Distribución de frecuencias para datos agrupados en intervalos
frecuencia
marca frecuencia frecuencia frecuencia relativa
de frecuencia frecuencia relativa absoluta relativa porcentual
Intervalos amplitud clase absoluta relativa porcentual acumulada acumulada acumulada
L i-1 - L i ai xi ni fi pi Ni Fi Pi
n
L0 – L1 a1 x1 n1 f1 = 1 p1 = f1 ⋅100 N1 = n1 F1 = f1 P1 = p1
N
n2
L1 – L2 a2 x2 n2 f2 = p2 = f 2 ⋅100 N 2 = N1 + n2 F2 = F1 + f 2 P2 = P1 + p2
N
ni
Li −1 – Li ai xi ni fi = pi = f i ⋅100 N i = N i −1 + ni Fi = Fi −1 + fi Pi = Pi −1 + pi
N
Veámoslo con un ejemplo. La tabla 1.9 recoge la distribución de frecuencias de la nota final
obtenida por un conjunto de 500 alumnos en la asignatura de Estadística. Vemos que el
recorrido de la variable aparece dividido en intervalos de igual amplitud, por lo que para la
representación gráfica colocaremos las frecuencias absolutas en el eje de ordenadas (figura 1.3).
Si unimos los puntos de la gráfica correspondientes a las marcas de clase (los puntos medios
de los segmentos superiores de los rectángulos) obtenemos el polígono de frecuencias.
Tabla 1.9
Notas de los alumnos en Estadística
(distribución de frecuencias)
Intervalos ni
0–2 30
2–4 50
4–6 320
6–8 70
8 – 10 30
Total 500
18
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Figura 1.3
Notas de los alumnos en Estadística
(histograma con intervalos de amplitud constante)
ni
350
300
250
200
150
100
50
0
0 2 4 6 8 10 xi
Supongamos ahora que las calificaciones de los alumnos se agrupan en intervalos de amplitud
variable como refleja la tabla 1.10. En tal caso, la representación gráfica de la distribución pasa
por levantar rectángulos sobre cada intervalo marcado en el eje de abscisas que tengan como
altura su densidad de frecuencia h i . De esta manera se consigue que el área de los rectángulos
representados sea proporcional a la frecuencia, requisito que ha de cumplir este tipo de
representaciones (figura 1.4).
Tabla 1.10
Notas de los alumnos en Estadística
Nota ni hi
0-5 260 52
5-7 180 90
7-9 50 25
9 - 10 10 10
Total 500
Figura 1.4
Notas de los alumnos en Estadística
(histograma con intervalos de amplitud variable)
hi
100
90
80
70
60
50
40
30
20
10
0
0 2 4 6 8 10 xi
19
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Figura 1.5
Notas en Estadística
(Polígono de frecuencias acumuladas)
Ni
500
400
300
200
100
0
-2 0 2 4 6 8 10 12 xi
Ejemplo 1:
0 1 2 1 1 2 0 1 2 1
1 0 3 0 1 0 2 0 1 3
Indique lo siguiente:
20
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Número
de personas Número
activas de familias
xi ni
0 6
1 8
2 4
3 2
Total 20
xi ni fi pi Ni Fi Pi
0 6 0,3 30 6 0,3 30
1 8 0,4 40 14 0,7 70
2 4 0,2 20 18 0,9 90
3 2 0,1 10 20 1 100
Total 20 1 100
Ejemplo 2:
21
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
h) Complete la tabla con las marcas de clase (x i ), las amplitudes de los intervalos (a i ), las
densidades de frecuencia (h i ) y el resto de distribuciones de frecuencias:
L i-1 - L i ni xi ai hi fi pi Ni Fi Pi
6-16 55 11 10 5,50 0,34 34 55 0,34 34
16-20 47 18 4 11,75 0,30 30 102 0,64 64
20-24 32 22 4 8,00 0,20 20 134 0,84 84
24-34 26 29 10 2,60 0,16 16 160 1 100
Total 160 1 100
Ejemplo 3:
Li −1 - Li ni Ni fi Fi xi
5 - 2 2 7
- 15 8 0,05
- 0,15 17,5
- 44 22,5
- 30 149
- 9 32,5
- 60 2 160
Se pide:
a) Reconstruya la tabla.
b) Obtenga el porcentaje de trabajadores con salario no superior a 1500 euros.
c) Calcule cuántos trabajadores tienen un salario superior a 3000 euros.
d) Obtenga el número de trabajadores con salario inferior o igual a 2850 euros.
e) Calcule el porcentaje de trabajadores con salario superior a 1800.
f) Calcule qué porcentaje de trabajadores saldría perjudicado si en lugar de una subida
salarial proporcional del 15% se realizara una subida lineal de 300 euros al mes.
Resolución:
a) Reconstrucción de la tabla:
Antes de resolver el ejercicio, vamos a rellenar la tabla dando a los datos que desconocemos la
notación que venimos utilizando en esta lección. Supondremos que el criterio aplicado para la
definición de los intervalos en los que queda dividido el recorrido de la variable X es el de
solapamiento de sus límites:
22
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Li −1 - Li ni Ni fi Fi xi
5 - L1 2 2 f1 F1 7
L1 - 15 n2 8 f2 0,05 x2
15 - L3 n3 N3 f3 0,15 17,5
L3 - L4 44 N4 f4 F4 22,5
L4 - 30 n5 149 f5 F5 x5
30 - L6 9 N6 f6 F6 32,5
L6 - 60 2 160 f7 F7 x7
El tamaño de la población (N) es igual a 160, puesto que esa es la frecuencia absoluta acumulada
correspondiente al último intervalo. A partir de este dato, podemos calcular de manera directa
algunas frecuencias relativas, simplemente dividiendo las frecuencias absolutas conocidas por
N. Así, por ejemplo, puede comprobarse que f 1 =0,0125 o que f 4 =0,275. Por otra parte, también
sabemos que N 2 =n 1 +n 2 , de donde n2 = N 2 − n1 = 8 − 2 = 6 y, al dividir por N=160 resulta que
f 2 =0,0375. Además, f3 = F3 − F2 = 0,15 − 0, 05 = 0,10. También sabemos que F 1 =0,0125 ya que
siempre f 1 =F 1 , y que F 7 =1, puesto que es la frecuencia relativa acumulada correspondiente al
último intervalo. Así mismo, podemos calcular F 4 =F 3 +f 4 =0,15+0,275=0,425.
L0 + L1
x1 =
2
L1 + L2 9 + 15
x2 = = = 12.
2 2
15 + L3
x3 = 17, 5 = .
2
20 + L4 30 + L6
x 4 = 22, 5 = x6 = 32, 5 = ,
2 2
23
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
N 3 = N 2 + n3 = 8 + 16 = 24 N 4 = N 3 + n4 = 24 + 44 = 68.
Tan sólo resta calcular n 5 , f 5 , F 5 , x 5 , N 6 y x 7 , tarea que se deja al lector. La tabla una vez
completada recogería los siguientes datos:
Li −1 - Li ni Ni fi Fi xi
5 - 9 2 2 0,01250 0,01250 7
9 - 15 6 8 0,03750 0,05000 12
15 - 20 16 24 0,10000 0,15000 17,5
20 - 25 44 68 0,27500 0,42500 22,5
25 - 30 81 149 0,50625 0,93125 27,5
30 - 35 9 158 0,05625 0,98750 32,5
35 - 60 2 160 0,01250 1 47,5
160 1
De nuevo observando la tabla, vemos que el número de trabajadores con salario superior a 3.000
euros es igual a 9 + 2 = 11, o lo que es lo mismo N - N 5 =160-149.
Ahora la dificultad estriba en que la cantidad en euros que nos dan en el enunciado no coincide
con ninguno de los límites de los intervalos en los que queda dividido el recorrido de la variable.
Sabemos que N 4 = 68 trabajadores tienen un salario inferior a 2500 euros. A éstos habría que
sumar el número de trabajadores con salario entre 2500 y 2850, que denotaremos por N+.
Carecemos de información sobre cómo se distribuyen los salarios de los empleados entre 2500
y 3000 euros, es decir, dentro del intervalo (25-30], pero podemos obtener una aproximación al
verdadero valor de N+ suponiendo que los salarios se distribuyen uniformemente en el intervalo.
Bajo este supuesto, se trata de tener en cuenta la siguiente relación proporcional: si en un
intervalo de amplitud 500=3000-2500 encontramos 81 trabajadores, en un intervalo de amplitud
2850-2500=350 encontraremos N+ trabajadores. Por tanto, sólo tenemos que resolver la
siguiente regla de tres:
500 → 81 81 ⋅ 350
N+ = = 56, 7
350 → N + 500
24
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
De lo anterior se deduce que el número de trabajadores con salario inferior a 2850 euros es
igual a N 4 + N + = 68 + 56, 7 = 124, 7 125.
e) Porcentaje de trabajadores con salario superior a 1800:
Sabemos que el porcentaje de trabajadores con salario superior a 1800 es igual a 100% menos
el porcentaje de trabajadores con salario inferior o igual a 1800. Para calcular esto último,
deberemos calcular en primer lugar el número de trabajadores con salario inferior o igual a
1800, de manera similar a como lo hemos hecho en el apartado anterior, y expresar el resultado
en términos porcentuales, dividiendo por N y multiplicado por 100. En definitiva, el lector
puede comprobar que el porcentaje pedido en el enunciado es 89%.
Más adelante veremos que los apartado d) y e) pueden ser resueltos aplicando el concepto de
percentil.
Una subida salarial proporcional del 15% supone aumentar un 15% el salario de cada uno de
los trabajadores. Así, si llamamos x al salario antes de la subida proporcional y x′ al salario
después de esa subida, la relación entre ambos vendrá dada por: x′ = 1,15 x. Por otra parte, una
subida lineal de 300 euros al mes supone aumentar cada salario en esa cantidad. Si llamamos
x′′ al salario después de este tipo de subida y tenemos en cuenta que nuestra variable viene
expresada en cientos de euros, tendremos que x′′ = x + 3.
Resulta inmediato calcular el salario inicial que percibe el trabajador que permanece indiferente
entre ambas subidas salariales. Este salario será aquel para el que se cumpla x′ = x′′, es decir,
1,15 x = x + 3. Despejando se obtiene que x=20 o, lo que es lo mismo, 2000 euros. Los
trabajadores con salario superior a esa cantidad saldrían perjudicados en el caso de que la subida
fuese lineal puesto que 1,15 x > x + 3 para x > 20. Se observa en la tabla que esa cantidad
coincide con el límite superior del tercer intervalo, de manera que el porcentaje que representan
N − N3 160 − 24
esos trabajadores es ⋅100 = ⋅100 = 85%.
N 160
25
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
El concepto de promedio lleva implícito la idea de variación, ya que no tiene sentido promediar
un carácter invariante. Pero el promedio ha de cumplir la condición evidente de ser
representativo del conjunto, para lo cual ha de reflejar la tendencia de las observaciones. De
aquí que a los promedios también se les denomine medidas de posición o de tendencia central,
puesto que dan idea del “nivel” o tendencia de las observaciones. Con la obtención de los
promedios no sólo se logra una visión más clara del "nivel" que alcanza la variable sino también
una mayor facilidad al hacer comparaciones entre distribuciones.
Existe un gran número de promedios que pueden ser clasificados atendiendo a si se determinan
mediante fórmulas algebraicas o no. Dentro del primer grupo destaca por su popularidad la
media aritmética. También pertenecen a él la media aritmética ponderada. 1 Dentro del segundo
grupo se incluyen la moda, la mediana y las cuantilas. Estos promedios no requieren para su
determinación de cálculos algebraicos o aritméticos, excepto para la obtención de
aproximaciones a los mismos. Se identifican por el cumplimiento de determinadas condiciones
inherentes a su definición.
Téngase en cuenta que el hecho de que existan varios promedios no quiere decir que se deban
aplicar todos para condensar la información dada en una determinada distribución. En cada caso
se utilizará el más adecuado.
1 La media cuadrática, la media geométrica y la media armónica son también promedios definidos mediante fórmula
algebraica. El cálculo de la media cuadrática está indicado cuando la variable toma valores positivos y negativos (por ejemplo,
errores de medida), la media geométrica cuando la variable es de naturaleza multiplicativa (por ejemplo, tipos de interés),
mientras que la media armónica suele ser más representativa de la distribución que la media aritmética cuando existen valores
extremos elevados (por ejemplo, tiempos o velocidades).
26
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Forma de la distribución
Ante todo conviene advertir que para estudiar la forma de la distribución de una variable se
necesita disponer de un número N de observaciones lo suficientemente grande como para poder
deducir la regularidad o forma general del comportamiento de dichas observaciones.
Partiendo de un histograma (caso más habitual), lo primero que haremos será obtener una línea
ideal mediante el suavizado de la línea superior escalonada del histograma, para así eliminar
todas las irregularidades que no se consideran significativas. Se trata, por tanto, de hacer pasar
por entre los lados superiores de los rectángulos del histograma una curva suave que muestre la
forma más general de dicho histograma (figura 1.6).
Figura 1.6
Histograma y línea ideal
ni
50
45
40
35
30
25
20
15
10
5
0
0 4 8 12 16 20 24 28 32 36 xi
La figura 1.7 recoge las formas más habituales que presentan las distribuciones de una sola
variable.
Figura 1.7
Formas más habituales de distribuciones de una sola variable
27
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Para catalogar la forma de una distribución se usa como patrón de comparación la curva
normal, también conocida como campana de Gauss, en honor del matemático que primero la
describió [curva (a) en figura 1.7]. Recibe el calificativo de normal porque presentan esa forma
las distribuciones en las que la mayor parte de las observaciones se agrupa en valores centrales
de la variable (valores “normales”), mientras que los valores extremos se presentan muy rara
vez. Las distribuciones campaniformes son muy habituales en la práctica estadística, pues son
muchas las variables que se distribuyen así. Además de campaniforme, la curva normal también
es simétrica. Aunque la siguiente no es una definición formal de simetría, diremos que una
curva es simétrica si al plegarla por un eje vertical que pase por el valor central de la variable,
las dos ramas de la curva se superponen.
Los curvas señaladas en la figura 1.7 como (b), (c), (e) y (f) también son campaniformes, pero
son asimétricas. Las curvas (b) y (c) se dice que presentan asimetría positiva o que son
asimétricas a la derecha (se menciona el lado hacia el que “apunta” la curva). Ejemplo:
distribución de la renta en un país (mucha gente agrupada en valores de renta bajos y poca en
valores altos).
Las curvas (e) y (f) presentan asimetría negativa; también se dice que son asimétricas a la
izquierda. Ejemplo: edad de los asistentes a un espectáculo de música “carroza” (pocos
espectadores jóvenes, muchos de edad media o avanzada). A su vez, los tipos (b) y (e)
representan distribuciones moderadamente asimétricas, y los (c) y (f), pronunciadamente
asimétricas.
En los tipos (d), (g) y (h) se representan distribuciones no campaniformes. La gráfica (d)
corresponde a una distribución en forma de L. Ejemplo: tamaño (número de empleados) de las
empresas españolas (gran número de empresas con pocos empleados, pocas con muchos); La
gráfica (g) corresponde a una distribución en forma de J. Ejemplo: edad de los enfermos de
arteriosclerosis. La curva (h) corresponde a una distribución en forma de U. Ejemplo: edad de
la población económicamente inactiva (muchos jóvenes estudiantes, muchos jubilados). Estos
tipos son menos frecuentes que los campaniformes. Finalmente, y de manera aún más
infrecuente, pueden presentarse curvas con más de un máximo, como es el caso de la curva
(h).
i=N
x1 + x2 + ... + xN ∑
xi
x= = i =1
N N
La media aritmética es un valor de la variable, posiblemente no observable (no tiene por qué
coincidir con ninguno de los valores observados), y se expresa en la misma unidad de medida
que aquélla. Además, su valor está siempre localizado dentro del recorrido de la variable, es
decir, no puede ser inferior al menor valor observado ni superior al mayor.
28
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
i =k
x n + x n + ... + xk nk ∑xn i i
x= 1 1 2 2 = i =1
N N
En este caso, cada valor x i de la variable se repite tantas veces como indica su frecuencia n i , de
manera que la suma de todas las observaciones iguales a x i es igual al producto x i n i . Existiendo
k valores distintos de la variable, la suma de los k productos del tipo x i n i proporciona la suma
de todos los valores observados. Resulta inmediato comprobar que también es posible obtener
la media aritmética a partir de las frecuencias relativas:
x1n1 + x2 n2 + ... + xk nk n n nk i = k
x= = x1 1 + x2 2 + + xk = ∑ xi fi
N N N N i =1
Ejemplo 1:
Tabla 1.11
Edad de los participantes en el curso
xi ni xini
18 100 1800
19 40 760
20 8 160
21 2 42
Total 150 2762
i =4
∑xn i i
2762
Aplicando la definición de media aritmética se tiene que: x = i =1
= = 18, 41 años.
N 150
Ejemplo 2:
Vamos a obtener la media aritmética de las notas obtenidas por los 500 alumnos presentados
en una convocatoria ordinaria de la asignatura de Estadística, partiendo de la distribución de
frecuencias contenida en la tabla 1.12. Puesto que los datos aparecen agrupados en intervalos,
se hace imprescindible el cálculo previo de las marcas de clase x i :
29
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Tabla 1.12
Notas en Estadística
Intervalos ni xi xini
0-2 30 1 30
2-4 50 3 150
4-6 320 5 1600
6-8 70 7 490
8 - 10 30 9 270
Total 500 2540
i =k
∑xn i i
2540
La media aritmética viene dada por: x = i =1
= = 5, 08 puntos.
N 500
Como promedio, la media aritmética simple cuenta con una serie de ventajas e inconvenientes.
Suponen ventajas el hecho de que utilice toda la información disponible (en su determinación
intervienen todos los valores de la variable), que sea única para cada distribución de frecuencias,
fácil de calcular y con interpretación intuitiva.
Uno de los principales inconvenientes reside en que los valores de la variable anormalmente
grandes o anormalmente pequeños distorsionan la media aritmética y la hacen poco
representativa (es muy sensible a los valores extremos). Además, para las variables agrupadas
en intervalos, la media aritmética se ve afectada por el error de agrupamiento, cuya magnitud
dependerá del número de intervalos, y no puede calcularse cuando los intervalos están mal
definidos, con expresiones del tipo “Más de…”, “Menos de…” o “No consta”, a no ser que se
disponga de información adicional.
i=N
∑ (x − x ) = 0
i =1
i
i =k
En el caso de distribución de frecuencias (x i , n i ): ∑ ( x − x )n
i =1
i i =0
Demostración:
i =k
i =k i =k i =k i=k i =k i =k i =k ∑xn i i
∑ ( xi − x )ni = ∑ xi ni − ∑ xni = ∑ xi ni − x ∑ ni = ∑ xi ni − Nx = ∑ xi ni − N
i =1 i =1 i =1 i =1 i =1 i =1 i =1
i =1
N
=0
ni′ = cni ⇒ x′ = x
30
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Demostración:
Si hacemos ni′ = cni , donde c es cualquier constante distinta de cero y calculamos la media
aritmética con esas nuevas frecuencias se tiene que:
i =k i =k i =k
∑ x n′ ∑ x (cn )
i i i i c ∑ xi ni
x′ = i =1
i =k
= i =1
i =k
= i =1
=x
cN
∑ n′
i =1
i ∑ (cn )
i =1
i
Gracias a esta propiedad, es posible obtener la media aritmética de una distribución utilizando
1
las frecuencias relativas (f i ) o las relativas porcentuales (p i ). Téngase en cuenta que fi = ni
N
1 1 1
con lo que c = y pi = ni ⋅100 con c = 100.
N N N
3. Los cambios de origen afectan a la media aritmética. En concreto, si a todos los valores
de una variable les sumamos (restamos) una misma cantidad a, la media aritmética también
aumenta (disminuye) en esa cantidad. Matemáticamente:
xi′ = xi + a ⇒ x′ = x + a
Tabla 1.13
Cambio de origen
xi ni xi' ni
x1 n1 x1 + a n1
x2 n2 x2 + a n2
... ... ... ...
xk nk xk + a nk
Total N Total N
i =k i =k i =k i =k i =k
∑ x′n ∑ ( x + a)n ∑ ( x n + an ) ∑ x n ∑ an
i i i i i i i i i i
x′ = i =1
= i =1
= i =1
= i =1
+ i =1
= x +a
N N N N N
Ejemplo:
31
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Tabla 1.14
Efecto del cambio de escala sobre la media aritmética simple
(Ejemplo: paso de grados Kelvin a Celsius)
xi ni xini xi′ = xi − 273 ni xi′ni
(ºK) (ºC)
303 4 1212 30 4 120
305 5 1525 32 5 160
308 7 2156 35 7 245
302 9 2718 29 9 261
Total 25 7611 Total 25 786
i =k i =k
∑ xi ni 7611 ∑ x′n i i
786
x= i =1
= = 304, 44ºK x′ = i =1
= = 31, 44ºC
N 25 N 25
4. Los cambios de escala afectan a la media aritmética. En concreto, si todos los valores de
una variable los multiplicamos (dividimos) una misma cantidad b (factor de cambio de
escala), la media aritmética también queda multiplicada (dividida) por esa cantidad.
Matemáticamente:
xi′ = bxi ⇒ x′ = bx
Tabla 1.15
Cambio de escala
xi ni xi′ ni
x1 n1 bx 1 n1
x2 n2 bx 2 n2
... ... ... ...
xk nk bx k nk
Total N Total N
Demostración:
i =k i =k i =k
∑ x′n ∑ bx n
i i i i b∑ xi ni
x′ = i =1
= i =1
= i =1
= bx
N N N
Ejemplo:
La media de una determinada variable monetaria es 2560 euros. Si dividimos por 1000 todos
los valores de la variable, para cambiar la unidad de medida a miles de euros, estaremos
haciendo un cambio de escala con factor b=1/1000. La nueva media será igual a:
32
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
1 1
x′ = bx = x= 2560 = 2,56 miles de euros.
1000 1000
xi′ = a + bxi ⇒ x′ = a + bx
Demostración:
i =k i =k i =k i =k i =k
i =n
N x + N 2 x2 + + N n xn ∑N x i i
x= 1 1 = i =1
N N
Lo que se está calculando es, como veremos a continuación, la media aritmética ponderada de
las medias de cada grupo.
Ejemplo 1:
Dividamos los alumnos de un curso de formación en dos subgrupos según su edad: de 18 a 19
años y de 20 a 21. Vamos a comprobar que la edad media puede calcularse a partir de las edades
medias de los subgrupos:
33
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo 2:
La remuneración mensual media de los empleados de una empresa es de 680 euros. Se sabe que
la remuneración media de los hombres es de 740 euros y la de las mujeres de 560. ¿Qué
porcentaje de hombres y mujeres hay en la empresa?
Resolución:
Por la propiedad 6 de la media aritmética sabemos que el salario medio del grupo de empleados
puede calcularse a partir de las medias de los subgrupos de hombres y mujeres a partir de la
siguiente expresión:
N H ⋅ xH + N M ⋅ xM
x= = pH ⋅ xH + pM ⋅ xM [1]
N
x = (1 − pM ) ⋅ xH + pM ⋅ xM
x − xH 680 − 740
pM = = = 0,333
xM − xH 560 − 740
34
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Hay distribuciones en las que todos los valores de la variable no tienen la misma importancia
relativa. En estas circunstancias, la media aritmética simple no es un promedio suficientemente
representativo de la distribución y se hace necesario calcular la media aritmética ponderada,
cuya expresión matemática es:
i =k
∑xw i i
xp = i =1
i =k
∑w
i =1
i
Ejemplo 1:
Supongamos una empresa que tiene tres plantas de producción, A, B y C. Se quiere estudiar el
coste medio por unidad (en euros/unidad) a partir de ese mismo dato en cada una de sus plantas.
Las plantas tienen distinto volumen de producción:
Pero no estamos teniendo en cuenta la mayor importancia que tiene la fábrica C que duplica la
producción de B y es 8 veces mayor que la de la fábrica A. Hay que calcular la media ponderada,
y en este caso las ponderaciones serán las producciones de cada una de las plantas:
Esta media sí refleja la realidad del coste medio por unidad para la empresa, ya que no es más
que el coste total (numerador) dividido por las cantidades producidas (denominador).
35
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo 2:
La primera columna de la tabla adjunta recoge las notas obtenidas por un alumno en las cuatro
pruebas que conforman su primer ejercicio de selectividad.
La nota media, calculada como media aritmética simple, viene dada por:
i =4
∑x i
24,8
x= i =1
= = 6, 2 puntos
N 4
Todos los alumnos saben que las notas obtenidas en esas pruebas tienen un peso distinto en la
nota final, por lo que ésta no se corresponde con la media aritmética simple sino con la media
aritmética ponderada. Teniendo en cuenta las ponderaciones recogidas en la segunda columna
de la tabla obtenemos:
i =4
∑xw i i
590, 25
xp = i =1
i =4
= = 5,9025 puntos
100
∑w
i =1
i
1.3.2. Moda
La moda es el valor de la variable que se presenta un mayor número de veces, o sea, el valor
más frecuente. Lo representaremos por el símbolo Mo y, lógicamente, viene expresado en la
misma unidad que la variable.
A diferencia de lo que ocurría con la media aritmética, no existe una fórmula general para
expresar este promedio. Para su obtención distinguiremos entre distribuciones de datos sin
agrupar y agrupados:
En distribuciones de datos no agrupados, la moda se obtiene con extremada rapidez. Una vez
localizada la mayor frecuencia n i , la moda es el valor x i de la variable al que corresponde tal
frecuencia.
36
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo:
Tabla 1.17
Edad de los participantes
xi ni
18 100
19 40
20 8
21 2
Total 150
El valor de la variable que presenta mayor frecuencia absoluta es x1 = 18, por lo que ése es el
valor modal.
a) Si los intervalos son de amplitud constante, la aproximación viene dada por la expresión:
ni +1
Mo = Li −1 + ⋅ ai
ni −1 + ni +1
donde i es la línea de la tabla que corresponde al intervalo con mayor frecuencia y que
denominamos intervalo modal.
Ejemplo:
Tabla 1.18
Intervalos ni
0-2 30
2-4 50
4-6 320 intervalo modal
6-8 70
8 - 10 30
Total 500
ni +1 70
Mo = Li −1 + ⋅ ai = 4 + ⋅ 2 = 5,17 puntos
ni −1 + ni +1 50 + 70
b) Si los intervalos son de amplitud variable hay que sustituir las frecuencias por las alturas,
de manera que la fórmula de aproximación queda:
37
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
hi +1
Mo = Li −1 + ⋅ ai
hi −1 + hi +1
donde i es la línea de la tabla correspondiente al intervalo con mayor altura, siendo éste
ahora el intervalo modal. 2
Ejemplo:
Tabla 1.19
Calificaciones de Estadística
Intervalos ni hi
0-5 260 52
5-7 180 90 intervalo modal
7-9 50 25
9 - 10 10 10
Total 500
hi +1 25
M o = Li −1 + ⋅ ai = 5 + ⋅ 2 = 5, 65 puntos
hi −1 + hi +1 52 + 25
Propiedades de la moda:
1. Los cambios de origen afectan a la moda. En concreto, si a todos los valores de una
variable les sumamos (restamos) una misma cantidad a, la moda también aumenta
(disminuye) en esa cantidad. Matemáticamente:
2. Los cambios de escala afectan a la moda. En concreto, si todos los valores de una variable
los multiplicamos (dividimos) por una misma cantidad b, la moda también queda
multiplicada (dividida) por esa cantidad. Matemáticamente:
La moda reúne varias ventajas como promedio. Así, es fácil de obtener e interpretar. Además,
no se ve afectada por la presencia de valores anormalmente grandes o pequeños de la variable.
Por último, en distribuciones para datos agrupados puede no importar para el cálculo de su
2 Las aproximaciones a la moda indicadas están basadas en dos hipótesis. La primera, que la moda se encuentra en el intervalo
que tiene mayor densidad de frecuencia y, la segunda, que la moda estará más cerca de aquel intervalo contiguo al modal que
tenga mayor frecuencia absoluta. Para una derivación de la fórmula, véase, por ejemplo, Casas Sánchez, J.M. y Santos Peñas,
J. (1996): Introducción a la Estadística para Economía y Administración de Empresas, Madrid: Editorial Centro de Estudios
Ramón Areces (pág. 90 y ss.).
38
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
aproximación que los intervalos estén mal definidos, si se puede determinar cuál es el intervalo
modal y se pueden calcular las alturas de los intervalos adyacentes a éste.
Entre sus inconvenientes destaca que en su determinación no intervienen todos los valores de
la variable puesto que basta con conocer la observación más frecuente. Sólo tiene sentido su
obtención cuando el número de observaciones es elevado. Puede ocurrir que no exista moda o
que no sea única. Cuando hay más de una moda, se dice que la distribución es plurimodal
(bimodal, trimodal, etc.). En estos casos, no tiene sentido el cálculo de esta medida de posición.
Además, el hecho de que no se defina algebraicamente impide, por ejemplo, calcular la moda
de una población a partir de las modas de sus subpoblaciones disjuntas. En distribuciones para
datos agrupados el valor de la aproximación depende de los intervalos elegidos.
1.3.3. Mediana
La mediana es aquel valor de la variable que, una vez que todos los valores observados se
ordenan de menor a mayor, ocupa el lugar central de la distribución, es decir, deja a derecha y
a izquierda el mismo número de observaciones. La mediana es el valor de la variable que
cumple tal condición y, por tanto, no se expresa mediante una fórmula matemática. Se
representará mediante el símbolo Me y por ser un valor de la variable viene expresada en la
unidad de medida que ésta.
A diferencia de lo que ocurría con la media aritmética, no existe una fórmula general para
expresar este promedio. Para su obtención distinguiremos de nuevo entre distribuciones de
datos sin agrupar y agrupados:
Si el número de observaciones es par, puede ocurrir, rara vez, que N/2 sea igual a una frecuencia
acumulada. En tal caso, la mediana se obtiene tomando la media aritmética del valor de la
variable correspondiente a dicha frecuencia y del inmediatamente siguiente.
39
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo 1:
Tabla 1.20
Obtención de la mediana
xi ni Ni
18 100 100
19 40 140
20 8 148
21 2 150
150
N
En este caso, = 75. La primera frecuencia acumulada superior a ese valor es N1 =100 , por
2
lo que Me = 18 años, puesto que es el valor de la variable asociado a dicha frecuencia
acumulada.
Ejemplo 2:
Tabla 1.21
xi ni Ni
18 35 35
19 15 50
20 25 75
21 25 100
Total 100
N
En este caso, = 50, valor que se corresponde con la frecuencia acumulada correspondiente
2
al valor 19. Por tanto:
19 + 20
Me = = 19,5 años
2
40
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo:
N
− N i −1
N 2 250 − 80
= 250 Me = Li −1 + ⋅ ai = 4 + ⋅ 2 = 5, 06 puntos
2 ni 320
Propiedades de la mediana:
1. Los cambios de origen afectan a la mediana. En concreto, si a todos los valores de una
variable les sumamos (restamos) una misma cantidad a, la mediana también aumenta
(disminuye) en esa cantidad. Matemáticamente:
2. Los cambios de escala afectan a la mediana. En concreto, si todos los valores de una
variable los multiplicamos (dividimos) por una misma cantidad b, la mediana también queda
multiplicada (dividida) por esa cantidad. Matemáticamente:
La mediana cuenta con una serie de ventajas como medida de posición central. En primer lugar,
siempre existe y es única, fácil de calcular e interpretar. En segundo lugar, la mediana no se ve
influida por los valores extremos de la variable, ya que no depende de los valores en sí mismos
sino de su orden. Por ello, su uso es más adecuado que la media aritmética en distribuciones
campaniformes fuertemente asimétricas, o en distribuciones en forma de L o de J. Por último,
41
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
en caso de intervalos abiertos, puede calcularse sin problema ya que en su cálculo no intervienen
los valores extremos, sino tan sólo se hace uso del intervalo mediano.
Una vez vistos de manera separada los principales promedios de una distribución (media
aritmética, moda y mediana), conviene pasar revista a algunas cuestiones que afectan a todos
ellos. Hay que tener en cuenta que, para una misma distribución de frecuencias, rara vez
coincidirán los valores obtenidos para los tres promedios. Esto plantea una cuestión importante,
a saber: ¿qué promedio debe utilizarse en cada caso?
Recordemos en primer lugar que un promedio tiene por objeto obtener un valor de la variable
alrededor del cual se distribuyen las observaciones. Esta condición se cumple muy bien en las
distribuciones campaniformes moderadamente asimétricas. Por tanto, puede afirmarse que
si la distribución exhibe tal forma, los tres promedios son representativos del conjunto de las
observaciones. En este caso, es difícil señalar una preferencia de uno sobre otro desde el punto
de vista de su representatividad. Pero si atendemos a sus restantes propiedades, el mejor
promedio en esa situación es la media aritmética por sus propiedades algebraicas y de
estabilidad en el muestreo. 3 Lógicamente, en el caso extremo de distribución campaniforme
simétrica, los tres promedios coinciden.
Por otra parte, si la distribución tiene forma de U, los tres promedios tienen poca fuerza
representativa. Generalmente, las distribuciones de esta forma suelen ser difíciles de tratar
desde el punto de vista de los promedios.
Recordemos, además, que la moda es el único promedio que puede obtenerse en el caso de
distribuciones de atributos. Sus modalidades no pueden ser manipuladas algebraicamente ni
entre ellas existe un orden jerárquico natural, por lo que no tiene sentido hablar de media ni de
mediana.
Finalizaremos este apartado comentando la relación que existe entre estos tres promedios en
distribuciones campaniformes unimodales. La figura 1.8 ilustra tal relación. Como ya
sabemos, cuando existe simetría se cumple que x = Me = Mo, lo que ocurre en la distribución
B del gráfico. Si la distribución presenta asimetría a la derecha, entonces se cumple que
x > Me > Mo (distribución A). Cuando la asimetría es negativa o a la izquierda la relación entre
los tres promedios es x < Me < Mo. Ello es así porque el promedio que más se ve influido por
3
Aunque la siguiente definición de estabilidad en el muestreo no es técnica, puede ayudar a captar la intuición que hay detrás
de tal propiedad: se dice que un promedio es estable en el muestreo si los valores que arroja para distintas muestras aleatorias
obtenidas de una misma población están próximos entre sí. Esta cuestión se abordará de una manera más precisa en la segunda
parte de este curso.
42
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
los valores extremos es la media aritmética (los valores situados en la cola de la distribución
“tiran” del la media hacia esa cola).
Figura 1.8
Relación entre media, mediana y moda
en distribuciones campaniformes unimodales
A B C
1.3.4. Percentiles
Como ya sabemos, la mediana es una media de posición que deja a derecha e izquierda el mismo
número de observaciones, una vez que éstas han sido ordenadas de menor a mayor. Es, pues,
una medida de posición central. En realidad la mediana pertenece a un grupo amplio de medidas
de posición denominado genéricamente como cuantiles o cuantilas, en el que se incluyen
también medidas de posición no centrales.
Los cuantiles son valores de la variable que dividen su recorrido en una serie de partes,
conteniendo cada una de ellas el mismo número de observaciones. A diferencia de la mediana,
los cuantiles lo dividen en más de dos partes. Los más utilizados son los cuartiles, las decilas o
deciles y las centilas o percentiles. A continuación nos centraremos en estos últimos.
Las centilas o percentiles son los 99 valores de la variable que dividen su recorrido en 100
partes que contienen el mismo número de observaciones (1% del total). Hay, por tanto, 99
percentiles. Llamamos percentil j, con j = 1, 2, …,99, y lo denotaremos por C j al valor
numérico de la variable que deja por debajo de sí el j% de las observaciones. Teniendo en
cuenta que el percentil C50 deja el 50% de las observaciones por debajo, se tiene que C50 = Me.
El modo de obtenerlos es similar al utilizado para la mediana con la única diferencia de que en
lugar de tomar N/2 como referencia, se usará N/100, 2N/100,…, ó 99N/100 según corresponda.
Así, por ejemplo, el percentil 35 (C 35 ) en distribuciones con datos no agrupados en intervalos,
es el primer valor de la variable cuya frecuencia acumulada es mayor que 35N/100.
43
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo 1:
Tabla 1.23
xi ni Ni
1 83 83
2 115 198 → C35
3 172 370
4 69 439 → C92
5 14 453
6 8 461
Total 461
35 N 35 ⋅ 461 92 N 92 ⋅ 461
= = 161,35 ⇒ C35 = 2 = = 424,12 ⇒ C92 = 4
100 100 100 100
Para estadísticas con datos agrupados, se calcula en primer lugar el intervalo cuya frecuencia
absoluta acumulada sea mayor o igual que jN/100 y que es el intervalo que contiene el percentil
j. Posteriormente, para lograr un valor aproximado, se aplica la fórmula de aproximación
siguiente:
jN
− N i −1
C j = Li −1 + 100 ⋅ ai para j = 1, 2,...,99
ni
Ejemplo 2:
Tabla 1.24
Intervalos ni Ni
0 - 10 8 8
10 - 20 21 29
20 - 50 37 66
50 - 100 45 111
100 - 150 58 169 intervalo para C74
150 - 200 39 208
Total 208
jN 74 ⋅ 208
Vemos que = = 153,92 , luego el intervalo que contiene el percentil C74 es el
100 100
señalado en la tabla. Aplicando la fórmula de aproximación sobre ese intervalo se tiene:
153,92 − 111
C74 = 100 + ⋅ 50 = 137
58
44
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Algunos percentiles se conocen también con otros nombres: cuartiles y deciles (cuartilas y
decilas). Los cuartiles (Q i ) son los tres valores de la variable que dividen su recorrido en cuatro
partes, conteniendo cada una de ellas el 25% de las observaciones. Por su parte, los deciles (D i )
son los 9 valores de la variable que dividen su recorrido en diez partes, conteniendo cada una
de esas partes el 10% de las observaciones. Teniendo en cuenta estas definiciones, la
correspondencia de cuartiles y deciles con los percentiles es la siguiente:
Ejemplo 3:
La distribución de la renta salarial anual, en miles de dólares, en una determinada empresa es:
Intervalos ni
40 - 60 12
60 - 70 15
70 - 75 7
75 - 80 3
80 - 90 3
Total 40
Obtenga:
a) el mayor salario que cobran los empleados peor pagados y que suponen la mitad del total de
empleados.
b) los salarios que definen el intervalo centrado en el recorrido de la variable que agrupa el 40%
de la distribución.
Resolución:
a) Mayor salario que cobran la mitad de los empleados que menos cobran:
En este primer apartado nos solicitan que calculemos el valor de la mediana, puesto que ésta
divide el recorrido de la variable en dos partes que contienen cada una de ellas el 50% de las
observaciones. Recordemos que para el cálculo de este promedio debemos obtener previamente
la columna de frecuencias absolutas acumuladas:
Intervalos ni Ni
40 - 60 12 12
60 - 70 15 27
70 - 75 7 34
75 - 80 3 37
80 - 90 3 40
Total 40
45
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Una vez hecho esto, calculamos nuestro valor de referencia para el cálculo de la mediana, esto
N
es, = 20 y localizamos la primera frecuencia acumulada que supera tal referencia. Vemos
2
que esto ocurre por primera vez para el segundo intervalo, de manera que éste es el intervalo
mediano. Aproximaremos el valor de la mediana aplicando la siguiente fórmula:
N
− N i −1
20 − 12
Me = Li −1 + 2 ⋅ ai = 60 + ⋅10 = 65, 3 = 65.333 dólares.
ni 15
b) Salarios que definen el intervalo centrado en el recorrido de la variable que agrupa el 40%
de la distribución.
En este apartado nos piden los deciles 3 y 7 puesto que el intervalo [D 3 , D 7 ] es el intervalo
centrado en el recorrido de la variable que agrupa el 40% de la distribución. Las referencias
3N 7N
para calcular estas medidas de posición son, respectivamente, = 12 y = 28. En el caso
10 10
del decil 3, la frecuencia acumulada del primer intervalo iguala la referencia, de manera que el
valor de ese decil es igual al límite superior del intervalo. Comprobémoslo:
3N
− N i −1
10 12 − 0
D3 = Li −1 + ⋅ ai = 40 + ⋅ 20 = 60 = 60000 dólares.
ni 12
En el caso del decil 7, el intervalo cuya frecuencia acumulada supera la referencia es el tercero,
de manera que sobre él aplicaremos la fórmula de aproximación de la siguiente manera:
7N
− N i −1
28 − 27
D7 = Li −1 + 10 ⋅ ai = 70 + ⋅ 5 = 70, 714 = 70714 dólares.
ni 7
46
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
En el epígrafe anterior se han definido una serie de medidas de tendencia central o promedios,
que no eran otra cosa que valores de la variable que pretenden representar por sí mismos a toda
una distribución. En este epígrafe vamos a tratar de cuantificar cuánto de representativos son
tales promedios de la distribución a partir de la cual se han obtenido. Esto lo haremos
cuantificando el grado de separación de los restantes valores de la variable con respecto a esos
promedios, esto es, vamos a ver si los valores están muy separados (dispersos) o si por el
contrario están cercanos unos de otros (concentrados) y por ello cercanos al promedio. Para ello
definiremos medidas de dispersión, tanto absolutas como relativas.
Las medidas de dispersión dan idea de la representatividad del promedio, de ahí que se
proponga que todo promedio debe ir acompañado de una medida de dispersión. Éstas medidas
se clasifican en dos categorías: absolutas y relativas. Las medidas absolutas de dispersión
vienen expresadas en la misma unidad de medida que la variable en cuestión y, por tanto, no
son adimensionales. En consecuencia, y como veremos más adelante, son sensibles ante
cambios de escala, de manera que un cambio de unidad de medida de la variable afecta a su
valor. Dentro de este grupo estudiaremos los recorridos (el recorrido y los recorridos
intercuantílicos), la varianza y la desviación típica. Por su parte, las medidas relativas de
dispersión carecen de unidad de medida (son adimensionales) lo que permite hacer
comparación de dispersión entre distribuciones de variables expresadas en distintas unidades
de medida. Repasaremos la definición y propiedades de la más importante de ellas, el
coeficiente de variación de Pearson.
a) Recorridos
El recorrido (R) de una variable se define como la diferencia entre el mayor y el menor valor
que toma. Matemáticamente:
R = max( xi ) − min( xi )
Tomando como ejemplo la distribución recogida en la tabla 1.23, el recorrido vendrá dado por
R = max( xi ) − min( xi ) = 6 − 1 = 5. En distribuciones para datos agrupados, el recorrido vendrá
dado por la diferencia entre el límite superior del último intervalo y el límite inferior del primer
intervalo. Así, la distribución representada en la Tabla 1.24 tiene como recorrido
R = max( xi ) − min( xi ) = Lk − L0 = 200 − 0 = 200.
La idea que subyace a la utilización del recorrido como medida de dispersión es simple: cuanto
mayor es el recorrido, mayor es el campo de variación de la variable y también su dispersión.
Pero es una medida de dispersión bastante burda, que debe considerarse sólo como una primera
aproximación, dado que en su definición no interviene ningún promedio. 4 Por supuesto, el
recorrido viene expresado en la misma unidad de medida que la variable objeto de análisis.
4
Sólo tendría pleno sentido como medida de dispersión en el caso de distribuciones uniformes.
47
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
mínimo) y que se ve muy influenciada por los valores extremos de la variable, ya que depende
directamente de ellos. Basta con que esos dos valores estén anormalmente alejados de los
restantes (anormalmente altos o bajos) para que se tenga una impresión falsa de la dispersión.
Este inconveniente hace que se utilicen otros recorridos, los recorridos intercuantílicos,
definidos a partir de los cuantiles. Así tenemos:
• Recorrido interdecílico: Diferencia entre el último y el primer decil. Por tanto, elimina
para el cálculo del recorrido el 20% de las observaciones.
RD = D9 − D1
RQ = Q3 − Q1
b) Varianza
di ( x ) = xi − x para i = 1,..., N
Como hay N observaciones, habrá N desviaciones como la anterior. Si los valores de la variable
están muy concentrados alrededor de la media, entonces las desviaciones di ( x ) serán de poca
magnitud, mientras que si se encuentran muy dispersos, tales desviaciones serán elevadas. Una
vez percatados de ello, el siguiente paso consistiría en resumir las N desviaciones en un único
número, que será nuestro indicador de dispersión.
Para sintetizar las desviaciones d i ( x ) en un solo número podemos calcular algún promedio
de las mismas, que será nuestra medida de dispersión. El promedio que escojamos debe cumplir
48
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
la condición de tomar valores elevados cuando la distribución esté muy dispersa en relación a
la media x y viceversa. Esta exigencia hace que no podamos utilizar la media aritmética de las
desviaciones como indicador de dispersión. La media aritmética de las desviaciones di ( x ) , esto
es, d ( x ), es siempre igual a cero ya que la suma de las desviaciones de los valores de la variable
respecto a x es igual a cero (propiedad 1 de la media aritmética):
i=N i=N
∑ d (x ) ∑ (x − x )
i i
d (x ) = i =1
= i =1
= 0.
N N
Hay, pues, que elegir un promedio distinto de la media aritmética para aplicarlo a las N
desviaciones que haga que no se compensen en la suma las desviaciones positivas con las
negativas. Una alternativa consiste en calcular la media aritmética del cuadrado de las
desviaciones. Esta medida recibe el nombre de varianza (S2), siendo su expresión matemática
la siguiente:
i=N i=N
∑ [ d ( x )] ∑(x − x )
2 2
i i
S2 = i =1
= i =1
N N
La varianza nos indica, pues, la dispersión o desviación de los variable respecto a la media
aritmética. Dado que se trata de una media de cantidades positivas (diferencias elevadas al
cuadrado), la varianza es siempre positiva. Cuanto mayor sea la varianza, mayor será la
dispersión de la variable y menos representativa será la media aritmética como promedio de
todos los valores. Obsérvese también que la varianza viene expresada en la unidad de medida
de la variable, elevada al cuadrado.
La fórmula anterior puede aplicarse directamente para calcular la varianza, pero resulta más
fácil de aplicar la siguiente, que se deduce fácilmente de aquella:
i=N
∑x i
2
S2 = i =1
− x2
N
i =k i =k
∑ ( xi − x ) ∑x
2 2
ni i ni
S =
2 i =1
= i =1
− x2
N N
49
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo 1:
primeras columnas, productos que figuran en la tercera columna. A partir de ella obtendremos
la media aritmética de la distribución. El segundo sumatorio, que aparece al final de la cuarta
columna, es el resultado de sumar los productos de la primera columna (x i ) por la tercera (x i n i ).
Con estos datos, ya podemos calcular la varianza:
Tabla 1.26
Número de personas
económicamente activas
en 50 familias
xi ni xini x i 2n i
1 16 16 16
2 20 40 80
3 9 27 81
4 5 20 80
Total 50 103 257
i =k
∑xn i i
103
x= i =1
= = 2, 06 personas activas
N 50
i =k
∑x i
2
ni
257
− ( 2, 06 ) = 0,896 (personas activas) 2
2
S =
2 i =1
− x2 =
N 50
Ejemplo 2:
Tabla 1.27
Notas en Estadística
de los alumnos de GADE
Intervalos ni xi xini x i 2n i
0–2 30 1 30 30
2–4 50 3 150 450
4-6 320 5 1600 8000
6–8 70 7 490 3430
8 - 10 30 9 270 2430
Total 500 2540 14340
50
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
i =k
∑xn i i
2540
x= i =1
= = 5, 08 puntos
N 500
i =k
∑x i
2
ni
14340
− ( 5, 08 ) = 2,87 (puntos) 2
2
S =
2 i =1
− x2 =
N 500
Propiedades de la varianza:
S2 ≥ 0
La varianza no puede ser negativa puesto que se trata de la media de cantidades positivas. Será
igual a cero si y sólo si todas las desviaciones respecto a la media sean iguales a cero, es decir,
cuando todos los valores de la variable coinciden entre si y, por tanto, son iguales a la media
aritmética ( xi = x , ∀i ).
xi′ = xi + a ⇒ S X2 ′ = S X2
Demostración:
Partimos de una variable X cuya varianza, como ya sabemos, tiene la siguiente expresión:
i =k
∑(x − x )
2
i ni
S =
2
X
i =1
N
Un cambio de origen afecta a la media aritmética de la siguiente manera: x′ = x + a, por lo que
la varianza de la nueva variable X’ es:
i =k i =k i =k
∑ ( x′ − x′ ) ∑ ( x + a) − ( x + a) ∑(x − x )
2 2 2
i ni i ni i ni
S 2
X′ = i =1
= i =1
= i =1
= S X2
N N N
xi′ = bxi ⇒ S X2 ′ = b 2 S X2
51
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Demostración:
i =k i =k i =k i =k
j =n
Nj
S2 = ∑ S 2j + ( x j − x )
2
j =1 N
donde:
Demostración: No se ofrece.
La varianza como medida de dispersión presenta como ventajas el hecho de estar definida de
manera objetiva, utilizar toda la información y prestarse al cálculo algebraico. Pero también
tiene una serie de inconvenientes. Así, no sirve para comparar dispersiones de distribuciones
con distintas medias aritméticas o expresadas en distintas unidades de medida. Además, en el
caso de distribuciones con datos agrupados, su valor depende del criterio de agrupación en
intervalos seguido y no puede obtenerse cuando éstos están mal definidos. Por último, y como
ocurría con la media, su valor es muy sensible a la presencia de valores anormales de la variable.
c) Desviación típica
Uno de los inconvenientes de la varianza es que la unidad en que viene expresada es el cuadrado
de la unidad de medida de la variable, lo que dificulta su interpretación. Para evitar este
problema, se utiliza como media de dispersión su raíz cuadrada, que recibe el nombre de
desviación estándar o desviación típica.
La desviación típica se define como la raíz cuadrada positiva de la varianza (recordemos que
todo número positivo tiene dos raíces cuadradas, ambas con el mismo valor absoluto pero con
distinto signo) y viene expresada, por tanto, en la misma unidad de medida que la variable:
S = + S2
52
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo:
El presente cuadro muestra el cálculo de las desviaciones típicas para los ejemplos introducidos
en el apartado dedicado a la varianza:
Desviación
Media Varianza típica
aritmética
(S = + S )
Variable
(x ) (S 2 ) 2
xi′ = xi + a ⇒ SX ′ = SX
Demostración:
S X ′ = + S X2 ′ = + S X2 = S X
xi′ = bxi ⇒ SX ′ = b SX
Demostración:
S X ′ = + S X2 ′ = + b 2 S X2 = b S X
Cuando se trata de variables económicas, lo normal es efectuar cambios de escala en los que
intervienen constantes b positivas, por lo que no hará falta especificar el valor absoluto.
53
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Como se ha indicado anteriormente, aunque las medidas absolutas de dispersión son adecuadas
para medir la dispersión de una distribución, no lo son tanto para comparar la dispersión entre
distribuciones distintas, sobre todo cuando tenemos variables medidas en distintas unidades y/o
con medias aritméticas diferentes.
Veamos esto con un ejemplo. Consideremos dos distribuciones de edad, para las que se han
obtenido los siguientes datos:
La pregunta que nos hacemos es: ¿cuál de estas dos distribuciones presenta mayor dispersión?
Es cierto que la primera de ellas tiene una menor desviación típica, pero también presenta una
media inferior. ¿Una desviación media de 4 años, que es lo que nos indica la desviación típica
de la primera distribución, sobre una media de 20 años indica mayor o menor dispersión que
una desviación media de 5 años sobre una media de 50 años?
S
CV = (100)
x
54
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
el inconveniente de que dicho coeficiente no está acotado por la derecha, lo cual no permite
señalar con firmeza cuando la media es representativa o deja de serlo. Como regla aproximada
si CV <0,5 (<50%), diremos que la media es representativa, mientras que si CV > 0,5 (>50%)
cuestionaremos su representatividad. En cualquier caso, si CV > 1 (>100%), la media no es
representativa y se rechaza como promedio.
Ejemplo 1:
Analicemos, en primer lugar, la representatividad de las medias de edad del ejemplo arriba
señalado. Como sabemos, para ello debemos calcular sus correspondientes coeficientes de
variación:
SX 4 años
1ª) CVX = = = 0, 2
x 20 años
SY 5 años
2ª) CVY = = = 0,1
y 50 años
De los cálculos efectuados se concluye que las dos medias aritméticas son representativas de
sus respectivas distribuciones puesto que no superan el límite de 0,5. Pero ¿cuál es más
representativa? O dicho de otro modo, ¿qué distribución presenta menor dispersión (es más
homogénea)? Comparando los coeficientes obtenidos concluimos que la segunda distribución
presenta menor dispersión relativa y, por lo tanto, su media es más representativa de su
correspondiente distribución.
Ejemplo 2:
Vemos que las variables se expresan en distintas unidades de medida, lo que impide que se
puedan comparar entre sí las medias y las desviaciones típicas. Pero recordemos que, aunque
viniesen expresadas en la misma unidad de medida, tampoco podríamos compararlas, pues las
medias no son iguales. Para hacerlo, tenemos que calcular los respectivos coeficientes de
variación.
55
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
SX 5000 SY 5000
CVX = = = 0, 455 CVY = = = 0, 667
x 11000 y 7500
Ejemplo 3:
La región B tiene, por término medio, 22000 habitantes por municipio, con una desviación
estándar de 5000 habitantes. ¿En cuál de las dos regiones la distribución de municipios según
tamaño es más homogénea?
La respuesta a esta pregunta pasa por comparar los coeficientes de variación de ambas
distribuciones. Para la región B se tiene que:
SB
xB = 22 ⋅103 hab. S B = 5 ⋅103 hab. ⇒ CVB = ⋅100 = 22, 7%
xB
Para la región A, puede comprobarse que:
SA
x A = 10,89 ⋅103 hab. S A = 50,39 ⋅103 hab. ⇒ CVA = ⋅100 = 462, 7%
xA
Se concluye que en la región B la distribución de los municipios según tamaño es más
homogénea puesto que presenta menor coeficiente de variación. Obsérvese, además, que la
media aritmética es representativa de su distribución en la región B (CVB = 22, 7% < 50%) pero
nada representativa en la región A (CVA = 462, 7% > 100%).
Demostración:
56
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
x′ = x +a
xi′ = xi +a ⇒
SX ′ = SX
Sustituyendo en la fórmula que define el coeficiente de variación se tiene que:
SX ′ S
CVX ′ = = X ≠ CVX
x′ x + a
x′ = bx
xi′ = bxi ⇒
S X ′ = bS X
Sustituyendo en la fórmula que define el coeficiente de variación se tiene que:
S X ′ bS X
CVX ′ = = = CVX
x′ bx
X −x
Z=
SX
Por lo tanto, cada uno de los valores z i de la variable Z está relacionado con un valor x i de la
variable X, mediante la siguiente expresión:
xi − x di ( x )
zi = =
SX SX
Nótese que al tipificar una variable la estamos sometiendo a dos cambios de manera
consecutiva, el primero de origen (restar x ) y el segundo de escala (dividir por S X ).
Propiedades de la variable tipificada:
57
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Demostración:
i =k i =k
xi − x 1 i =k
∑ zi ni ∑ SX
ni
S
∑(x − x )n
i i i =k
z= i =1
N
=
i =1
N
= X i =1
N
= 0 puesto que ∑(x − x )n
i =1
i i =0
Demostración:
2
i =k i =k i =k
xi − x 1 i =k
∑ ( zi − z )2 ni ∑ zi2 ni ∑ ∑(x − x )
2
ni i ni
i =1 SX S X2 i =1 1 2
S =
2
Z
i =1
= i =1
= = = SX = 1
N z =0 N N N S X2
Las variables tipificadas no son ni un promedio ni una medida de dispersión pero permiten
realizar comparaciones entre observaciones individuales aunque correspondan a distribuciones
distintas. Para dejar esta utilidad clara veamos un ejemplo:
Ejemplo:
Un estudiante de 1ºA obtuvo una nota en el examen de Matemáticas de 7,2 y otro estudiante
de 1ºB sacó un 6,3 en ese mismo examen. Se sabe además que:
x A = 6, 7 puntos S A = 2, 2 puntos
xB = 5,8 puntos S B = 1,3 puntos
La pregunta es: ¿cuál de los dos alcanzó una mejor posición relativa dentro de su grupo?
Si nos limitamos a comparar las dos notas, la conclusión inmediata es que el alumno de 1ºA
obtuvo mejor resultado en el examen. Pero aunque esta conclusión no es falsa, lo cierto es que
no podemos comparar directamente esas notas, pues proceden de dos poblaciones distintas con
distintas medias y varianzas. Para poder compararlas, deberemos obtener previamente los
valores tipificados, esto es:
7, 2 − 6, 7 6,3 − 5,8
zA = = 0, 227 zB = = 0,384
2, 2 1,3
Ahora observamos que, aunque el alumno del grupo B obtuvo menor nota, ocupa mejor
posición relativa entre los alumnos de su grupo.
Para finalizar este epígrafe, recordemos que cuando queramos comparar la variabilidad o
dispersión de dos distribuciones o conjuntos de datos utilizaremos el coeficiente de variación.
Sin embargo, cuando queramos comparar dos individuos (elementos) concretos de poblaciones
distintas utilizaremos la tipificación.
58
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
En la introducción del epígrafe 1.3 ya se dijo que la forma es una característica importante de
cualquier distribución. En aquel momento nos limitamos a revisar las formas que más
habitualmente se presentan. También se aportó una definición intuitiva de simetría. Así, dijimos
que una distribución es simétrica si existe un eje vertical que divida su gráfica en dos partes de
tal manera que doblando el papel por tal eje, ambas partes se superponen. En esta sección damos
un paso más a este respecto, puesto que lo que pretendemos es mostrar cómo podemos
cuantificar el grado de asimetría que presenta una distribución.
Comencemos proporcionando una definición más formal de simetría. Diremos que una
distribución es simétrica cuando para cada valor situado a la derecha de la media encontramos
otro a su izquierda, a la misma distancia de la media y con la misma frecuencia. En caso
contrario, la distribución es asimétrica. Recordemos también, con ayuda de la figura 1.9, que
una distribución es asimétrica positiva o a la derecha si las frecuencias más altas se encuentran
en el lado izquierdo de la distribución, mientras que en el derecho hay frecuencias más pequeñas
(cola de la distribución). Presentará asimetría negativa o a la izquierda en caso contrario,
quedando la cola en el lado izquierdo.
Figura 1.9
Asimetría de una distribución
A B C
La primera medida o indicador de asimetría que vamos a ver es una medida absoluta (no
adimensional), definida como la diferencia entre la media aritmética y la moda. Esta medida
se basa en el hecho de que la media es el centro de gravedad de la distribución y la moda es el
valor donde la distribución alcanza su máximo. Para las distribuciones campaniformes y
unimodales, que recordemos que es el tipo más usual de forma, ya se señaló que:
Por tanto, la diferencia entre media aritmética y moda sirve como indicador de asimétrica para
este tipo de distribuciones, de tal manera que:
59
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Este primer indicador viene expresado en la misma unidad de medida que la variable (no es
adimensional), por lo que se ve afectado por cambios de escala y no puede utilizarse para
realizar comparaciones entre distribuciones de variables expresadas en distintas unidades de
medida. Para conseguir una medida relativa (adimensional) siguiendo este mismo criterio,
utilizaremos el coeficiente de asimetría de Pearson, definido por la siguiente fórmula:
x − Mo
Ap =
S
Este coeficiente de asimetría tiene el mismo signo que x − Mo , puesto que el denominador es
siempre positivo.
Aunque está medida de simetría resulta altamente intuitiva, es necesario tener presente que sólo
puede aplicarse a distribuciones campaniformes y unimodales. Podemos construir un indicador
de asimetría aplicable a cualquier tipo de distribución teniendo en cuenta si los valores de
la variable están en su mayoría a un lado u otro de la media aritmética o, por el contrario,
equitativamente repartidos en torno al citado promedio (simetría). Esta idea sugiere que puede
utilizarse como indicador de asimetría algún promedio de las desviaciones ( xi − x ). Como
medida absoluta de asimetría puede servir:
i =k
∑ (x − x ) n
i
3
i
m3 = i =1
,
N
que, como veremos más adelante, es el momento de orden tres con respecto a la media. Al
tomar una potencia impar de las desviaciones, se mantiene el signo de las que dominan. Por
tanto:
60
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
hacerse comparaciones entre distribuciones. Para superar estos inconvenientes, Fisher propuso
como coeficiente de asimetría el siguiente:
m3
γ1 =
S3
lo que proporciona una medida adimensional, preservando el signo de m3 , puesto que S3 >
0, de tal manera que:
Además, es invariante tanto ante cambios de escala como de origen, lo que debería poder ser
demostrado sin dificultad. Este coeficiente es de mayor aplicación que el de Pearson pues es
aplicable de manera general a cualquier tipo de distribución.
Aunque éstos son los coeficientes de asimetría más importantes, existen otros que no veremos
aquí, como el coeficiente absoluto de asimetría y el coeficiente de asimetría de Bowley.
Los momentos de una distribución son unas medidas que la caracterizan de manera única, de
tal modo que dos distribuciones son iguales si tienen todos sus momentos iguales, y son tanto
más parecidas cuanto mayor sea el número de momentos iguales que tengan.
El momento con respecto al origen de orden r se representa por a r y tiene la siguiente expresión
genérica:
i =k
∑x n r
i i
ar = i =1
con r = 0,1, 2,3,...
N
Dando valores a r obtenemos los distintos momentos con respecto al origen. Así, por ejemplo:
i =k
∑x n 0
i i
N
r = 0: a0 = i =1
= =1
N N
61
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
i =k
∑x n 1
i i
r = 1: a1 = i =1
=x
N
i =k
∑x n 2
i i
r = 2: a2 = i =1
, presente en la fórmula de cálculo de S2.
N
i =k
∑x n 3
i i
r = 3: a3 = i =1
i =k
∑x n 4
i i
r = 4: a4 = i =1
,
N
i =k
∑(x − x )
r
i ni
mr = i =1
con r = 0,1, 2,3,...
N
De nuevo, dando valores a r obtenemos los distintos momentos con respecto a la media. Así,
por ejemplo,
i =k
∑(x − x )
0
i ni
N
r = 0: m0 = i =1
= =1
N N
i =k
∑(x − x )
1
i ni
r = 1: m1 = i =1
=0
N
i =k
∑(x − x )
2
i ni
r = 2: m2 = i =1
= S2
N
i =k
∑(x − x )
3
i ni
r = 3: m3 = i =1
, que se utiliza como coeficiente de asimetría.
N
62
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
i =k
∑(x − x )
4
i ni
r = 4: m4 = i =1
, que interviene en el coeficiente de curtosis
N
(apuntamiento o achatamiento de la distribución).
Todos los momentos respecto a la media se pueden expresar en función de los momentos
respecto al origen:
h=r r
mr = ∑ (−1) h ( a1 )
h
ar − h .
h =0 h
En particular, para los momentos con respecto a la media de orden 2, 3 y 4, esa expresión
general se traduce en:
m2 = a2 − a12
m3 = a3 − 3a1a2 + 2a13
m4 = a4 − 4a1a3 + 6a12 a2 − 3a14
63
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
En este último apartado se presenta uno de los métodos estadísticos especialmente concebidos
para ser aplicados a la Economía. La desigualdad o concentración es un fenómeno casi
exclusivamente económico, utilizándose, sobre todo, para analizar la distribución de los salarios
de una empresa o sector, la distribución de las rentas de una comunidad, la concentración
industrial de un sector determinado, etc.
En esta lección nos referimos a concentración en un sentido diferente a como lo hemos hecho
cuando analizamos la característica de dispersión. Ahora, concentración hace referencia al
mayor o menor grado de igualdad en el reparto del total de valores de una variable. Las
medidas de desigualdad son pues indicadores del grado en que una distribución se aleja de la
equidistribución. Esto tiene una aplicación directa a variables económicas (rentas, salarios,
propiedades, etc.) porque interesa conocer la mayor o menor igualdad en su reparto entre los
elementos de una población. Tales elementos pueden ser personas, empresas, áreas geográficas,
etc.
V
Concentración mínima o equidad: x1 = x2 = … = xN =
N
Concentración máxima: x j = V y xi = 0 ∀i ≠ j
Entre estos dos escenarios, existen multitud de situaciones intermedias, asociadas cada una de
ellas con un mayor o menor grado de concentración de la renta. A continuación vamos a ver
algunos instrumentos que podemos utilizar para estudiar el grado de concentración que presenta
una distribución. En concreto, nos centraremos en la Curva de Lorenz, que supone una
aproximación gráfica al problema, y en el índice de Gini.
64
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
1. Rentas totales percibidas por los ni individuos de renta individual xi , es decir, los productos
vi = xi ni .
j =i
2. Frecuencias acumuladas: N i = ∑ n j .
j =1
j =i
3. Totales de renta acumulados: Vi = ∑ x j n j .
j =1
Ni
4. Frecuencias relativas acumuladas, expresadas en porcentaje: Pi = ⋅100.
N
Vi
5. Totales de renta acumulados Vi relativos al total y expresados en porcentaje: Qi = ⋅100.
V
Tabla 1.28
Cálculos para curva de Lorenz
Frecuencias Totales Frecuencias Totales renta
Renta Frecuencias Totales acumuladas acumulados relativas acumulados
absolutas acumuladas relativos
j =i j =i (porcentajes) (porcentajes)
xi ni vi = xi ni Ni = ∑ n j Vi = ∑ x j n j Ni Vi
j =1 j =1
Pi = ⋅100 Qi = ⋅100
N V
x1 n1 v1 = x1n1 N1 = n1 V1 = v1 P1 Q1
x2 n2 v2 = x2 n2 N 2 = n1 + n2 V2 = v1 + v2 P2 Q2
xk nk vk = xk nk Nk = N Vk = V 100 100
i =k i =k
N = ∑ ni V = ∑ xi ni
i =1 i =1
En este caso estaríamos ante una situación de equidad total o equidistribución y, por lo tanto,
de mínima concentración. La tabla 1.29 refleja esta situación:
65
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Tabla 1.29
Cálculos para curva de Lorenz con equidistribución
xi ni vi Ni Vi Pi Qi
0 0 0 0 0 0 0
x N xN = V N V 100 100
N V
¿Qué aspecto mostraría la curva de Lorenz en tal caso? La Curva de Lorenz sería el resultado
de la unión de los puntos (0,0) y (100, 100), de manera que vendría dada por la diagonal del
cuadrado (figura 1.10). Esta diagonal se conoce como recta de equidistribución. Esta recta
indica, por ejemplo, que al 20 por ciento de los individuos le corresponde el 20 por ciento del
volumen de renta.
Figura 1.10
Curva de Lorenz con equidistribución
Qi
100
0
0 100 Pi
Por otra parte, si toda la renta estuviera concentrada en un único individuo (por ejemplo, al
individuo j-ésimo), entonces x j = V y x i = 0 ∀i ≠ j (tabla 1.30). Este sería el caso de
concentración máxima, es decir, de total desigualdad. ¿Qué forma tendría la curva de Lorenz
en tal situación? Si se supone que el tamaño de la población (N) es muy elevado, la curva
vendría dada, en el límite, por la línea OAB de la figura 1.11. 5
Tabla 1.30
Cálculos para Curva de Lorenz con máxima concentración
xi ni vi Ni Vi Pi Qi
N −1
0 N-1 0 N-1 0 ⋅100 0
N
V 1 V N V 100 100
N V
N −1
5 Obsérvese que cuando N tiende a infinito, tiende a la unidad.
N
66
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Figura 1.11
Curva de Lorenz con máxima concentración
Qi B
100
0
0
A
100 Pi
Por tanto, la Curva de Lorenz, o mejor dicho, la mayor o menor separación de la curva de la
diagonal principal, indica la mayor o menor concentración o desigualdad de la renta (mayor o
menor lejanía de la situación de equidistribución).
Ejemplo:
La tabla 1.31 muestra en sus dos primeras columnas la distribución del salario mensual
(expresado en miles de euros) de los 50 trabajadores de una empresa. Estudie gráficamente la
concentración.
Resolución:
Dado que se trata de una distribución con datos agrupados en intervalos, los cálculos han de
efectuarse utilizando las marcas de clase. Las dos últimas columnas de la tabla recogen la
información necesaria para representar la curva de Lorenz. En el ejemplo que nos ocupa, la
curva de Lorenz no se halla muy alejada de la diagonal del cuadrado en el que se inserta la
curva (figura 1.12), lo que nos indica que existe poca concentración de renta.
Tabla 1.31
Distribución de salarios
Cálculos para la obtención de la curva de Lorenz
marcas de frecuencias Totales
Salarios frecuencias clase totales acumuladas acumulados
(103 €) ni xi vi Ni Vi Pi Qi
0,5 - 1,5 5 1 5 5 5 10 3,16
1,5 - 2,5 14 2 28 19 33 38 20,89
2,5 - 3,5 15 3 45 34 78 68 49,37
3,5 - 4,5 7 4 28 41 106 82 67,08
4,5 - 5,5 4 5 20 45 126 90 79,74
5,5 - 6,5 3 6 18 48 144 96 91,14
6,5 - 7,5 2 7 14 50 158 100 100,00
50 158
67
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Figura 1.12
Curva de Lorenz
(ejemplo)
Qi
100
0
0 100 Pi
El índice de Gini es, por tanto, un indicador numérico del grado de desigualdad en el reparto
del total de valores de una variable. El objetivo que persigue es medir la distancia de una curva
de Lorenz particular a la diagonal principal, es decir, a la curva que indica equidistribución
(véase figura 1.13). Se obtiene dividiendo el área de la superficie delimitada por la diagonal del
cuadrado y por la curva de Lorenz, entre el área del triángulo rectángulo que tiene como
hipotenusa aquella diagonal. Matemáticamente:
68
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Figura 1.13
Obtención del Índice de Gini
La interpretación del Índice de Gini resulta simple. El valor 0 indica equidistribución (la curva
de Lorenz se corresponde exactamente con la diagonal), mientras que el valor 1 representa
máxima concentración (la curva de Lorenz viene dada por la línea OAB). Cuanto más cercano
a 0 se encuentre, menor concentración y cuanto más cercano a 1, mayor concentración.
Para obtener la fórmula de cálculo del índice de Gini partimos de lo siguiente (véase figura
1.13):
b ⋅ h 100 ⋅100
2. Área OAB = = = 5000
2 2
3. El área de la zona no sombreada (S) es igual a la suma del área de una serie de trapecios.
Recordemos que el área de cualquier trapecio viene dada por la semisuma de las alturas
multiplicada por la base:
área de trapecio =
h
69
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
H i + hi ( Q + Qi −1 ) ⋅ P − P y, por tanto,
área de trapecio i = ⋅b = i ( i i −1 )
2 2
i =k
∑ ( Q + Q )( P − P )
i =1
i i −1 i i −1
área de la zona no sombreada = ,
2
1 i =k
IG = 1 − ∑ ( Qi + Qi−1 )( Pi − Pi−1 )
10000 i =1
i = k -1 i = k -1
∑ PQ i i +1 − ∑ Pi +1Qi
IG = i =1 i =1
10000
que será la fórmula que aplicaremos en los ejercicios prácticos, pues facilita el cálculo.
i = k -1 i = k -1
IG = ∑ pq
i =1
i i +1 − ∑ pi +1qi
i =1
i = k −1 i = k −1 i = k −1
∑ ( Pi − Qi ) ∑ Qi ∑q i
IG i =1
i = k −1
= 1− i =1
i = k −1
= 1 − i =ik=−11
∑P
i =1
i ∑P
i =1
i ∑p
i =1
i
70
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ejemplo:
Calculemos el Índice de Gini para el ejemplo utilizado en la sección anterior. Las columnas
necesarias para su obtención aparecen en la siguiente tabla:
Tabla 1.32
Cáculos para la obtención del Índice de Gini
Para
Curva de Para
Lorenz Índice de Gini
Marca Frecuencias Totales
Salarios Frecuencias de clase Totales acumuladas acumulados
(103 €) ni xi vi Ni Vi Pi Qi P i Q i+1 P i+1 Q i
0,5 - 1,5 5 1 5 5 5 10,00 3,16 208,90 120,08
1,5 - 2,5 14 2 28 19 33 38,00 20,89 1876,06 1420,52
2,5 - 3,5 15 3 45 34 78 68,00 49,37 4561,44 4048,34
3,5 - 4,5 7 4 28 41 106 82,00 67,08 6538,68 6037,20
4,5 - 5,5 4 5 20 45 126 90,00 79,74 8202,60 7655,04
5,5 - 6,5 3 6 18 48 144 96,00 91,14 9600,00 9114,00
6,5 - 7,5 2 7 14 50 158 100,00 100,00 .. ..
50 158 30987,68 28395,18
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
30987, 68 − 28395,18
Así, tendríamos que: IG = i =1 i =1
= = 0, 25925
10.000 10.000
El valor del índice está cercano a 0, lo que indica que la concentración es débil. Lo que antes
apreciamos con la curva de Lorenz ahora se confirma con el Índice de Gini.
La Curva de Lorenz tiene como ventaja sobre el Índice de Gini que permite apreciar la
diferencia de concentración entre distribuciones que son cuantitativamente iguales (las
superficies sombreadas tienen el mismo área y, por tanto, presentan igual I G ) pero
cualitativamente diferentes (las superficies sombreadas tienen distinta forma). Por su parte, el
Índice de Gini permite realizar fácilmente comparaciones del grado de desigualdad en el reparto
de la renta entre países o regiones, como puede comprobarse en la Figura 1.14.
Figura 1.14
Índice de concentración de Gini en el mundo. Año 2007
71
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Para concluir esta sección diremos que el índice de Gini no se ve afectado por cambios de
escala en la variable pero sí, en general, por cambios de origen. Vamos a ilustrar ambas
propiedades utilizando para ello ejemplos sencillos. Supongamos que nuestra población está
compuesta por 2 individuos (N=2) que se reparten V=200 euros de la manera indicada en la
siguiente tabla:
xi ni vi Ni Vi Pi Qi P i Q i+1 P i+1 Q i
50 1 50 1 50 50 25 5000 2500
150 1 150 2 200 100 100 .. ..
N=2 V=200 5000 2500
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
5000 − 2500
IG = i =1 i =1
= = 0, 25
10000 10000
Veamos primero que ocurre ante un cambio de escala en la variable X. Imaginemos, por
ejemplo, que cada individuo de nuestra población va a recibir el doble de lo que recibía, es
decir, xi′ = 2 xi . La tabla que recoge los datos necesarios para calcular de nuevo el índice de Gini
será la siguiente:
Efectivamente, los valores de Q i no cambian por el cambio de escala, de manera que el índice
de Gini conserva también su valor.
Supongamos ahora que la cantidad que recibe cada uno de los individuos que componen nuestra
población aumenta 50 euros respecto a la situación inicial. Esto supone un cambio de origen
en la variable X, de manera que xi′ = xi + 50. La tabla con los cálculos necesarios para el cálculo
del índice de Gini será:
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
5000 − 3334
IG = i =1 i =1
= = 0,1666 < 0, 25
10000 10000
72
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Por tanto, un cambio de origen en la variable X que conlleve aumento en las rentas de los
individuos (a>0) provoca una disminución en la concentración, es decir, que la situación se
acerque más a la equidistribución.
Veamos ahora que ocurre cuando el cambio de origen implica quitar la misma cantidad (por
ejemplo 25 euros) a todos los individuos de nuestra población respecto a la situación inicial
(a<0):
xi ni vi Ni Vi Pi Qi P i Q i+1 P i+1 Q i
25 1 25 1 25 50 16,6 5000 1667
125 1 125 2 150 100 100 .. ..
N=2 V=150 5000 1667
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
5000 − 1667
IG = i =1 i =1
= = 0,3333 > 0, 25
10000 10000
Por tanto, un cambio de origen en la variable X con a<0 provoca la situación contraria a la
anterior, es decir, aumenta la concentración de la renta.
73
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
EJERCICIOS RESUELTOS
1. Las ayudas concedidas por el Fondo Europeo para el Desarrollo Regional (FEDER) a
sesenta proyectos españoles vienen reflejadas en la siguiente tabla:
Resolución:
La población analizada es el conjunto de proyectos españoles a los que el Fondo Europeo para
el Desarrollo Regional (FEDER) ha concedido ayudas. Los elementos de la población son cada
uno de esos proyectos. El tamaño de la población es 60. La variable resumida en la tabla es el
importe de la ayuda concedida, expresado en millones de euros. Es una variable continua.
El importe solicitado se corresponde con la centila 60 puesto que nos piden la ayuda máxima
concedida al 60% de los proyectos menos favorecidos en el reparto. La referencia para su
60 N
cálculo es = 36 y el intervalo que la incluye es [250-500], ya que a este intervalo le
100
corresponde la primera frecuencia absoluta acumulada superior a la referencia:
74
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Importe de la ayuda Nº de Ni
(106 euros) proyectos
0 - 100 10 10
100 - 250 15 25
250 - 500 20 45
500 – 1000 15 60
60 N
− N i −1
36 − 25
C60 = Li −1 + 100 ⋅ ai = 250 + ⋅ 250 = 387,5 ⋅106 euros
ni 20
rN r 60
− N i −1 − 45
Cr = Li −1 + 100 ⋅ ai ⇒ 600 = 500 + 100 ⋅ 500 ⇒ r = 80%
ni 15
Por tanto, el porcentaje de proyectos con ayudas superiores a 600 millones de euros es del
20%, es decir, un total de 12 proyectos.
2. Como vemos en la tabla, hay 15 ayudas con importe superior a 500 millones de euros. De
esas 15, sólo nos interesan las que tienen importe superior a 600 millones. Podemos hacer la
siguiente regla de tres entre amplitudes y número de proyectos:
d) Ayuda mediana:
La mediana es el valor de la variable que divide la distribución en dos partes, conteniendo cada
una de ellas el mismo número de observaciones (50% de las mismas). La referencia para
50 N
obtenerla es = 30, de manera que el intervalo mediano es [250-500]. Aplicando la fórmula
100
de aproximación se tiene que:
75
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
N
− N i −1
30 − 25
Me = Li −1 + 2 ⋅ ai = 250 + ⋅ 250 = 312,5 ⋅106 euros.
ni 20
L i-1 - L i ni xi v i =x i n i x i 2n i
0 - 100 10 50 500 25000
100 - 250 15 175 2625 459375
250 - 500 20 375 7500 2812500
500 - 1000 15 750 11250 8437500
60 21875 11734375
i =k
∑xn i i
21875
x= i =1
= = 364,583 ⋅106 euros
N 60
El importe medio de las ayudas concedidas asciende a 364,583 ⋅106 euros. Vamos a comprobar
hasta qué punto esta media es representativa de la distribución calculando el coeficiente de
variación:
i =k
∑x n 2
i i
11734375
− ( 364,583) = 62651,9097 ⋅1012 euros 2
2
S X2 = i =1
− x2 =
N 60
i =k
∑x n 2
i i
SX = + i =1
- x 2 = + 62651,9097 = 250,3036×106 euros
N
SX
CVX = ⋅100 = 68, 65%
x
La desviación típica representa más del 50% de la media, por lo que hay que cuestionarse la
representatividad de la media aritmética.
f) Si se aumenta la ayuda en dos millones a cada proyecto, ¿cómo afecta este incremento a los
resultados obtenidos en el apartado anterior?
Dado que nuestra variable viene expresada en millones de euros, el aumento supone un cambio
de origen en la variable con xi′ = xi + 2 por lo que, como ya sabemos:
76
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Ahora el aumento supone un cambio de escala en la variable del tipo xi′ = 1, 05 xi , de manera
que:
h) Estudio de la concentración:
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
9761,905 − 6023,810
IG = i =1 i =1
= = 0,373810
10000 10000
Existe una concentración moderada. Esto significa que el total de ayudas, que asciende a
i =4
V = ∑ xi ni = 21875 millones de euros, no está bien repartido entre el total de proyectos.
i =1
77
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
2. Para un conjunto de sociedades la recaudación del impuesto del IVA presenta la siguiente
distribución:
Cuota en € Sociedades
60 – 600 1000
600 – 1200 3000
1200 – 3000 4000
3000 – 6000 1500
6000 – 9000 500
Resolución:
a) Índice de Gini:
i = k -1 i = k -1
∑ PQ i i +1 − ∑ Pi +1Qi
IG = i =1 i =1
10000
Dado que los valores de la variable aparecen agrupados en intervalos, para los cálculos
utilizaremos las marcas de clase:
Para
Curva de Para
Lorenz Índice de Gini
L i-1 - L i ni xi v i =x i n i Ni Vi Pi Qi P i Q i+1 P i+1 Q i
60- 600 1000 330 330000 1000 330000 10,00 1,51 138,17 60,19
600-1200 3000 900 2700000 4000 3030000 40,00 13,82 2084,82 1105,34
1200-3000 4000 2100 8400000 8000 11430000 80,00 52,12 6632,01 4951,44
3000-6000 1500 4500 6750000 9500 18180000 95,00 82,90 9500,00 8290,01
6000-9000 500 7500 3750000 10000 21930000 100,00 100,00
10000 V= 21930000 18354,99 14406,98
i = k -1 i = k -1
∑ PQ i i +1 − ∑ Pi +1Qi
18354,99 − 14406,98
Índice de Gini: IG = i =1 i =1
= = 0,394802
10000 10000
Existe una concentración moderada. Esto significa que el total recaudado por el impuesto, que
i =4
asciende a V = ∑ xi ni = 21930000 euros, no se distribuye de manera muy igualitaria entre el
i =1
total de sociedades.
78
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
b) Curva de Lorenz:
80
60
40
20
0
0 20 40 60 80 100 A
Pi
La curva de Lorenz se halla algo alejada de la diagonal del cuadrado en el que se inserta la
curva, lo que nos indica que existe concentración en la recaudación del impuesto.
Aportaciones en € Individuos
900 - 1000 65
1000 - 1250 20
1250 - 2000 20
2000 - 3000 15
3000 - 3500 18
3500 - 4000 15
4000 - 4500 20
4500 – 6000 2
79
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
Resolución:
L i-1 - L i ni xi v i =x i n i x i 2n i
900-1000 65 950 61750 58662500
1000-1250 20 1125 22500 25312500
1250-2000 20 1625 32500 52812500
2000-3000 15 2500 37500 93750000
3000-3500 18 3250 58500 190125000
3500-4000 15 3750 56250 210937500
4000-4500 20 4250 85000 361250000
4500-6000 2 5250 10500 55125000
175 364500 1047975000
i =k
∑xn i i
364500
x= i =1
= = 2082,86 euros
N 175
SX
CVX = ⋅100
x
i =k
∑x n 2
i i
1047975000
− ( 2082,86 ) = 1650122,79183 euros2
2
S X2 = i =1
− x2 =
N 175
S X = + S X2 = 1284,58 euros
SX
CVX = ⋅100 = 61, 67% < 70, 0% = CVY
x
b) Número de socios que realizan una aportación que difiere de la media, en valor absoluto,
en más de un 20% de la aportación media.
Se solicita el número de socios con aportaciones fuera del intervalo [ 0,8 x ;1, 2 x ] , es decir,
dentro de los intervalos [900;1666, 29) y (2499, 43;6000] :
80
Estadística I – TEMA 1: Análisis de una variable
GADE - Curso 2016/2017
r⋅N
− N i −1
Cr = Li −1 + 100 ⋅ ai
ni
i = k -1 i = k -1
∑ PQ
i i +1 − ∑ Pi +1Qi
IG = i =1 i =1
10000
i = k -1 i = k -1
∑ PQ i i +1 − ∑ Pi +1Qi
33152, 067 − 29853,694
IG = i =1 i =1
= = 0,329837
10000 10000
81