Está en la página 1de 27

Tema 1

Variable Estadı́stica Unidimensional

1.1. Introducción
El término “estadı́stica” fue aplicado en principio a la recogida y análisis de información
de Estado, principalmente en forma de censos con fines militares o referentes a riquezas como
cantidad de grano o ganado (objetivo simplemente descriptivo).

Más tarde surge otra ciencia denominada Cálculo de Probabilidades que tiene su origen en
el estudio de los juegos de azar, que en principio eran atribuidos a la voluntad divina y no
será hasta el Renacimiento cuando se empiecen a estudiar de forma matemática.

Pero no será hasta Fisher, en el siglo XIX cuando se desarrolló un método de trabajo
consistente en ante unos datos, hacer:

1. Intentar describirlos

2. Buscar un modelo (función) que se ajuste a ellos

3. Intentar obtener conclusiones sobre esos datos. Este apartado es el más importante y al
que se denomina Inferencia Estadı́stica.

Por lo tanto, lo primero que necesitaremos será unos datos de fenómenos sobre los que
desarrollar nuestro trabajo. Estos fenómenos en estudio pueden ser de dos tipos:

1. Fenómenos determinı́sticos: que son aquellos que en las mismas condiciones siempre
producen el mismo resultado, es decir se desarrollan según una formula matemática.

2. Fenómenos aleatorios: aquellos que en igualdad de condiciones no siempre producen


el mismo resultado, es decir, no están marcados por leyes matemáticas. Por ejemplo el
lanzamiento de un dado.

De estos últimos fenómenos son de los que se encarga la estadı́stica.

4
Variable Estadı́stica Unidimensional 5

1.2. Conceptos básicos


Población: conjunto de elementos (no tiene porqué ser humano) en estudio.

Muestra: conjunto representativo de la población. Una buena muestra será aquella que refleje
las caracterı́sticas esenciales de la población.

Individuo: cada elemento, persona o cosa en estudio. Al número total de individuos de la


población se le llama tamaño poblacional y se denota con N , al de la muestra se le conoce
como tamaño muestral y se nota con n.

Muestra aleatoria: es aquella muestra que se obtiene mediante algún procedimiento de tal
manera que cada individuo tiene una oportunidad igual e independiente de pertenecer a
la muestra.

Caracterı́stica o variable: cada una de las propiedades observadas en cada individuo y que
han de tener todos ellos. Por ejemplo el sexo, el peso, el tamaño. Se notan como X, Y,...

Modalidades: cada una de las posibles opciones que puede tomar una variable. Se cumple que
son exahustivas e incompatibles, es decir, un individuo tiene una y solo una modalidad.
Se notan como xi , i = 1, 2, . . .. De tal forma que:
\ [
xi xj = ∅ ∀i 6= j y xi = X

Por ejemplo, en la variable sexo, sus modalidades son hombre/mujer.

Además, si la variable en estudio es numérica, tiene asociado un número real, recibe el


nombre de cuantitativa (salario, peso, ...). Si no es numérica se denota cualitativa (sexo,
profesión...).

A su vez, toda variable cuantitativa se divide en:

Continua: si toma valores en un intervalo (tiempo, distancia...).

Discreta: si toma valores enteros (número de vehı́culos...).

El objetivo de la estadı́stica será a partir de datos muestrales, sacar conclusiones o inferir


resultados para la población, es decir, pasar de lo especı́fico (muestra) a lo general (población),
con el menor error.

1.3. Representación tabular de los datos


Una vez tengamos una variable, el primer paso será el de clasificarla y ordenarla para que
se muestre de una forma clara y concisa.

Dada un población P, y una cierta variable X, con modalidades x1 , . . . , xk , se define:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 6

Frecuencia absoluta ni de la modalidad xi : al número de individuos que poseen esa ca-


racterı́stica (número de veces que se repite) de tal manera que:
k
X
ni = N número total de individuos
i=1

Frecuencia relativa fi de la modalidad xi : a la proporción de individuos que presentan


esa modalidad (cociente entre la frecuencia absoluta y el número total de individos).

k k
ni X X ni
fi = fi = =1
N i=1 i=1
N

Frecuencia absoluta acumulada Ni de la modalidad xi : como la suma de las frecuen-


cias absolutas ni hasta la i-ésima modalidad.

i
X
Ni = nj i≤k
j=1

Frecuencia relativa acumulada Fi de la modalidad xi : es la suma hasta la i-ésima mo-


dalidad de las frecuencias relativas.

i
X n
X
Fi = fj Fi = f1 + f2 + . . . + fi fi = 1
j=1 j=1

Modalidades Frec. Abs. Frec Abs. Acumu Frec. Rel. Frec. Rel. Acumu
x1 n1 N1 = n 1 f1 = nN1 F1 = f1 = nN1
x2 n2 N2 = n 1 + n 2 f2 = nN2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
ni
xi ni Ni = n 1 + . . . + n i fi = N
Fi = f1 + . . . + fi
.. .. .. .. ..
. . . . .
nk
xk nk Nk = n 1 + . . . + n k fk = N
Fk = f1 + . . . + fk

Ejemplo 1.1. Sea el experimento consistente en lanzar un dado 25 veces. De ellas sale el 1
cinco veces; el 2 cuatro; cuatro veces el 3; tres el 4; cinco el 5 y cuatro el 6. Construir la tabla
de frecuencias.

xi ni Ni fi Fi
1 5 5 0.2 0.2
2 4 9 0.16 0.36
3 4 13 0.16 0.52
4 3 16 0.12 0.64
5 5 21 0.2 0.84
6 4 25 0.16 1
N= 25 1

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 7

Se define Distribución de Frecuencias de una variable X a el conjunto de valores que


toma la variable junto con sus frecuencias:

{(xi , ni )} i = 1 . . . , k
o
{(xi , fi )} i = 1 . . . , k
En el caso que las variables sean continuas, es decir, las modalidades sean intervalos, de-
notaremos a los extremos de los intervalos como (ei−1 , ei ]. Estos intervalos o clases viene de-
terminados por dos valores a los que llamaremos extremo inferior y superior respectivamente.
A su vez se define la amplitud del intervalo como la diferencia entre estos valores:

ai = ei − ei−1
También definimos la marca de clase como el valor central del intervalo
ei−1 + ei
xi =
2
Será necesario calcular la densidad de frecuencia del intervalo (hi ), en los casos en que
los intervalos tengan distinta amplitud. La densidad de frecuencias se calcula como:
ni fi
hi = o hi =
ai ai
Ejemplo 1.2.

ei−1 − ei xi ni Ni ai fi Fi hi
40-70 55 2 2 30 0.02 0.02 0.066
70-80 75 5 7 10 0.05 0.07 0.5
80-100 90 10 17 20 0.1 0.17 0.5
100-200 150 35 52 100 0.35 0.52 0.35
200-300 250 43 95 100 0.43 0.95 0.43
300-350 325 5 100 50 0.05 1 0.1
N=100

1.4. Representaciones Gráficas


El objetivo fundamental de las representaciones gráficas es la de proporcionar una visión
del comportamiento global de la variable en estudio. El primer paso será distinguir entre los
dos tipos de fenómenos en estudio, es decir, entre variables cualitativas y cuantitativas.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 8

1.4.1. Variables cualitativas


Diagrama de barras
Se utiliza para variables cualitativas, aunque puede ser extendido a variables de tipo cuanti-
tativo. En unos ejes cartesianos, se representan sobre el eje de abcisas las distintas modalidades,
haciendo corresponder a cada una de ellas un rectángulo de base constante y altura propor-
cional a la frecuencia de cada modalidad. Esta representación es equivalente realizarla con
frecuencias absolutas o relativas.

Ejemplo 1.3. Sea la siguiente tabla de frecuencias

votos ni fi
Si 50 0.5
No 30 0.3
Nulo 20 0.2
Su diagrama de barras será:

Gráfico 1.1: Diagrama de Barras

Diagrama de sectores
Este gráfico consiste en repartir el área de un cı́rculo en sectores de tamaño proporcional
a la frecuencia de cada modalidad, de tal forma que los grados (αi ) de cada sector vendrán
dados por la siguiente expresión:
2πni
αi = = 2πfi
N
Este gráfico también es aplicable tanto a variables cualitativas como cuantitativas.

Ejemplo 1.4. Con los mismos datos que el apartado anterior, el diagrama de sectores será:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 9

Gráfico 1.2: Diagrama de Sectores

Pictogramas y Cartogramas
El pictograma consiste en representar una figura alegórica en relación a lo que se quiere
representar, en donde el tamaño guarda relación con su frecuencia.

El cartograma son mapas que representan zonas de estudio, sobre las cuales por medio de
marcas o colores destacan las intensidades de un cierto carácter.

Ejemplo 1.5.

Gráfico 1.3: Pictograma y Cartograma

1.4.2. Variables cuantitativas discretas


Diagrama de barras y polı́gono de frecuencias
En unos ejes cartesianos, se representan sobre el eje OY las distintas modalidades de la
variable. Para cada una de ellas se levanta una barra de altura igual a la de su frecuencias.
Este gráfico es valido tanto para frecuencias absolutas o relativas, acumuladas o no acumuladas.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 10

Gráfico 1.4: Diagrama de barras

Si unimos los extremos del diagrama de barras (para frecuencias absolutas), obtenemos el
polı́gono de frecuencias.

Ejemplo 1.6. Dada la siguiente variable, representaremos el polı́gono de frecuencias

Xi ni Fi
10 50 50
20 30 80
50 20 100

Gráfico 1.5: Polı́gono de frecuencias

Curva acumulativa o de distribución


Consiste en representar la función de distribución o acumulada, que en el caso cualitativo
viene definida como: dada una población P y un carácter en estudio C cuantitativo, la función
de distribución será:


 0 ∀x < x1
 F1 x1 ≤ x < x2


X
F (x) = fi = F2 x2 ≤ x < x3
... ...

xi ≤x 


Fn = 1 ∀x > xk

verificando:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 11

No decreciente
Continua a la derecha
F (−∞) = 0 y F (∞) = 1.
A la representación de esta curva se le denomina curva de distribución.

Ejemplo 1.7. Dada la siguiente variable:


xi n i Ni fi Fi
6 7 7 0.35 0.35
12 2 9 0.1 0.45
15 4 13 0.2 0.65
24 7 20 0.35 1
20
Su curva de distribución es :


 0 si x<6
0,35 si 6 ≤ x < 12



F (x) = 0,45 si 12 ≤ x < 15
 0,65 si 15 ≤ x < 24



1 si x ≥ 24

Siendo el valor de F (x) la proporción de individuos con carácter menor o igual a x.

Gráfico 1.6: Curva de distribución

1.4.3. Variables cuantitativas continuas


Histograma
El histograma cosiste en representar los distintos intervalos o clases, dados por los valores
ei−1 , ei para cada intervalo, en el eje de abcisas y sobre ellos un rectángulo de tamaño propor-
cional a su frecuencia. Cuando todos los intervalos viene expresados con la misma amplitud,

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 12

no existe ningún problema, este surgirá cuando intentemos representar intervalos de distinta
amplitud, en este caso representaremos no la frecuencia absoluta o relativa, y si su densidad
de frecuencia, es decir, los valores
ni
hi =
ai
resultando:

Gráfico 1.7: Histograma

Al gráfico resultante de unir los puntos medios de los extremos superiores de las barras del
histograma se le denomina también Polı́gono de Frecuencias.

Curva de distribución
Consiste en la representación, para el caso continuo, de la función de distribución.

Ejemplo 1.8. Dados los siguientes datos datos, construir su función de distribución.
ei−1 − ei ni Ni Fi
0-10 10 10 0.1
10-20 25 35 0.35
20-40 30 65 0.65
40-50 15 80 0.8
50-70 20 100 1

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 13

Gráfico 1.8: Función de distribución

1.4.4. Diagrama de tallos y hojas


El diagrama de tallos y hojas es una representación del análisis exploratorio de datos.
Es una representación similar al histograma de frecuencias, solo que en ellas se mantiene la
información del número concreto. Esta representación consistente en:

Seleccionar los intervalos en los que vamos a agrupar los datos.

En una primera columna, se expresa la raı́z del dato (el tallo).

Trazamos una lı́nea vertical que separará los “tallos” de las “hojas”.

A la derecha de la lı́nea vertical se escriben la parte final de los valores considerados.

También se representa el recuento de los individuos hasta la mediana de forma ascendente


y de forma descendente desde ella.

Destacamos que si este gráfico se gira 90o , se obtiene un histograma de frecuencias, en


donde a demás de la frecuencia de cada intervalo, tenemos los valores concretos que toma la
variable.

Ejemplo 1.9. Dados los siguientes datos,

20 21 21 21 2324 25 26 26 27 28 29 30 30 31 32 33 33 35 38 38 39 40 41 45 45 46 47 48 50

Gráfico 1.9: Diagrama de tallos y hojas

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 14

1.5. Medidas de posición


1.5.1. Medidas de posición central
Se define una medida de posición central como un valor que intenta representar el
conjunto total de datos mediante un único valor que los centraliza, tratando de resumir y
sintetizar las frecuencias.

Mediana
La mediana admite dos definiciones:
Definición 1: es el valor cuya ordenada en la curva de distribución es 12 , es decir F (x) = 0,5.

Definición 2: es el valor tal que si ordenamos todos los valores de la variable, la mitad son
superiores y la mitad inferiores.
Para calcularla distinguiremos según el tipo de dato:

1. Caso discreto

a) Frecuencias unitarias y observaciones impares: es el caso más sencillo, es el valor


central de la variable ordenada. Por ejemplo, la mediana de

2, 5, 8, 11, 13

es el M e = 8.

b) Frecuencia unitaria y observaciones pares: la mediana será la media de las dos


observaciones centrales. En el siguiente ejemplo

1, 2, 5, 8, 11, 13
5+8
la mediana es M e = 2
= 6,5.
c) Frecuencias no unitarias: Calculamos la frecuencia absoluta acumulada Ni y bus-
camos el valor N/2.

xi n i Ni
0 6 6
1 20 26
2 28 54
3 12 66
4 8 74
5 6 80

En este caso calculamos el valor N2 = 80


2
= 40 y buscamos que valor acumula una
frecuencia de 40, para este ejemplo M e = 2.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 15

2. Caso continuo: lo primero será determinar el intervalo mediano, es decir, en que intervalo
(ei−1 , ei ], está el valor N/2.

Los extremos del intervalo acumularán frecuencias Ni−1 y Ni respectivamente, de tal


manera que interpolando linealmente, obtendremos:

Gráfico 1.10: Cálculo mediana

BD AE AE BC (ei − ei−1 )(N/2 − Ni−1 )


= =⇒ BD = =
BC AC AC (Ni − Ni−1 )
por lo tanto la mediana será:

(N/2 − Ni−1 )
M e = ei−1 + ai
(Ni − Ni−1 )
Las ventajas más importantes de esta medida son:
Es la mejor medida en variables de tipo ordinal (variables que admiten un orden).
Es de cálculo sencillo.
En ella solo influyen los valores centrales de la distribución y es insensible a los extremos
lo cuál es útil cuando existen muchos valores extremos que invaliden otras medidas de
posición central.
Como principal inconveniente destacamos precisamente que no intervienen en su cálculo
todos los valores.

La moda
Se define la moda como el valor de la distribución que tiene mayor frecuencia (el que más
se repite). Destacando que una variable puede tener más de una moda.

Para calcularla distinguiremos según el tipo de dato:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 16

1. Variable discreta: es el valor con mayor frecuencia.

2. Variable continua: el primer paso será calcular el intervalo (o intervalos) modal (-es),
(ei−1 , ei ] que será el que mayor frecuencia tenga. Si los intervalos tienen distinta amplitud,
tendremos que calcular la densidad de frecuencias. En el intervalo modal, por semejanza
de triángulos, obtendremos:

Gráfico 1.11: Cálculo de la moda

DF GE DF GE
= ⇒ +1= +1⇒
BD AC BD AC
DF + BD GE + AC BD DF + BD
= ⇒ = ⇒
BD AC AC GE + AC
AC(DF + BD)
BD =
GE + AC

(hi − hi−1 )
M o = ei−1 + (ei − ei−1 )
(hi − hi+1 ) + (hi − hi−1 )
Si los intervalos tienen igual amplitud se pueden sustituir los valores h por n.

Dentro de las ventajas de la moda están:

Es la única medida que puede obtenerse en variables cualitativas con escala nominal
(categorı́as numéricas).

Es de fácil cálculo e interpretación.

Su principal inconveniente es que se centra exclusivamente en los valores de mayor frecuen-


cia.

Ejemplo 1.10. Calcular la media y la moda

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 17

ni Ni
0-2 110 110
2-4 200 310
4-6 90 400
6-8 75 475
8-10 25 500
Para calcular la mediana, en primer lugar obtendremos el intervalo mediano, es decir, el
intervalo que contenga el valor N/2 = 500/2 = 250, que esta en el intervalo (2 − 4], por lo que
aplicando su expresión obtendremos:

(N/2 − Ni−1 ) (250 − 110)


M e = ei−1 + ai = 2 + (4 − 2) = 2 + 1,4 = 3,4
(Ni − Ni−1 ) (310 − 110)
Para calcular la moda, calculamos el intervalo modal que será el de mayor frecuencia. En
este caso como todos los intervalos tiene igual amplitud, no es necesario obtener los valores hi .
El intervalo modal también el 2 − 4 con frecuencia 200. Aplicando la definición de moda

(hi − hi−1 ) (200 − 110)


M o = ei−1 + (ei −ei−1 ) = 2+ ∗2 = 2+0,9 = 2,9
(hi − hi+1 ) + (hi − hi−1 ) (200 − 110) + (200 − 90)

Media aritmética
La media aritmética se define como la suma de los valores de la variable ponderada por
su frecuencia. Se representa como x̄.
k k
X 1 X
x̄ = fi xi = n i xi
i=1
N i=1
En el caso continuo se sustituyen los valores de la variable por las marcas de clase.

Sus principales propiedades son:


1. Si a una variable la sometemos a una transformación consistente en multiplicarla por un
cierto valor a 6= 0 (operación denominada cambio de escala) y sumarle un valor b ∈ R
(cambio de origen), es decir, crear una nueva variable Y = aX + b, resulta que la media
de esta nueva variable es

k
X k
X k
X k
X k
X k
X
ȳ = fi yi = fi (axi + b) = afi xi + bfi = a fi xi + b fi = ax̄ + b
i=1 i=1 i=1 i=1 i=1 i=1

Pk
2. La suma de las desviaciones de los datos respecto a su media es cero, es decir, i=1 fi (xi −
x̄) = 0

k k
X 1 X 1 X 1
fi (xi − x̄) = ni x i − x̄ni = x̄ − x̄N = 0
N i=1 N i=1 N

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 18

Sus principales ventajas son:

Utiliza todos los valores de la distribución.


Está perfectamente definida y es única para cada distribución de frecuencias.
Es el centro de gravedad de la distribución.

Su principal inconveniente radica en que es muy sensible a los valores extremos, por lo que
es poco representativa en distribuciones con datos muy dispersos.

Ejemplo 1.11. Calcular la media de la siguiente distribución de frecuencias:

ni xi ni xi
20-30 20 25 500
30-100 30 65 1950
100-500 10 300 3000
500-600 30 550 16500
600-1000 10 800 8000
100 29950
k
1 X 29950
x̄ = n i xi = = 299,5
N i=1 100

Media geométrica
La media geométrica se utiliza cuando los valores de la variable no son de naturaleza
propiamente aditiva, como porcentajes que expresen la evolución de una caracterı́stica con
respecto a su valor en un periodo base o cuando deseamos promedios de magnitudes como
tipos de interés, números ı́ndices, ...

Se calcula como
v
u k
uY
k
G=t fi xi
i=1

Sus principales ventajas con respecto a la media aritmética están en:

Es más representativa cuando la variable evoluciona de forma acumulativa con efectos


multiplicativos.
Tiene en cuenta todos los valores de la distribución.
Los valores extremos tiene menor influencia que en la media aritmética al estar definida
mediante productos.

Los problemas están en que su cálculo es más complicado e incluso no se puede calcular si
algún valor es 0.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 19

Media armónica
Esta media se utiliza para promediar velocidades, cantidades, rendimiento o situaciones
donde existen tres variables tales que el producto de dos de ellas es igual a la producción. Su
ventaja es que en este contexto es más representativa frente a que no se puede calcular si algún
valor es 0.

Su expresión es:
N
H = X ni
xi
En general se cumple que

H ≤ G ≤ x̄

1.5.2. Otras medidas de posición: los cuantiles


Sea α ∈ R, con 0 < α < 1. Se define un cuantil de orden α como:

Definición 1: a la solución de la ecuación

F (x) = α

Definición 2: aquel valor que acumula el 100α % de la distribución, dividiéndola en partes


proporcionales.

Los más importantes son:

Cuartiles: son los que dividen a la población en cuatro partes iguales, acumulando cada una
de ellas el 25 % de la distribución.

Q1 ⇒ F (x) = 0,25 o Ni = N ∗ 0,25

Q2 ⇒ F (x) = 0,5 = M e o Ni = N ∗ 0,5


Q3 ⇒ F (x) = 0,75 o Ni = N ∗ 0,75

Deciles: dividen a la población en 10 partes iguales, acumulando cada una de ellas el 10 %.

i i
Di ⇒ F (x) = i = 1, . . . , 9 o Ni = N ∗
10 10
Percentiles: dividen a la población en 100 partes iguales acumulando cada una de ella un
1 %.

i i
Pi ⇒ F (x) = i = 1, . . . , 99. o Ni = N ∗
100 100

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 20

Ejemplo 1.12. Calcular el primer y el tercer cuartil de la siguiente distribución de fre-


cuencias:
xi n i Ni
0 6 6
1 20 25
2 28 54
3 12 66
4 8 74
5 6 80

Para calcular el primer y tercer cuartil tendremos que calcular los valores N4 = 80
4
= 20 por
lo que el primer cuartil será el valor que acumule frecuencia 20, es decir, Q1 = 1.

3N 3∗80
Para calcular el tercer cuartil se actúa de la misma forma, 4
= 4
= 60 ⇒ Q3 = 3.

Ejemplo 1.13. Calcular el percentil 60 de esta distribución.


ni Ni
0-2 110 110
2-4 200 310
4-6 90 400
6-8 75 425
8-10 25 500

En este caso calculamos el valor 60∗N


100
= 60∗500
100
= 300 y buscamos que intervalo contiene fre-
cuencia 300. En este caso tendremos el intervalo donde esta contenido el percentil 60, (ei−1 , ei ]
= (2 − 4] y aplicamos una formula equivalente a la de la mediana:
α
(N 100 − Ni−1 )
Pα = ei−1 + ai ⇒
(Ni − Ni−1 )
(300 − 110)
P60 =2+ (4 − 2) = 2 + 1,9 = 3,9
(310 − 110)

Percentil Inverso
En muchas ocasiones estamos interesados en resolver el problema contrario al cálculo del
percentil, es decir, conocido un valor de la variable obtener el número de individuos que acu-
mula. A este problema se le suele denominar “cálculo del percentil inverso”. Su resolución
es muy simple, utilizando la misma metodologı́a que en el cálculo de la mediana (ver 1.5.1),
tendremos que:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 21

Gráfico 1.12: Percentil inverso

BD AE BD AC (x − ei−1 )(Ni − Ni−1 )


= =⇒ BC = =
BC AC AE ei − ei−1
por lo que la formula final del percentil inverso será:

(x − ei−1 )(Ni − Ni−1 )


y −1 = Ni−1 +
ai

1.6. Medidas de dispersión


Los estadı́sticos anteriores nos dan una medida central de los datos. Pero existen otro tipo
de medidas útiles en otras circunstancias. Por ejemplo, las dos poblaciones siguientes:

0, 0, 10, 10
4, 5, 5, 6
tiene igual media x̄ = 5. Es decir, aunque son dos poblaciones claramente diferentes, una me-
dida de posición central como la media, nos las resumirı́a de igual forma. Para evitar estos
problemas, existen una serie de medidas llamadas de dispersión que nos miden la variabilidad
o dispersión de una población. Verificándose que cuanto mayor es la dispersión de los datos
peor es la representatividad de las medidas de posición.

Estas medidas se pueden clasificar en dos tipos:

Absolutas: son aquellas que miden la variabilidad en la misma unidad de medida que la
variable, por lo que no son comparables unas con otras.

Relativas: son valores sin unidad de medida, pudiéndose comparar los valores de distintas
variables.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 22

1.6.1. Medidas de dispersión absolutas


Desviaciones cuadráticas
La desviación cuadrática es la media de la variable (X − P )2 , es decir,
k
X
fi (xi − P )2
i=1

donde P es una cierta medida de posición. El caso más común es aquel en el que P es la media.

La varianza
La varianza es desviación cuadrática para el caso de P = x̄. Se denota indistintamente
como

2
V ar(X) = V (X) = σX = σ2
y su expresión es
k
X
σ2 = fi (xi − x̄)2
i=1

A su vez se denomina desviación tı́pica a la raı́z cuadrada de esta medida


v
u k
uX √
σ=t fi (xi − x̄)2 = σ 2
i=1

Como propiedades principales tendremos:

Siempre es positiva 0 ≤ σ 2 < ∞.

Si σ 2 = 0 implica que xi − x̄ = 0 ∀ i, es decir, la variable toma un único valor y este es


igual a su media.

Existe una fórmula de cálculo simplificada:

k
X k
X k
X k
X k
X
V ar(X) = fi (xi − x̄)2 = fi (x2i − 2x̄xi + x̄2 ) = fi x2i − 2x̄ fi xi + x̄2 fi =
i=1 i=1 i=1 i=1 i=1

k k
X 1 X
fi x2i − x̄2 = ni x2i − x̄2
i=1
N i=1

Si a la variable X le realizamos un cambio de escala y de origen, de tal manera que


obtengamos una nueva variable Y = aX + b, resulta que:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 23

X k
X k
X
2 2
V (Y ) = (yi − ȳ) = [(axi + b) − (ax̄ + b)] = fi [axi − ax̄]2 =
i=1 i=1
k
X k
X
fi [a(xi − x̄)]2 = a2 fi (xi − x̄)2 = a2 V ar(X)
i=1 i=1

Se denomina tipificación de una variable al cambio de escala y de origen


X − x̄
Y =
σx

verificando que la nueva variable Y tiene:

- Media cero, ȳ = 0.
- Varianza 1, V (Y ) = 1.

Ejemplo 1.14. Calcular la media y la varianza de la siguiente población

xi n i n i xi ni x2i
0 6 0 0
1 20 20 20
2 28 56 112
3 12 36 108
4 8 32 128
5 6 30 150
80 174 518

En primer lugar calculamos la media:


1 X 174
x̄ = n i xi = = 2,175
N 80
Ahora calculamos la varianza aplicando la formula descompuesta
1 X 518
V ar(X) = ni x2i − x̄2 = − 2,1752 = 1,744
N 80

Rangos o Recorridos
Los recorridos más importantes son:
Rango: Diferencia entre el máximo de la distribución y el mı́nimo.

R = M axx − M inx

Rango intercuatı́lico: Diferencia entre el tercer y el primer cuartil.

RIQ = Q3 − Q1

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 24

Rango interdecı́lico: Diferencia entre el decil noveno y el primero.

RID = D9 − D1

Rango interpercentı́lico: Diferencia entre el percentil noventa y nueve y el primero.

RIP = P99 − P1

1.6.2. Medidas de dispersión relativas


Las medidas de dispersión relativas más importantes son:

Coeficiente de apertura:
xk
CA = x1 6= 0
x1
Recorrido relativo:
xk − x1
RE =

Recorrido semi-intercuartı́lico:
Q3 − Q1
Q3 + Q1
Coeficiente de variación: es la medida más utilizada. Tiene la ventaja medir la dispersión
de distintas variables sin medida, con lo que podremos comparar la dispersión de variables
medidas en diferentes escalas.

σ
C.V. =
|x̄|

1.7. Momentos
Los momentos son medidas construidas a partir de todos los datos de la variable estadı́stica
y sus frecuencias relativas.

Estas medidas caracterizan de manera completa a la distribución, de forma que se dice que
si para dos variables todos sus momentos coinciden estas dos variables son iguales.

Existen dos tipos de momentos:

Momento de orden h respecto al origen:


k
X ni
ah = xhi
i=1
N

(si h=1, a1 = x̄).

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 25

Momento centrado de orden h:


k
X ni
mh = (xi − x̄)h
i=1
N

Existe un formula que relaciona los dos momentos, si más que desarrollar el binomio de
Newton, resultando que:
h  
X
j h
mh = (−1) x̄j ah−j
j
j=0
2
Por ejemplo, el m2 = σ será:
2        
X
j 2 j 2 2 2
m2 = (−1) x̄ a2−j = a2 − x̄a1 + x̄2 =
j 0 1 2
j=0

1 X
a2 − 2x̄a1 + x̄2 = a2 − x̄2 = ni xi − x̄2
N
 
h h!
Hemos de tener en cuenta que = .
i i!(h − i)!

1.8. Medidas de forma


1.8.1. Medidas de asimetrı́a
Se dice que una distribución de frecuencias es simétrica si su representación gráfica
es simétrica respecto al punto x = x̄. Si la distribución es simétrica cumple además que
x̄ = M e = M o, si la distribución es unimodal o que x̄ = M e si tiene más de una moda.

Una distribución simétrica también verifica que su momento centrado de orden 3 es cero.
Aprovechando esta propiedad nace el coeficiente de Asimetrı́a de Fisher, dado por:
m3
g1 = ,
σ3
de tal manera que diremos:

Si g1 > 0 la distribución es asimétrica positiva o a la derecha.

Si g1 = 0 la distribución es simétrica.

Si g1 < 0 es asimétrica negativa o a la izquierda.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 26

Gráfico 1.13: Distribución normal

1.8.2. Medidas de aplastamiento o kurtosis


En este caso comparamos nuestra distribución con una distribución teórica con buenas
propiedades, concretamente la distribución Normal (se estudiará en el tema 5), que es una
distribución simétrica y que concentra casi todos sus valores en torno a la media.
Mediremos el aplastamiento de una distribución con el coeficiente de aplastamiento o
kurtosis
m4
g2 = 4 − 3
σ
Donde:

Si g2 > 0 diremos que es más apuntada que la distribución normal (leptocúrtica).

Si g2 = 0 será igual que la distribución normal (mesocúrtica).

Si g2 < 0 es más plana que la distribución normal (platicúrtica).

1.9. Medidas de concentración


Las medidas de concentración miden el mayor o menor grado de igualdad en el reparto de la
suma de una variable (por ejemplo salario). Ante este problema económico, las medidas como
la media, varianza, . . . no son significativas, por lo que es necesario construir unos indicadores
especı́ficos a este fin. En este análisis de la concentración podemos encontrarnos con muchas
situaciones entre las dos siguientes:

Concentración máxima: cuando un único individuo recibe la suma total de la variable y el


resto nada.

Equidistribución: todos los individuos reciben la misma cantidad de la variable.

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 27

1.9.1. Índice de Gini


Se define el ı́ndice de Gini mediante la siguiente expresión:
k−1
X k−1
X
(Fi − qi ) qi
i=1 i=1
Ig = k−1
=1− k−1
X X
Fi Fi
i=1 i=1
i
Ti X
donde qi = y Ti = nj xj .
T j=1

Este ı́ndice pertenece al intervalo [0-1], de tal forma que si el ı́ndice toma el valor 1 im-
plicará concentración máxima y si vale 0 equidistribución.

Ejemplo 1.15. Para la siguiente variable calcular el ı́ndice de gini:

Fi = NNi qi = TTi
P
xi ni ni xi Ni Ti = nj xj
10 5 50 5 50 0.03 0.005
20 10 200 15 250 0.10 0.025
30 10 300 25 550 0.17 0.056
40 12 480 37 1030 0.25 0.105
50 10 500 47 1530 0.31 0.1572
60 11 660 58 2190 0.39 0.2250
70 10 840 70 3030 0.47 0.3114
80 50 4000 120 7030 0.80 0.7225
90 30 2700 150 9730 1 1
150 2.52 1.6071

Siendo el ı́ndice de Gini Ig = 1 − 1,6071


2,52
= 1 − 0,6377 = 0,3622 por lo tanto cerca de la
equidistribución. Para que lo fuera perfectamente, los valores de Fi tendrı́an que ser iguales
que los qi .

1.9.2. Curva de Lorent


La curva de Lonrent es la representación gráfica del ı́ndice de Gini en un cuadrado de lado
1, en donde en el eje ordenadas representamos los valores de Fi y en el de abscisas los qi .

Si existe equidistribución la curva coincide con la diagonal del cuadrado, cuanto mayor sea
el indicie más se separará.

Ejemplo 1.16. La curva de lorent del ejemplo anterior es:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 28

Gráfico 1.14: Curva de Lorent

1.10. Diagrama de caja con bigotes


El diagrama de caja con bigotes es un resumen gráfico de la distribución de frecuencias de
la variable. Es propio del Análisis Exploratorio de Datos. En este gráfico representaremos los
siguientes valores:

Extremos de la variable: es decir, el Mı́nimo y el Máximo

Los cuartiles: Q1 , Q2 y Q3 .

La media x̄.

Fronteras interiores:

- Frontera interior inferior (f1 ): f1 = Q1 − 1,5RIQ.


- Frontera interior superior (f2 ): f2 = Q3 + 1,5RIQ

Fronteras exteriores:

- Frontera exterior inferior (F1 ): F1 = Q1 − 3RIQ.


- Frontera exterior superior (F2 ): F2 = Q3 + 3RIQ

Valores adyacentes:

- Valor adyacente inferior (VAI): es el valor de la distribución más próximo a f1 por


exceso (superior).
- Valor adyacente superior (VAS): es el valor de la distribución más próximo a f2 por
defecto (inferior).

Valores anómalos medios:

- Valores anómalos medios inferiores (VAMI): son los valores que se encuentran entre
f1 y F1 .
- Valores anómalos medios superiores (VAMS): son los valores que se encuentran
entre f2 y F2 .

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 29

Valores anómalos extremos:


- Valores anómalos extremos inferiores (VAEI): son los valores menores de F1 .
- Valores anómalos extremos superiores (VAES): son los valores mayores de F2 .

El diagrama de caja con bigotes consiste en un eje con extremos los valores mı́nimo y máxi-
mo de la variable, dibujar una caja cuyos extremos sean Q1 y Q3 . Dentro de ella dibujamos
una lı́nea vertical en la posición de la mediana.

A continuación, dibujamos dos segmentos a derecha e izquierda de la caja (los bigotes) que
llegaran hasta el valor adyacente superior e inferior respectivamente. Todos los valores que
queden fuera de esta representación se consideran valores atı́picos medios o extremos. Usual-
mente se suelen representar con distinto sı́mbolo según sean unos u otros.

Ejemplo 1.17. Calcular el diagrama de caja para la siguiente variable:

1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4

En primer lugar construimos la tabla de frecuencias:


xi n i Ni ni xi
0 6 6 0
1 8 14 8
2 5 19 10
3 4 23 12
4 4 27 16
5 1 28 5
8 1 29 8
10 1 30 10
30 69
El Máximo y el Mı́nimo de la distribución son el 0 y el 10.
Los cuartiles:
25
N∗ = 25 ∗ 30 = 7,5 =⇒ Q1 = 1
100
50
N∗ = 50 ∗ 30 = 15 =⇒ Q2 = 2
100
75
N∗ = 75 ∗ 30 = 22,5 =⇒ Q3 = 3
100
X ni xi 69
La media: x̄ = = = 2,3
N 30
Las fronteras:
RIQ = Q3 − Q1 = 3 − 1 = 2
f1 = Q1 − 1,5 ∗ RIQ = 1 − 1,5 ∗ 2 = −2 f2 = Q3 + 1,5 ∗ RIQ = 3 + 1,5 ∗ 2 = 6
F1 = Q1 − 3 ∗ RIQ = 1 − 3 ∗ 2 = −5 F2 = Q3 + 3 ∗ RIQ = 3 + 3 ∗ 2 = 9

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez


Variable Estadı́stica Unidimensional 30

Valores adyacentes:
V AI = 0 V AS = 5

Valores anómalos:
VAMI: No existen VAMI (puesto que no hay valores entre entre F1 y f1 ). Tampoco
existen VAEI. Los valores superiores son: VAMSl el 8 y VAES el 10

Gráfico 1.15: Diagrama de caja con bigotes

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

También podría gustarte