1 Análisis Univariado PDF

Tema 1
Variable Estadı́stica Unidimensional
1.1. Introducción
El término “estadı́stica” fue aplicado en principio a la recogida y análisis de información
de Estado, principalmente en forma de censos con fines militares o referentes a riquezas como
cantidad de grano o ganado (objetivo simplemente descriptivo).
Más tarde surge otra ciencia denominada Cálculo de Probabilidades que tiene su origen en
el estudio de los juegos de azar, que en principio eran atribuidos a la voluntad divina y no
será hasta el Renacimiento cuando se empiecen a estudiar de forma matemática.
Pero no será hasta Fisher, en el siglo XIX cuando se desarrolló un método de trabajo
consistente en ante unos datos, hacer:
1. Intentar describirlos
2. Buscar un modelo (función) que se ajuste a ellos
3. Intentar obtener conclusiones sobre esos datos. Este apartado es el más importante y al
que se denomina Inferencia Estadı́stica.
Por lo tanto, lo primero que necesitaremos será unos datos de fenómenos sobre los que
desarrollar nuestro trabajo. Estos fenómenos en estudio pueden ser de dos tipos:
1. Fenómenos determinı́sticos: que son aquellos que en las mismas condiciones siempre
producen el mismo resultado, es decir se desarrollan según una formula matemática.
2. Fenómenos aleatorios: aquellos que en igualdad de condiciones no siempre producen

el mismo resultado, es decir, no están marcados por leyes matemáticas. Por ejemplo el
lanzamiento de un dado.
De estos últimos fenómenos son de los que se encarga la estadı́stica.
4
Variable Estadı́stica Unidimensional 5
1.2. Conceptos básicos

Población: conjunto de elementos (no tiene porqué ser humano) en estudio.
Muestra: conjunto representativo de la población. Una buena muestra será aquella que refleje
las caracterı́sticas esenciales de la población.
Individuo: cada elemento, persona o cosa en estudio. Al número total de individuos de la

población se le llama tamaño poblacional y se denota con N , al de la muestra se le conoce
como tamaño muestral y se nota con n.
Muestra aleatoria: es aquella muestra que se obtiene mediante algún procedimiento de tal
manera que cada individuo tiene una oportunidad igual e independiente de pertenecer a
la muestra.
Caracterı́stica o variable: cada una de las propiedades observadas en cada individuo y que
han de tener todos ellos. Por ejemplo el sexo, el peso, el tamaño. Se notan como X, Y,...
Modalidades: cada una de las posibles opciones que puede tomar una variable. Se cumple que
son exahustivas e incompatibles, es decir, un individuo tiene una y solo una modalidad.
Se notan como xi , i = 1, 2, . . .. De tal forma que:
\ [
xi xj = ∅ ∀i 6= j y xi = X
Por ejemplo, en la variable sexo, sus modalidades son hombre/mujer.
Además, si la variable en estudio es numérica, tiene asociado un número real, recibe el

nombre de cuantitativa (salario, peso, ...). Si no es numérica se denota cualitativa (sexo,
profesión...).
A su vez, toda variable cuantitativa se divide en:
Continua: si toma valores en un intervalo (tiempo, distancia...).
Discreta: si toma valores enteros (número de vehı́culos...).
El objetivo de la estadı́stica será a partir de datos muestrales, sacar conclusiones o inferir

resultados para la población, es decir, pasar de lo especı́fico (muestra) a lo general (población),
con el menor error.
1.3. Representación tabular de los datos

Una vez tengamos una variable, el primer paso será el de clasificarla y ordenarla para que
se muestre de una forma clara y concisa.
Dada un población P, y una cierta variable X, con modalidades x1 , . . . , xk , se define:
ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Frecuencia absoluta ni de la modalidad xi : al número de individuos que poseen esa ca-

racterı́stica (número de veces que se repite) de tal manera que:
k
X
ni = N número total de individuos
i=1
Frecuencia relativa fi de la modalidad xi : a la proporción de individuos que presentan

esa modalidad (cociente entre la frecuencia absoluta y el número total de individos).
k k
ni X X ni
fi = fi = =1
N i=1 i=1
N
Frecuencia absoluta acumulada Ni de la modalidad xi : como la suma de las frecuen-

cias absolutas ni hasta la i-ésima modalidad.
i
X
Ni = nj i≤k
j=1
Frecuencia relativa acumulada Fi de la modalidad xi : es la suma hasta la i-ésima mo-

dalidad de las frecuencias relativas.
i
X n
X
Fi = fj Fi = f1 + f2 + . . . + fi fi = 1
j=1 j=1
Modalidades Frec. Abs. Frec Abs. Acumu Frec. Rel. Frec. Rel. Acumu
x1 n1 N1 = n 1 f1 = nN1 F1 = f1 = nN1
x2 n2 N2 = n 1 + n 2 f2 = nN2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
ni
xi ni Ni = n 1 + . . . + n i fi = N
Fi = f1 + . . . + fi
.. .. .. .. ..
. . . . .
nk
xk nk Nk = n 1 + . . . + n k fk = N
Fk = f1 + . . . + fk
Ejemplo 1.1. Sea el experimento consistente en lanzar un dado 25 veces. De ellas sale el 1
cinco veces; el 2 cuatro; cuatro veces el 3; tres el 4; cinco el 5 y cuatro el 6. Construir la tabla
de frecuencias.
xi ni Ni fi Fi
1 5 5 0.2 0.2
2 4 9 0.16 0.36
3 4 13 0.16 0.52
4 3 16 0.12 0.64
5 5 21 0.2 0.84
6 4 25 0.16 1
N= 25 1

Se define Distribución de Frecuencias de una variable X a el conjunto de valores que

toma la variable junto con sus frecuencias:
{(xi , ni )} i = 1 . . . , k
o
{(xi , fi )} i = 1 . . . , k
En el caso que las variables sean continuas, es decir, las modalidades sean intervalos, de-
notaremos a los extremos de los intervalos como (ei−1 , ei ]. Estos intervalos o clases viene de-
terminados por dos valores a los que llamaremos extremo inferior y superior respectivamente.
A su vez se define la amplitud del intervalo como la diferencia entre estos valores:
ai = ei − ei−1
También definimos la marca de clase como el valor central del intervalo
ei−1 + ei
xi =
2
Será necesario calcular la densidad de frecuencia del intervalo (hi ), en los casos en que
los intervalos tengan distinta amplitud. La densidad de frecuencias se calcula como:
ni fi
hi = o hi =
ai ai
Ejemplo 1.2.
ei−1 − ei xi ni Ni ai fi Fi hi
40-70 55 2 2 30 0.02 0.02 0.066
70-80 75 5 7 10 0.05 0.07 0.5
80-100 90 10 17 20 0.1 0.17 0.5
100-200 150 35 52 100 0.35 0.52 0.35
200-300 250 43 95 100 0.43 0.95 0.43
300-350 325 5 100 50 0.05 1 0.1
N=100
1.4. Representaciones Gráficas

El objetivo fundamental de las representaciones gráficas es la de proporcionar una visión
del comportamiento global de la variable en estudio. El primer paso será distinguir entre los
dos tipos de fenómenos en estudio, es decir, entre variables cualitativas y cuantitativas.

1.4.1. Variables cualitativas

Diagrama de barras
Se utiliza para variables cualitativas, aunque puede ser extendido a variables de tipo cuanti-
tativo. En unos ejes cartesianos, se representan sobre el eje de abcisas las distintas modalidades,
haciendo corresponder a cada una de ellas un rectángulo de base constante y altura propor-
cional a la frecuencia de cada modalidad. Esta representación es equivalente realizarla con
frecuencias absolutas o relativas.
Ejemplo 1.3. Sea la siguiente tabla de frecuencias
votos ni fi
Si 50 0.5
No 30 0.3
Nulo 20 0.2
Su diagrama de barras será:
Gráfico 1.1: Diagrama de Barras
Diagrama de sectores
Este gráfico consiste en repartir el área de un cı́rculo en sectores de tamaño proporcional
a la frecuencia de cada modalidad, de tal forma que los grados (αi ) de cada sector vendrán
dados por la siguiente expresión:
2πni
αi = = 2πfi
N
Este gráfico también es aplicable tanto a variables cualitativas como cuantitativas.
Ejemplo 1.4. Con los mismos datos que el apartado anterior, el diagrama de sectores será:

Gráfico 1.2: Diagrama de Sectores
Pictogramas y Cartogramas
El pictograma consiste en representar una figura alegórica en relación a lo que se quiere
representar, en donde el tamaño guarda relación con su frecuencia.
El cartograma son mapas que representan zonas de estudio, sobre las cuales por medio de
marcas o colores destacan las intensidades de un cierto carácter.
Ejemplo 1.5.
Gráfico 1.3: Pictograma y Cartograma
1.4.2. Variables cuantitativas discretas

Diagrama de barras y polı́gono de frecuencias
En unos ejes cartesianos, se representan sobre el eje OY las distintas modalidades de la
variable. Para cada una de ellas se levanta una barra de altura igual a la de su frecuencias.
Este gráfico es valido tanto para frecuencias absolutas o relativas, acumuladas o no acumuladas.

Gráfico 1.4: Diagrama de barras
Si unimos los extremos del diagrama de barras (para frecuencias absolutas), obtenemos el
polı́gono de frecuencias.
Ejemplo 1.6. Dada la siguiente variable, representaremos el polı́gono de frecuencias
Xi ni Fi
10 50 50
20 30 80
50 20 100
Gráfico 1.5: Polı́gono de frecuencias
Curva acumulativa o de distribución

Consiste en representar la función de distribución o acumulada, que en el caso cualitativo
viene definida como: dada una población P y un carácter en estudio C cuantitativo, la función
de distribución será:


 0 ∀x < x1
 F1 x1 ≤ x < x2


X
F (x) = fi = F2 x2 ≤ x < x3
... ...

xi ≤x 


Fn = 1 ∀x > xk

verificando:

No decreciente
Continua a la derecha
F (−∞) = 0 y F (∞) = 1.
A la representación de esta curva se le denomina curva de distribución.
Ejemplo 1.7. Dada la siguiente variable:

xi n i Ni fi Fi
6 7 7 0.35 0.35
12 2 9 0.1 0.45
15 4 13 0.2 0.65
24 7 20 0.35 1
20
Su curva de distribución es :


 0 si x<6
0,35 si 6 ≤ x < 12



F (x) = 0,45 si 12 ≤ x < 15
 0,65 si 15 ≤ x < 24



1 si x ≥ 24

Siendo el valor de F (x) la proporción de individuos con carácter menor o igual a x.
Gráfico 1.6: Curva de distribución
1.4.3. Variables cuantitativas continuas

Histograma
El histograma cosiste en representar los distintos intervalos o clases, dados por los valores
ei−1 , ei para cada intervalo, en el eje de abcisas y sobre ellos un rectángulo de tamaño propor-
cional a su frecuencia. Cuando todos los intervalos viene expresados con la misma amplitud,

no existe ningún problema, este surgirá cuando intentemos representar intervalos de distinta
amplitud, en este caso representaremos no la frecuencia absoluta o relativa, y si su densidad
de frecuencia, es decir, los valores
ni
hi =
ai
resultando:
Gráfico 1.7: Histograma
Al gráfico resultante de unir los puntos medios de los extremos superiores de las barras del
histograma se le denomina también Polı́gono de Frecuencias.
Curva de distribución
Consiste en la representación, para el caso continuo, de la función de distribución.
Ejemplo 1.8. Dados los siguientes datos datos, construir su función de distribución.
ei−1 − ei ni Ni Fi
0-10 10 10 0.1
10-20 25 35 0.35
20-40 30 65 0.65
40-50 15 80 0.8
50-70 20 100 1

Gráfico 1.8: Función de distribución
1.4.4. Diagrama de tallos y hojas

El diagrama de tallos y hojas es una representación del análisis exploratorio de datos.
Es una representación similar al histograma de frecuencias, solo que en ellas se mantiene la
información del número concreto. Esta representación consistente en:
Seleccionar los intervalos en los que vamos a agrupar los datos.
En una primera columna, se expresa la raı́z del dato (el tallo).
Trazamos una lı́nea vertical que separará los “tallos” de las “hojas”.
A la derecha de la lı́nea vertical se escriben la parte final de los valores considerados.
También se representa el recuento de los individuos hasta la mediana de forma ascendente

y de forma descendente desde ella.
Destacamos que si este gráfico se gira 90o , se obtiene un histograma de frecuencias, en

donde a demás de la frecuencia de cada intervalo, tenemos los valores concretos que toma la
variable.
Ejemplo 1.9. Dados los siguientes datos,
20 21 21 21 2324 25 26 26 27 28 29 30 30 31 32 33 33 35 38 38 39 40 41 45 45 46 47 48 50
Gráfico 1.9: Diagrama de tallos y hojas

1.5. Medidas de posición

1.5.1. Medidas de posición central
Se define una medida de posición central como un valor que intenta representar el
conjunto total de datos mediante un único valor que los centraliza, tratando de resumir y
sintetizar las frecuencias.
Mediana
La mediana admite dos definiciones:
Definición 1: es el valor cuya ordenada en la curva de distribución es 12 , es decir F (x) = 0,5.
Definición 2: es el valor tal que si ordenamos todos los valores de la variable, la mitad son
superiores y la mitad inferiores.
Para calcularla distinguiremos según el tipo de dato:
1. Caso discreto
a) Frecuencias unitarias y observaciones impares: es el caso más sencillo, es el valor

central de la variable ordenada. Por ejemplo, la mediana de
2, 5, 8, 11, 13
es el M e = 8.
b) Frecuencia unitaria y observaciones pares: la mediana será la media de las dos

observaciones centrales. En el siguiente ejemplo
1, 2, 5, 8, 11, 13
5+8
la mediana es M e = 2
= 6,5.
c) Frecuencias no unitarias: Calculamos la frecuencia absoluta acumulada Ni y bus-
camos el valor N/2.
xi n i Ni
0 6 6
1 20 26
2 28 54
3 12 66
4 8 74
5 6 80
En este caso calculamos el valor N2 = 80

2
= 40 y buscamos que valor acumula una
frecuencia de 40, para este ejemplo M e = 2.

2. Caso continuo: lo primero será determinar el intervalo mediano, es decir, en que intervalo
(ei−1 , ei ], está el valor N/2.
Los extremos del intervalo acumularán frecuencias Ni−1 y Ni respectivamente, de tal

manera que interpolando linealmente, obtendremos:
Gráfico 1.10: Cálculo mediana
BD AE AE BC (ei − ei−1 )(N/2 − Ni−1 )

= =⇒ BD = =
BC AC AC (Ni − Ni−1 )
por lo tanto la mediana será:
(N/2 − Ni−1 )
M e = ei−1 + ai
(Ni − Ni−1 )
Las ventajas más importantes de esta medida son:
Es la mejor medida en variables de tipo ordinal (variables que admiten un orden).
Es de cálculo sencillo.
En ella solo influyen los valores centrales de la distribución y es insensible a los extremos
lo cuál es útil cuando existen muchos valores extremos que invaliden otras medidas de
posición central.
Como principal inconveniente destacamos precisamente que no intervienen en su cálculo
todos los valores.
La moda
Se define la moda como el valor de la distribución que tiene mayor frecuencia (el que más
se repite). Destacando que una variable puede tener más de una moda.
Para calcularla distinguiremos según el tipo de dato:

1. Variable discreta: es el valor con mayor frecuencia.
2. Variable continua: el primer paso será calcular el intervalo (o intervalos) modal (-es),
(ei−1 , ei ] que será el que mayor frecuencia tenga. Si los intervalos tienen distinta amplitud,
tendremos que calcular la densidad de frecuencias. En el intervalo modal, por semejanza
de triángulos, obtendremos:
Gráfico 1.11: Cálculo de la moda
DF GE DF GE
= ⇒ +1= +1⇒
BD AC BD AC
DF + BD GE + AC BD DF + BD
= ⇒ = ⇒
BD AC AC GE + AC
AC(DF + BD)
BD =
GE + AC
(hi − hi−1 )
M o = ei−1 + (ei − ei−1 )
(hi − hi+1 ) + (hi − hi−1 )
Si los intervalos tienen igual amplitud se pueden sustituir los valores h por n.
Dentro de las ventajas de la moda están:
Es la única medida que puede obtenerse en variables cualitativas con escala nominal
(categorı́as numéricas).
Es de fácil cálculo e interpretación.
Su principal inconveniente es que se centra exclusivamente en los valores de mayor frecuen-

cia.
Ejemplo 1.10. Calcular la media y la moda

ni Ni
0-2 110 110
2-4 200 310
4-6 90 400
6-8 75 475
8-10 25 500
Para calcular la mediana, en primer lugar obtendremos el intervalo mediano, es decir, el
intervalo que contenga el valor N/2 = 500/2 = 250, que esta en el intervalo (2 − 4], por lo que
aplicando su expresión obtendremos:
(N/2 − Ni−1 ) (250 − 110)

M e = ei−1 + ai = 2 + (4 − 2) = 2 + 1,4 = 3,4
(Ni − Ni−1 ) (310 − 110)
Para calcular la moda, calculamos el intervalo modal que será el de mayor frecuencia. En
este caso como todos los intervalos tiene igual amplitud, no es necesario obtener los valores hi .
El intervalo modal también el 2 − 4 con frecuencia 200. Aplicando la definición de moda
(hi − hi−1 ) (200 − 110)

M o = ei−1 + (ei −ei−1 ) = 2+ ∗2 = 2+0,9 = 2,9
(hi − hi+1 ) + (hi − hi−1 ) (200 − 110) + (200 − 90)
Media aritmética
La media aritmética se define como la suma de los valores de la variable ponderada por
su frecuencia. Se representa como x̄.
k k
X 1 X
x̄ = fi xi = n i xi
i=1
N i=1
En el caso continuo se sustituyen los valores de la variable por las marcas de clase.
Sus principales propiedades son:

1. Si a una variable la sometemos a una transformación consistente en multiplicarla por un
cierto valor a 6= 0 (operación denominada cambio de escala) y sumarle un valor b ∈ R
(cambio de origen), es decir, crear una nueva variable Y = aX + b, resulta que la media
de esta nueva variable es
k
X k
X k
X k
X k
X k
X
ȳ = fi yi = fi (axi + b) = afi xi + bfi = a fi xi + b fi = ax̄ + b
i=1 i=1 i=1 i=1 i=1 i=1
Pk
2. La suma de las desviaciones de los datos respecto a su media es cero, es decir, i=1 fi (xi −
x̄) = 0
k k
X 1 X 1 X 1
fi (xi − x̄) = ni x i − x̄ni = x̄ − x̄N = 0
N i=1 N i=1 N

Sus principales ventajas son:
Utiliza todos los valores de la distribución.

Está perfectamente definida y es única para cada distribución de frecuencias.
Es el centro de gravedad de la distribución.
Su principal inconveniente radica en que es muy sensible a los valores extremos, por lo que
es poco representativa en distribuciones con datos muy dispersos.
Ejemplo 1.11. Calcular la media de la siguiente distribución de frecuencias:
ni xi ni xi
20-30 20 25 500
30-100 30 65 1950
100-500 10 300 3000
500-600 30 550 16500
600-1000 10 800 8000
100 29950
k
1 X 29950
x̄ = n i xi = = 299,5
N i=1 100
Media geométrica
La media geométrica se utiliza cuando los valores de la variable no son de naturaleza
propiamente aditiva, como porcentajes que expresen la evolución de una caracterı́stica con
respecto a su valor en un periodo base o cuando deseamos promedios de magnitudes como
tipos de interés, números ı́ndices, ...
Se calcula como
v
u k
uY
k
G=t fi xi
i=1
Sus principales ventajas con respecto a la media aritmética están en:
Es más representativa cuando la variable evoluciona de forma acumulativa con efectos

multiplicativos.
Tiene en cuenta todos los valores de la distribución.
Los valores extremos tiene menor influencia que en la media aritmética al estar definida
mediante productos.
Los problemas están en que su cálculo es más complicado e incluso no se puede calcular si
algún valor es 0.

Media armónica
Esta media se utiliza para promediar velocidades, cantidades, rendimiento o situaciones
donde existen tres variables tales que el producto de dos de ellas es igual a la producción. Su
ventaja es que en este contexto es más representativa frente a que no se puede calcular si algún
valor es 0.
Su expresión es:
N
H = X ni
xi
En general se cumple que
H ≤ G ≤ x̄
1.5.2. Otras medidas de posición: los cuantiles

Sea α ∈ R, con 0 < α < 1. Se define un cuantil de orden α como:
Definición 1: a la solución de la ecuación
F (x) = α
Definición 2: aquel valor que acumula el 100α % de la distribución, dividiéndola en partes

proporcionales.
Los más importantes son:
Cuartiles: son los que dividen a la población en cuatro partes iguales, acumulando cada una
de ellas el 25 % de la distribución.
Q1 ⇒ F (x) = 0,25 o Ni = N ∗ 0,25
Q2 ⇒ F (x) = 0,5 = M e o Ni = N ∗ 0,5

Q3 ⇒ F (x) = 0,75 o Ni = N ∗ 0,75
Deciles: dividen a la población en 10 partes iguales, acumulando cada una de ellas el 10 %.
i i
Di ⇒ F (x) = i = 1, . . . , 9 o Ni = N ∗
10 10
Percentiles: dividen a la población en 100 partes iguales acumulando cada una de ella un
1 %.
i i
Pi ⇒ F (x) = i = 1, . . . , 99. o Ni = N ∗
100 100

Ejemplo 1.12. Calcular el primer y el tercer cuartil de la siguiente distribución de fre-

cuencias:
xi n i Ni
0 6 6
1 20 25
2 28 54
3 12 66
4 8 74
5 6 80
Para calcular el primer y tercer cuartil tendremos que calcular los valores N4 = 80
4
= 20 por
lo que el primer cuartil será el valor que acumule frecuencia 20, es decir, Q1 = 1.
3N 3∗80
Para calcular el tercer cuartil se actúa de la misma forma, 4
= 4
= 60 ⇒ Q3 = 3.
Ejemplo 1.13. Calcular el percentil 60 de esta distribución.

ni Ni
0-2 110 110
2-4 200 310
4-6 90 400
6-8 75 425
8-10 25 500
En este caso calculamos el valor 60∗N

100
= 60∗500
100
= 300 y buscamos que intervalo contiene fre-
cuencia 300. En este caso tendremos el intervalo donde esta contenido el percentil 60, (ei−1 , ei ]
= (2 − 4] y aplicamos una formula equivalente a la de la mediana:
α
(N 100 − Ni−1 )
Pα = ei−1 + ai ⇒
(Ni − Ni−1 )
(300 − 110)
P60 =2+ (4 − 2) = 2 + 1,9 = 3,9
(310 − 110)
Percentil Inverso
En muchas ocasiones estamos interesados en resolver el problema contrario al cálculo del
percentil, es decir, conocido un valor de la variable obtener el número de individuos que acu-
mula. A este problema se le suele denominar “cálculo del percentil inverso”. Su resolución
es muy simple, utilizando la misma metodologı́a que en el cálculo de la mediana (ver 1.5.1),
tendremos que:

Gráfico 1.12: Percentil inverso
BD AE BD AC (x − ei−1 )(Ni − Ni−1 )

= =⇒ BC = =
BC AC AE ei − ei−1
por lo que la formula final del percentil inverso será:
(x − ei−1 )(Ni − Ni−1 )

y −1 = Ni−1 +
ai
1.6. Medidas de dispersión

Los estadı́sticos anteriores nos dan una medida central de los datos. Pero existen otro tipo
de medidas útiles en otras circunstancias. Por ejemplo, las dos poblaciones siguientes:
0, 0, 10, 10
4, 5, 5, 6
tiene igual media x̄ = 5. Es decir, aunque son dos poblaciones claramente diferentes, una me-
dida de posición central como la media, nos las resumirı́a de igual forma. Para evitar estos
problemas, existen una serie de medidas llamadas de dispersión que nos miden la variabilidad
o dispersión de una población. Verificándose que cuanto mayor es la dispersión de los datos
peor es la representatividad de las medidas de posición.
Estas medidas se pueden clasificar en dos tipos:
Absolutas: son aquellas que miden la variabilidad en la misma unidad de medida que la
variable, por lo que no son comparables unas con otras.
Relativas: son valores sin unidad de medida, pudiéndose comparar los valores de distintas
variables.

1.6.1. Medidas de dispersión absolutas

Desviaciones cuadráticas
La desviación cuadrática es la media de la variable (X − P )2 , es decir,
k
X
fi (xi − P )2
i=1
donde P es una cierta medida de posición. El caso más común es aquel en el que P es la media.
La varianza
La varianza es desviación cuadrática para el caso de P = x̄. Se denota indistintamente
como
2
V ar(X) = V (X) = σX = σ2
y su expresión es
k
X
σ2 = fi (xi − x̄)2
i=1
A su vez se denomina desviación tı́pica a la raı́z cuadrada de esta medida

v
u k
uX √
σ=t fi (xi − x̄)2 = σ 2
i=1
Como propiedades principales tendremos:
Siempre es positiva 0 ≤ σ 2 < ∞.
Si σ 2 = 0 implica que xi − x̄ = 0 ∀ i, es decir, la variable toma un único valor y este es

igual a su media.
Existe una fórmula de cálculo simplificada:
k
X k
X k
X k
X k
X
V ar(X) = fi (xi − x̄)2 = fi (x2i − 2x̄xi + x̄2 ) = fi x2i − 2x̄ fi xi + x̄2 fi =
i=1 i=1 i=1 i=1 i=1
k k
X 1 X
fi x2i − x̄2 = ni x2i − x̄2
i=1
N i=1
Si a la variable X le realizamos un cambio de escala y de origen, de tal manera que

obtengamos una nueva variable Y = aX + b, resulta que:

X k
X k
X
2 2
V (Y ) = (yi − ȳ) = [(axi + b) − (ax̄ + b)] = fi [axi − ax̄]2 =
i=1 i=1
k
X k
X
fi [a(xi − x̄)]2 = a2 fi (xi − x̄)2 = a2 V ar(X)
i=1 i=1
Se denomina tipificación de una variable al cambio de escala y de origen

X − x̄
Y =
σx
verificando que la nueva variable Y tiene:
- Media cero, ȳ = 0.
- Varianza 1, V (Y ) = 1.
Ejemplo 1.14. Calcular la media y la varianza de la siguiente población
xi n i n i xi ni x2i
0 6 0 0
1 20 20 20
2 28 56 112
3 12 36 108
4 8 32 128
5 6 30 150
80 174 518
En primer lugar calculamos la media:

1 X 174
x̄ = n i xi = = 2,175
N 80
Ahora calculamos la varianza aplicando la formula descompuesta
1 X 518
V ar(X) = ni x2i − x̄2 = − 2,1752 = 1,744
N 80
Rangos o Recorridos
Los recorridos más importantes son:
Rango: Diferencia entre el máximo de la distribución y el mı́nimo.
R = M axx − M inx
Rango intercuatı́lico: Diferencia entre el tercer y el primer cuartil.
RIQ = Q3 − Q1

Rango interdecı́lico: Diferencia entre el decil noveno y el primero.
RID = D9 − D1
Rango interpercentı́lico: Diferencia entre el percentil noventa y nueve y el primero.
RIP = P99 − P1
1.6.2. Medidas de dispersión relativas

Las medidas de dispersión relativas más importantes son:
Coeficiente de apertura:
xk
CA = x1 6= 0
x1
Recorrido relativo:
xk − x1
RE =
x̄
Recorrido semi-intercuartı́lico:
Q3 − Q1
Q3 + Q1
Coeficiente de variación: es la medida más utilizada. Tiene la ventaja medir la dispersión
de distintas variables sin medida, con lo que podremos comparar la dispersión de variables
medidas en diferentes escalas.
σ
C.V. =
|x̄|
1.7. Momentos
Los momentos son medidas construidas a partir de todos los datos de la variable estadı́stica
y sus frecuencias relativas.
Estas medidas caracterizan de manera completa a la distribución, de forma que se dice que
si para dos variables todos sus momentos coinciden estas dos variables son iguales.
Existen dos tipos de momentos:
Momento de orden h respecto al origen:

k
X ni
ah = xhi
i=1
N
(si h=1, a1 = x̄).

Momento centrado de orden h:

k
X ni
mh = (xi − x̄)h
i=1
N
Existe un formula que relaciona los dos momentos, si más que desarrollar el binomio de
Newton, resultando que:
h
X
j h
mh = (−1) x̄j ah−j
j
j=0
2
Por ejemplo, el m2 = σ será:
2
X
j 2 j 2 2 2
m2 = (−1) x̄ a2−j = a2 − x̄a1 + x̄2 =
j 0 1 2
j=0
1 X
a2 − 2x̄a1 + x̄2 = a2 − x̄2 = ni xi − x̄2
N

h h!
Hemos de tener en cuenta que = .
i i!(h − i)!
1.8. Medidas de forma

1.8.1. Medidas de asimetrı́a
Se dice que una distribución de frecuencias es simétrica si su representación gráfica
es simétrica respecto al punto x = x̄. Si la distribución es simétrica cumple además que
x̄ = M e = M o, si la distribución es unimodal o que x̄ = M e si tiene más de una moda.
Una distribución simétrica también verifica que su momento centrado de orden 3 es cero.
Aprovechando esta propiedad nace el coeficiente de Asimetrı́a de Fisher, dado por:
m3
g1 = ,
σ3
de tal manera que diremos:
Si g1 > 0 la distribución es asimétrica positiva o a la derecha.
Si g1 = 0 la distribución es simétrica.
Si g1 < 0 es asimétrica negativa o a la izquierda.

Gráfico 1.13: Distribución normal
1.8.2. Medidas de aplastamiento o kurtosis

En este caso comparamos nuestra distribución con una distribución teórica con buenas
propiedades, concretamente la distribución Normal (se estudiará en el tema 5), que es una
distribución simétrica y que concentra casi todos sus valores en torno a la media.
Mediremos el aplastamiento de una distribución con el coeficiente de aplastamiento o
kurtosis
m4
g2 = 4 − 3
σ
Donde:
Si g2 > 0 diremos que es más apuntada que la distribución normal (leptocúrtica).
Si g2 = 0 será igual que la distribución normal (mesocúrtica).
Si g2 < 0 es más plana que la distribución normal (platicúrtica).
1.9. Medidas de concentración

Las medidas de concentración miden el mayor o menor grado de igualdad en el reparto de la
suma de una variable (por ejemplo salario). Ante este problema económico, las medidas como
la media, varianza, . . . no son significativas, por lo que es necesario construir unos indicadores
especı́ficos a este fin. En este análisis de la concentración podemos encontrarnos con muchas
situaciones entre las dos siguientes:
Concentración máxima: cuando un único individuo recibe la suma total de la variable y el

resto nada.
Equidistribución: todos los individuos reciben la misma cantidad de la variable.

1.9.1. Índice de Gini

Se define el ı́ndice de Gini mediante la siguiente expresión:
k−1
X k−1
X
(Fi − qi ) qi
i=1 i=1
Ig = k−1
=1− k−1
X X
Fi Fi
i=1 i=1
i
Ti X
donde qi = y Ti = nj xj .
T j=1
Este ı́ndice pertenece al intervalo [0-1], de tal forma que si el ı́ndice toma el valor 1 im-
plicará concentración máxima y si vale 0 equidistribución.
Ejemplo 1.15. Para la siguiente variable calcular el ı́ndice de gini:
Fi = NNi qi = TTi
P
xi ni ni xi Ni Ti = nj xj
10 5 50 5 50 0.03 0.005
20 10 200 15 250 0.10 0.025
30 10 300 25 550 0.17 0.056
40 12 480 37 1030 0.25 0.105
50 10 500 47 1530 0.31 0.1572
60 11 660 58 2190 0.39 0.2250
70 10 840 70 3030 0.47 0.3114
80 50 4000 120 7030 0.80 0.7225
90 30 2700 150 9730 1 1
150 2.52 1.6071
Siendo el ı́ndice de Gini Ig = 1 − 1,6071

2,52
= 1 − 0,6377 = 0,3622 por lo tanto cerca de la
equidistribución. Para que lo fuera perfectamente, los valores de Fi tendrı́an que ser iguales
que los qi .
1.9.2. Curva de Lorent

La curva de Lonrent es la representación gráfica del ı́ndice de Gini en un cuadrado de lado
1, en donde en el eje ordenadas representamos los valores de Fi y en el de abscisas los qi .
Si existe equidistribución la curva coincide con la diagonal del cuadrado, cuanto mayor sea
el indicie más se separará.
Ejemplo 1.16. La curva de lorent del ejemplo anterior es:

Gráfico 1.14: Curva de Lorent
1.10. Diagrama de caja con bigotes

El diagrama de caja con bigotes es un resumen gráfico de la distribución de frecuencias de
la variable. Es propio del Análisis Exploratorio de Datos. En este gráfico representaremos los
siguientes valores:
Extremos de la variable: es decir, el Mı́nimo y el Máximo
Los cuartiles: Q1 , Q2 y Q3 .
La media x̄.
Fronteras interiores:
- Frontera interior inferior (f1 ): f1 = Q1 − 1,5RIQ.

- Frontera interior superior (f2 ): f2 = Q3 + 1,5RIQ
Fronteras exteriores:
- Frontera exterior inferior (F1 ): F1 = Q1 − 3RIQ.

- Frontera exterior superior (F2 ): F2 = Q3 + 3RIQ
Valores adyacentes:
- Valor adyacente inferior (VAI): es el valor de la distribución más próximo a f1 por

exceso (superior).
- Valor adyacente superior (VAS): es el valor de la distribución más próximo a f2 por
defecto (inferior).
Valores anómalos medios:
- Valores anómalos medios inferiores (VAMI): son los valores que se encuentran entre
f1 y F1 .
- Valores anómalos medios superiores (VAMS): son los valores que se encuentran
entre f2 y F2 .

Valores anómalos extremos:

- Valores anómalos extremos inferiores (VAEI): son los valores menores de F1 .
- Valores anómalos extremos superiores (VAES): son los valores mayores de F2 .
El diagrama de caja con bigotes consiste en un eje con extremos los valores mı́nimo y máxi-
mo de la variable, dibujar una caja cuyos extremos sean Q1 y Q3 . Dentro de ella dibujamos
una lı́nea vertical en la posición de la mediana.
A continuación, dibujamos dos segmentos a derecha e izquierda de la caja (los bigotes) que
llegaran hasta el valor adyacente superior e inferior respectivamente. Todos los valores que
queden fuera de esta representación se consideran valores atı́picos medios o extremos. Usual-
mente se suelen representar con distinto sı́mbolo según sean unos u otros.
Ejemplo 1.17. Calcular el diagrama de caja para la siguiente variable:
1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4
En primer lugar construimos la tabla de frecuencias:

xi n i Ni ni xi
0 6 6 0
1 8 14 8
2 5 19 10
3 4 23 12
4 4 27 16
5 1 28 5
8 1 29 8
10 1 30 10
30 69
El Máximo y el Mı́nimo de la distribución son el 0 y el 10.
Los cuartiles:
25
N∗ = 25 ∗ 30 = 7,5 =⇒ Q1 = 1
100
50
N∗ = 50 ∗ 30 = 15 =⇒ Q2 = 2
100
75
N∗ = 75 ∗ 30 = 22,5 =⇒ Q3 = 3
100
X ni xi 69
La media: x̄ = = = 2,3
N 30
Las fronteras:
RIQ = Q3 − Q1 = 3 − 1 = 2
f1 = Q1 − 1,5 ∗ RIQ = 1 − 1,5 ∗ 2 = −2 f2 = Q3 + 1,5 ∗ RIQ = 3 + 1,5 ∗ 2 = 6
F1 = Q1 − 3 ∗ RIQ = 1 − 3 ∗ 2 = −5 F2 = Q3 + 3 ∗ RIQ = 3 + 3 ∗ 2 = 9

Valores adyacentes:
V AI = 0 V AS = 5
Valores anómalos:
VAMI: No existen VAMI (puesto que no hay valores entre entre F1 y f1 ). Tampoco
existen VAEI. Los valores superiores son: VAMSl el 8 y VAES el 10
Gráfico 1.15: Diagrama de caja con bigotes

1 Análisis Univariado PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1 Análisis Univariado PDF

Cargado por

Copyright:

Formatos disponibles

Tema 1

Variable Estadı́stica Unidimensional

2. Buscar un modelo (función) que se ajuste a ellos

2. Fenómenos aleatorios: aquellos que en igualdad de condiciones no siempre producen

De estos últimos fenómenos son de los que se encarga la estadı́stica.

1.2. Conceptos básicos

Individuo: cada elemento, persona o cosa en estudio. Al número total de individuos de la

Por ejemplo, en la variable sexo, sus modalidades son hombre/mujer.

Además, si la variable en estudio es numérica, tiene asociado un número real, recibe el

A su vez, toda variable cuantitativa se divide en:

Continua: si toma valores en un intervalo (tiempo, distancia...).

Discreta: si toma valores enteros (número de vehı́culos...).

El objetivo de la estadı́stica será a partir de datos muestrales, sacar conclusiones o inferir

1.3. Representación tabular de los datos

Dada un población P, y una cierta variable X, con modalidades x1 , . . . , xk , se define:

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Frecuencia absoluta ni de la modalidad xi : al número de individuos que poseen esa ca-

Frecuencia relativa fi de la modalidad xi : a la proporción de individuos que presentan

Frecuencia absoluta acumulada Ni de la modalidad xi : como la suma de las frecuen-

Frecuencia relativa acumulada Fi de la modalidad xi : es la suma hasta la i-ésima mo-

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Se define Distribución de Frecuencias de una variable X a el conjunto de valores que

1.4. Representaciones Gráficas

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

1.4.1. Variables cualitativas

Ejemplo 1.3. Sea la siguiente tabla de frecuencias

Gráfico 1.1: Diagrama de Barras

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Gráfico 1.2: Diagrama de Sectores

Gráfico 1.3: Pictograma y Cartograma

1.4.2. Variables cuantitativas discretas

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Gráfico 1.4: Diagrama de barras

Ejemplo 1.6. Dada la siguiente variable, representaremos el polı́gono de frecuencias

Gráfico 1.5: Polı́gono de frecuencias

Curva acumulativa o de distribución

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Ejemplo 1.7. Dada la siguiente variable:

Siendo el valor de F (x) la proporción de individuos con carácter menor o igual a x.

Gráfico 1.6: Curva de distribución

1.4.3. Variables cuantitativas continuas

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Gráfico 1.7: Histograma

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Gráfico 1.8: Función de distribución

1.4.4. Diagrama de tallos y hojas

Seleccionar los intervalos en los que vamos a agrupar los datos.

En una primera columna, se expresa la raı́z del dato (el tallo).

A la derecha de la lı́nea vertical se escriben la parte final de los valores considerados.

También se representa el recuento de los individuos hasta la mediana de forma ascendente

Destacamos que si este gráfico se gira 90o , se obtiene un histograma de frecuencias, en

Ejemplo 1.9. Dados los siguientes datos,

Gráfico 1.9: Diagrama de tallos y hojas

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

1.5. Medidas de posición

a) Frecuencias unitarias y observaciones impares: es el caso más sencillo, es el valor

b) Frecuencia unitaria y observaciones pares: la mediana será la media de las dos

En este caso calculamos el valor N2 = 80

ESTADÍSTICA. 1o Relaciones Laborales. Profesor Ramón Gutiérrez Sánchez

Los extremos del intervalo acumularán frecuencias Ni−1 y Ni respectivamente, de tal

Gráfico 1.10: Cálculo mediana

BD AE AE BC (ei − ei−1 )(N/2 − Ni−1 )

Para calcularla distinguiremos según el tipo de dato: