Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Análisis Univariado PDF
1 Análisis Univariado PDF
1.1. Introducción
El término “estadı́stica” fue aplicado en principio a la recogida y análisis de información
de Estado, principalmente en forma de censos con fines militares o referentes a riquezas como
cantidad de grano o ganado (objetivo simplemente descriptivo).
Más tarde surge otra ciencia denominada Cálculo de Probabilidades que tiene su origen en
el estudio de los juegos de azar, que en principio eran atribuidos a la voluntad divina y no
será hasta el Renacimiento cuando se empiecen a estudiar de forma matemática.
Pero no será hasta Fisher, en el siglo XIX cuando se desarrolló un método de trabajo
consistente en ante unos datos, hacer:
1. Intentar describirlos
3. Intentar obtener conclusiones sobre esos datos. Este apartado es el más importante y al
que se denomina Inferencia Estadı́stica.
Por lo tanto, lo primero que necesitaremos será unos datos de fenómenos sobre los que
desarrollar nuestro trabajo. Estos fenómenos en estudio pueden ser de dos tipos:
1. Fenómenos determinı́sticos: que son aquellos que en las mismas condiciones siempre
producen el mismo resultado, es decir se desarrollan según una formula matemática.
4
Variable Estadı́stica Unidimensional 5
Muestra: conjunto representativo de la población. Una buena muestra será aquella que refleje
las caracterı́sticas esenciales de la población.
Muestra aleatoria: es aquella muestra que se obtiene mediante algún procedimiento de tal
manera que cada individuo tiene una oportunidad igual e independiente de pertenecer a
la muestra.
Caracterı́stica o variable: cada una de las propiedades observadas en cada individuo y que
han de tener todos ellos. Por ejemplo el sexo, el peso, el tamaño. Se notan como X, Y,...
Modalidades: cada una de las posibles opciones que puede tomar una variable. Se cumple que
son exahustivas e incompatibles, es decir, un individuo tiene una y solo una modalidad.
Se notan como xi , i = 1, 2, . . .. De tal forma que:
\ [
xi xj = ∅ ∀i 6= j y xi = X
k k
ni X X ni
fi = fi = =1
N i=1 i=1
N
i
X
Ni = nj i≤k
j=1
i
X n
X
Fi = fj Fi = f1 + f2 + . . . + fi fi = 1
j=1 j=1
Modalidades Frec. Abs. Frec Abs. Acumu Frec. Rel. Frec. Rel. Acumu
x1 n1 N1 = n 1 f1 = nN1 F1 = f1 = nN1
x2 n2 N2 = n 1 + n 2 f2 = nN2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
ni
xi ni Ni = n 1 + . . . + n i fi = N
Fi = f1 + . . . + fi
.. .. .. .. ..
. . . . .
nk
xk nk Nk = n 1 + . . . + n k fk = N
Fk = f1 + . . . + fk
Ejemplo 1.1. Sea el experimento consistente en lanzar un dado 25 veces. De ellas sale el 1
cinco veces; el 2 cuatro; cuatro veces el 3; tres el 4; cinco el 5 y cuatro el 6. Construir la tabla
de frecuencias.
xi ni Ni fi Fi
1 5 5 0.2 0.2
2 4 9 0.16 0.36
3 4 13 0.16 0.52
4 3 16 0.12 0.64
5 5 21 0.2 0.84
6 4 25 0.16 1
N= 25 1
{(xi , ni )} i = 1 . . . , k
o
{(xi , fi )} i = 1 . . . , k
En el caso que las variables sean continuas, es decir, las modalidades sean intervalos, de-
notaremos a los extremos de los intervalos como (ei−1 , ei ]. Estos intervalos o clases viene de-
terminados por dos valores a los que llamaremos extremo inferior y superior respectivamente.
A su vez se define la amplitud del intervalo como la diferencia entre estos valores:
ai = ei − ei−1
También definimos la marca de clase como el valor central del intervalo
ei−1 + ei
xi =
2
Será necesario calcular la densidad de frecuencia del intervalo (hi ), en los casos en que
los intervalos tengan distinta amplitud. La densidad de frecuencias se calcula como:
ni fi
hi = o hi =
ai ai
Ejemplo 1.2.
ei−1 − ei xi ni Ni ai fi Fi hi
40-70 55 2 2 30 0.02 0.02 0.066
70-80 75 5 7 10 0.05 0.07 0.5
80-100 90 10 17 20 0.1 0.17 0.5
100-200 150 35 52 100 0.35 0.52 0.35
200-300 250 43 95 100 0.43 0.95 0.43
300-350 325 5 100 50 0.05 1 0.1
N=100
votos ni fi
Si 50 0.5
No 30 0.3
Nulo 20 0.2
Su diagrama de barras será:
Diagrama de sectores
Este gráfico consiste en repartir el área de un cı́rculo en sectores de tamaño proporcional
a la frecuencia de cada modalidad, de tal forma que los grados (αi ) de cada sector vendrán
dados por la siguiente expresión:
2πni
αi = = 2πfi
N
Este gráfico también es aplicable tanto a variables cualitativas como cuantitativas.
Ejemplo 1.4. Con los mismos datos que el apartado anterior, el diagrama de sectores será:
Pictogramas y Cartogramas
El pictograma consiste en representar una figura alegórica en relación a lo que se quiere
representar, en donde el tamaño guarda relación con su frecuencia.
El cartograma son mapas que representan zonas de estudio, sobre las cuales por medio de
marcas o colores destacan las intensidades de un cierto carácter.
Ejemplo 1.5.
Si unimos los extremos del diagrama de barras (para frecuencias absolutas), obtenemos el
polı́gono de frecuencias.
Xi ni Fi
10 50 50
20 30 80
50 20 100
verificando:
No decreciente
Continua a la derecha
F (−∞) = 0 y F (∞) = 1.
A la representación de esta curva se le denomina curva de distribución.
no existe ningún problema, este surgirá cuando intentemos representar intervalos de distinta
amplitud, en este caso representaremos no la frecuencia absoluta o relativa, y si su densidad
de frecuencia, es decir, los valores
ni
hi =
ai
resultando:
Al gráfico resultante de unir los puntos medios de los extremos superiores de las barras del
histograma se le denomina también Polı́gono de Frecuencias.
Curva de distribución
Consiste en la representación, para el caso continuo, de la función de distribución.
Ejemplo 1.8. Dados los siguientes datos datos, construir su función de distribución.
ei−1 − ei ni Ni Fi
0-10 10 10 0.1
10-20 25 35 0.35
20-40 30 65 0.65
40-50 15 80 0.8
50-70 20 100 1
Trazamos una lı́nea vertical que separará los “tallos” de las “hojas”.
20 21 21 21 2324 25 26 26 27 28 29 30 30 31 32 33 33 35 38 38 39 40 41 45 45 46 47 48 50
Mediana
La mediana admite dos definiciones:
Definición 1: es el valor cuya ordenada en la curva de distribución es 12 , es decir F (x) = 0,5.
Definición 2: es el valor tal que si ordenamos todos los valores de la variable, la mitad son
superiores y la mitad inferiores.
Para calcularla distinguiremos según el tipo de dato:
1. Caso discreto
2, 5, 8, 11, 13
es el M e = 8.
1, 2, 5, 8, 11, 13
5+8
la mediana es M e = 2
= 6,5.
c) Frecuencias no unitarias: Calculamos la frecuencia absoluta acumulada Ni y bus-
camos el valor N/2.
xi n i Ni
0 6 6
1 20 26
2 28 54
3 12 66
4 8 74
5 6 80
2. Caso continuo: lo primero será determinar el intervalo mediano, es decir, en que intervalo
(ei−1 , ei ], está el valor N/2.
(N/2 − Ni−1 )
M e = ei−1 + ai
(Ni − Ni−1 )
Las ventajas más importantes de esta medida son:
Es la mejor medida en variables de tipo ordinal (variables que admiten un orden).
Es de cálculo sencillo.
En ella solo influyen los valores centrales de la distribución y es insensible a los extremos
lo cuál es útil cuando existen muchos valores extremos que invaliden otras medidas de
posición central.
Como principal inconveniente destacamos precisamente que no intervienen en su cálculo
todos los valores.
La moda
Se define la moda como el valor de la distribución que tiene mayor frecuencia (el que más
se repite). Destacando que una variable puede tener más de una moda.
2. Variable continua: el primer paso será calcular el intervalo (o intervalos) modal (-es),
(ei−1 , ei ] que será el que mayor frecuencia tenga. Si los intervalos tienen distinta amplitud,
tendremos que calcular la densidad de frecuencias. En el intervalo modal, por semejanza
de triángulos, obtendremos:
DF GE DF GE
= ⇒ +1= +1⇒
BD AC BD AC
DF + BD GE + AC BD DF + BD
= ⇒ = ⇒
BD AC AC GE + AC
AC(DF + BD)
BD =
GE + AC
(hi − hi−1 )
M o = ei−1 + (ei − ei−1 )
(hi − hi+1 ) + (hi − hi−1 )
Si los intervalos tienen igual amplitud se pueden sustituir los valores h por n.
Es la única medida que puede obtenerse en variables cualitativas con escala nominal
(categorı́as numéricas).
ni Ni
0-2 110 110
2-4 200 310
4-6 90 400
6-8 75 475
8-10 25 500
Para calcular la mediana, en primer lugar obtendremos el intervalo mediano, es decir, el
intervalo que contenga el valor N/2 = 500/2 = 250, que esta en el intervalo (2 − 4], por lo que
aplicando su expresión obtendremos:
Media aritmética
La media aritmética se define como la suma de los valores de la variable ponderada por
su frecuencia. Se representa como x̄.
k k
X 1 X
x̄ = fi xi = n i xi
i=1
N i=1
En el caso continuo se sustituyen los valores de la variable por las marcas de clase.
k
X k
X k
X k
X k
X k
X
ȳ = fi yi = fi (axi + b) = afi xi + bfi = a fi xi + b fi = ax̄ + b
i=1 i=1 i=1 i=1 i=1 i=1
Pk
2. La suma de las desviaciones de los datos respecto a su media es cero, es decir, i=1 fi (xi −
x̄) = 0
k k
X 1 X 1 X 1
fi (xi − x̄) = ni x i − x̄ni = x̄ − x̄N = 0
N i=1 N i=1 N
Su principal inconveniente radica en que es muy sensible a los valores extremos, por lo que
es poco representativa en distribuciones con datos muy dispersos.
ni xi ni xi
20-30 20 25 500
30-100 30 65 1950
100-500 10 300 3000
500-600 30 550 16500
600-1000 10 800 8000
100 29950
k
1 X 29950
x̄ = n i xi = = 299,5
N i=1 100
Media geométrica
La media geométrica se utiliza cuando los valores de la variable no son de naturaleza
propiamente aditiva, como porcentajes que expresen la evolución de una caracterı́stica con
respecto a su valor en un periodo base o cuando deseamos promedios de magnitudes como
tipos de interés, números ı́ndices, ...
Se calcula como
v
u k
uY
k
G=t fi xi
i=1
Los problemas están en que su cálculo es más complicado e incluso no se puede calcular si
algún valor es 0.
Media armónica
Esta media se utiliza para promediar velocidades, cantidades, rendimiento o situaciones
donde existen tres variables tales que el producto de dos de ellas es igual a la producción. Su
ventaja es que en este contexto es más representativa frente a que no se puede calcular si algún
valor es 0.
Su expresión es:
N
H = X ni
xi
En general se cumple que
H ≤ G ≤ x̄
F (x) = α
Cuartiles: son los que dividen a la población en cuatro partes iguales, acumulando cada una
de ellas el 25 % de la distribución.
i i
Di ⇒ F (x) = i = 1, . . . , 9 o Ni = N ∗
10 10
Percentiles: dividen a la población en 100 partes iguales acumulando cada una de ella un
1 %.
i i
Pi ⇒ F (x) = i = 1, . . . , 99. o Ni = N ∗
100 100
Para calcular el primer y tercer cuartil tendremos que calcular los valores N4 = 80
4
= 20 por
lo que el primer cuartil será el valor que acumule frecuencia 20, es decir, Q1 = 1.
3N 3∗80
Para calcular el tercer cuartil se actúa de la misma forma, 4
= 4
= 60 ⇒ Q3 = 3.
Percentil Inverso
En muchas ocasiones estamos interesados en resolver el problema contrario al cálculo del
percentil, es decir, conocido un valor de la variable obtener el número de individuos que acu-
mula. A este problema se le suele denominar “cálculo del percentil inverso”. Su resolución
es muy simple, utilizando la misma metodologı́a que en el cálculo de la mediana (ver 1.5.1),
tendremos que:
0, 0, 10, 10
4, 5, 5, 6
tiene igual media x̄ = 5. Es decir, aunque son dos poblaciones claramente diferentes, una me-
dida de posición central como la media, nos las resumirı́a de igual forma. Para evitar estos
problemas, existen una serie de medidas llamadas de dispersión que nos miden la variabilidad
o dispersión de una población. Verificándose que cuanto mayor es la dispersión de los datos
peor es la representatividad de las medidas de posición.
Absolutas: son aquellas que miden la variabilidad en la misma unidad de medida que la
variable, por lo que no son comparables unas con otras.
Relativas: son valores sin unidad de medida, pudiéndose comparar los valores de distintas
variables.
donde P es una cierta medida de posición. El caso más común es aquel en el que P es la media.
La varianza
La varianza es desviación cuadrática para el caso de P = x̄. Se denota indistintamente
como
2
V ar(X) = V (X) = σX = σ2
y su expresión es
k
X
σ2 = fi (xi − x̄)2
i=1
k
X k
X k
X k
X k
X
V ar(X) = fi (xi − x̄)2 = fi (x2i − 2x̄xi + x̄2 ) = fi x2i − 2x̄ fi xi + x̄2 fi =
i=1 i=1 i=1 i=1 i=1
k k
X 1 X
fi x2i − x̄2 = ni x2i − x̄2
i=1
N i=1
X k
X k
X
2 2
V (Y ) = (yi − ȳ) = [(axi + b) − (ax̄ + b)] = fi [axi − ax̄]2 =
i=1 i=1
k
X k
X
fi [a(xi − x̄)]2 = a2 fi (xi − x̄)2 = a2 V ar(X)
i=1 i=1
- Media cero, ȳ = 0.
- Varianza 1, V (Y ) = 1.
xi n i n i xi ni x2i
0 6 0 0
1 20 20 20
2 28 56 112
3 12 36 108
4 8 32 128
5 6 30 150
80 174 518
Rangos o Recorridos
Los recorridos más importantes son:
Rango: Diferencia entre el máximo de la distribución y el mı́nimo.
R = M axx − M inx
RIQ = Q3 − Q1
RID = D9 − D1
RIP = P99 − P1
Coeficiente de apertura:
xk
CA = x1 6= 0
x1
Recorrido relativo:
xk − x1
RE =
x̄
Recorrido semi-intercuartı́lico:
Q3 − Q1
Q3 + Q1
Coeficiente de variación: es la medida más utilizada. Tiene la ventaja medir la dispersión
de distintas variables sin medida, con lo que podremos comparar la dispersión de variables
medidas en diferentes escalas.
σ
C.V. =
|x̄|
1.7. Momentos
Los momentos son medidas construidas a partir de todos los datos de la variable estadı́stica
y sus frecuencias relativas.
Estas medidas caracterizan de manera completa a la distribución, de forma que se dice que
si para dos variables todos sus momentos coinciden estas dos variables son iguales.
Existe un formula que relaciona los dos momentos, si más que desarrollar el binomio de
Newton, resultando que:
h
X
j h
mh = (−1) x̄j ah−j
j
j=0
2
Por ejemplo, el m2 = σ será:
2
X
j 2 j 2 2 2
m2 = (−1) x̄ a2−j = a2 − x̄a1 + x̄2 =
j 0 1 2
j=0
1 X
a2 − 2x̄a1 + x̄2 = a2 − x̄2 = ni xi − x̄2
N
h h!
Hemos de tener en cuenta que = .
i i!(h − i)!
Una distribución simétrica también verifica que su momento centrado de orden 3 es cero.
Aprovechando esta propiedad nace el coeficiente de Asimetrı́a de Fisher, dado por:
m3
g1 = ,
σ3
de tal manera que diremos:
Si g1 = 0 la distribución es simétrica.
Este ı́ndice pertenece al intervalo [0-1], de tal forma que si el ı́ndice toma el valor 1 im-
plicará concentración máxima y si vale 0 equidistribución.
Fi = NNi qi = TTi
P
xi ni ni xi Ni Ti = nj xj
10 5 50 5 50 0.03 0.005
20 10 200 15 250 0.10 0.025
30 10 300 25 550 0.17 0.056
40 12 480 37 1030 0.25 0.105
50 10 500 47 1530 0.31 0.1572
60 11 660 58 2190 0.39 0.2250
70 10 840 70 3030 0.47 0.3114
80 50 4000 120 7030 0.80 0.7225
90 30 2700 150 9730 1 1
150 2.52 1.6071
Si existe equidistribución la curva coincide con la diagonal del cuadrado, cuanto mayor sea
el indicie más se separará.
Los cuartiles: Q1 , Q2 y Q3 .
La media x̄.
Fronteras interiores:
Fronteras exteriores:
Valores adyacentes:
- Valores anómalos medios inferiores (VAMI): son los valores que se encuentran entre
f1 y F1 .
- Valores anómalos medios superiores (VAMS): son los valores que se encuentran
entre f2 y F2 .
El diagrama de caja con bigotes consiste en un eje con extremos los valores mı́nimo y máxi-
mo de la variable, dibujar una caja cuyos extremos sean Q1 y Q3 . Dentro de ella dibujamos
una lı́nea vertical en la posición de la mediana.
A continuación, dibujamos dos segmentos a derecha e izquierda de la caja (los bigotes) que
llegaran hasta el valor adyacente superior e inferior respectivamente. Todos los valores que
queden fuera de esta representación se consideran valores atı́picos medios o extremos. Usual-
mente se suelen representar con distinto sı́mbolo según sean unos u otros.
1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4
Valores adyacentes:
V AI = 0 V AS = 5
Valores anómalos:
VAMI: No existen VAMI (puesto que no hay valores entre entre F1 y f1 ). Tampoco
existen VAEI. Los valores superiores son: VAMSl el 8 y VAES el 10