Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA’
ÍNDICE
Te m a 1 : I n t r o d u cci ó n a la e st a d íst i ca
Por tanto se podría definir la estadística como “la ciencia que permite
estudiar las regularidades o patrones en un conjunto de datos para tomar
decisiones racionales”.
Las variables que se obser van y analizan pueden ser de dos tipos:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por
ejemplo, nunca podr á ser 3,45).
Cu al it at i v as
Tip o d e
v ar i ab l es
Discr et as
Cu an t i t at iv as
( r ecog id as en v alor
o en i n t er v alo)
Con t in ú as
Según sea de un tipo u otro la variable podrá medirse de distinta manera, o lo
que es lo mismo en la terminología estadística, tendrán distintas escalas de
medida.
Tip o d e
var iables
xi ni fi Ni Fi
X1 n1 N1/N N1 F1 = f 1
X2 n2 N2/N N2 = n1 + n2 F2 = f1+ f2
Xn nn nn/N Nn = N Fn = 1
Σn=N Σ fi = 1
xi Valor de la variable
ni Frecuencia absoluta: Número de veces que aparece un
determinado valor de x
fi Frecuencia relativa: Número de veces que aparece un
determinado valor de x respecto al total
Ni Frecuencia absoluta acumulada: Suma de la frecuencia
absoluta cor respondiente más todas l as anteriores
Fi Frecuencia relativa acumulada: Suma de la frecuencia
relativa correspondiente más todas l as anteriores
N Tamaño de l a muestra
Distribución
Representa los valores de la variable y la frecuencia con que
aparecen dichos valores (xi , ni)
Recorrido
Diferencia entre el máximo y el mínimo valor de la variable
-Cuadro 1-
Frecuencia Frecuencia
Frecuencia Frecuencia
Edad absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
18 78 0,78 78 0,78
19 15 0,15 93 0,93
20 3 0,03 96 0,96
21 2 0,02 98 0,98
43 1 0,01 99 0,99
45 1 0,01 100 1
N 100
80
60
40
20
0
18 19 20 21 43 45
100
90
80
70
60
50
40
30
20
10
0
18 19 20 21 43 45
Representaciones gráficas para datos agrupados
40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000
Salario inicial
26.000
25.000
24.000
23.000
22.000
21.000
20.000
19.000
18.000
17.000
16.000
15.000
14.000
13.000
Intervalos distintos
Intervalos iguales:
12.000
11.000
10.000
9.000
8.000
7.000
150
100
50
0
250
200
Frecuencia
Polígono de frecuencias acumuladas: representa frecuencias
acumuladas. Su construcción se realiza levantando sobre las
marcas de clase, localizadas en el eje de abscisas, puntos de
altura igual a la frecuencia observada. La unión de estos puntos
da lugar a una línea poligonal denominada ‘polígono de
frecuencias’.
40
30
20
10
0
)
.0 )
€
42 €
00
00
0
00
00
00
0
8.
0.
6.
2.
4
1
-2
-3
-3
-4
de
de
ás
os
01
01
00
00
M
en
0
8.
4.
0.
6.
M
[1
[2
[3
[3
20% 25%
55%
Diagramas Gannt
T Xi
1 10
2 20
3 30
4 40
5 5
6 15
7 25
8 35
9 45
10 35
11 55
12 75
13 85
14 105
15 105
120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 1 0 11 1 2 13 14 15
1.3.3. Medidas resumen de las distribuciones de frecuencias
a) Medidas de posición
Media aritmética:
n n
xi * ni
x xi * f i
i 1 i 1 N
dónde xi representa el valor de la variable en distribuciones no agrupadas o
la marca de clase en distribuciones agrupadas. Es decir, en este último
caso, se hace el supuesto que la frecuencia del intervalo está agrupada en
la marca de clase.
Hay veces donde hay que obtener una media aritmética de variables cuyos
valores observados tienen distinta importancia y por tanto se deben
ponderar de distinta manera para obtener la media.
n
x i wi
i 1
x n
wi
i 1
Mediana
N
Ni 1
Me Li 2 ci
1
ni
Para calcular la mediana no es preciso que todos los intervalos estén
definidos. Del único intervalo que necesitamos conocer la amplitud es
del intervalo modal.
Moda
ni 1
Moda L1 *c
ni 1 ni 1
donde :
Cuartiles
Q1: Valor de la distribución que deja el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la medi ana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima
N
Ni 1
Qt Li 4 ci
1
ni
Deciles
N
Ni 1
Dt Li 10 ci
1
ni
Percentiles
N
Ni 1
Pt Li 100 ci
1
ni
Reflexiones sobre las medidas de posición central
n
ni
Momento de orden r Mr ( xi ot ) r
i 1 N
Momentos respecto al origen (a1, a2...) Cuando O t = 0
Momentos respecto a la media (m1, m2…) Cuando O t = x
En valor absoluto
n
!Xi promedio | ni / N
i 1
n
(X i promedio) 2 ni / N
i 1
n
Desviación típica = σ= s = + (X i promedio ) 2 n i / N
i 1
Recorrido relativo Rr
Recorrido semintercuartílico Rş
c 3 c1
R
c3 1
Coeficiente de apertur a Ap
xn
Ap
x1
S
CV
x
c) Medidas de asimetría
Asimetría
n
ni
(x x)3
N m3
g1 = i 1
3
S S3
g1 > 0 Asimétrica positiva (Asimétrica por la izquierda)
g1 = 0 Simétrica
g1 < 0 Asimétrica negativa (Asimétrica por la derecha)
x Mo
Ap
S
Ap > 0 Asimétrica por la derecha ( Mo x)
Ap = 0 Simétrica
Ap < 0 Asimétrica por la izquierda ( Mo x)
c3 c1 2Me
Ab
c3 c1
Q
k
P90 P10
donde:
K= coeficiente de curtosis percentílico
Q3 Q1
Q= rango semiintercuartílico ( )
2
P90= Percentil 90
P10= Percentil 10
e) Medidas de concentración
Los dos caracteres observados no tienen por qué ser de la misma clase, así
nos podemos encontr ar con las siguientes situaciones:
X = { x1, x2, x3, ..., xj} ; Y = { y1, y2, y3, ..., yk}
a) Tabulación cruzada
y Y1 Y2 . Yj . Yk ni.
x
X1 n11 n12 n1j n1k n1.
X2 n22 n2j n2k n2.
.
Xi nij ni.
.
Xh nh1 nh2 nhk nh.
n.j n.1 n.2 n.j n.k N
Una tabla de doble entrada también se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra según
convenga.
ni. N ; n. j N
i j
ni. n. j
f i. ; f.j
N N
Medias marginales
h k
x i n.i y j n.i
j 1
x i 1
; y
N N
Varianzas marginales
h k
( x i. 2
x ) n i. ( y. j y ) 2 n. j
j 1
s x2 i 1
; s y2
N N
h k
( x i. x ) 2 ni. ( y. j y ) 2 n. j
j 1
sx i 1
; sy
N N
Distribuciones condicionadas
n( x i / Y yj n1 j , n 2 j ,..n ij , n hj
n( x i / Y yj)
n( x i / Y yj)=
n. j
n( y j / X xi )
n( y j / X xi )
ni .
Dependiendo del tipo de variables con el que estemos construyendo la tabla
hablamos de tabl as de contingenci a o tablas de correlación:
Ti p o d e
v ar iab les
b) Representación gráfica
DIAGRAMAS DE DISPERSIÓN
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero