Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anonimo - Curso Basico de Estadistica Descriptiva PDF
Anonimo - Curso Basico de Estadistica Descriptiva PDF
ESTADSTICA DESCRIPTIVA
-1-
NDICE
-2-
unida
a la teora de de
-3-
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por
ejemplo, nunca podr ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por
ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57
km/h...etc.
Cualitativas
Tipo de
variables
Discretas
Cuantitativas
(recogidas en valor
o en intervalo)
Continas
-4-
Cualitativas
Cuantitativas
Distribuciones
bidimensionales:
recogen
informacin
sobre
dos
-5-
xi
ni
fi
Ni
Fi
X1
n1
N1/N
N1
F1 = f1
X2
n2
N2/N
N2 = n 1 + n 2
F 2 = f 1+ f 2
Xn
nn
nn/N
Nn = N
Fn = 1
n=N
fi = 1
xi
Valor de la variable
ni
determinado valor de x
fi
Ni
Fi
Distribucin
Tamao de l a muestra
Recorrido
Diferencia entre el mximo y el mnimo valor de la vari able
-7-
Edad
Frecuencia
absoluta
Frecuencia
relativa
xi
ni
fi
18
19
20
21
43
45
N
78
15
3
2
1
1
100
0,78
0,15
0,03
0,02
0,01
0,01
Frecuencia
absoluta
acumulada
Ni
78
93
96
98
99
100
Frecuencia
relativa
acumulada
Fi
0,78
0,93
0,96
0,98
0,99
1
-8-
-Cuadro 2Ingresos
xi
Menos de 18.000
[ 18.000 - 24.000 )
[ 24.001 - 30.000 )
[ 30.001 - 36.000 )
[ 36.001 - 42.000 )
Ms de 42.000
N
Frecuencia
absoluta
Frecuencia
relativa
ni
fi
5
10
10
30
30
15
100
Frecuencia
absoluta
acumulada
Ni
0,05
0,10
0,10
0,30
0,30
0,15
5
15
25
55
85
100
Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1
-9-
19
20
21
43
45
19
20
21
- 10 -
43
45
y ser
- 11 -
40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000
26.000
25.000
24.000
23.000
22.000
21.000
20.000
19.000
18.000
17.000
16.000
15.000
14.000
13.000
12.000
11.000
10.000
9.000
8.000
7.000
150
Frecuencia
200
100
50
Salario inicial
- 12 -
Ingresos
xi
Menos de 18.000
[ 18.000 - 24.000 )
[ 24.001 - 30.000 )
[ 30.001 - 36.000 )
[ 36.001 - 42.000 )
Ms de 42.000
N
Frecuencia
absoluta
acumulada
Ni
Frecuencia
relativa
Marca de clase
ni
fi
5
10
10
30
30
15
100
15.000
21.000
27.000
33.000
39.000
45.000
0,05
0,10
0,10
0,30
0,30
0,15
5
15
25
55
85
100
Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1
40
30
20
10
- 13 -
de
42
.0 )
00
00
2.
0
-4
00
1
[3
6.
M
s
)
0
6.
00
-3
[3
0.
00
1
-3
[2
0.
00
4.
00
-2
0
8.
00
[1
M
en
os
d
e1
4.
0
8.
0
00
00
Grficos de sectores
ni
10
22
8
40
20%
25%
55%
1-2
3-4
5-6
Diagramas Gannt
- 14 -
Xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10
20
30
40
5
15
25
35
45
35
55
75
85
105
105
120
100
80
60
40
20
0
1
9 10 11 12 13 14 15
- 15 -
Medidas de dispersin
Medidas de asimetra
a) Medidas de posicin
v Medidas de posicin central
i =1
i =1
x = xi * f i =
- 16 -
xi * ni
N
Hay veces donde hay que obtener una media aritmtica de variables cuyos
valores observados tienen distinta importancia y por tanto se deben
ponderar de distinta manera para obtener la media.
x=
x w
i =1
n
w
i =1
Mediana
- 17 -
+1
XN,XN
2
+1
la
N
es el intervalo que contiene la
2
Me = Li -1
N
- N i -1
2
+
ci
ni
- 18 -
Moda = L1 +
ni +1
*c
ni -1 + ni+1
donde :
Li = lmite inferior de la clase modal
c = amplitud del intervalo
La moda se puede utilizar para datos cualitativos pero no tiene porqu
situarse en la zona central del grfico.
- 19 -
Q1: Valor de la distribucin que dej a el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la medi ana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima
Qt = Li -1
N
- N i -1
4
+
ci
ni
Deciles
Dt = Li -1
N
- N i -1
+ 10
ci
ni
- 20 -
Percentiles
Pt = Li -1
N
- N i -1
+ 100
ci
ni
- 21 -
- 22 -
b) Medidas de dispersin
Hasta el momento hemos estudiado los valores centrales de la
distribucin, pero tambin es importante conocer si los valores en
general estn cerca o alejados de estos valores centrales, para ver si
estos valores son o no son representativos. Es por esto por lo que surge
la necesidad de estudiar medidas de dispersin.
Los momentos son valores especficos de la distribucin y van
ntimamente ligados a las medidas de dispersin y se hallan con la
siguiente frmula:
Momento de or den r
M r = ( x i - ot ) r
i =1
ni
N
(a1, a 2...)
Cuando O t = 0
Cuando O t = x
- 23 -
! X
i =1
- promedio | ni / N
- 24 -
Cuadrticas
(X
i =1
- promedio) 2 ni / N
Desviacin tpica = = s = +
(X
- promedio ) 2 n i / N
i =1
- 25 -
Recorrido relativo Rr
Nmero de veces que el recorrido contiene a la media
Rr =
Re
x
Recorrido semintercuartlico R
Rd =
c 3 - c1
c3 + 1
Coeficiente de apertur a Ap
Ap =
xn
x1
- 26 -
CV =
S
x
c) Medidas de asimetra
v Asimetra
(x - x)
g1 =
i =1
ni
N
- 27 -
m3
S3
g1 > 0
g1 = 0
Simtrica
g1 < 0
Ap =
x - Mo
S
Ap > 0
Ap = 0
Simtrica
Ap < 0
Ab =
c 3 + c1 - 2Me
c 3 - c1
Ab > 0
Ab = 0
Simtrica
Ab < 0
- 28 -
g2 =
m4
-3
s4
g 2> 0
g2 = 0
g2 < 0
k=
Q
P90 - P10
donde:
K= coeficiente de curtosis percentlico
Q= rango semiintercuartlico (
Q3 - Q1
)
2
P90= Percentil 90
P10= Percentil 10
- 29 -
e) Medidas de concentracin
representativa
de
la
distribucin
de
frecuencias,
la curva de lorenz
- 30 -
v ndice de Gini
- 31 -
variables ( X, Y )
Ejemplo
Variables cualitativas
Categrica / Categrica
Discreta / Discreta
Continua / Continua
Peso y altura
Discreta / Continua
Categrica / Discreta
Categrica / Continua
Sexo e ingresos
Variables cuantitativas
Cualitativa y cuantitativa
- 32 -
a) Tabulacin cruzada
Y1
Y2
n11
n12
n22
Yj
Yk
ni.
n1j
n1k
n 1.
n2j
n2k
n2.
x
X1
X2
.
Xi
nij
ni.
.
Xh
nh1
nh2
n.j
n.1
n.2
nij :
n.j
nhk
nh.
n.k
Frecuencia conjunta
Nmero de veces que aparece el valor Xi con Yj
ni.:
n.j:
N:
(xi y j nij):
Distribucin conjunta
(xi n i.):
Distribucin marginal de X
(yj nj.):
Distribucin marginal de y
f ij =
nij
N
- 33 -
n
i =1 j =1
ij
=N
nij
f = N
i =1 j =1
ij
=1
i =1 j =1
Una tabla de doble entrada tambin se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra segn
convenga.
Distribuciones Mar ginales
Si en una tabla de doble entrada utilizamos solamente los valores
correspondientes a X, sin que para nada intervengan los valores de la variable
y, esta distribucin se denomina distribucin marginal de la variable X.
Anlogamente cuando tomamos los valores de la variable y sin tener en cuenta
los valores de la variable x estamos ante l a distribucin marginal de y.
De las frecuencias absolutas marginales se obtienen las frecuencias relativas
marginales. Y de igual forma podemos obtener las medias, varianzas y
desviaciones tpicas marginales.
Frecuencias absolutas marginales
i.
=N
n.
=N
f i. =
ni.
N
- 34 -
f.j =
n. j
N
Medias marginales
k
x=
xi n.i
i =1
y=
n.i
j =1
Varianzas marginales
k
s x2 =
(x
i =1
- x ) ni.
2
i.
s y2 =
(y
.j
- y ) 2 n. j
j =1
sx =
(x
i =1
- x ) ni.
2
i.
sy =
(y
j =1
.j
- y ) 2 n. j
N
Distribuciones condicionadas
En ocasiones podemos necesitar condicionar los valores de la variable Y a un
determinado valor de X o viceversa. Estas distribuciones as obtenidas se
denominan: distribucin de la variable Y condicionada a X=xi o distribucin de
la variable X condi cionada a Y=y j
{n( y
n( x i / Y = y j ) =
n( y j / X = x i ) =
n( x i / Y = y j )
n. j
n( y j / X = x i )
- 35 -
ni .
Cualitativas
(al menos 1)
TABLAS DE CONTINGENCIA
Cuantitativas
TABLAS DE CORRELACIN
Tipo de
variables
b) Representacin grfica
v DIAGRAMAS DE DISPERSIN
El diagrama de dispersin es la representacin sobre unos ejes cartesianos de
los distintos valores de la variable (X, Y). En el eje de abscisas representamos
los valores de X y en el de ordenadas los valores de Y, de tal forma que cada
par viene representado por un punto del plano XY.
En el caso de que las dos variables estn agrupadas en intervalos el diagrama
se construye mediante casillas que tienen dentro tantos puntos como el valor
de la frecuencia absoluta correspondiente a los intervalos X e Y.
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero
Los diagramas de di spersin tambin se conocen como nube de puntos.
- 36 -
DIAGRAMAS DE FRECUENCIAS
- 37 -
Sxy = m11 =
(x
i =1 j =1
- x )( y j - y )
nij
N
Puede pasar que se quiera medir la relacin que existe entre dos conjuntos de
datos, es decir la dependencia o independenci a estadstica entre dos variables
de una distribucin bidimensional. Por ejemplo, si se analiza la estatura y el
peso de los alumnos de una clase es muy posible que exista relacin entre
ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
Entonces vamos a obtener la correlacin o dependencia entre dos variables.
Segn sean los diagramas de dispersin podemos establecer los siguientes
casos:
- 38 -
- 39 -
No obstante, puede que exista una relacin que no sea lineal, sino exponenci al,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el
coeficiente de correlacin lineal, lo mejor es representar los pares de valores en
un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir:
Numerador: se denomina covarianza. Se suma el resultado obteni do de todos
los pares de valores y este resultado se divide por el tamao de l a muestra.
Denominador: es la raz cuadrada del producto de las varianzas de "x" y de
"y".
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
- 40 -
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.
2. Regresin lineal
Si representamos en un grfico los pares de valores de una distribucin
bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable
"y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue
una tendenci a lineal:
- 41 -
Es la covarianza de las dos vari ables, dividida por la varianza de la variable "x".
El parmetro "a" viene determinado por:
a = y m - ( b * xm )
Es la media de la variable "y", menos la media de la variable "x" multiplicada
por el parmetro "b" que hemos cal culado.
- 42 -
Ejercicios:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Se pide:
2.
60-63
56-59
52-55
48-51
44-47
40-43
36-39
32-35
28-31
24-27
20-23
16-19
12-15
8-11
4-7
N
xi
ni
61,5
57,5
53,5
49,5
45,5
41,5
37,5
33,5
29,5
25,5
21,5
17,5
13,5
9,5
5,5
ni xi
2
12
18
36
38
20
18
10
8
6
4
2
0
0
1
175
Ni
123
690
963
1782
1729
830
675
335
236
153
86
35
0
0
5,5
7642,5
- 43 -
fi
2
14
32
68
106
126
144
154
162
168
172
174
174
174
175
Fi
1%
7%
10%
21%
22%
11%
10%
6%
5%
3%
2%
1%
0%
0%
1%
100%
1%
8%
18%
39%
61%
72%
82%
88%
93%
96%
98%
99%
99%
99%
100%
Se pide:
a) Hallar la media
b) Hallar la mediana
c) Hallar Q 1 y Q 3
d) Hallar los percentiles 18 y 84
e) Hallar la moda
3.
El primer curso de soci ologa ha obteni do una nota media al final del curso
de 5,7 de un total de 110 alumnos. El segundo curso una nota media de
6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de
un total de 48 alumnos. Cul es la nota media de los tres cur sos?
4.
15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18
75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31
Se pide:
a) El recorrido de los datos
b) Agrupar los datos en 8 intervalos
c) Calcular la amplitud de los intervalos
d) La desviacin media
e) La desviacin tpica
f) Los cuatro mo mentos
g) La asimetra
h) La curtosis
- 44 -
5.
Puntuaciones
80-84
75-79
70-74
65-69
60-64
55-59
50-54
45-49
40-44
ni
8
7
5
6
12
6
9
4
5
62
- 45 -