Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EconometriaTII PDF
EconometriaTII PDF
ESTADSTICA DESCRIPTIVA
-1-
NDICE
-2-
CAPTULO 1: INTRODUCCIN A LA ESTADSTICA
-3-
1.2. Nociones bsicas de estadstica descriptiva
Las variables que se obser van y analizan pueden ser de dos tipos:
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por
ejemplo, nunca podr ser 3,45).
Cualitativas
Tipo de
variables
Discretas
Cuantitativas
(recogidas en valor
o en intervalo)
Continas
-4-
Segn sea de un tipo u otro la variable podr medirse de distinta manera, o lo
que es lo mismo en la terminologa estadstica, tendrn distintas escalas de
medida.
Tipo de
variables
-5-
1.3. Distribuciones unidimensionales
xi ni fi Ni Fi
X1 n1 N1/N N1 F1 = f1
X2 n2 N2/N N2 = n 1 + n 2 F 2 = f 1+ f 2
Xn nn nn/N Nn = N Fn = 1
n=N fi = 1
xi Valor de la variable
ni Frecuencia absoluta: Nmero de veces que aparece un
determinado valor de x
fi Frecuencia relativa: Nmero de veces que aparece un
determinado valor de x respecto al total
Ni Frecuencia absoluta acumulada: Suma de la frecuencia
absoluta cor respondiente ms todas l as anteriores
-6-
Fi Frecuencia relativa acumulada: Suma de la frecuencia
relativa correspondiente ms todas l as anteriores
N Tamao de l a muestra
Distribucin
Representa los valores de la variable y la frecuencia con que
aparecen dichos valores (xi , ni)
Recorrido
Diferencia entre el mximo y el mnimo valor de la vari able
-7-
Ejemplo 1: Supongamos que queremos hacer un estudio en una clase
de universitarios. Entre otras cosas, se les pregunta lo siguiente.
-Cuadro 1-
Frecuencia Frecuencia
Frecuencia Frecuencia
Edad absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
18 78 0,78 78 0,78
19 15 0,15 93 0,93
20 3 0,03 96 0,96
21 2 0,02 98 0,98
43 1 0,01 99 0,99
45 1 0,01 100 1
N 100
-8-
-Cuadro 2-
Frecuencia Frecuencia
Frecuencia Frecuencia
Ingresos absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
Menos de 18.000 5 0,05 5 0,05
[ 18.000 - 24.000 ) 10 0,10 15 0,15
[ 24.001 - 30.000 ) 10 0,10 25 0,25
[ 30.001 - 36.000 ) 30 0,30 55 0,55
[ 36.001 - 42.000 ) 30 0,30 85 0,85
Ms de 42.000 15 0,15 100 1
N 100
-9-
-Grfico 1- Diagrama de barras
80
60
40
20
0
18 19 20 21 43 45
100
90
80
70
60
50
40
30
20
10
0
18 19 20 21 43 45
- 10 -
v Representaciones grficas para datos agrupados
- 11 -
-Grfico 4- Histograma serie de intervalos distintos
-Grfico 3- Histograma serie de intervalos iguales
40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000
Salario inicial
26.000
25.000
24.000
23.000
22.000
21.000
- 12 -
20.000
19.000
18.000
17.000
16.000
15.000
14.000
Intervalos distintos
13.000
Intervalos iguales:
12.000
11.000
10.000
9.000
8.000
7.000
150
100
50
0
250
200
Frecuencia
Polgono de frecuencias acumuladas: representa frecuencias
acumuladas. Su construccin se realiza levantando sobre las
marcas de clase, localizadas en el eje de abscisas, puntos de
altura igual a la frecuencia observada. La unin de estos puntos
da lugar a una lnea poligonal denominada polgono de
frecuencias.
40
30
20
10
.0 )
42
00
00
00
00
00
00
0
0
8.
4.
0.
6.
2.
e1
-2
-3
-3
-4
de
d
s
os
1
00
00
00
00
M
en
8.
4.
0.
6.
M
[1
[2
[3
[3
- 13 -
Grficos de sectores
20% 25%
55%
Diagramas Gannt
- 14 -
-Grfico 7- Diagrama de Gannt
T Xi
1 10
2 20
3 30
4 40
5 5
6 15
7 25
8 35
9 45
10 35
11 55
12 75
13 85
14 105
15 105
120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
- 15 -
1.3.3. Medidas resumen de las distribuciones de frecuencias
a) Medidas de posicin
Media aritmtica:
n n
xi * ni
x = xi * f i =
i =1 i =1 N
- 16 -
dnde xi representa el valor de la variable en distribuciones no agrupadas o
la marca de clase en distribuciones agrupadas. Es decir, en este ltimo
caso, se hace el supuesto que la frecuencia del intervalo est agrupada en
la marca de clase.
Hay veces donde hay que obtener una media aritmtica de variables cuyos
valores observados tienen distinta importancia y por tanto se deben
ponderar de distinta manera para obtener la media.
x w
i =1
i i
x= n
w
i =1
i
Mediana
- 17 -
Clculo de la mediana en el caso discreto:
N
- N i -1
Me = Li -1 + 2 ci
ni
- 18 -
Para calcular la mediana no es preciso que todos los intervalos estn
definidos. Del nico intervalo que necesitamos conocer la amplitud es
del intervalo modal.
Moda
ni +1
Moda = L1 + *c
ni -1 + ni+1
donde :
- 19 -
v Medidas de posicin no central
Cuartiles
Q1: Valor de la distribucin que dej a el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la medi ana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima
N
- N i -1
Qt = Li -1 + 4 ci
ni
Deciles
N
- N i -1
Dt = Li -1 + 10 ci
ni
- 20 -
Percentiles
N
- N i -1
Pt = Li -1 + 100 ci
ni
- 21 -
Reflexiones sobre las medidas de posicin central
- 22 -
b) Medidas de dispersin
n
ni
Momento de or den r M r = ( x i - ot ) r
i =1 N
Momentos respecto al origen (a1, a 2...) Cuando O t = 0
Momentos respecto a la media (m1, m2) Cuando O t = x
- 23 -
v Medidas de dispersin absolutas
En valor absoluto
! X
i =1
i - promedio | ni / N
- 24 -
Cuadrticas
(X
i =1
i - promedio) 2 ni / N
n
Desviacin tpica = = s = + (X
i =1
i - promedio ) 2 n i / N
- 25 -
El 68% de los valores de la variable estn comprendidos entre
x s
El 95% de los valores de la variable estn comprendidos entre
x 2s
El 99% de los valores de la variable estn comprendidos entre
x 3s
Recorrido relativo Rr
Recorrido semintercuartlico R
c 3 - c1
Rd =
c3 + 1
Coeficiente de apertur a Ap
xn
Ap =
x1
- 26 -
coeficiente de variacin ya que se obtienen medidas homogneas y por
tanto comparables. Aqulla que mayor CV tenga nos indica una mayor
dispersin en la distribucin
S
CV =
x
c) Medidas de asimetra
v Asimetra
n
ni
(x - x)
i =1
3
N m3
g1 = 3
=
S S3
- 27 -
g1 > 0 Asimtrica positiva (Asimtrica por la izquierda)
g1 = 0 Simtrica
g1 < 0 Asimtrica negativa (Asimtrica por la derecha)
x - Mo
Ap =
S
Ap > 0 Asimtrica por la derecha ( Mo > x )
Ap = 0 Simtrica
Ap < 0 Asimtrica por la izquierda ( Mo < x )
c 3 + c1 - 2Me
Ab =
c 3 - c1
- 28 -
d) Medidas de apuntamiento o curtosis
Q
k=
P90 - P10
donde:
K= coeficiente de curtosis percentlico
Q3 - Q1
Q= rango semiintercuartlico ( )
2
P90= Percentil 90
P10= Percentil 10
- 29 -
e) Medidas de concentracin
- 30 -
v ndice de Gini
- 31 -
1.4. Distribuciones bidimensionales
X = { x1, x2, x3, ..., xj} ; Y = { y1, y2, y3, ..., yk}
- 32 -
a) Tabulacin cruzada
y Y1 Y2 . Yj . Yk ni.
x
X1 n11 n12 n1j n1k n 1.
X2 n22 n2j n2k n2.
.
Xi nij ni.
.
Xh nh1 nh2 nhk nh.
n.j n.1 n.2 n.j n.k N
- 33 -
La suma de las frecuencias absolutas es igual al nmero de pares observados
(N):
h k
n
i =1 j =1
ij =N
Una tabla de doble entrada tambin se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra segn
convenga.
n i
i. =N ; n.
j
j =N
ni. n. j
f i. = ; f.j =
N N
- 34 -
Medias marginales
h k
xi n.i yj =1
j n.i
i =1
x= ; y=
N N
Varianzas marginales
h k
(x i. - x ) ni. 2
(y
j =1
.j - y ) 2 n. j
i =1
s x2 = ; s y2 =
N N
h k
(x i. - x ) ni. 2
(y j =1
.j - y ) 2 n. j
i =1
sx = ; sy =
N N
Distribuciones condicionadas
n( x i / Y = y j )
n( x i / Y = y j ) =
n. j
n( y j / X = x i )
n( y j / X = x i ) =
ni .
- 35 -
Dependiendo del tipo de variables con el que estemos construyendo la tabla
hablamos de tabl as de contingenci a o tablas de correlacin:
Tipo de
variables
b) Representacin grfica
v DIAGRAMAS DE DISPERSIN
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero
- 36 -
v DIAGRAMAS DE FRECUENCIAS
La figura adjunta representa los datos del ejemplo 1. La variable X toma los
valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn
representadas las fr ecuencias absolutas del par (X, Y).
- 37 -
c) Medidas de resumen y asociacin
Cuando hay pocos datos o estn muy agr upados (tablas de 2 o 3 columnas)
n k nij
Sxy = m11 = (x
i =1 j =1
i - x )( y j - y )
N
Puede pasar que se quiera medir la relacin que existe entre dos conjuntos de
datos, es decir la dependencia o independenci a estadstica entre dos variables
de una distribucin bidimensional. Por ejemplo, si se analiza la estatura y el
peso de los alumnos de una clase es muy posible que exista relacin entre
ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
Entonces vamos a obtener la correlacin o dependencia entre dos variables.
Segn sean los diagramas de dispersin podemos establecer los siguientes
casos:
- 38 -
o Independen cia funcional o correlacin nula: cuando no existe ninguna
relacin entre las variables. (r = 0)
- 39 -
No obstante, puede que exista una relacin que no sea lineal, sino exponenci al,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el
coeficiente de correlacin lineal, lo mejor es representar los pares de valores en
un grfico y ver que forma describen.
Es decir:
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
- 40 -
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.
2. Regresin lineal
- 41 -
Una recta viene definida por la siguiente frmula:
y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a
partir de la otra variable "x" (variable independi ente). Para definir la recta hay
que determinar los valores de los parmetr os "a" y "b":
Es la covarianza de las dos vari ables, dividida por la varianza de la variable "x".
a = y m - ( b * xm )
- 42 -
Ejercicios:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Se pide:
x xi ni ni xi Ni fi Fi
60-63 61,5 2 123 2 1% 1%
56-59 57,5 12 690 14 7% 8%
52-55 53,5 18 963 32 10% 18%
48-51 49,5 36 1782 68 21% 39%
44-47 45,5 38 1729 106 22% 61%
40-43 41,5 20 830 126 11% 72%
36-39 37,5 18 675 144 10% 82%
32-35 33,5 10 335 154 6% 88%
28-31 29,5 8 236 162 5% 93%
24-27 25,5 6 153 168 3% 96%
20-23 21,5 4 86 172 2% 98%
16-19 17,5 2 35 174 1% 99%
12-15 13,5 0 0 174 0% 99%
8-11 9,5 0 0 174 0% 99%
4-7 5,5 1 5,5 175 1% 100%
N 175 7642,5 100%
- 43 -
Se pide:
a) Hallar la media
b) Hallar la mediana
c) Hallar Q 1 y Q 3
d) Hallar los percentiles 18 y 84
e) Hallar la moda
3. El primer curso de soci ologa ha obteni do una nota media al final del curso
de 5,7 de un total de 110 alumnos. El segundo curso una nota media de
6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de
un total de 48 alumnos. Cul es la nota media de los tres cur sos?
15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18
75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31
Se pide:
a) El recorrido de los datos
b) Agrupar los datos en 8 intervalos
c) Calcular la amplitud de los intervalos
d) La desviacin media
e) La desviacin tpica
f) Los cuatro mo mentos
g) La asimetra
h) La curtosis
- 44 -
5. Dada la siguiente distribucin calcular todos los coeficientes de asimetra
y explicar el significado de su val or :
Puntuaciones ni
80-84 8
75-79 7
70-74 5
65-69 6
60-64 12
55-59 6
50-54 9
45-49 4
40-44 5
62
- 45 -