Documentos de Académico
Documentos de Profesional
Documentos de Cultura
t1 Ig12
t1 Ig12
TEMA 1:
DESCRIPCIN DE UNA MUESTRA
1. INTRODUCCIN
1.1 DEFINICIN DE ESTADSTICA
1.2 MODELO ESTADSTICO
1.3 ESTADSTICA DESCRIPTIVA
1.4 CONCEPTOS BSICOS
POBLACIN
VARIABLE: Cualitativas o Categricas y Cuantitativas (Discretas y
Continuas)
MUESTRA
TAMAO MUESTRAL
DATO
2. DISTRIBUCIONES DE FRECUENCIAS
2.1 FRECUENCIA ABSOLUTA
2.2 FRECUENCIA RELATIVA
2.3 FRECUENCIA ACUMULADA
2.4 FRECUENCIA RELATIVA ACUMULADA
2.5 TABLA DE FRECUENCIAS
2.6 DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
3. MTODOS GRFICOS
3.1 FRECUENCIAS NO ACUMULADAS
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES O DE PASTEL
PICTOGRAMA
HISTOGRAMA
3.2 FRECUENCIAS ACUMULADAS
POLGONO DE FRECUENCIAS
4. MEDIDAS DESCRIPTIVAS
4.1 MEDIDAS DE POSICIN
4.1.1 MEDIDAS DE TENDENCIA CENTRAL
MEDIA ARITMTICA
MEDIANA
MODA
MEDIA GEOMTRICA
MEDIA ARMNICA
4.1.2 MEDIDAS DE POSICIN NO CENTRALES: CUANTILES
PERCENTILES
CUARTILES
DECILES
4.1.3 MOMENTOS
MOMENTOS RESPECTO AL ORIGEN
MOMENTOS CENTRALES O RESPECTO A LA MEDIA
4.2 MEDIDAS DE DISPERSIN
4.2.1 MEDIDAS DE DISPERSIN ABSOLUTAS
VARIANZA
Curso 02-03
2
DESVIACIN TPICA
CUASI-VARIANZA
DESVIACIN MEDIA RESPECTO A LA MEDIA
DESVIACIN MEDIA RESPECTO A LA MEDIANA
RECORRIDO O RANGO MUESTRAL
RECORRIDO INTERCUARTLICO
4.2.2 MEDIDAS DE DISPERSIN RELATIVAS
COEFICIENTE DE VARIACIN DE PEARSON
4.3 OTRAS MEDIDAS DESCRIPTIVAS
4.3.1 TIPIFICACIN DE UNA DISTRIBUCIN DE FRECUENCIAS
4.3.2 MEDIDAS DE FORMA
A: Medidas de ASIMETRA
COEFICIENTE DE ASIMETRA DE FISHER
COEFICIENTE DE ASIMETRA DE PEARSON
B: Medidas de APUNTAMIENTO O CURTOSIS
COEFICIENTE DE APUNTAMIENTO DE FISHER
4.3.3 MEDIDAS DE CONCENTRACIN
NDICE DE CONCENTRACIN DE GINI
CURVA DE LORENZ
5. TRANSFORMACIONES LINEALES
5.1 EN LA MEDIA
5.2 EN LA MEDIANA
5.3 EN LA VARIANZA
5.4 EN LA DESVIACIN TPICA
Curso 02-03
3
TEMA 1 :
DESCRIPCIN DE UNA MUESTRA
1. INTRODUCCIN
Ejemplo 1
El gobierno desea averiguar si el nmero medio de hijos por familia ha
descendido respecto a la dcada anterior. Para ello ha encuestado a 50
familias respecto al nmero de hijos y ha obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Ejemplo 2
Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el
precio de sus habitaciones, el gerente investiga los precios por habitacin de
40 hoteles de la misma categora de esta ciudad. Los datos obtenidos (en miles
de pesetas) fueron:
3.9
4.7
3.7
5.6
4.3
4.9
5.0
6.1 5.1
4.5
5.3
3.9
4.3
5.0
6.0
4.7
5.1
4.2
4.4
5.8
3.3
4.3
4.1
5.8
4.4
3.8
6.1
4.3
5.3
4.5
4.0
5.4
3.9
4.7
3.3
4.5
4.7
4.2
4.5
4.8
Curso 02-03
4
Discretas:
toman valores en un conjunto numerable. Ej.:
Nmero de habitaciones de un hotel, nmero de hijos de una familia, nmero
de obreros de una fbrica.
Continuas:
toman valores en un conjunto no numerable
(los nmeros reales o un intervalo). Ej.: peso, estatura .
NOTA:
La distincin entre variables discretas y continuas es ms
terica que prctica, puesto que la limitacin de los aparatos de medida hace
que todas las variables se comporten como discretas cuando se pretende
observarlas. De momento haremos ms flexible el concepto de variable
continua considerando continua a aquella variable que toma un gran nmero de
valores diferentes, en este sentido podemos considerar la variable precio de la
habitacin como continua.
MUESTRA: Es un conjunto finito de elementos seleccionados de la poblacin.
(las 50 familias, los 40 hoteles)
TAMAO MUESTRAL: nmero
Habitualmente se denotar por n.
de
observaciones
en
la
muestra.
2. DISTRIBUCIONES DE FRECUENCIAS
Observando los datos del ejemplo es fcil adivinar cual ser el primer paso
en la organizacin de los datos; consistir en agrupar aquellos datos que se
repiten varias veces. Tenemos las siguientes definiciones:
2.1 FRECUENCIA ABSOLUTA (ni): es el nmero de veces que se repite un
determinado valor (xi) de la variable. Ej1: para el dato x 1=0 n1=2, para el dato
x4=3 n4=15.
PROPIEDAD: la suma de todas las frecuencias absolutas es igual al tamao
muestral.
Este tipo de frecuencias no son comparables con las obtenidas en otras
muestras de distinto tamao.
2.2 FRECUENCIA RELATIVA (fi): es igual a la frecuencia absoluta dividida por
el nmero total de datos, es decir por el tamao muestral f i=ni/n. Ei1.:
f1=2/50=0.04, f4=15/50=0.3
PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.
2.3 FRECUENCIA ACUMULADA (Ni): Nos dice el nmero de datos que hay
i
Es el resultado de dividir
Ni
j 1
Curso 02-03
6
Ejemplo 1:
xi
0
1
2
3
4
5
6
ni
2
4
21
15
6
1
1
fi
Ni
0.04
0.08
0.42
0.3
0.12
0.02
0.02
2
6
27
42
48
49
50
Fi
0.04
0.12
0.54
0.84
0.96
0.98
1
ni
2
1
1
3
1
1
2
4
2
4
4
1
1
2
2
2
1
1
2
1
fj
0.05
0.025
0.025
0.075
0.025
0.025
0.05
0.1
0.05
0.1
0.1
0.025
0.025
0.05
0.05
Ni
2
3
4
7
8
9
11
15
17
21
25
26
27
Fj
0.05
0.075
0.1
0.175
0.2
0.225
0.275
0.375
0.425
0.525
0.625
0.650
0.675
9
31
6.1
LA TABLA ES ENORME!
n, o
e clases no debe
Curso 02-03
8
Re
n de int ervalos
ci
3.5
4
4.5
5
5.5
6
ni
3
8
14
6
4
5
fi
0.075
0.2
0.35
0.15
0.1
0.125
Ni
3
11
25
31
35
40
Fi
0.075
0.275
0.625
0.775
0.875
1
Curso 02-03
9
180
160
140
120
100
80
60
40
20
0
1er
trim.
2do
trim.
3er
trim.
4to
trim.
ni
1 360
fi
xi
fi
favor
0.5
en contra
0.4
0.4
abstencin
Curso 02-03
10
0.1
40,00%
50,00%
10,00%
Curso 02-03
11
24
20
frecuencias
16
12
8
4
2
altura
Curso 02-03
12
100
80
porcentaje
60
40
20
3,1
4,1
5,1
6,1
7,1
precio
4 MEDIDAS DESCRIPTIVAS
Para datos cualitativos, la distribucin de frecuencias proporciona un
resumen conciso y completo de la muestra, pero para variables cuantitativas
puede complementarse este resumen utilizando medidas descriptivas
numricas extradas de los datos.
Las medidas descriptivas son valores numricos calculados a partir de la
muestra y que nos resumen la informacin contenida en ella. En la parte de
inferencia estadstica les llamaremos estadsticos.
4.1 MEDIDAS DE POSICIN
Nos dan el valor que ocupa una determinada 'posicin" respecto al resto
de la muestra.
4.1.1 MEDIDAS DE TENDENCIA CENTRAL
Nos dan un centro de la distribucin de frecuencias, es un valor que se
puede tomar como representativo de todos los datos. Hay diferentes caminos
para definir el "centro" de las observaciones en un conjunto de datos. Por orden
de importancia, son:
xn
i
n
Si los datos estn agrupados utilizamos las marcas de clase, es decir c i
en vez de xi.
Es la medida de centralizacin ms importante.
Ejemplo 1: x
0 * 2 1 * 4 ...6 * 1
=2.52
50
Ejemplo 2: 4.6875
PROPIEDADES
1. La suma de las diferencias de los valores de la variable y la media es cero.
x x n
i
x
i
x n i
2
x
i
k ni
Me=x3=2
cuya
decir:
DISTRIBUCIONES AGRUPADAS
Se calcula n/2.
Se busca en la tabla el intervalo, [L i-1, Li), que cumple Ni-1<n/2<Ni ( a este
intervalo lo llamamos intervalo mediano).
A continuacin para encontrar la mediana, aplicaremos la siguiente frmula:
Me L i1
Ni1 a i
ni
Ni1 a i
ni
Ejemplo 2:
n=40
n/2=20
N2=11<20<25=N3
el intervalo mediano es el intervalo [Li-1, Li)=[4.25,4.75) con lo que
40
11 0.5
Me 4.25
4.57
14
x
i
Me n i
k ni
DISTRIBUCIONES AGRUPADAS
Es importante distinguir aqu tambin entre intervalos de igual amplitud, o
distribuciones de frecuencias donde los intervalos no tengan la misma amplitud.
Intervalos de igual amplitud.
Observando las frecuencias absolutas, determinamos el intervalo con
mayor frecuencia [Li-1,Li), a este intervalo le llamaremos intervalo modal.
A continuacin para encontrar la moda aplicamos la siguiente frmula:
n i 1
Mo L i1
ai
n i 1 n i 1
El razonamiento es el siguiente: Consideramos los intervalos anterior y
posterior al modal, con frecuencias n i y ni-1. Si estas frecuencias son iguales, la
moda sera el centro del intervalo modal, en caso contrario, la moda estara
ms cerca de aquel intervalo contiguo cuya frecuencia es mayor, es decir, las
distancias de la moda a los intervalo contiguos son inversamente
proporcionales a las frecuencias de dichos intervalos. Como consecuencia
M0=Li-1+m con:
n
m
i1
a i m n i1
Despejando m y sustituyendo obtenemos la frmula anterior.
Ejemplo 2: El intervalo modal es [Li-1,li)=[4.25,4.75), la moda ser:
Mo 4.25
6
0.5 4.46
8 6
ni
n
1
i x n i
i
HG x
pn
Ni1 a i
100
ni
CUARTILES (C1) son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes iguales, son un caso particular de los percentiles:
C1=P25
C2=P50
C3=P75.
Ejemplo 1:
25.50
10
100
C1 2
50.50
20
100
C2 2
75.50
30
100
C3 3
C 1 P25
Ni E
C 2 P50
Ni E
C 3 P75
Ni E
DECILES (Di) : Son los nueve valores que dividen al conjunto de datos
ordenados en diez partes iguales, son tambin un caso particular de los
percentiles.
Curso 02-03
18
D1=P10
D2=P20
..........
D9=P90
NOTA: La Mediana tambin es un caso particular de percentil: Me=P 50
4.1.3 MOMENTOS
Los momentos de una distribucin se definen como una generalizacin
de la media. Como veremos sern la base para describir algunas
caractersticas importantes de la distribucin de frecuencias. Pero lo ms
importante de ellos, es que caracterizan a la distribucin de frecuencias, es
decir, dos distribuciones son iguales si tienen todos sus momentos iguales, y
son tanto ms parecidas cuanto mayor sea el nmero de momentos iguales
que tengan.
x n
0
i
a0
a1
n
xi n i
n
1
n
mr
CASOS PARTICULARES:
Curso 02-03
19
x
i
x n i
r
mO
m1
x
I
x n I
0
x n I
n
n
1
n
xx0
s2
x
i
x n i
2
PROPIEDADES:
1. La varianza nunca puede ser negativa, s2 >0.
2. Otra forma ms sencilla de calcular la varianza es:
Curso 02-03
20
x n
2
i i
s2
x 2 a 2 a1
Demostracin:
s2
x
i
n
2
xi n i
i
n
Ejemplo 1:
2
i
2 xx i x 2 n i
x n
x n
2
i
xn
i
2x
x 2 ni
i
x n
2 xx
x2
Usaremos la propiedad 2
xi
0
1
2
3
4
5
6
ni
2
4
21
15
6
1
1
50
xi2
0
1
4
9
16
25
36
nixi2
0
4
84
135
96
25
36
380
s2 = (380/50)-6.35 = 1.25
o directamente:
s2 = (02 *2 + 12 *4+........+62 *1)/50 -2.522 = (380/50 )-6.35 = 1.25
Otras medidas de dispersin directamente relacionadas con la variaza son
las dos siguientes.
DESVIACIN TPICA (S). La varianza vendra dada por las mismas unidades
que la variable pero al cuadrado, para evitar este problema podemos usar
como medida de dispersin la desviacin tpica que se define como la raz
cuadrada positiva de la varianza s s 2
PROPIEDAD : Se observa a partir de la definicin que s 0
Ejemplo 1: s=1.12
Curso 02-03
21
s *2
x
i
x n i
2
n1
n
s2
n1
Dx
x ni
Ejemplo 1:
xi
0
1
2
3
4
5
6
xi - x
2.52
1.52
0.52
0.48
1.48
2.48
3.48
ni
2
4
21
15
6
1
1
ni xi- x
5.04
6.04
10.92
7.2
8.88
2.48
3.48
44.38
D x = 44.38/50 = 1.77
DESVIACIN MEDIA RESPECTO A LA MEDIANA (D Me) Se define como el
promedio de las desviaciones en valor absoluto respecto a la mediana:
D Me
Me n i
xi
0
1
2
3
4
5
6
ni
2
4
21
15
6
1
1
xi - Me
2
1
0
1
2
3
4
ni xi- Me
4
4
0
15
12
3
4
42
Re = 6-1 = 5
Ejemplo 1: CV=l.12/2.52=0.44
xi x
sx
es decir, a cada valor de la variable le restamos la media y lo dividirnos por la
desviacin tpica.
zi
zi = a + bxi con
x
sx
b=
1
sx
g1
x
i
x n i
3
ns
m3
s3
Curso 02-03
24
Elemplo 1:
xi
ni
0
l
2
3
4
5
6
g1
x
i
2
4
21
15
6
1
1
x n i
xi- x
-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48
(xi- x)3
-16.003
-3.512
-0.141
0.11
3.242
15.253
42.144
ni(xi- x)3
-32.006
-14.047
-2.953
1.658
19.451
15.253
42.144
29.5
ns 3
As = (2.52-2)/1.12=0.46
Curso 02-03
25
g2
x n i
4
ns
m4
s4
si g2>0 leptocrtica.
si g2<0 platicrtica.
si g2=0 mesocrtica o normal.
Ejemplo 1:
xi
0
1
2
3
4
5
6
g2
ni
2
4
21
15
6
1
1
x
i
x n i
xi- x
-2.52
-1.52
-0.52
0.48
1.48
2.48
3.48
(xi- x)4
40.327
3.512
0.141
0.11
3.242
15.253
42.144
ni(xi- x)4
80.655
14.047
2.953
1.658
19.451
15.253
42.144
127.512
ns
=1.815>0 leptocrtica.
Curso 02-03
26
y xn0
NOTA:Hay que tener en cuenta que desde el punto de vista estadstico los
trminos dispersin y concentracin no son opuestos, recordemos que el
primero haca referencia a la variabilidad de los datos con respecto al
promedio, mientras que el segundo, como acabamos de definir, a la no equidad
en el reparto de la suma total de la variable.
NDICE DE CONCENTRACIN DE GINI (I G) El ndice de concentracin de Gini
se construye a partir de las siguientes cantidades:
1. Los productos xini que nos indicarn el total percibido (renta total, ganancia
total, etc.) por los ni sujetos con valor (renta, ...) x i. A este producto le
llamaremos riqueza del grupo y.
2. Las riquezas acumuladas de la variable (u i) , se calculan de la siguiente
forma:
u1=x1n1
u2=x1n1+x2n2
u3=x1n1+x2n2+x3n3
..............
uk=x1n1+x2n2+...+uknk
3. Las riquezas acumuladas (ui) las expresamos en tanto por ciento del total u k.
u
qi i x100
uk
4. Las frecuencias relativas acumuladas, expresadas en tanto por ciento:
N
p i i x100 Fi x 100
n
Curso 02-03
27
IG
i1
qi
k 1
i1
i 1
1 y la
k 1
i 1
concentracin es mxima.
b) Si para cada i es pi=qi , IG=0 y el reparto es equitativo, ya que cada
porcentaje de individuos posee el mismo porcentaje de riqueza.
CURVA DE LORENZ Una forma de estudiar grficamente la concentracin es
mediante la curva de Lorenz que se construye representado en el eje de
abcisas el porcentaje de frecuencias acumuladas (p i) y en el eje de ordenadas
los porcentajes acumulados del total de la variable (q i). Al unir estos puntos
obtenemos la curva de Lorenz.
Como para pi = 0, la grfica pasa por el punto (0,0), y para p i = 100% es
qi = 100%, la grfica pasa por los puntos O=(0,0) y P(100,100). Por otra parte,
al ser pi qi , por estar ordenados los datos en sucesin creciente, la grfica
est siempre situada por debajo de la diagonal del cuadrado o coincidente con
ella. En el caso de existir reparto equitativo, es decir concentracin mnima, la
curva coincide con la diagonal (OB), pues en ese caso p i=qi . Si la
concentracin es mxima la curva de Lorenz estara formada por los lados OA
y OB.
ni
2
4
21
15
6
1
1
xini
0
4
42
45
24
5
6
ui
0
4
46
91
115
120
126
qi
0
3.17
36.51
72.22
91.27
95.24
100
Fi
0.04
0.12
0.54
0.84
0.96
0.98
1
pi
4
12
54
84
96
98
100
pi - q i
4
8.83
17.49
11.78
4.73
2.76
5. TRANSFORMACIONES LINEALES
En este apartado veremos como quedan afectadas algunas de las medidas
de una variable cuando le sumamos o multiplicamos alguna cantidad. Es decir,
calculamos una transformacin lineal de la variable original, y de la que
obtenemos queremos saber cuanto vale su media, mediana, varianza y
desviacin tpica.
5.1 EN LA MEDIA
1. Si a todos los valores de una variable les sumamos una constante k, la
media aritmtica queda aumentada en esa constante. (La media aritmtica
queda afectada por los cambios de origen).
yk x
Es decir, si yi = k + xi
entonces
Dem:
y n
i
(k x )
i
k ni
i
xn
i
kn
xn
i
k x
2.Si todos los valores de una variable los multiplicamos por una constante k, su
media aritmtica queda multiplicada por la misma constante(La media
aritmtica queda afectada por los cambios de escala).
y kx
Es decir, si yi = k xi
entonces
Curso 02-03
29
5.2 EN LA MEDIANA
1. Si a todos los valores de una variable les sumamos una constante k, la
mediana queda aumentada en esa constante. Es decir, la mediana queda
afectada por los cambios de origen.
Es decir, si yi=k+xi
entonces:
Mey=k+Mex
2. Si todos los valores de una variable los multiplicamos por una constante k,
su mediana queda multiplicada por la misma constante. Es decir, la mediana
queda afectada por los cambios de escala.
Es decir, si
yi = k xi
entonces
Mey=kMex
3. Como corolario de las anteriores, si consideramos la transformacin lineal
yi=a+bxi siendo a y b dos constantes cualesquiera, la nueva mediana quedara
Mey=a+bMex
5.3 EN LA VARIANZA
1. Si a todos los valores de una variable les sumamos una constante k, la
varianza no varia. Es decir:
Si yi = k + xi entonces sy2 = sx2
2. Si todos los valores de una variable los multiplicamos por una constante k,
su varianza queda multiplicada por el cuadrado de la constante.
Si yi = kx
sy2 = k2 sx2
entonces
Curso 02-03
31