Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva
Estadistica Descriptiva
El padre del anlisis exploratorio de datos es John W. Tukey (1915-2000) Estados Unidos
Pgina 2 de 39
Tipos de variables
La base de datos nmero 1, adjunta, contiene la informacin de 36 alumnos de un curso de
Estadstica de la Universidad de Talca.
Base de datos 1:
Nmero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Sexo
M
M
M
M
M
M
M
M
M
M
M
M
F
M
M
F
F
F
M
F
F
M
F
M
F
F
F
F
F
M
F
M
F
F
F
M
Edad
22
20
20
22
25
22
21
24
21
21
20
21
20
22
20
20
22
20
20
20
22
19
19
19
20
21
20
21
22
19
22
20
19
20
19
20
Estatura
180
175
178
183
180
180
180
182
177
184
172
173
162
194
174
165
167
155
174
160
155
174
162
180
160
170
155
160
166
170
160
182
162
154
155
184
Peso
74
95
68
75
76
78
.
85
78
85
70
59
56
105
79
50
58
52
65
48
58
80
60
82
57
70
50
60
61
68
60
72
55
46
50
85
Ciudad de residencia
SAN FERNANDO
CHILLAN
TALCA
TALCA
LINARES
SANTIAGO
TALCA
TALCA
CURICO
SANTIAGO
SAN FERNANDO
IQUIQUE
SANTIAGO
LINARES
SANTIAGO
SAN JAVIER
TALCA
PUERTO MONTT
LINARES
SANTIAGO
SANTIAGO
SAN FELIPE
MELIPILLA
TALCA
TALCA
SANTIAGO
SANTIAGO
TALCA
PUERTO IBAEZ
RANCAGUA
SANTIAGO
TALCA
RANCAGUA
SANTIAGO
RANCAGUA
RANCAGUA
Nmero de hermanos
7
2
2
7
3
1
1
1
1
0
3
4
0
4
1
1
1
2
2
2
1
1
1
3
1
2
1
1
1
3
1
1
2
3
2
5
En esta base de datos podemos notar que los alumnos tienen distintas caractersticas, por
ejemplo, no todos vienen de la misma ciudad.
Pgina 3 de 39
Definiciones:
Unidad es el objeto que observamos. Cuando el objeto es una persona, lo referimos como
sujeto.
Observacin es la informacin o caracterstica que registramos de cada unidad.
Una caracterstica que puede variar de unidad en unidad es llamada variable.
Una coleccin de observaciones con una o ms variables se llama base de datos.
Tipos de variables
Cualitativas
Nominales
Ordinales
Cuantitativas
Discretas
Continuas
Variables cualitativas son aquellas que clasifican las unidades en categoras. Las categoras
pueden tener un orden natural (ordinales) o no (nominales). Las variables cualitativas tambin se
llaman variables categricas. Con estas variables podemos contar nmero de casos, comparar
entre categoras, pero no podemos realizar operaciones numricas.
Variables cuantitativas tienen valores numricos que representan medidas (largo, peso, etc.) o
frecuencias (nmero de). Tiene sentido realizar operaciones numricas con estas variables.
Adems distinguimos dentro de las variables cuantitativas las discretas y las continuas. Una
variable discreta es aquella en la cul se puede contar el nmero posible de valores. Una variable
continua puede tomar cualquier valor en un intervalo dado.
Pgina 4 de 39
Ejemplo
Nominal: est asociada a nombres.
Ejemplo: Marca de auto, Sexo, Religin.
Ordinal: tiene asociado un orden.
Ejemplo: Nivel educacional, Estado nutricional, Nivel Socioeconmico.
Discreta: slo puede tomar un nmero finito (o contable) de posible valores.
Ejemplo: El nmero de respuestas correctas en una prueba de 5 preguntas de V o F.
50
50 ml
20 ml
0 ml
Ejemplo
Tipo de Variable.
Determine qu tipo son las siguientes variables. Si son variables cualitativas (nominal u ordinal) o
cuantitativas (discretas o continuas).
a)
b)
c)
d)
e)
f)
g)
Marca de automvil.
Duracin de un compacto (segundos).
Nmero de temas de un compacto.
Nivel educacional (bsica, media, universitaria).
Temperatura al medioda en Talca (grados Celcius).
Estado civil (soltero, casado, divorciado, viudo).
Cantidad de lluvia en un ao en Talca (mm3).
Pgina 5 de 39
Mtodos grficos y numricos para describir variables cualitativas
Definicin:
La distribucin de una variable nos da los valores posibles de la variable y cuantas veces
ocurren. La distribucin de una variable nos muestra la forma en que vara la variable.
Frecuencia
Porcentaje
Total
100
Ejemplo
Tabla de distribucin de frecuencias del sexo de la base de datos 1
Sexo
Femenino
Masculino
Total
Nmero de alumnos
16
20
36
Porcentaje de alumnos
44,4
55,6
100,0
En SPSS
Analizar > Estadsticos Descriptivos > Frecuencias.
SEXO
Vlidos
Frecuencia
Porcentaje
Porcentaje
vlido
44.4
Porcentaje
acumulado
44.4
100.0
16
20
55.6
55.6
Total
36
100.0
100.0
44.4
La salida de SPSS tiene columnas que no aportan informacin, Usted deber editar estas tablas
con la informacin que es relevante y borrar lo que no interesa.
Pgina 6 de 39
Grficos para variables cualitativas.
Una vez que conocemos la distribucin de la variable, nos interesa presentarla de alguna manera
grfica, uno de los grficos o diagramas ms usados en variables cualitativas son los diagramas
sectoriales o de torta y los grficos de barra.
Grfico sectorial.
Figura 1 (a):
Diagrama sectorial con 1/4 de los tems que
comparten alguna propiedad.
Figura 1 (b):
Diagrama sectorial con 7/8 de los tems que
comparten alguna propiedad
12.5%
25.0%
75.0%
87.5%
F
44.4%
M
55.6%
Pgina 7 de 39
Grfico de barras
Compare los siguientes grficos. Cules son las diferencias?
Grfico de barras: Sexo en la base de datos 1.
60
50
40
30
Frecuencia
Porcentaje
20
10
0
F
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
F
Sexo
Sexo
60
58
50
56
54
40
52
50
30
48
46
Porcentaje
Porcentaje
20
10
0
F
Sexo
44
42
40
F
Sexo
Pgina 8 de 39
Grfico de Barras: Ciudad de procedencia de alumnos de base de datos 1.
30
20
Porcentaje
10
0
H
C
A
LC O
TA AG
TI
N IER
O
V
SA
D
JA AN
N
N
R
SA
FE
N IPE
L
SA
FE
A
N
U
SA AG
TT
N
C
O
M
AN
R TO
EZ
ER IBA
PU TO
ER A
PU ILL
IP
EL
M ES
AR
N
E
LI
U
IQ
U
N
IQ
LA
IL
O
IC
R
U
C
CIUDAD
Ejemplo
Mtodos grficos y numricos para describir datos cualitativos
Tabla: Distribucin de frecuencias de formas de hojas simples de una muestra de 39 hojas del
parque de la Universidad de Talca, sector del edificio Prosperidad, I semestre 2001.
Formas de hojas simples
Aciculada
Elptica
Flagelada
Lanceolada
Lobulada
Ovada
Ovovada
Palmada
Total
Nmero de hojas
4
9
2
5
3
5
3
8
39
Porcentaje de hojas
10,3
23,1
5,1
12,8
7,7
12,8
7,7
20,5
100
Pgina 9 de 39
Figura 1: Grfico de barras que muestra la frecuencia de formas de hojas simples.
10
9
8
Frecuencia
7
6
5
4
3
2
1
0
Aciculada
Elptica
Flavelada
Lanceolada
Lobulada
Ovada
Ovovada
Palmada
Palmada
21%
Aciculada
10%
Elptica
22%
Ovovada
8%
Ovada
13%
Flavelada
5%
Lobulada
8%
Lanceolada
13%
Pgina 10 de 39
Mtodos grficos para describir variables cuantitativas
En esta seccin veremos de qu manera podemos describir grficamente las variables
cuantitativas. Veremos 3 tipos de grficos:
1. Grfico de puntos.
2. Diagrama de Tallo y Hojas.
3. Histograma.
1. Grfico de Puntos.
Ejemplo
Cuntas llaves tiene en su bolsillo?
Haga un grfico de frecuencias (de puntos) con el nmero de llaves que tienen los estudiantes
que asisten hoy a clases. Describa la forma del grfico.
Formas de Distribuciones
Bimodal
Uniforme
Pgina 11 de 39
Los trminos usados para describir la forma de una distribucin son:
Simtrica: La distribucin puede ser dividida en dos partes alrededor de un valor central y
cada parte es el reflejo de la otra.
Unimodal: La distribucin tiene un nico mximo que muestra el o los valores ms comunes
en los datos.
Ejemplo
BASE DE DATOS mdica = medidas en 20 individuos que fueron parte de un estudio mdico
para reducir la presin sangunea.
Nmero
1001
1002
1003
1004
1005
1006
1007
1008
1009
1010
1011
1012
1013
1014
1015
1016
1017
1018
1019
1020
Sexo
M
M
F
F
F
M
M
F
M
M
M
M
F
F
M
F
M
F
M
M
Edad
45
41
51
46
47
42
43
50
39
32
41
44
47
49
45
42
41
40
45
37
N_tabletas
2
1
2
2
3
2
4
2
1
1
2
2
2
3
3
1
2
1
2
3
Presin_antes
100.2
98.5
100.8
101.1
100.0
99.0
100.7
100.3
100.6
99.9
101.0
100.9
97.4
98.8
100.9
101.1
100.7
97.8
100.0
101.5
Presin_despus
100.1
100.0
101.1
100.9
99.8
100.2
100.7
100.9
101.0
98.5
101.4
100.8
96.2
99.6
100.0
100.1
100.3
98.1
100.4
100.8
Pgina 12 de 39
2. Diagrama de Tallo y Hojas (Stem and Leaf).
Los grficos o diagramas de tallo y hoja son una manera muy fcil de ordenar y mirar la
distribucin de los datos.
A veces se deja fuera el decimal pero se agrega una nota de cmo leer el valor.
Para 2,345 por ejemplo podremos decir que 234 | 5 se debe leer como 2,345.
2. Escribir los tallos en orden creciente de arriba abajo y dibujar una lnea a la derecha de
los tallos.
3. Agregar las hojas a su respectivo tallo en orden creciente.
Ejemplo
Diagrama bsico de Tallo y Hoja para la Edad de base de datos de un estudio mdico.
41
44
51
47
46
49
47
45
42
42
43
41
50
40
39
45
32
37
Pgina 13 de 39
Una modificacin til es que podemos dividir los tallos:
3
3
4
4
5
|
|
|
|
|
2
7
0
5
0
9
1112234
556779
1
Ejemplo
Pensemos
Qu est malo?
Explique por qu los siguientes grficos de tallo y hojas no reflejan bien a la distribucin de los
datos.
Tallo y hoja 1
Tallo y Hoja 2
Tallo y hoja 3
27
32
33
34
35
2|112223445567789
3|022334678
4|011
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
|
|
|
|
9
0
1
0
1
1178
2259
34
1
Nota: 2 | 1 representa 21
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1
0
128
0
7
5
2
0
1
2
7
6
8
3
5
29
0
0
Pgina 14 de 39
En SPSS
Analizar > Estadsticos Descriptivos > Explorar > Grficos > Tallo y Hojas.
TALLO1 Stem-and-Leaf Plot
Frequency
1.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
3.00
2.00
3.00
2.00
3.00
0.00
2.00
Stem width:
Each leaf:
Stem
27
28
28
29
29
30
30
31
31
32
32
33
33
34
34
35
& Leaf
. 9
.
.
.
.
.
.
.
.
. 011
. 78
. 122
. 59
. 034
.
. 11
10
1 case(s)
Stem
2
2
2
2
2
3
3
&
.
.
.
.
.
.
.
Leaf
11
2223
4455
677
89
0
22
10
1 case(s)
Stem &
1
2
2
3
.
.
.
.
Leaf
89
11123
5566778889
0
100
1 case(s)
Pgina 15 de 39
En SPSS
Analicemos ahora la salida que nos entrega el programa SPSS.
Estos diagramas contienen datos de la estatura (en cms) y de edad de los alumnos de la base de
datos de 36 alumnos de Estadstica:
Diagrama 1
ESTATURA Stem-and-Leaf Plot
Frequency
Diagrama 2
EDAD Stem-and-Leaf Plot
1.00
4.00
7.00
3.00
7.00
3.00
10.00
.00
1.00
15 .
15 .
16 .
16 .
17 .
17 .
18 .
18 .
19 .
Stem width:
Each leaf:
4
5555
0000222
567
0023444
578
0000022344
6.00
19 . 000000
14.00
20 . 00000000000000
6.00
21 . 000000
8.00
22 . 00000000
.00
23 .
1.00
24 . 0
1.00 Extremes (>=25.0)
10
1 case(s)
Stem width:
Each leaf:
1
1 case(s)
3. Histograma
Los histogramas son otra manera de mostrar la distribucin de una variable cuantitativa.
Pgina 16 de 39
Ejemplo
Histograma de Edad
Veamos nuevamente las edades de la base de datos mdica. El rango va de 32 a 51, entonces
podemos crear clases que comiencen en 30 con incrementos de 5 hasta 55. Puede intentar
diferentes clases con distinto ancho hasta obtener una buena representacin.
Para empezar es necesario construir una tabla de distribucin de frecuencias:
Clase
Cuenta
Nmero de observaciones
Porcentaje
(30,35]
(35,40]
///
(40,45]
//////////
10
(45,50]
/////
(50,55]
Pgina 17 de 39
En SPSS
Grficos > Generador de Grficos > Histograma.
10
8
20
Frecuencia
10
Frecuencia
0
19
2
18
18
17
16
16
15
15
0
21 - 23
23 - 25
25 - 27
98
-1
86
92
-1
-1
81
-1
75
-1
69
-1
64
-1
58
-1
19 - 21
EDAD
ESTATURA
En SPSS
Comparemos histogramas con tallo y hoja.
Histograma para el nmero de hermanos
de 36 alumnos
20
2.00
0
16.00
1
8.00
2
5.00
3
2.00
4
1.00
5
2.00 Extremes
Frecuencia
10
.
.
.
.
.
.
00
0000000000000000
00000000
00000
00
0
(>=7.0)
0
0
Nmero de hermanos
Stem width:
Each leaf:
1
1 case(s)
Pgina 18 de 39
Cuidado con usar grficos de barras para variables cuantitativas:
Frecuencia
20
20
18
18
16
16
14
14
12
12
10
10
0
0
Ejemplo
Histograma del Peso al nacer de los recin nacidos en 1993 en Chile.
%
40
30
20
10
260
893
1526 2159
Pgina 19 de 39
Mtodos numricos para describir variables cuantitativas
En este captulo, empezamos a organizar y resumir los datos, primero tratamos las variables
cualitativas, luego la descripcin grfica de variables cuantitativas, ahora estudiaremos cmo
obtener buen resumen numrico de los datos.
Especficamente estudiaremos medidas de
resumen o medidas descriptivas numricas que son de tres tipos:
- las que ayudan a encontrar el centro de la distribucin, llamadas medidas de tendencia
central.
- las que miden la dispersin, llamadas medidas de dispersin.
- las que describen la posicin relativa de una observacin dentro del conjunto de datos,
llamadas medidas de posicin relativa.
1. Medidas de Tendencia Central.
Las medidas de tendencia central son valores numricos que quieren mostrar el centro de un
conjunto de datos, nos interesan especialmente dos medidas: la media y la mediana.
Si los datos son una muestra, el promedio y la mediana se llamarn estadsticas. Si los datos son
una poblacin entonces estas medidas de tendencia central se llamarn parmetros.
Una Estadstica es una medida descriptiva numrica calculada a partir de datos de una muestra.
Un Parmetro es una medida descriptiva numrica que usa la totalidad de las unidades de una
poblacin.
a) Promedio.
45 + 41 + 51 + 46 + 47 + L + 45 + 37
= 43,35 aos
20
Notacin: Si
x =
x
i =1
x1 + x 2 + L + x n
n
Si se tiene TODOS los valores de una poblacin, el promedio de la poblacin es la suma de todos
los valores dividida por cuntos son.
Pueden revisar la notacin de sumatorias en Hopkins, K. Hopkins, B. Glass, G. (1997) Estadstica bsica para las ciencias
sociales y del comportamiento. Tercera edicin. Prentice Hall.
Pgina 20 de 39
N
x
i =1
Ejemplo
Los datos siguientes son el nmero de nios en una muestra aleatoria de 10 casas en un
vecindario: 2, 3, 0, 2, 1, 0, 3, 0, 1, 4.
El promedio de estas 10 observaciones es: 1,6
El resultado es 1,6 aunque no sea posible observar 1,6 nios en una casa. El promedio es 1,6
Supongamos que una observacin en la ltima casa se anot como 40 en vez de 4, Qu le
pasar al promedio?
Notar que 9 de las 10 observaciones son menores que el promedio. El promedio es sensible a las
observaciones extremas.
La mayora de los mtodos grficos nos ayudarn de detectar observaciones extremas.
Ejemplo
Un promedio NO es siempre representativo.
Las notas en varias pruebas de Juanita son 1,0
Juanita.
6,9
Ejemplo
Combinando Promedios.
El promedio de 3 estudiantes es 5,4 y el promedio de otros 4 estudiantes es 6,7, Cul es el
promedio de los 7 estudiantes?
1 2
Mean =2
Pgina 21 de 39
Mean =2.5
1 2
11
Mean =4
Si la distribucin es sesgada, vamos a querer usar una medida que sea ms resistente para
mostrar el centro. La medida de tendencia central que es ms resistente a los valores extremos es
la mediana.
b) Mediana.
Definicin:
La mediana de un conjunto de n observaciones, ordenadas de menor a mayor, es un valor tal
que la mitad de las observaciones son menores o iguales que tal valor y la mitad de las
observaciones son mayores o iguales que ese valor.
Ejemplo
Edades de n=20 sujetos...
Calculamos (n+1)/2 obtenemos (20+1)/2 = 10,5. Entonces los trminos centrales son la dcima
y undcima observaciones, es decir 43 y 44. La mediana es el promedio de estos dos trminos,
(43+44)/2=43,5 aos.
32
37
39
40
41
41
41
42
42
43
44
45
45
45
46
47
47
49
50
51
Pgina 22 de 39
Ejemplo
Mediana del nmero de nios por hogar.
Encuentre la mediana del nmero de nios por hogar en la muestra de 10 hogares.
Nmero de Nios:
2, 3, 0, 1, 4, 0, 3, 0, 1, 2.
a) Ordenar las observaciones de menor a mayor:
b) Calcular (n+1)/2 = _________________
c) Mediana = ______________
d) Qu le pasa a la mediana si la quinta observacin en la lista se anota incorrectamente como
40 en vez de 4?
e) Qu le pasa a la mediana si la tercera observacin en la lista se anota incorrectamente como
20 en vez de 0?
Nota: La mediana es resistente (robusta), es decir, no cambia o cambia muy poco con
observaciones extremas.
c) Moda.
Definicin:
La moda de un conjunto de observaciones es el valor ms frecuente.
0,
0,
0,
{ 0,
2,
3,
4 } dos modas, 0 y 2
{0, 0, 0, 0, 0, 1, 2, 3, 4, 4, 4, 4, 5} ...
0,
0,
1,
1,
2,
2,
1,
1,
2,
2,
3,
4 } es 0.
(bimodal).
1,
2,
4,
5,
8 }.
La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin
embargo la Moda es LA medida de tendencia central que puede ser calculada en datos
cualitativos.
Pgina 23 de 39
10
Frecuencia
2
0
A
LC O
TA IAG
NT ER O
I
SA AV ND
J
A
N
RN
SA
E
F
N
PE
A
LI
S
FE A
N
U
T
SA A G NT
NC MO Z
RA TO E
A
ER IB
PU TO
ER A
PU ILL
IP
EL
M ES
R
A
N
LI UE
Q
UI
IQ AN
L
IL
CH O
IC
R
CU
Ejemplo
$120 000
$300 000
$900 000
$1 000 000
Pgina 24 de 39
Cul medida de tendencia central usar?
Bimodal
50%
mean=median
two modes
mean=median=mode
Sesgada a la derecha
Sesgada a la izquierda
50%
50%
mode
mean
median
mean
mode
median
Pensemos
Suponga que calcula el promedio, mediana y moda de una lista de nmeros, Cul medida es
siempre un nmero en la lista?
Si la distribucin es simtrica, Cul medida de tendencia central calculara: el promedio o la
mediana?, Por qu?
Ejemplo
1/4
Pgina 25 de 39
Ejemplo
2. Medidas de Dispersin.
Las medidas de tendencia central son tiles pero nos dan una interpretacin parcial de los datos.
Considere los dos siguientes conjuntos de datos:
Datos 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65
35
40
45
50
X
X
XXXXXXXXXXX
55
60
65
.
70
75
80
85
Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85
X
35
X
40
X
45
X
50
X
X
X
60
X
55
X
65
X
70
X
75
X
80
X .
85
a) Rango.
Es la medida de variabilidad o dispersin ms simple. Se calcula tomando la diferencia entre el
valor mximo y el mnimo observado.
Rango = Mximo Mnimo.
X
X
X
20
X
X X
X
X X X X X X X X
21 22 23 24 25 26 27 28
X
X
X
29
X
X
X
30
X
X X
X X X X X
20 21 22 23 24
X
X
X
X
25
X
X X
X X X X X
26 27 28 29 30
Analice cules podran ser las ventajas y desventajas del rango como medida de variabilidad.
Pgina 26 de 39
b)
Desviacin Estndar.
Ejemplo
deviation = -4
deviation =1
deviation = 3
mean=4
Observacin Desviacin
xx
Desviacin al cuadrado
(x x )2
0
5
7
Promedio = 4
04=-4
54= 1
74= 3
Suma = 0
16
1
9
Suma = 26
La varianza muestral est definida como la suma de las desviaciones al cuadrado divididas por
el tamao muestral menos 1, es decir, dividas por n 1 .
varianza muestral =
16 + 1 + 9 26
=
= 13
2
2
Ejemplo
Recordemos los datos del nmero de nios por hogar en una muestra de 10 casas de un barrio:
2, 3, 0, 2, 1, 0, 3, 0, 1, 4
Use su calculadora cientfica y compruebe es siguiente resultado:
"Los hogares tienen, en promedio 1,6 nios con una variacin de alrededor de 1,43 nios".
En Resumen
Pensemos la desviacin estndar como aproximadamente un promedio de las distancias de las
observaciones a la media.
Si todas las observaciones son iguales, entonces la desviacin estndar es cero.
La desviacin estndar es positiva y mientras ms alejados estn los valores del promedio, mayor
ser la desviacin estndar.
Pgina 27 de 39
Si x1, x2 ,..., xn denota una muestra de n observaciones, la varianza muestral se denota por:
(x
=
x)
n 1
(x1 x )2 + (x2 x )2 + L + (x n x )2
n 1
s=
s2
(x
(sigma), es la raz
Notas:
-
Cuartiles
50%
Mnimo
Mediana
Mximo
Tambin es posible dividir los datos en ms de dos partes. Cuando se dividen un conjunto
ordenado de datos en cuatro partes iguales, los puntos de divisin se conocen como cuartiles y
los representamos por Q1, Q2 y Q3.
Datos ordenados en orden creciente:
25%
Mnimo
25%
Q1
25%
Q2
25%
Q3
Mximo
Pgina 28 de 39
c)
La diferencia entre el tercer cuartil y el primer cuartil se llama rango entre cuartiles, denotado
por RQ=Q3-Q1. El rango entre cuartiles mide la variabilidad de la mitad central de los datos.
Notas:
- Cuando el nmero de observaciones es impar, la observacin del medio es la mediana. Esta
observacin no se incluye luego en los clculos de Q1 y Q3.
- Pueden encontrar diferentes frmulas en libros, calculadoras o computadores, pero todas estas
frmulas se basan en el mismo concepto.
- Si la distribucin es simtrica, los cuartiles deben estar a la misma distancia de la mediana.
Ejemplo
37
39
40
41
41
41
42
42
43
44
45
45
45
46
47
47
49
median = 43.5
Q1 = 41
Q3 = 46.5
Count
8
30
35
40
45
50
55
50
51
Pgina 29 de 39
Ejemplo
Qu es Variabilidad?
Datos II:
3 3 3 3
5 6
Datos III:
2 3 3 4
5 6
Datos IV:
3 3 3 3
5 5
Distribution I
Distribution II
1 2 3 4 5 6
Distribution III
Distribution IV
Medidas de variabilidad
Rango
Rango entre cuartiles
Desviacin Estndar
II
III
IV
Algunas personas asocian variabilidad con rango mientras que otras asocian variabilidad con cmo
difieren los valores de la media. Hay muchas medidas de variabilidad, y la desviacin estndar es
la ms usada. Pero recuerden que una distribucin con la menor desviacin estndar no es
necesariamente la distribucin que es menos variable con respecto a otras definiciones de
variabilidad2.
Pgina 30 de 39
En Resumen
Cuando queremos describir una variable usamos alguna medida de posicin central y una medida
de dispersin. El par de medidas ms comnmente usado es el promedio y la desviacin estndar.
Pero vimos que cuando la distribucin de las observaciones es sesgada, el promedio no es una
buena medida de posicin central y preferimos la mediana. La mediana en general va
acompaada del rango como medida de dispersin. Pero cuando observamos valores extraos
(extremos) el rango se ve muy afectado, por lo que preferimos usar el rango entre cuartiles.
Medida de
tendencia
central
Promedio
Medida de
dispersin
Uso en
Distribuciones
Desviacin
estndar
Simtricas
Mediana
Rango
Sesgadas, sin
valores extremos
Mediana
Rango entre
cuartiles
Sesgadas con
valores extremos
Ventajas
Desventajas
Buenas
propiedades, muy
usados.
Mediana robusta a
valores extremos.
Rango muy
conocido, fcil de
entender.
Medidas robustas a
valores extremos.
Sensible a valores
extremos.
Rango sensible a
valores extremos.
El rango entre
cuartiles no es muy
conocido.
25%
Mnimo
25%
Q1
25%
Q2
Q3
Mximo
Tambin podemos dividir conjuntos de datos en 100 partes iguales y los puntos de divisin se
conocen como percentiles.
Datos ordenados en orden creciente:
1%
Mn
1%
P1
1%
P2
1%
P3
1%
.
1%
.
1%
.
...
1%
1%
.
1%
.
1%
P97
1%
P98
1%
P99 Mx
Es as como los cuartiles son en realidad los percentiles 25, 50 y 75, respectivamente.
En general, el k-simo percentil es un valor tal que el k% de los datos son menores o iguales
que l, y el (100-k)% restante son mayores o iguales que l.
Datos ordenados en orden creciente:
(100-k)%
k%
Mnimo
Pk
Mximo
Pgina 31 de 39
Por ejemplo, el 25-simo percentil o percentil 25 (P25) es un valor tal que el 25% de los datos
son menores o iguales que l, y el (100-25) = 75% restante son mayores o iguales que l.
Definicin:
Las medidas de posicin relativa son medidas que describen la posicin que tiene un valor
especfico en relacin con el resto de los datos.
Ejemplo
Si su nota estuvo en el percentil 84, entonces el 84% de las notas fueron inferiores a la suya y el
16% superiores.
Definicin
Valores extremos (outliers): son valores que se alejan del conjunto de datos.
donde xi sern las primeras y ltimas observaciones en la serie ordenada de los datos.
Ejemplo
Tiene valores extremos, la variable edad de los 20 sujetos en el estudio mdico?
32
37
39
40
41
41
41
42
42
43
44
45
45
45
46
47
median = 43.5
Q1 = 41
Q3 = 46.5
47
49
50
51
Pgina 32 de 39
Diagramas de caja (boxplot):
Ejemplo
min = 32
Min
Q1 Median Q3
max = 51
Max
IQR
30
32
34
36
38
40
42
44
46
48
50
52
54
56
En la presencia de valores extremos, los "bigotes" se extienden hasta el valor observado anterior
al valor extremo.
Pgina 33 de 39
En SPSS
Grfico > Generador de Grficos > Diagrama de Caja.
Diagrama de caja de edad en
base de datos mdica segn SPSS
10
EDAD
30
35
40
45
50
55
La distancia entre la mediana y los cuartiles es aproximadamente la misma, lo que nos hace
pensar que la distribucin de los datos es ms o menos simtrica como vimos antes en el
histograma y en el tallo y hoja.
Los grficos de caja son muy tiles para comparar distribuciones de dos o ms grupos.
ejemplo, comparar los grupos de fumadores y no fumadores (ver ejercicios propuestos).
80
70
60
50
40
Minutos
30
20
10
N=
Grupo
12
14
Fumadores
No fumadores
Por
Pgina 34 de 39
Ejemplo
En diciembre de 2004, SERNAC realiz un estudio acerca del precio de las bicicletas en Santiago.
En el siguiente grfico de caja se presentan los precios de 5 bicicletas Bianchi Modelo Goliat 12:
56
54
52
50
48
46
44
N=
Bianchi Goliat 12
Ejemplo
Identifique las 5 medidas de resumen e identifique los valores extremos:
26
25
Frequency
24
23
Stem &
6.00
19
14.00
20
6.00
21
8.00
22
.00
23
1.00
24
1.00 Extremes
22
21
20
19
18
Mnimo = _________
Valores extremos?
Q1 = ______________
Stem width:
Each leaf:
Mediana = _________
.
.
.
.
.
.
Leaf
000000
00000000000000
000000
00000000
0
(>=25.0)
1
1 case(s)
Q3 = ______________
Mximo = _________
Pgina 35 de 39
Pensemos
Ejemplo
Considere los siguientes conjuntos de datos (ordenados):
I
-1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 6 7 9
Mnimo = -1
Q1 = 3
Mediana = 4
Q3 = 5
Mximo = 9
III
II
1 1 1 1 1 1 3 3 4 6 7 7 9 9 9 9 9 9
Mnimo = 1
Q1 = 1
Mediana = 5
Q3 = 9
Mximo = 9
IV
Pgina 36 de 39
Ejemplo
Diseo muestral.
Los grficos representan las notas en dos cursos de Estadstica de los 3 ltimos aos que se
dictan para la Facultad de Ciencias de la Salud y la Facultad de Ciencias Econmicas.
Ao 2002
Fc Cs Salud
FACE
Ao 2003
Fc Cs Salud
FACE
Ao 2004
Fc Cs Salud
FACE
Considere tres diseos muestrales para estimar la verdadera media poblacional de las
notas:
i) muestreo aleatorio simple.
ii) muestreo aleatorio estratificado tomando muestras del mismo tamao en cada estrato.
iii) muestreo aleatorio estratificado tomando ms unidades de un estrato que de otro.
Asuma que el tamao muestral total es igual en todos los diseos.
a) Para qu poblacin (2002, 2003 o 2004) los diseos (i) y (ii) son igualmente efectivos?
b) Para qu poblacin (2002, 2003 o 2004) el diseo (ii) ser el mejor?
c) Para qu poblacin (2002, 2003 o 2004) el diseo (iii) ser el mejor?, De cul
Facultad se debe obtener una muestra de mayor tamao?
Pgina 37 de 39
Anexo: Transformaciones lineales y estandarizacin.
Ejemplo
Una transformacin.
Ejemplo
La temperatura mnima en Talca la semana del 14 al 20 de Mayo de 2001 fue de:
X= t F
Lunes
38
Viernes
45
Sbado
34
Domingo
43
Pgina 38 de 39
Sea Y = la temperatura en escala de grados Celsius, Y est relacionada con X = la
5
temperatura en grados Fahrenheit, por la siguiente transformacin lineal: C = (F 32) , o
9
en trminos de Y y X: Y =
5
160
X
.
9
9
z=
xx
sX
Una variable est estandarizada si la variable tiene media cero y desviacin estndar uno.
xx
sX
transformacin lineal:
xx 1
=
sX
sX
con a = 1
x +
s
sX
, y b = x .
s
X
Ejemplo
Se tienen datos sobre la emisin de monxido de Carbono de 46 vehculos del mismo tipo
(Monoxido.sav).
EN
1
2
3
.
.
.
44
45
46
HC
0,5
0,65
0,46
.
.
.
0,46
0,47
0,55
CO
5,01
14,67
8,6
.
.
.
3,99
5,22
7,47
NOX
1,28
0,72
1,17
.
.
.
2,01
1,12
1,39
A los investigadores les interesa calcular la media del monxido de Carbono. Si analizamos
el histograma adjunto, vemos que la distribucin del monxido de Carbono es sesgada a la
derecha, por lo que la media no ser un buen estimador del centro de la distribucin. Como
solucin podemos transformar la variable usando el logaritmo natural y calculamos el
3
Lectura complementaria Captulo 6 de Pea, D. Romo, J. (1999) Introduccin a la Estadstica para las Ciencias
Sociales. McGraw Hill.
Pgina 39 de 39
promedio de la nueva variable. Pero al investigador le interesa conocer el valor de la media
en las unidades originales de la variable, para eso convertimos a la unidad original de CO
0,82
Histograma
22
24
20
Nmero de Vehculos
12,5
15
10,0
7,5
10
5,0
5
2,5
Media =7,88
Desviacin tpica =5,163
N =48
0,0
0,00
5,00
10,00
15,00
20,00
25,00
Monxido de Carbono
Monxido de Carbono
Media = 7,88.
Histograma
1,25
10
1,00
Nmero de Vehculos
0,75
0,50
2
Media =0,82
Desviacin tpica =0,26
N =48
0,25
0
0,25
0,50
0,75
1,00
1,25
Media = 2,2705.