Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EstadisticaDescriptiva PDF
EstadisticaDescriptiva PDF
En
todo lo que hacemos, siempre estamos estimando los
chances de resultados exitosos: en los negocios, en la
medicina, en el clima y principalmente en los juegos
de azar.
As el estudio de las leyes formales de lo aleatorio es
la Probabilidad
Estadstica es la ciencia,
pura y aplicada, de creacin,
desarrollo y de aplicacin de
tcnicas tales que la
incertidumbre de la
inferencia inductiva pueda
ser evaluada
Tomar decisiones es una gran
responsabilidad.
responsabilidad
Poblacin Muestra
Probabilidad
Objetivo de la Estadstica Descriptiva
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1 5 7
4 89 4
0
5 6
8
4
3
6
2
3
Poblacin
In
fe
re
nc
in
ia
pc
cr i
es
D
Muestra
Transformacin Anlisis
Sumarizacin Estimacin
Ilustracin Hiptesis
Tengo un 98% de probabilidad
de hacer algo que tenga sentido
con estos nmeros.
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1
89 7
5
4 4
0
6
5
8
4 6
3
2
3
El conjunto de datos que describen un
fenmeno (nuestro objetivo) constituyen lo
que se llama Poblacin
Por qu muestreamos?
muestreo ...
muestreo ...
Muestreo Estratificado
- Divide a la poblacin en
grupos homogneos Muestreo por
Conglomerado
- Se extrae una muestra
aleatoria simple de cada
grupo o estrato - Divide a la poblacin en
grupos
-Se extrae una muestra
aleatoria simple de los grupos
-Se muestrean todos los
elementos del grupo
seleccionado
muestreo ...
Muestreo Sistemtico
- Se elige aleatoriamente a
una unidad
- A partir de sta se selecciona
cada k-sima unidad que se
encuentra despus de la
elegida
Muestreo
Oportunista
Cualitativas:
Cualitativas Son variables que denotan una
cualidad o atributo y solo pueden ser
clasificadas en categoras o clases
mutuamente excluyentes y exhaustivas
Cuantitativas:
Cuantitativas Son aquellas variables que se
obtuvieron de un proceso de conteo
(discretas) o medicin (contnuas)
Clasificacin de las variables
Cualitativas de acuerdo a su escala de
medicin:
Nominal:
Nominal Son clasificadas en categoras, sin
importar el orden. No tiene sentido hacer
operaciones aritmticas con ellas (gnero, grupo
sanguneo, Fuma (si/no))
Ordinal:
Ordinal Las categoras se pueden arreglar en
orden, pero las distancias entre las clases no son
iguales (intensidad del dolor, escolaridad, nivel
socioeconmico)
Clasificacin de las variables
Cuantitativas de acuerdo a su escala de
medicin:
Intervalo:
Intervalo Son medidas en las que las distancias
entre los valores es significativa pero no existe un
cero absoluto (el cero no es ausencia de atributo) . No
tiene sentido hacer cociente o producto (temperatura,
usos horarios)
Razn:
Razn Las proporciones y razones tienen sentido
al determinar cunto mas tiene una unidad que otra de
alguna caracterstica. (peso, ingreso, rendimiento)
El anlisis de cada variable se hace de
acuerdo a su escala de medicin
Podemos
hacer
diagramas,
tablas y
resmenes
numricos
de los datos
recopilados
Cmo presentar los datos?
Histograma
gnero frecuencia porcentaje 0.75
0 19 0.63 0.50
Frecuencia
1 11 0.37 0.25
Total 30 1 0.00
M F
Gnero
tabla de distribucin de
frecuencias
diagrama de barras
Si las variables son cuantitativas discretas las
tablas de frecuencias se realizan con la creacin
de diferentes clases en base a los datos que
toma la variable.
Frecuencia
43 2 0.07
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03 Edad
Total 30 1.00
Si las variables son cuantitativas continuas
las tablas de frecuencias se realizan con la
creacin de intervalos numricos que formarn
las diferentes clases.
tie m p o fr e c u e n c ia p o r c e n ta je
H is t o gHistograma
ra m a
9331- 9931 1 0 .0 3
9 9 3 1 -1 0 5 3 1 1 0 .0 3 0.30
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 .2 5
0 .2 0
Frecuencia
0.20
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0
0 .1 5
F r e c u e n c ia
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7 0 .1 0 0.10
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0 .0 5 0.00
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 .0 0 9631 10231 10831 11431 12031 12631 13231 13831
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 Tiem po
T o ta l 30 1 .0 0
1
31
31
31
31
31
31
93
53
11
17
23
29
35
41
-9
-1 0
1 -1
1 -1
1 -1
1 -1
1 -1
1 -1
31
31
53
13
73
33
93
53
93
99
10
11
11
12
12
13
T ie m p o
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas qu
uso tienen?
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
9631 1 0.03 3 0 .0 3 3 a) 0.167
H is t o g r a m a
10231 1 0.03 3 0 .0 6 7
10831 3 0.10 0 0 .1 6 7
11431 6 0.20 0 0 .3 6 7
c) 46.7%
F r e c u e n c ia
12031 5 0.16 7 0 .5 3 3
12631 5 0.16 7 0 .7 0 0 e) 12,031 seg
13231 6 0.20 0 0 .9 0 0
13831 3 0.10 0 1 .0 0 0
T o ta l 30 1 .0 0
9631 10231 10831 11431 12031 12631 132
8 1.00
6 0.75
Porcentaje Acumulado
Frecuencia
4 0.50
2 0.25
0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000
Tiempo Tiempo
Mtodos Numricos
(vlidos solo para datos cuantitativos)
7
7 5 21 5 8 73 2 512 5 5 8
4
0 8
-un nmero que mida la
0 9 3
4 4
31 5 58 1 0 7 71 5 5
7
3 10 10 85 838 30 0 7 5523 2 8 8
7
8 7 2 52 5
5 4
7
1 9 3 1 31 85 373588
0 4 8
7
07 3 2
5
7
6
83 2 4 82
5
dispersin de la
0
1 3 18 0 997 5 8 3 430 4 3 3
6 06
5 5
4 7 5
7
6
1 7 8 4
6
9 4 2
0
3
5
6
48 9 1 5 3 18 97 97 5 8 3 4 3 08
8 2
06
7
5
0
4 04
6 06
3
4 8 9 7 5
5
6
5 8 9 8 4 0
8 2
23
07
6
3
distribucin
8
7
7 448 9 5 5 658 977 8 3 2 5 4
8 2
6
72
7
63
0
3
4 53 4 0
2
3
2
7 54 6 48 9 7 2
8 2
263
7
3
5 6 7
37
7 4 3 2 5
72
2
6 6
6
3
5
4 654
2
3
2
7 7 3 2
2
6
6
3
4
2
6
Medidas de Tendencia Central
Son nmeros que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polgono de Frecuencia
8
6
Frecuencia
0
9000 10000 11000 12000 13000 14000
Tiempo
Medidas de Dispersin
Son nmeros que indican qu tan separados estn los
datos entre si: rango, desviacin estndar, rango
intercuartil
Medidas de tendencia central
media X 1
n
n
i 1
xi
fi
X a i 1 mi
k
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
H is t o g r a m a
9631 1 0 .0 3 0 .0 3 X a 9631(0.03) 10231(0.03)
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7 10831( 0.10) 13831( 0.10)
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3 F r e c u e n c ia
12,187
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
9631 10231 10831 11431 12031 12631 13231
T ie m p o
medidas de tendencia central ...
mediana
n 1 y se observa
se localiza el valor central l X
~
el valor que toma 2
3 38 0 0 0
6 39 0 0 0
12 40 0 0 0 0 0 0
30 1
13
(3)
41
42
0
0 0 0 l X
~ 15.5
14 43 0 0 2
12 44 0 0 0 0
8 45 0 0 0
el valor que toma la
5 46 0 0 0 0 variable es 42.0 aos
1 47
1 48
1 49 0
medidas de tendencia central ...
X~ a A 0.5pmPm1 B A
F re c u e n c ia
0 .2 0 0
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0 0 .3 6 7
0 .1 5 0
1 1 7 3 1 -1 2 3 3 1 5 0 .1 6 7 0 .5 3 3 0 .1 0 0
1 2 3 3 1 -1 2 9 3 1 5 0 .1 6 7 0 .7 0 0 0 .0 5 0
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 0 .9 0 0 0 .0 0 0
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 0 1 .0 0 0
1
31
1
1
13
73
33
93
53
93
05
T o ta l 30 1
11
11
12
12
13
-9
-1
1-
1-
1-
1-
1-
31
31
53
33
13
73
93
93
99
5
10
11
11
12
12
13
T ie m p o
medidas de tendencia central ...
moda
es el valor con la frecuencia mas alta.
La distribucin puede ser unimodar, multimodal
S2 i 1
n 1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretacin no es fcil, por lo que usamos
su raiz: desviacin estndar
X X 2
n
i
S i 1
n 1
es sensible a valores extremos.
Si los datos estn agrupados en k intervalos, la varianza se
estima como:
fi mi X a
k 2
S 2
i 1 para nuestro ejemplo qu valor toma S a2 ?
a
n 1
medidas de dispersin...
15
Frecuencia
Intervalos 10
alrededor 5
de la media
0
1 3 5 7 9 11 13 15 17 19 21
n = 372 s s
X = 11.66 2s 2s
s = 4.089 3s 3s
X
El porcetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones
25000
20000
Tiempo
15000
10000
Anlisis Exploratorio de Datos
las frecuencias pueden ser realtivas o absolutas y nos dan una idea de
qu tan frecuente se presentan simultneamente ambos atributos en
una poblacin
comparacin...
el hbito de
80.0
tabaquismo
60.0
Frecuencia
difiere si se es
40.0
hombre o
20.0
0.0
Nunca ha fumado Dej de fumar Fuma actualmente mujer?
Masculino Femenino
comparacin...
20000
quin tiene
10000
mayor
0 dispersin?
F M
Gnero
Muchas veces es importante saber si una
variable influye sobre el comportaminto de otra
variable. Con ello estudiamos el problema de
asociacin.
asociacin
60.00
A mayor nivel
45.00
socioeconmico,
30.00 mayor aceptacin?
15.00
0.00
Bajo Medio Alto
asociacin ...
asociacin ...
Habilidad de Lenguaje
297 388
300
200
este diagrama 0
Maternal Kinder I Kinder II
esquemtico?
asociacin...
X X Yi Y /( n 1)
n
i 1 i S xy
r ( x, y )
i1 X i X /(n 1) i1 Yi Y /(n 1) SxS y
n 2 n 2
asociacin ...
100
80
90 70
80 60
50
70
40
60
30
50 20
40 10
0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r = 0.99 r = - 0.7
100 330
90 280
80
230
70
60 180
50 130
40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200
r = 0.8 r = 0.1
75
60
45
Edad
30
15
0
0 10000 20000 30000 40000
Tiempo