Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva
Estadistica Descriptiva
ESTADSTICA DESCRIPTIVA
1.
2.
3.
4.
4.1.
4.2.
4.3.
5.
5.1.
5.2.
5.3.
5.4.
2. Conceptos bsicos.
Para entender mejor los conceptos bsicos que aparecen en cualquier estudio
estadstico pongamos un ejemplo, el estudio de la altura media en Espaa:
Poblacin: es el conjunto formado por todos los elementos que existen para
el estudio de un determinado fenmeno y a los cuales nos referimos en el
estudio. En nuestro ejemplo es la poblacin de Espaa
cualitativas
atributos:
no
se
pueden
medir
Tanto por cien (pi): como su nombre indica nos indica el porcentaje relativo a 100
de la caracterstica respecto del total:
Para calcular las frecuencias acumuladas utilizar la relacin entre dos frecuencias
acumuladas sucesivas: Fi+1=Fi+fi+1 , Hi+1=Hi+hi+1, Pi+1=Pi+pi+1
Veamos en los ejemplos anteriores como quedara la tabla de frecuencias:
fi
hi
pi
Fi
Hi
Pi
0,125
12,5%
0,125
12,5%
12
0,3
30%
17
0,425
42,5%
17
0,425
42.5%
34
0,85
85%
0,15
15%
40
100%
Total
40
100%
fi
hi
pi
Rojo
0,15
15%
Blanco
0,15
15%
Negro
0,1
10%
Gris
0,2
20%
Verde
0,1
10%
Amarillo
0,15
15%
Azul
0,15
15%
Total
20
100%
fi
hi
pi
Fi
Hi
Pi
[60,68)
64
0,2
20%
0,2
20%
[68,76)
72
0,25
25%
0,45
45%
[76,84)
80
0,25
25%
14
0,7
70%
[84,92]
88
0,3
30%
20
100%
20
100%
Total
4. Representacin de graficas.
4.1. Variables cualitativas
Las representaciones de las variables cualitativas son:
Diagrama de barras
Diagrama de sectores
Pictogramas
color coche
4
3,5
3
2,5
2
1,5
1
0,5
0
Rojo
Blanco
Negro
Gris
Verde
Amarillo
Azul
Diagrama
iagrama de sectores: Consiste en dividir un circulo en sectores circulares, con
ngulo proporcional a la frecuencia (
( i=hi360).
color coche
15%
15%
15%
15%
10%
10%
20%
color coche
6
4
2
0
Rojo
Blanco
4
2
Negro
Gris
Verde
Amarillo
Azul
n SMS
20
15
10
5
12
17
n SMS
6
0
0
n SMS
60
40
20
0
n SMS
0
N SMS
Histograma
Histograma: son anlogos a los diagrama de barras pero se utilizan para representar
variables continuas. La diferencia es que en los histogramas
histogramas las bases de los rectngulos
son los distintos intervalos. La altura de los rectngulo son proporcionales a las
frecuencias siempre y cuando sean intervalos de misma amplitud, en caso contrario las
alturas sern tales que las reas de los rectngulos sean proporcionales a las frecuencias.
frecuencia
Peso
7
6
5
4
3
2
1
0
6
5
68-76
76-84
60-68
68
rango de peso
84
84-92
Peso
20
15
10
5
0
60-68
68-76
76-84
84-92
Rango de peso
5. Parmetros estadsticos.
5.1. Parmetros de centralizacin.
Estos parmetros nos indican en torno a que puntos se encuentran los valores de la
variable cuantitativa en estudio. Es la forma de representar un conjunto de datos
mediante un solo valor, tratando de resumir o sintetizar la distribucin de frecuencias.
Los parmetros ms importantes son:
Moda
Mediana
x =
x1 + x 2 + ... + x N
=
N
i =1
x f + x 2 f 2 + ... + x k f k
x= 1 1
=
N
x f
i
i =1
c) Con datos ponderados: es cuando queremos dar ms peso a algunos datos que
otro. Si llamamos li al peso en tanto por cien 100 la media ponderada
es:
N
x l + x 2 l 2 + ... + x N l N
x = 1 1
=
100
x l
i
i =1
100
exmenes.
Veamos la media en los dos ejemplos cuantitativos que desarrollamos en el tema:
k
x f
i
Ejemplo 1: x =
i =1
05 + 112 + 217 + 36
= 1.6 sms
40
x f
i
x=
i =1
Para el clculo de la media muchas veces se realiza una tabla con las siguientes tres
columnas: los valores xi, las frecuencias absolutas fi, el producto xifi. En las celdas
inferiores se hace la suma de todos los productos xifi, siendo la media por tanto esta
suma entre N:
xi=nsms
fi
xifi
xi=peso
fi
xifi
64
256
12
12
72
360
17
34
80
400
18
88
528
Total
40
64
20
1544
x=
64
= 1.6
40
x=
15444
= 77.2
20
x g = N ( xi ) i = N x1 1 x 2 2 ...x k
f
fk
i =1
M 0 = Li +
(f
f M 0 f M 0 1
M0
) (
f M 0 1 + f M 0 f M 0 +1
)c
siendo:
siguiente.
Este valor M0 es la interseccin de las rectas que unen los extremos de la clase
modal con los extremos ms prximos de las clases anterior y siguiente:
8
7
6
5
4
3
2
1
M0
N
FMe1
M e = Li + 2
c
f Me
siendo:
C
Q
N/2
FMe-1
Li
Me
Li+1
M e = 76 +
exacta:
10 9
8 = 77.6 .
5
Cuartiles.
Percentiles.
1. Cuartiles: son 3 valores (Q1, Q2, Q3) que distribuyen la serie de datos, ordenada
de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno
de ellos concentra el 25% de los resultados.
N
FQ1 1
continua: Q1 = Li + 4
c
f Q1
Nota: Q2=Me
Rango o recorrido
Desviacin media
Varianza
Desviacin tpica
Coeficiente de variacin.
| x
DM = x x =
x | f i
i =1
En nuestros ejemplos:
Ejemplo 1: DM =
Ejemplo 2: DM =
= Var ( x) = x x =
( xi x ) 2 f i
( ) ()
2
i =1
= x x
x
=
2
i
i =1
fi
()
La varianza no tiene las mismas unidades que x (si x es metros 2 ser metros
cuadrados). Es por eso que se utiliza ms la desviacin tpica.
En nuestros ejemplos:
Ejemplo 1: 2 = 0,79
Ejemplo 2: 2 = 78,56
( )
xi=nsms
fi
xi2fi
xi=peso
fi
xi2fi
64
16.384
12
12
72
25.920
17
68
80
32.000
54
88
46.464
Total
40
134
20
120.768
134
2
2
2
Ejemplo 1: x = 40 = 3.35 = 3.35 1.6 = 0.79
( )
( )
2
Ejemplo 2: x =
120738
= 6038.4 2 = 6038.4 77.2 2 = 78.56
20
= Var ( x) = 2
Ejemplo 1: = 0.79 = 0.89
Ejemplo 2: = 78.56 = 8.86
En la medida en que los parmetros de dispersin tomen valores ms o menos
grandes esto nos indicara el grado de dispersin o alejamiento de los datos respecto de
la media. En el caso trivial que todos los datos centrados en un mismo valor todos estos
parmetros valdran cero. Para distribuciones normales (que veremos ms adelante) se
cumple:
CV (%) =
100%
Ejemplo 1: CV =
0.89
= 0.56
1.6
Ejemplo 2: CV =
8.86
= 0.11
77.2
g1 =
( x x) 3
1
N
(x
x) 3 f i
i =1
g2 =
( x x)
3=
1
N
(x
x) 4 f i
i =1
g2 = 0 (distribucin mesocrtica).
Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, junto con
las medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar
que una distribucin estadstica sigue la distribucin normal. Esto es necesario para
realizar numerosos contrastes estadsticos en la teora de inferencia estadstica.
Ejercicios finales
Ejercicio 1. Completar
pletar los datos que faltan en la siguiente tabla estadstica. Calcular
todos los parmetros estadsticos explicados en el tema e interpretar la distribucin
estadstica.
xi
1
2
3
4
5
6
7
8
fi
4
4
hi
0,08
Fi
Hi
fixi
fixi2
16
7
5
38
7
N=
[2,4)
[4,6)
[6,8)
[8,10]
1
2
1
2
3
4
5
4
5
4
6
5
8
5
8
6
9
6
9
8
Horas estudio