Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Estadistico Descriptivo PDF
Analisis Estadistico Descriptivo PDF
1.
2.
3.
4.
5.
Conceptos bsicos
Construccin de tablas de frecuencias
Los grficos Estadsticos
El anlisis de tendencia Central
El anlisis de dispersim
1.
CONCEPTOS BASICOS
Antes de iniciar el anlisis estadstico de un conjunto de datos es necesario establecer
algunas precisiones conceptuales:
1.1
* *
* *
*
** * *
*
*
** * *
*
*
*
*
*
Muestra
Poblacin
1.2
Poblacin y muestra
Poblacin es el conjunto completo de individuos, objetos que posee una o ms
caractersticas observables en un mbito geogrfico determinado y en un lapso de
tiempo .
Muestra : es un subconjunto representativo de la poblacin, cuando hablamos de
representatividad nos referimos a que debe ser lo ms parecido a posible a la poblacin
desde el punto de vista cuantitativo y cualitativo.
El muestreo puede ser :
En todos los casos se debe aplicar el criterio de probabilidad, es decir que cada elemento
de la poblacin tenga la misma probabilidad de ser elegido en la muestra. Este es un
aspecto fundamental pues hacerlo de otra manera ( eleccin subjetiva) impedira medir
el nivel de confianza y / o de error de los resultados obtenidos.
1.3
Las variables
Las variables son las caractersticas, atributos o cualidades del objeto de investigacin
se pueden clasificar de muchas maneras. Ejemplo
CRITERIO
CLASIFICACIN
Segn la capacidad
observacin
de
Segn su funcin en la
hiptesis
Variables paramtricas
EJEMPLO
Genero : masculino o femenino
Grado de instruccin
Gusto, preferencia, opinin
Peso, temperatura, ingresos
Nacionalidad,
Ingresos mensuales
Causas o antecedentes
Consecuencias o efectos
Influyen pero de manera
indirecta
Medioambientales, de entorno o
macro
1.4
La medicin
Concepto : La medicin es un proceso sistemtico de asignacin de nmeros a
individuos , objetos o fenmenos , de tal manera que representen de una manera lgica
y racional las caractersticas de los mismos
Calidad de la informacin .
Cmo podemos medir la calidad de la informacin ?
Calidad de la
informacin
CALIDAD
INTERNA
CALIDAD
EXTERNA
Validez
Confiabilidad
Representatividad
CONFIABILIDAD :
Es la consistencia de puntajes en mediciones sucesivas, es decir la menor presencia de
errores de medicin.
Se expresa a travs de la estabilidad que consiste en usar el mismo conjunto de
preguntas en dos o ms momentos y comparar as las respuestas obtenidas.
Perodo 1
Perodo 2
58%
22%
20%
62%
24%
14%
VALIDEZ :
Es el grado en que las mediciones empricas representan o reflejan la dimensin
conceptual que se supone estn tratando de medir
Tiene dos maneras de comprobacin:
()
()
()
()
DERECHA
(
(
(
(
)
)
)
)
ESCALA A
ESCALA B
Posicin de
izquierda
9/10 =0.90
Posicin de
izquierda
17/20 =0.85
REPRESENTATIVIDAD
Tiene que ver con el grado en que los resultados de la muestra pueden ser atribuidos a
toda la poblacin o universo . Se trabaja con los valores de Z ( niveles de confianza
utilizando las reas de la curva Normal ) y el valor de e ( mximo error permitido por el
investigador ).
1.5
Nivel nominal
Nivel ordinal
Nivel de intervalos
Nivel de razn
Nivel Nominal
Escala cualitativa que asigna arbitrariamente un nmero a cada respuesta de modo que
slo tenga valor como un nmero de identificacin. El nmero de escala no tiene ningn
significado por s slo.
Ejemplo : Cul es la tarjeta de crdito de su preferencia ?
1.
2.
3.
4.
VISA
Mastercard
American Express
Diners
(
(
(
(
)
)
)
)
Porcentajes
Moda
Prueba binomial Ji cuadrado
Estadstica permisible :
El nmero que se asigna en esta escala no representa magnitudes absolutas. Solo sirven
para clasificarlos en determinada categora, en otras palabras 1, no es la mitad de 2 .
Nivel Ordinal
Escala cualitativa que no slo clasifica , sino establece jerarquas entre los valores.
Entre mayor sea el nmero, mayor (o menor) es la existencia del atributo , pero sin
indicar la distancia que hay entre las posiciones , es decir que el numero cuatro en
preferencia no es 300% superior al nmero 1, solo indica que es preferido respecto del
anterior
Ejemplo : Clasifique en una escala de 1 a 4 las siguientes marcas de gaseosa, en funcin
de su preferencia :
1.
2.
3.
4.
Estadstica permisible
Inca Kola
Coca Cola
Real Kola
Pepsi Cola
(
(
(
(
)
)
)
)
Percentiles - mediana
Desviacin cuartil
Correlacin rango-orden
Nivel de intervalo
Escala cuantitativa que clasifica, ordena y establece distancias o intervalos iguales entre
las unidades de medida . Asigna un punto de cero en forma arbitraria por convencin
por los expertos , pero que no implica la ausencia del atributo. Por ejemplo una prubea
de coeficiente de inteligencia va tener un punto cero , pero no hay una persona con cero
de inteligencia. Otros ejemplos son la medicin del calendario , o la medicin de la
temperatura
Ejemplo :
a
-10000
0
-10000
20000
Media Mediana-Moda
Desviacin estndar- Varianza
Coeficientes de Correlacin
Prueba T Prueba Z
Estadstica permisible
Nivel de Razn
Escala cuantitativa es igual que las escalas de intervalos, pero poseen un cero absoluto.
(origen natural) en el cual hay una ausencia de la propiedad o atributo, ejemplo el peso
o los ingresos monetarios de una persona
Ejemplo :
Estadstica permisible
A
999
1,999
2,999
4,000
Media geomtrica
Media armnica
Coeficiente de variacin
2.
Bodega
N
xi
Bodega
N
xi
1
2
3
4
5
6
7
8
9
10
6
5
4
4
3
3
4
4
5
6
11
12
13
14
15
16
17
18
19
20
4
5
6
2
4
3
4
6
5
3
N : 20 bodegas
Construyendo la tabla tendramos :
1 Clasificacin : xi mximo : 6 marcas de crema dental
xi mnimo : 2 marcas de crema dental
2 Las clases seran : 2,3,4,5,y 6
3 Tabulacin : Se determina cuantas veces de repite cada valor de xi ( frecuencia).
Se denomina frecuencia absoluta ( fi ) cuando se contabiliza en valores absolutos
(nmero de bodegas)
Se denomina frecuencia relativa ( hi ) cuando se contabiliza en valores relativos
(porcentajes )
4 El cuadro de frecuencias quedara presentado de la siguiente manera :
Cuadro N 1 :
Distribucin de 20 bodegas del distrito X en funcin al nmero de marcas
de crema dental que ofrecen a sus clientes
xi
2
3
4
5
6
tabulacin
/
////
///////
/////
////
TOTALES
fi
hi (%)
1
4
7
5
3
20
5
20
35
25
15
100
Grficamente tenemos :
Oferta de marcas de crema dental - Bodegas distrito X
N bodegas
6
5
4
3
2
1
0
2
Variable continua, es aquella que puede tomar cualquier valor del conjunto de
los nmeros racionales ( enteros o fraccionarios). Son variables cuantitativas
Ejemplo 2 :
Se desea conocer el ingreso mensual promedio del asentamiento Galpagos .
La variable xi : ser ingresos mensuales expresados en Soles
Para tal efecto se ha seleccionado una muestra de 50 familias y se han obtenido
los siguientes datos :
Familia
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
n : 50
1
xi
Familia
N
xi
730
750
580
430
490
650
670
750
510
970
820
650
890
590
550
700
600
700
380
600
450
750
730
650
760
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
500
870
550
710
750
700
400
610
750
690
540
720
780
850
350
320
830
890
650
450
750
640
930
850
630
Si el tamao de la muestra es
Menor de 100
Mayor de 100
Regla de Sturges
m = 1 + 3.322 x Log n
m =3 + 3.322 x Log n
10
Intervalo de clase
1
2
3
4
5
6
7
xi
320
413
506
599
692
785
878
xs
413
506
599
692
785
878
971
TOTALES
Marca de
clase - xi
Frecuencias absolutas
Fi
4
9
15
26
41
46
50
fi
366.5
459.5
552.5
645.5
738.5
831.5
924.5
4
5
6
11
15
5
4
50
Frecuencias relativas
hi
8
10
12
22
30
10
8
100
Hi
8
18
30
52
82
92
100
Donde :
i
xi
xs
: nmero de intervalo
: intervalo de clase inferior
: intervalo de clase superior
fi
Fi
hi
Hi
familias
10
8
6
4
2
0
413
506
599
320
413
506
692
785
878
971
599
692
785
878
soles
11
Es importante acotar que los grficos deben de tener las siguientes condiciones bsicas :
plantea lo
1
2
12
13
3.
miles $
2,000
1,500
1,000
500
0
Enero
Febrero
Marzo
Abril
Mayo
Junio
meses
Escalas y
leyendas en los
ejes
14
3.2
Tipos de Grficos
3.2.1
Grfico Lineal
Grafico 2 : Agencia de Viajes " El Sol " Clientes atendidos en sucursal Cuzco
Clientes
14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
Aos 2001
2002
2003
2004
2005
2006
Este grfico de evolucin es til para representar la evolucin de una sola variable en el
tiempo ( serie de tiempo)
3.2.2
Grfico circular
Efectivo 26%
American, 17%
Visa, 48%
Es utilizado para expresar una variable que esta compuesta de varios subconjuntos es
decir es un grfico de estructura ( de una sola variable)
15
3.2.3
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
2005
Hotel A
Aos
2006
Hotel B
Hotel C
Hotel D
30
14
25
12
10
20
8
15
6
10
tasa %
ventas (miles)
0
2003
2004
Ventas
2005
2006
aos
tasa crec.
Es muy til para mostrar dos frecuencias que tienen valores diferentes (dlares y
porcentajes por ejemplo); cada una de ellas se ubica en uno de los ejes verticales y su
lectura es a travs de los valores all expresados
16
2
Turistas ( miles)
224
271
310
325
319
308
304
365
392
415
488
3
Crecim (%)
17.28
20.98
14.39
4.84
-1.85
-3.45
-1.30
20.07
7.40
5.87
17.59
En primer lugar vamos a utilizar un grfico de barras para representar las cifras .
miles
300
250
200
150
100
50
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
aos
17
20
15
10
0
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
-5
aos
crec. = n 1 100
Vn 1
Donde :
Vn
Vn-1
: valor de la variable el ao n
: Valor de la variable el ao n-1 ( ao anterior)
325
1 100
310
. crec. =
crec. = 4.84 %
18
Una dificultad evidente es la elaboracin de grficos con la hoja electrnica EXCEL , vamos a
presentar los pasos a continuacin con los datos del grfico 2 :
19
20
7 paso : Se coloca el rango de los periodos de tiempo B4; B14 y se acciona el comando
siguiente
8 paso : Se coloca :
Ttulo del grfico : tasa de variacin anual de llegada de turistas a Lunahuana
Eje de categoras : aos
Eje de valores : %
9 paso : Se presiona siguiente y se tiene concluido el grfico indicando Finalizar
21
4.
La Media aritmtica
La Mediana
La Moda
xi
=
i =1
n
Donde :
xi : clase
n : nmero de clases
: Sumatoria ( desde i = 1 , hasta i = n)
Ejemplo 3 :
Se ha efectuado la medicin de cuanto demora la atencin a los clientes en un
Supermercado. Se ha tomado una muestra de 10 clientes y los resultados
obtenidos son :
Cliente
xi
1
2
3
4
5
6
7
8
9
10
Duracin de la
atencin
3.24
4.01
2.33
2.08
3.30
3.25
3.00
4.02
4.15
2.88
32.26
32.26
10
22
xi fi
=
i =1
N
Donde :
xi : marca de clase
fi : frecuencia absoluta
n : total de frecuencias
Ejemplo 4 :
La gerencia de mercadeo de un Hotel ha decidido estudiar un estudio acerca de la edad
promedio de los clientes del Caf Bar El Sol . Se ha elegido una muestra de 300
clientes recogida durante todo un mes tpico . Aplicada la encuesta se han obtenido los
siguientes resultados :
Clase ( i )
1
2
3
4
5
6
7
8
9
Intervalo
19 23
23 27
27 31
31 35
35 39
39 - 43
43 47
47- 51
51- 55
TOTALES
xi
21
25
29
33
37
41
45
49
53
fi
5
9
13
48
67
58
54
29
17
300
xi fi
105
225
377
1,584
2,479
2,378
2,430
1,421
901
11,900
23
11,900
300
= 39.67 aos
El promedio de edad de los clientes del Caf Bar El Sol es de 39. aos y medio
CARACTERISTICAS
VENTAJAS
DESVENTAJAS
Ejemplo 5 :
Se tiene el siguiente conjunto de datos :
4
Se ordena
2
Me
Ejemplo 6 :
Se tiene el siguiente conjunto de datos :
6
Se ordena
6
8
3
10
9.5
11
10
15
11
15
Me = (9+10) / 2 = 9.5
24
N / 2 Fa
Me = Li + c
fi
Donde :
Li : limite inferior del intervalo de la clase que contiene a la Me
c : Tamao del intervalo de clase
n : Total de frecuencias absolutas
Fa : Frecuencia absoluta acumulada anterior al la clase que
contiene a la Me
fi : frecuencia absoluta de la clase que contiene a la Me
Utilizando el ejercicio desarrollado en el ejemplo N 4 tenemos :
Clase ( i )
Intervalo
1
19 23
2
23 27
3
27 31
4
31 35
5
35 39
39 - 43
6
7
43 47
8
47- 51
9
51- 55
TOTALES
fi
5
9
13
48
67
58
54
29
17
300
Fi
5
14
27
75
142
200
254
283
300
(300 / 2) 142
Me = 39 + 4
58
Me = 39 + 0.55
Me = 39.55 aos
El 50% de los asistentes al Caf Bar El Sol est en el intervalo de 19
a 39.55 aos y el 50% restante est en el intervalo de 39.55 a 55 aos.
50%
50%
19
55
39.55 aos
25
CARACTERISTICAS
VENTAJAS
DESVENTAJAS
LA MEDIANA : RESUMEN
Es un promedio de posicin
Cuando la agrupacin de datos es muy
estrecha es el mejor indicador
Calculo relativamente fcil de efectuar
No es distorsionada por los valores extremos
Su interpretacin es bastante restringida
No se manejar algebraicamente, la mediana
de varios subconjuntos no puede ser
promediada para obtener la mediana del total
No es muy conocida ni entendida
fp
Mo = Li + c
fp + fa
Donde :
Li : limite inferior del intervalo de la clase que contiene a la
Moda
c : Tamao del intervalo de clase
n : Total de frecuencias absolutas
fp : Frecuencia absoluta posterior a la clase que contiene a la
Moda
fa : frecuencia absoluta anterior de la clase que contiene a la
Moda
Utilizando el ejercicio desarrollado en el ejemplo N 4 tenemos :
Clase ( i )
Intervalo
1
19 23
2
23 27
3
27 31
4
31 35
35 39
5
6
39 - 43
7
43 47
8
47- 51
9
51- 55
TOTALES
fi
5
9
13
48
67
58
54
29
17
300
26
58
Mo = 35 + 4
58 + 48
Mo = 35 + 2.19
Mo = 37.19 aos
La edad ms frecuente de los asistentes al Caf Bar El Sol es de
37.19 aos.
LA MODA : RESUMEN
Es absolutamente independiente de valores
extremos
Es un valor tpico
Es la medida ms descriptiva
Cuando el nmero de valores es pequeo es
fcil determinarla por observacin
No es posible calcularla en caso de datos no
agrupados
CARACTERISTICAS
VENTAJAS
DESVENTAJAS
Relacin
SIMETRICAS
= Me = Mo
ASIMETRICAS A LA DERECHA
Mo >Me >
ASIMETRICAS A LA IZQUIERDA
Mo < Me <
Asimetra a la izquierda
As =
( X Mo )
s
As = 0
Simetra
As < 0
Asimetra negativa
Sesgo hacia la derecha
Cola hacia la izquierda
27
As =
(39.64 37.19)
7.12
clientes
60
50
40
30
20
10
0
23
27
31
37.19
Mo
35
39
39.55
Me
43
Edad
47
51
55
39.67
28
5.
ANALISIS DE DISPERSIN
Las medidas de dispersin son un conjunto de indicadores que nos expresan el grado de
concentracin o alejamiento de los datos respecto de la media aritmtica.
Ejemplo 7 :
Tenemos las siguientes distribuciones de datos :
A
3
7
46
67
81
xi
1
2
3
4
5
B
20
40
46
47
51
40.8
46
40.8
46
Aparentemente ambas distribuciones son iguales, pero esto es as? : veamos los
Los grficos :
edad
GRUPO A
90
80
70
60
50
40
30
20
10
0
1
elementos
GRUPO B
60
edad
50
40
30
20
10
0
1
elementos
A pesar que ambos grupos tienen los mismos indicadores de tendencia central , las
distribuciones de los datos muestran que el grupo B es ms homogneo que el grupo A,
pues los datos estn ms cerca del valor de la edad promedio ( 40.6 aos) , en cambio el
grupo A est ms disperso o menos concentrado..
29
El Rango ( R )
Es la medida de dispersin que mide la amplitud o recorrido de la distribucin
y se obtiene de la siguiente manera :
R = Mayor
Valor
Menor
Valor
DM =
xi x
i =1
Donde :
xi : clase
: media aritmtica
n : nmero de clases
: Sumatoria ( desde i = 1 , hasta i = n)
Utilizando los datos del ejemplo 7 tenemos :
xi
1
2
3
4
5
X
A
3
7
46
67
81
40.6
B
20
40
46
47
51
40.6
30
DMA =
DMA = 28.68
La desviacin media del grupo B :
DMB =
DM =
xi x
fi
i =1
Donde :
xi : clase
: media aritmtica
n : nmero de frecuencias absolutas
fi : frecuencia absoluta
| | : Valor absoluto ( la resta debe ser siempre positiva)
Utilizamos el ejemplo N 4 - edad promedio de los clientes del Caf Bar
El Sol
Clase ( i )
1
2
3
4
5
6
7
8
9
Intervalo
19 23
23 27
27 31
31 35
35 39
39 - 43
43 47
47- 51
51- 55
Totales
xi
21
25
29
33
37
41
45
49
53
fi
5
9
13
48
67
58
54
29
17
300
| xi |
18.67
14.67
10.67
6.67
2.67
1.33
5.33
9.33
13.33
| xi | fi
93.35
132.03
138.71
320.16
178.89
77.14
287.82
270.57
226.61
1,625.28
31
DM =
1,625.28
300
DM = 5.42 aos
El promedio de las desviaciones de los datos respecto a la media aritmtica es
de 5.42 aos
5.3
s =
( xi x )
i =1
Donde :
xi : clase
: media aritmtica
n : nmero de clases
: Sumatoria ( desde i = 1 , hasta i = n)
Utilizando los datos del ejemplo 7 tenemos :
xi
1
2
3
4
5
A
3
7
46
67
81
40.6
B
20
40
46
47
51
40.6
sA =
sA =31.31 aos
La desviacin estndar del grupo B :
32
sB =
(20 40.6) 2 + (40 40.6) 2 + (46 40.6) 2 + (47 40.6) 2 + (51 40.6) 2
5
sB = 10.98 aos
Estos resultados ratifican los obtenidos con la desviacin media , la diferencia
es que son ms exactos
Nota : cuando se trata de una muestra (n) en la frmula se vara el
denominador por n-1
DM =
( xi x)
fi
i =1
Donde :
xi : clase
: media aritmtica
n : nmero de frecuencias absolutas
fi : frecuencia absoluta
: raiz cuadrada
33
Clase ( i )
1
2
3
4
5
6
7
8
9
Intervalo
19 23
23 27
27 31
31 35
35 39
39 - 43
43 47
47- 51
51- 55
xi
21
25
29
33
37
41
45
49
53
( xi )2
384.16
243.36
134.56
57.76
12.96
0.16
19.36
70.56
153.76
fi
5
9
13
48
67
58
54
29
17
300
( xi )2fi
1920.80
2190.24
1749.28
2772.48
868.32
9.28
1045.44
2046.24
2613.92
15,216.16
s=
15,216.16
300
s = 7.12 aos
El promedio de las desviaciones de los datos respecto a la media aritmtica es
de 7.12 aos
5.4
s
CV = 100
x
Con los datos del ejemplo N 7 ( edad de dos grupos de personas ) tenemos :
indicador
s
A
31.3
40.8
B
10.98
40.8
El CV seria :
CV
31.3
=
100
40.8
10.98
=
100
40.8
= 76.72%
= 26.91%
34
35