Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Basica
Estadistica Basica
Una medida descriptiva relacionada con una muestra, se denomina estadstico. Los
estadsticos tienen dos fines. Describen la muestra que est disponible y sirven como
aproximacin a los parmetros correspondientes de la poblacin.
POBLACION
MUESTRA
PARAMETROS
ESTADISTICOS
Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gasto
promedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto
promedio de los miles de clientes que compraron en su tienda durante el ao pasado; es
decir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de la
media poblacional calculando la media de una muestra aleatoria de clientes. Si se
encontrara que el valor fuera de $50000, estos $50000 seran su estimacin.
Variables Cualitativas y Cuantitativas
El tipo de anlisis a realizar depende del tipo, y la escala de medida de la variable a
analizar.
Si se observa una sola caracterstica a cada unidad observable, entonces la variable se
denomina unidimensional. Si se observan simultneamente dos caractersticas a cada
unidad observable, entonces la variable se denomina bidimensional o bivariada, y as
sucesivamente.
Se distinguen dos tipos de variables: cualitativa y cuantitativa.
Variables Cualitativas
Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categoras
atributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel de
estudio, estado civil, etc.
Si en dichas categoras hay un orden subyacente se denomina variable ordinal, si no se
denomina variable nominal.
Las variables nominales son aquellas que los valores se registran dentro de categoras o
clases, donde no tiene sentido el orden.
Se dice que las variables nominales que toman o pueden tomar uno de dos valores
distintos como hombre o mujer son dicotmicos o binarios
10
11
12
13
14
15
1 Soltero Soltero
Viudo
Viudo
2 Soltero Soltero
Viudo
Viudo
3 Soltero Soltero
Viudo
Viudo
4 Soltero Soltero
Viudo
Viudo
5 Soltero Soltero
Viudo
Viudo
6 Soltero Soltero
Viudo
Viudo
7 Soltero Soltero
Viudo
Viudo
8 Soltero Soltero
Viudo
Viudo
9 Soltero Soltero
Viudo
Viudo
10 Soltero Soltero
Viudo
Viudo
11 Soltero Soltero
Viudo
Viudo
12 Soltero Soltero
Viudo
Viudo
13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
17 Soltero Viudo
Soltero
Soltero
18 Soltero Viudo
Soltero
Soltero
19 Soltero Viudo
Soltero
Soltero
20 Soltero Viudo
Soltero
Soltero
Para comprender y resumir estos datos, es til presentarlos en una tabla o grficos en la que
aparezca los valores posibles de la variable, llamados clases ( ci ) y el nmero de veces que cada
valor se repite. A ese nmero se le denomina frecuencia absoluta (ni) o simplemente
frecuencia. La tabla se denomina tabla de frecuencias.
La suma de las frecuencias absolutas es siempre igual a n, siendo n el nmero total de casos,
k
n = ni
i =1
fi =
ni
n
se cumple f i = 1
i =1
hi =
ni
*100 = f i *100%
n
305
4
77
16
402
200
150
100
0
50
frecuencia absoluta
250
300
E s ta d o C iv il
C a sa d o
S e p a ra d o
S o lte ro
V iud o
C a te g o ra s
Grfico circular.
Para el grfico circular se utiliza la sentencia: pie nombre de la tabla de frecuencia
igura 1.2 Grafico Circular de la variable Estado Civil
(Entregado por defecto por el software).
Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio (variable
cualitativa ordinal) de cierta ciudad en un determinado ao es:
Nivel de estudios
Enseanza media incompleta
Sin estudio
Sin estudio
Estudios basicos
Sin estudio
Sin estudio
Sin estudio
Estudios basicos
Sin estudio
Sin estudio
Estudios basicos
Estudios basicos
Sin estudio
Sin estudio
Estudios basicos
Estudios basicos
Sin estudio
Estudios basicos
Sin estudio
Estudios basicos
Para resumir los datos ordinales, es til presentarlos en una tabla o grficos similares a los
obtenidos para las variables nominales. Los grficos utilizados en este caso son los de barra y
circulares. Las tablas de resumen o de frecuencias adems, de la frecuencia absoluta y relativa
tiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentual
acumulada.
N i = n j = N i 1 + ni
j =1
Hi =
Ni
* 100
n
ni
11
8
13
3
5
10
50
hi
22%
16%
26%
6%
10%
20%
100%
Ni
11
19
32
35
40
50
Hi
22%
38%
64%
70%
80%
100%
Por ejemplo, la tercera clase dice que existen 13 personas con enseanza media
incompleta, que corresponde al 26% del total, que 32 personas tienen a lo ms
enseanza media incompleta, o bien el 64% de las 50 personas tienen enseanza media
O bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sin
estudio hasta estudios superiores completos se utiliza [c(se escriben los nmero que
corresponden al orden alfabtico separados por comas)]
Nivel de Estudios
12
N iv e l d e E s tu d io s
Enseanza med
frecuencia absoluta
10
za superior incompleta
Sin estudio
s in e s t
e s tb a s
e ns m e d c o m
e ns s up c o m
Estudios basicos
C la s e s
10
Variables Cuantitativas
Variables cuantitativas son aquellas que se pueden expresar numricamente, es decir,
pueden tomar valores reales.
Una primera clasificacin, basada en el tipo de valores que puede tomar, permite
distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de
valores que puede asumir la variable se puede enumerar. Este conjunto puede ser finito
o infinito, por ejemplo, el nmero de paneles producidos en un da. y variables
cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algn
intervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de los
paneles.
Las variables cuantitativas discretas con un nmero de valores que se repite, se
tratan de forma similar a las variables cualitativas ordinales. La diferencia es que en estos
casos se puede realizar un anlisis descriptivo numrico, el cual permite describir
diferentes caractersticas del conjunto de datos.
Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a las
variables ordinales.
Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familias
son:
Tabla 1.3 Tabla de datos del N de personas que viven en la casa
N de
N de
N de
N de
N de
Corr. personas Corr. personas Corr. personas Corr. personas Corr. personas
1
1
11
4
21
6
31
4
41
3
2
2
12
6
22
5
32
2
42
1
3
1
13
5
23
2
33
1
43
2
4
3
14
4
24
2
34
3
44
5
5
4
15
2
25
2
35
4
45
6
6
5
16
2
26
1
36
5
46
4
7
2
17
3
27
3
37
2
47
3
8
1
18
3
28
2
38
2
48
2
9
3
19
1
29
5
39
1
49
1
10
5
20
1
30
6
40
2
50
3
11
ni
10
14
9
6
7
4
fi
0.20
0.28
0.18
0.12
0.14
0.08
hi
20
28
18
12
14
8
Ni
10
24
33
39
46
50
Hi
20
48
66
78
92
100
8
6
0
frecuencia absoluta
10
12
14
Clases
Se observa que en el 28% de las casas de los encuestados viven dos personas y que
solo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos ms
adelante).
N de personas que viven en una casa
2
1
6
3
5
4
escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.
Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin en
una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepeso
respecto de un patrn de comparacin. Nivel de aceite en el motor de un automvil
medido con una vara graduada.
La escala de razn permite, adems de lo de las otras escalas, comparar mediciones
mediante un cuociente. Ejemplos de variables con la escala de razn son: Altura de
personas. Cantidad de litros de agua consumido por una persona en un da. Velocidad
de un auto en la carretera.
La escala de intervalo tiene un cero que se establece por convencin y puede tener
variaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no
sujeto a variaciones; es propio de la medicin hecha.
Tablas estadsticas o tablas de frecuencias
Distribucin de frecuencias
Si la variable analizada es continua o discreta con un elevado nmero de valores
distintos se tabula como una distribucin de frecuencias agrupadas y se representa
grficamente mediante histogramas, polgonos de frecuencias, ojivas y boxplots con el fin
de estudiar la forma de la distribucin y analizar, en particular, la posible existencia de
varias modas en la misma que pongan de manifiesto la presencia de diversos grupos
homogneos en la muestra.
Cuando el tamao de la muestra y el recorrido de la variable son grandes, ser necesario
agrupar en intervalos los valores de la variable. La tabla de frecuencia o distribucin de
frecuencia ordena los datos y estos se dividen en clases o intervalos de clases
mutuamente excluyentes (sin elementos comunes) y se registra el nmero de
observaciones en cada clase.
Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalos
queremos?
Observacin
No existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 5 y 15
intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede ser
poco informativo. Pero se pueden seguir las siguientes reglas:
Algunas regla para agrupar los datos en intervalos o categoras
1. Decidir el nmero de intervalos o categoras o clases, que puede ser el nmero
deseado de clases o si n es el nmero de observaciones se puede utilizar como
referencia:
k n ,
si n no es grande
3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta
diferencia se denomina rango o recorrido de los datos.
r = x mx x mn
4. Hallar la amplitud de la clase o del intervalo de clase ai se define por:
a=
xmx xmn
k
xi =
li + li 1
2
n
i =1
= n.
hi =
ni
*100
n
Ni = n j
j =1
14
Modalidad Intervalos
o clases de clases
ci
c1
l0 l1
cj
lj-1 -- lj
ck
lk-1 -- lk
Frec.
Abs.
ni
n1
nj
Frec. Rel.
Porcentual
hi
f1= n1/n*100
Marca de
clases
xi
x1
fj=nj/n*100
Nj=n1+n2++nj
xj
nk
n
fk=nk/n*100
100%
Nk=n
xk
Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos de
empresas en Estados Unidos. Los datos estn expresados en miles de dlares.
Datos ingreso anuales de 60 ejecutivos
58
64
79
74
69
71
65
55
73
40
76
76
74
38
62
54
79
75
72
50
89
34
56
69
56
31
47
62
64
74
45
65
71
79
38
69
46
57
69
61
67
45
85
61
69
62
77
77
51
69
34
39
87
71
79
39
66
36
50
73
a=
xmx xmn 89 31
=
= 8,28 , la amplitud es de por lo menos 8,28 por ser ms fcil
k
7
ni
3
6
8
12
19
9
3
fi
0,05
0,10
0,13
0,20
0,32
0,15
0,05
60
hi
5,00
10,00
13,33
20,00
31,67
15,00
5,00
1
100
15
Ni
3
9
17
29
48
57
60
Hi
5,00
15,00
28,33
48,33
80,00
95,00
100,00
xi
29
39
49
59
69
79
89
a)
b)
c)
d)
93
94
155
135
119
103
88
148
155
132
97
113
117
156
103
111
89
124
127
139
112
125
118
138
95
142
127
104
136
113
94
117
106
125
96
107
120
139
143
8 | 89
9 | 3445667
10 | 334678
11 | 122337789
12 | 00455577
13 | 2456899
14 | 238
15 | 556
Qu podemos ver en este diagrama?
Rango de las observaciones, valores mximo y mnimo.
Forma de la distribucin: simetra, asimetra a la izquierda, asimetra a derecha y
cuantas modas tiene la distribucin.
16
Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una
variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas con
espalda porque ambos grupos comparten los tallos.
Ejemplo 6.- Consideremos la longitud en centmetros de 20 partes consecutivas de una
lnea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una lnea de
ensamble del proceso 2.
Tabla 1.6
Datos de longitud de 20 partes.
PROC1
PROC2
19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000
19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001
PROC1
PROC2
20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011
20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011
9
644
9877531110000
100
1996
1997
1998
1999
2000
2001
9
5
445
2478
112444788
1
En este caso vemos que el segundo proceso es menos variable que el primero que la
longitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es
19.969 y para el proceso 2 es 19.989.
Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, a
veces es conveniente presentar esta informacin de una manera ms clara y efectiva por
medio de grficos. Existen varios tipos de grficos o representaciones grficas
utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est utilizando y
los objetivos que se persiguen al presentar la informacin
Los grficos utilizados en variables cuantitativas discretas o continuas con un gran
nmero de datos que se encuentran en una distribucin de frecuencias son el
histograma y el polgono de frecuencias.
Un histograma se construye en el plano cartesiano. En el eje de las abscisas se coloca
los lmites de cada intervalo y en el eje de las ordenadas las frecuencias de clase
(absoluta, relativas o relativas porcentuales), representando sobre cada intervalo un
rectngulo que tiene a este segmento como base y como altura la frecuencia de cada
clase.
Las caractersticas geomtricas del histograma nos permiten descubrir informacin til
sobre los datos, por ejemplo:
17
10
0
ni
15
Sueldo ejecutivos
30
40
50
60
70
80
90
Sueldo
10
0
ni
15
20
40
60
80
100
xi
18
30
0
10
20
Ni2
40
50
60
20
40
60
80
limsup
Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo,
puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en que
los datos fueron obtenidos.
Un grfico de tiempo llamado tambin grfico de series, es un grfico de las
observaciones a travs del tiempo u orden en que fueron observados. Los puntos
consecutivos se conectan con lneas para ayudarnos a determinar si se producen
cambios en la distribucin a medida que pasa el tiempo.
Ejemplo 7.- Los datos siguientes corresponden al nmero de estudiante que llegaron
tarde al colegio A durante un periodo de tres semanas.
Tabla 1.7 Datos del N de estudiantes que llegan tarde
Semana 1
Semana 2
Semana 3
Lunes
10
14
9
Martes
7
5
3
Mircoles
6
10
6
Jueves
8
8
4
Viernes
11
7
6
15
Semana 1
10
Semana 2
Semana 3
ne
s
Vi
er
ve
s
Ju
e
Lu
ne
ar
te
s
0
s
N de alumnos
atrasados
Grfico de tiempo
Tiempo
19
xi
x =
i =1
i=1
i =1
ni xi
x=
20
n x
i =1
Observacin
1. En general, la media aritmtica obtenida a partir de las marcas de clase xi, diferir de
la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisin
que ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y las
marcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos.
2. La media aritmtica es sensible a valores extremos.
3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que
tendr grandes consecuencias en la definicin una medida de la variabilidad,
( xi x ) = 0
n
xi
i =1
i =1
i =1
En efecto ( xi x ) = xi x =n( i =1
) nx = nx nx = 0
( xi x )
i =1
n
4.
xi x
i =1
Error cuadrtico
Error cuadrtico
mx xi x
i =1,2 ,...n
error mximo
( xi x ) < ( xi a )
i =1
i =1
En efecto,
21
( xi a ) = ( xi x + x a ) = (( xi x ) + ( x a ))
2
i =1
i =1
i =1
= (( xi x )2 + 2( xi x )( x a ) + ( x a )2 )
i =1
n
= ( xi x )2 + 2( x a ) ( xi x )+ ( x a )2
=1424
=14243
i =1
i1
3 i1
0
positivo
luego
n
= ( xi x )2
i =1
Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos las
siguientes observaciones x1, x2, ..., xn, por razones que ms adelante veremos puede ser
altamente conveniente realizar una transformacin lineal de estas observaciones, por
ejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es
y = a + bx . En efecto,
1 n
1 n
1 n
1 n
1
1 n
yi = ( a + bxi ) = a + b xi = na + b xi = a + bx
n i =1
n i =1
n i =1
n i =1
n
n i =1
Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sin
agrupados y agrupados
Para datos sin agrupar la media es:
n
x=
xi
i =1
58 + 76 + 89 + ... + 69 + 73
= 62,05
60
Intervalos
(24
(34
(44
(54
(64
(74
(84
,
,
,
,
,
,
,
ni
3
6
8
12
19
9
3
34]
44]
54]
64]
74]
84]
94]
22
Ni
3
9
17
29
48
57
60
xi ni*xi
29
39
49
59
69
79
89
ni*xi^2
Suponga que los sueldos de los gerentes generales de estas empresas es una funcin
lineal de los sueldos de los ejecutivos dada por yi = 230 xi + 300 determine le sueldo
promedio de los gerentes de estas empresas.
n
x=
ni x i
i =1
3 * 29 + 6 * 39 + 8 * 49 + 12 * 59 + 19 * 69 + 9 * 79 + 3 * 89
= 61,8333333 3,
60
yi = 230 xi + 300
y = 230 x + 300 = 230 * 62,05 + 300 = 14571,5
Propiedades de la media aritmtica
o Puede ser calculada en distribuciones con escala relativa y de intervalos
o .Todos los valores son incluidos en el cmputo de la media.
o Una serie de datos solo tiene una media.
o Es una medida muy til para comparar dos o ms poblaciones
o Es la nica medida de tendencia central donde la suma de las desviaciones de cada
valor respecto a la media es igual a cero.
o Por lo tanto podemos considerar a la media como el punto de balance de una serie de
datos.
Desventajas de la media aritmtica
o Si alguno de los valores es extremadamente grande o extremadamente pequeo, la
media no es el promedio apropiado para representar la serie de datos.
o No se puede determinar si en una distribucin de frecuencias hay intervalos de clase
abiertos.
Ejemplo 9.
a)
2
1
0
1
Media =
23
b)
Cuando la observacin mayor se mueve
ms a la derecha, como en la figura b) la
media tiende hacia la observacin.
2
1
0
1
Media =
2,5
c)
Si la distribucin tiene un valor
extremo, como en la figura c) la
media tiende hacia este valor
extremo.
2
1
0
1
Media =
10
11
Promedio Ponderado.
En muchas ocasiones, los datos observados no tienen la misma importancia relativa.
Para hacer presente este hecho en la bsqueda de un 'centro' que represente a los
datos, es necesario asignar a cada uno de stos, una ponderacin (peso o coeficiente)
que represente su importancia dentro de la muestra.
Por ejemplo, considrese el sistema de calificacin del curso donde las pruebas tienen
distinta ponderaciones, segn su importancia en el proceso de evaluacin del trabajo del
alumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debe
ser multiplicada por su coeficiente o ponderacin, para luego sumar estos resultados y
dividirlos por la suma de los coeficientes respectivos.
Definicin. Sean x1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, nmeros reales tales que wi 0;
i=1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los datos, est
dado por:
n
xw =
wi xi
w1 x1 + w2 x2 + ... + wn xn i =1
= n
w1 + w2 + ... + wn
wi
i =1
Ejemplo.
Si un alumno obtiene un 5.5 en la primera evaluacin 4.9 en la segunda evaluacin si la
primera evaluacin corresponde a un 45% y un 55% la segunda evaluacin. Cul es
nota promedio de estas dos pruebas?
xw =
La media geomtrica.
Como se puede observar en la grfica 1, la funcin logaritmo (en este caso logaritmo
natural) "suaviza" los datos, si son muy grandes los datos los disminuye, y adems los
"contrae", es decir si x1 y x2 estn muy separados, no lo estarn tanto los valores
transformados ln ( x1) y ln ( x2).
.
De tal manera que en el manejo de datos estadsticos a veces es conveniente utilizar la
transformacin tales como, y = ln (x). Supongamos que tenemos un conjunto de
observaciones x1, x2, ... , xn, luego si a cada una de estas observaciones le aplicamos
logaritmo natural tenemos que yi = ln ( xi ). Vamos a calcular la media de estas nuevas
observaciones y1, y2, ... , yn, esto es
y=
y = ln n ( x1 x2 ...xn )
e y = n ( x1 x2 ...xn )
25
x g = n x1 x2 ...xn
Ejemplos.
1. Encontrar la media de los siguientes nmeros 2, 4, 8. obsrvese que entre ellos existe
una razn o proporcin constante, cada uno de ellos es el doble del anterior, por tanto
la media a utilizar es la media geomtrica, de la siguiente manera
xg = 3 2 * 4 * 8 = 4
Respuesta: la media geomtrica de los datos es 4
Un caso de aplicacin del promedio geomtrico, es el de clculo de inters en un
depsito a plazo.
Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de
2%. Esto significa que al trmino del mes, el banco le entrega $1.020.000.Al siguiente
mes, toma el capital inicial ms los intereses y los deposita por otro mes. Esta vez el
banco ofrece una tasa de 3%. Al trmino del segundo mes recibe $1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al
final $1.092.624. A qu tasa mensual debera ponerse el capital inicial para obtener el
mismo capital final al cabo de los tres meses?
Esta pregunta quiere dilucidar cul sera la tasa fija que el banco debiese haber aplicado
en cada uno de los tres meses en que el capital estuvo depositado (con los intereses
variables - 2%, 3%, 4% - que vimos).
El capital total finalmente obtenido, puede expresarse como:
1000000*1.02*1.03*1.04 = 1000000*1.092624
Esto significa que la tasa total aplicada es de 9.2624%
Entonces, la tasa mensual estara dada por la raz cbica de 1.092624, cuyo valor es
1.029968. Es decir, se habra necesitado una tasa mensual de 2.9968%. Cantidad
levemente inferior al 3% que se obtendra si, errneamente, se hubiese promediado 2%,
3% y 4%. Para ver claramente cmo interviene el promedio geomtrico en este ejemplo,
escribamos las tasas de inters como un factor multiplicativo del capital al cual se
aplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.
26
xa =
n
1
1
1
+
+ ... +
x1 x2
xn
Ejemplo
Un.automvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje
entre A y B a razn de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La
velocidad promedio del viaje de ida y vuelta ser de
xa =
2
1
1
+
80 120
= 96 Km / hr
Mediana
Supongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estas
observaciones de menor a mayor, y supongamos que el ordenamiento se consigue de la
forma x(1), x(2), ..., x(n); es decir x(i) es el i-simo nmero en orden entre las n observaciones,
en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x(n)
es la mayor de todas las observaciones.
La mediana es el valor central de la variable, despus que se ha ordenado en orden
creciente, es el valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sin
agrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discreta
o continua tabulada en intervalos.
Clculo de la mediana en el caso discreto no agrupado
Si el conjunto de observaciones los denotamos por x1,...,xn y al conjunto de
observaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posicin de la
mediana como:
s = Pos ( Med ) =
Si s es un entero el valor de la mediana estado por
n +1
2
Med = xs
Si s no es un entero, entonces se determina un entero i tal que i<s<i + 1. Luego el valor
de la mediana es:
Med =
x ( i ) + x ( i 1 )
2
28
Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, para
los datos sin agrupar y agrupados.
Para los datos sin agrupar primero ordenamos los datos
31
34
34
36
38
38
39
39
40
45
45
46
47
50
50
51
54
55
56
56
57
58
61
61
62
62
62
64
64
65
65
66
67
69
69
69
69
69
69
71
71
71
72
73
73
74
74
74
75
76
76
77
77
79
79
79
79
85
87
89
Como el nmero de elementos es par se ubican los dos valore centrales y se promedia.
Med =
x ( i ) + x ( i 1)
2
65 + 65
= 65
2
n
N i 1 )
2
med = li 1 +
ai
ni
(
Donde:
li-1 : lmite inferior de la clase de la mediana
n : nmero de observaciones
Ni-1: frecuencia absoluta de la clase anterior a la clase mediana
ni : frecuencia absoluta del intervalo mediano
ai : amplitud del intervalo de la clase de la mediana
Cambio en los valores extremos en los valores ordenados de la muestra no afectan
significativamente a la mediana, no as la media. En efecto, supongamos la muestra
anterior 1, 1, 2, 3, 3, 3, 4, 4, 5, 7, 8; donde la mediana es med = 3, y la media de esta
muestra es x = 3,72; sin embargo si cambiamos el ltimo valor de esta muestra, que es
8, por 12, tenemos que la mediana sigue siendo la misma no obstante que la media
cambia su valor a 4,09. De manera que, en algunas ocasiones es ms representativa la
29
n
60
Ni l
29
2
2
Med = l i 1 +
* ai = 64 +
* 10 = 64,5263158
ni
19
La moda
En el lenguaje cotidiano, la palabra moda describe una situacin que es frecuente, que
est mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en el
vestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadstica
diramos que tiene el mismo significado, para el caso discreto es la observacin absoluta
(o relativa) ms frecuente respecto de las observaciones vecinas, de modo que puede
haber ms de una moda. Intentaremos dar un lenguaje ms formal a esta definicin.
Como antes estudiaremos ambos casos, el discreto y el continuo.
Caso discreto
La moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nica
medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no
precisa la realizacin de ningn clculo.
Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de la
variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos
una distribucin bimodal o polimodal segn el caso.
Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas)
1, 1, 2, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9. En este caso podemos observar que hay
dos modas, a saber: 2 y 5.
Caso continuo
En este caso tiene ms sentido hablar de intervalo modal. En efecto, esta vez nos
fijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si un
intervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se dice
entonces que es un intervalo modal. De manera ms formal, diremos que (li - 1, li] es un
intervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuencias
adyacentes ni - 1 y ni + 1.
Ahora el problema es qu valor elegir de este intervalo modal y definirlo como moda?
De momento digamos que una moda se denotar por moda.
30
Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se pone
atencin al resto de las observaciones, se podra reportar este valor como la moda
principal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentracin
de datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamente
grandes, donde la influencia de un dato individual no distorsiona el anlisis.
Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados y
sin agrupar.
31
Moda
Mediana
Media
32
Cuantiles
Como sabemos, la mediana es un valor del recorrido de los datos que particiona a la
distribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de la
distribucin.
Podemos realizar una particin mayor de la distribucin de frecuencias dividindola en 4,
10 100 partes. Llamamos a estas particiones cuantiles y segn el nmero de divisiones
obtenemos cuartiles, deciles o percentiles.
Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjunto
de datos y determinar primero la posicin para posteriormente determinar el valor.
k
(n + 1)
si s entero Pk = x( s )
100
s no es un entero s = t , r
Pk = xt + 0, r * ( xt +1 + xt )
s = Pos ( Pk ) =
si
n*k
N i 1
Pk = li 1 + 100
* ai
ni
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribucin, por lo que no se puede considerar como una medida de tendencia central.
Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:
Q1 = P25
Q2 = P50= Med
Q3 = P75
De forma anloga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao. Ms precisamente, definamos D1,
D2,...,D9 como:
Di = P10*i
Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados
estadsticos de posicin).
33
35
40
45
50
X
X
X
XXXXXXXXXXX
55
60
65
70
75
80
85
Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85
Media =Moda =Mediana = 60
X
35
X
40
X
45
X
50
X
55
X
X
X
X
60
X
65
X
70
X
75
X
80
X
85
Se puede observar que lo datos1 estn muy cercanos alrededor del centro, mientras que
en datos2 estn mas dispersos o alejados.
Ahora, veremos medidas de dispersin mejores que la anterior. Estas se determinan en
funcin de la distancia entre las observaciones y algunos estadsticos de tendencia
central.
34
Desviacin media, DM
Se define la desviacin media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,
x1,...,xn entonces:
Poblacin (tamao N)
Desviacin Media Poblacinal
N
| x
i =1
DM =
ii)
Muestra (tamao n)
Desviacin Media Muestral
n
x|
DM =
| x x |
i
i =1
Muestra (tamao n)
Desviacin Media Muestral
k
DM =
| x i x | ni
DM =
i =1
| x x | n
i =1
Muestra (tamao n)
Varianza Muestral
( xi x )
V ( X ) = X2 = i =1
( xi x )
V ( X ) = S X2 = i =1
n 1
V( X ) =
S X2
2
xi
i =1
nx
( xi x )
V ( X ) = S X2 = i =1
xi nx
V ( X ) = S X2 = i =1
n
35
n 1
xi nx
V ( X ) = S X2 = i =1
iii)
Muestra (tamao n)
Varianza Muestral
n
( xi x ) ni
V ( X ) = S X2 = i =1
V ( X ) = s X2 = i =1
V ( X ) = S X2 =
( xi x ) ni
ni x i n x
n 1
( xi x ) ni
i =1
V ( X ) = s X2 = i =1
V ( X ) = s 2X =
ni x i n x
i =1
n 1
k
V ( X ) = s 2X =
ni x i n x
i =1
La varianza no tiene la misma magnitud que las observaciones (ej. Si las observaciones
se miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la
medida de dispersin sea de la misma dimensionalidad que las observaciones bastar
con tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como:
SX = V ( X )
Propiedades de la varianza.
Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza la
denotaremos por V(X). Supongamos que sobre cada una de estas observaciones
realizamos la siguiente transformacin
36
entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que las
observaciones anteriores. Es decir que si trasladamos "conjuntamente" las
observaciones a otro sitio, las observaciones siguen manteniendo el mismo grado de
dispersin.
Finalmente, si hacemos un cambio de escala, es decir multiplicamos cada una de las
observaciones por una cantidad constante, entonces la varianza de este cambio de
escala ser proporcional a la anterior en un factor cuadrtico de la cantidad constante.
Una ltima propiedad de la varianza que daremos sin demostracin es la siguiente: Si
tenemos las observaciones
, entonces en el intervalo real
se encuentra al menos el 75% de las observaciones.
La desviacin intercuartlica se define como:
RIQ = Q3 Q1
37
Caractersticas Principales de
la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar
La Desviacin intercuatlica
Desviacin media
La Desviacin Estndar
La Desviacin Estndar es
normalmente mas til y mejor
adaptada a un anlisis mas
profundos que lo que es desviacin
media.
Es ms fcil de calcular y
Es normalmente superior al rango como entender, adems es menos
una medida cruda de dispersin.
sensible que la desviacin
estndar a valores extremos.
Desafortunadamente, es muy
En comparacin con los dems, esta
difcil de manejar
algebraicamente, dado que el es mas difcil de calcular y de
entender.
signo negativo debe ser
ignorado cuando se calcula.
Su aplicacin principal es la
precisa eleccin de modelos
en tcnicas de predicciones
comparativas.
Coeficiente de variacin
Es un ndice que puede servir para la comparacin entre poblaciones en que se miden
distintas caractersticas. Dada un conjunto de observaciones x1, x2, ..., xn se define el
coeficiente de variacin, CV, como
CV =
S
*100%
x
Segn esta definicin, es claro que no tiene sentido para observaciones cuya media es
nula.
El CV es independiente de las unidades de medida. En la estimacin de un parmetro,
cuando su CV es menos del 10%, la estimacin se asume aceptable.
Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos por
CVy al coeficiente de variacin de las y1, y2, ... yn, entonces
Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos por
CVy al coeficiente de variacin de las y1, y2, ... yn, entonces
38
39
Datos agrupados
90
12,4056
226,9722
15,0656
Asimetra y apuntamiento
Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones
de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen
los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el
anlisis de la variable. En primer lugar, se estudia si la distribucin de los datos es la
simetra. Un conjunto de datos que no se distribuye simtricamente, se llama asimtrico.
La asimetra puede verse en el diagrama de tallo y hoja o en el histograma. Tambin
puede verse a travs de la posicin relativa entre la media y la mediana.
Estadsticos de asimetra
Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto
a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al
histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,
de forma natural, decir que una distribucin de frecuencias es simtrica si el lado
derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado
izquierdo.
40
Asimetra negativa
Si las frecuencias ms altas se encuentran en el lado derecho de la media, mientras que
en el izquierdo hay frecuencias ms pequeas (cola)
Distribucin Asim trica Negativa
12
10
8
6
4
2
0
1
( xi x )
AS =
M
S
M p = i =1
3
X
donde
( xi x ) ni
p
M p = i =1
S X3 = ( V ( X ) )3
Apoyndonos en este ndice, diremos que hay asimetra positiva si As > 0 , y que la
asimetra es negativa si
As < 0 y si As = 0
la distribucin es simtrica.
41
Estadsticos de apuntamiento
Uno de los coeficientes que nos indica el apuntamiento de una distribucin de frecuencia
es el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:
K=
M4
M 22
Ejemplo 14.- Las medidas descriptivas del ejemplo 3, ingreso de los ejecutivos para los
datos no agrupados son: (obtenidos utilizando Excel)
42
Media
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
62,05
65
69
14,8569
220,7263
-0,727577
-0,451824
Rango
Mnimo
Mximo
Suma
Cuenta
58
31
89
3723
60
Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con una
desviacin estndar de US$ 14857.
El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un
ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor.
El ingreso mas frecuente es de US$ 69000.
Como el valor de la curtosis es menor que 3 la curva es leptocrtica.
El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda lo
que significa que hay una mayor variacin de los ingresos en los entre los ejecutivos de
menor ingreso.
43
44
ii)
iii)
Ejemplo 15.- El grfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:
Box Plot Ingresos Ejecutivos
110
100
90
80
70
60
50
40
Mediana= 65
Q1 = 51
Q3 = 74
30
20
Ingreso Ejecutivos
45