Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE INGENIERA
Escuela Profesional de Ingeniera Civil
ESTADSTICA
Lic.
FERNANDO ABAD LLACSAHUANGA
Docente del Curso
2017
Universidad Privada Antenor Orrego Estadstica Aplicada
Escuela de Ingeniera Civil
CONTENIDO
C a p t u l o 1
ESTADSTICA DESCRIPTIVA.
Los profesionales de Investigacin aplican algunas tcnicas estadstica a virtualmente todas las
ramas de las empresas pblicas y privadas. Estas tcnicas son tan diversas que los estadsticos, por lo
general, consideran dos fases en el campo de la Estadstica. En primer lugar est la fase que slo se
limita a la descripcin de una serie de datos sin llegar a conclusiones o a generalizar con respecto a un
grupo mayor. Esta (fase) se conoce como Estadstica deductiva o descriptiva. En segundo lugar est la
fase de anlisis que trata de llegar a conclusiones acerca de un grupo mayor basado en la informacin
de un grupo menor o muestra: es esta la Estadstica inductiva o de inferencia.
La estadstica, de acuerdo con todo lo anterior, se podra definir como aquel mtodo que
pe rmite no sl o descri bi r el hec ho o fe nme no, si no de duc ir y eval uar
conclusiones acerca de una poblacin, utilizando resultados proporcionados por una
muestra.
G e n e r a l m e n t e se a s o c i a la p a la b r a E s t a d s t i ca c o n c i f r a s so b r e a l g n ca m p o
p a r t i c u l a r. P o d e m o s a s o c i a r l a c o n c i f r a s s o b r e e l n m e r o d e n a c i m i e n t o s ,
defunciones, transacciones comerciales, valor de las acciones en el mercado de valores,
volumen fsico y monetario de las importaciones y exportaciones, beneficio y utilidad de las
empresas, demanda presente o potencial de algn producto.
Poblacin. Por otra parte, el universo viene definido por la investigacin estadstica a realizarse. Y
como la medicin, de la caracterstica especificada por la investigacin se hace a cada unidad
elemental, se puede considerar a la poblacin como el conjunto de medidas o el recuento
de todos los elementos que presentan una caracterstica comn especificada por la
investigacin. Estadstica. El termino poblacin se usa para denotar el conjunto de elementos del
cual se extrae la muestra.
Estos son algunos ejemplos de lo que podran denominarse elementos de una poblacin y
caractersticas de la misma.
Elementos Caractersticas
Personas Salarios
Personas Horas trabajadas
Personas Cargos
Departamentos Ventas
Hogar Consumo
Parmetro. Es una medida que describe numricamente una caracterstica de una poblacin, tal como
la media ( ) o la varianza Tambin se le denomina valor verdadero, ya que una caracterstica
poblacional tendr un solo parmetro (media, varianza, etc.). Sin embargo, una poblacin puede tener
varias caractersticas y, por tanto, varios parmetros. Algunos lo denominan como valor
estadstico de la poblacin.
Es tadstica o esta d gra fo: La descripcin num rica de una caracte r st ica
correspondiente a los elementos de una muestra aleatoria, se denomina estadgrafo, tal como la
media (X) o la varianza ( S 2) muestral. De una poblacin se pueden obtener M nmero de
muestras posibles y en cada una de ellas se puede cuantificar la caracterstica, obtenindose por lo
general, valores diferentes para cada muestra. a pesar de ser utilizado el mismo estadgrafo o medida.
Tambin se le conoce como Estimulador Puntual si se trata de un promedio, varianza, proporcin, etc.
Como por lo general existe una diferencia entre el estimador y el parmetro, denominado error, es
aconsejable utilizar el estimador por intervalos, dentro del cual deber estar contenido el parmetro
con cierto margen de seguridad, establecido por el investigador.
La diferencia entre el estimador y el parmetro, como ya se dijo, se le denomina como error de
muestreo, y lo fija el investigador para determinar el tamao de la muestra, con base en la
experiencia y el conocimiento que tenga sobre el comportamiento y, la variacin que
tenga la caracterstica o caractersticas principales relacionadas con el objetivo mismo de la
investigacin.
Errores ajenos al muestreo; no son cuantificables como el anterior y son resultados de errores
sistemticos, que se producen a lo largo de la investigacin.
1.3.1. Variable Cuantitativa.- Son aquellas variables que se obtienen como resultado de
mediciones y conteos. Son variables cuantitativas: estatura, peso, ingreso, valor, produccin,
ventas, el nmero de personas por hogar, el nmero de piezas ensambladas que se han encontrado
defectuosos, etc.
Las variables cuantitativas se clasifican en Discretas y continuas.
a) Una variable discreta slo puede tomar unos determinados valores, siendo imposible que
llegue a tomar valores intermedio entre dos consecutivos, es decir, toma nicamente valores
enteros: 1, 2, 3, etc., tal es el caso del nmero de hijos por familia, las unidades de un artculo
en inventario, la asistencia a la reunin anual de una determinada compaa y el nmero de
componentes ensamblados que se han encontrado defectuosos.
b) Una variable continua puede tomar cualquier valor en un intervalo especificado, es decir, se
admiten valores fraccionarlos, como el nmero de aos de una persona, el salario, el peso de un
embarque, la presin sangunea, el tiempo transcurrido antes de que falle un dispositivo y el nmero
promedio de personas por hogar en una comunidad grande.
1.3.2. Variable Cualitativa.- Son variables cuyos valores consisten en categoras de clasificacin, o sea
se refiere a la cualidad que presenta la poblacin. Por ejemplo, la variable "estado civil" puede adoptar
las modalidades: soltero, casado, divorciado, viudo, etc. Tambin son ejemplos de variables
cualitativas: clase social, profesin, cargo, marcas, calidad, etc. A su vez sta variable puede
clasificarse en: Nominal y Ordinal.
a) Variable Cualitativa Nominal.- Son aquellas que surgen cuando se definen categoras
y se cuenta el nmero de observaciones pertenecientes a cada categora y no lleva ninguna
ordenacin en las posibles modalidades.
- La variable cualitativa "color de las bebida gaseosas" con las posibles modalidades: Negro, Rojo,
Naranja, es una variable cualitativa nominal.
- Son ejemplos de variables cualitativas: "estado civil", "Ideas religiosas", "Nacionalidad", entre otras.
ordenar los casos en trminos del grado que posee una determinada caracterstica, entonces se
est trabajando con una variable cualitativa ordinal. Ejemplos: la variable "status socioeconmico"
con sus modalidades: clase baja, media y alta es una variable cualitativa ordinal. La variable "orden
de mrito" cuyas modalidades son 1% 2% Y, etc. mide las calificaciones de las unidades estadsticas en
escala ordinal.
En algunas situaciones, no es posible obtener datos en forma directa, sino que, ms bien, la
informacin debe obtenerse a partir de respuestas individuales. Una encuesta estadstica es el proceso
de recopilar datos pidiendo a personas que proporcionen informacin. Los datos pueden obtenerse con
mtodos como la entrevista personal o telefnica, o travs de un cuestionario escrito.
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4. n=20
Grfico.
Nmero de hijos
Figura 1.1. Diagrama de barras para los datos de la tabla 1.1.
Ejemplo 1.2. Para esclarecer la construccin de la tabla de frecuencias para datos agrupados en
intervalos de clase, desarrollaremos un ejemplo, tomando como datos las observaciones del nmero
de pasajeros a bordo de 50 autobuses cuando salen del terminal terrestre de Castilla a los distintos
distritos de la provincia de Piura, durante la ltima semana de mayo de 2011. Los autobuses tienen 55
asientos cada uno y los pasajeros adicionales deben viajar de pie.
56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51
64 48 45 40 56 51 52 46 51 47 48 31 49 42 54 50 51 47
56 46 53 58 41 50 49 52 48 55 45 35 36 43
Se pide representar los datos en una tabla de frecuencias.
Solucin.
1. Debemos de determinar el rango (R) de variacin de los datos que se define por:
R = Xmax - Xmin
2. Tenemos que calcular cuantas clases deben formarse?. Para eso se usa la frmula de Sturges:
K =1 +3.322 log n
donde: K = nmero de clases
n = nmero de elementos en la muestra (tamao de la muestra).
Est formula es muy til porque orienta al principiante. Sin embargo, es un poco conservador y tiende a
dar un nmero de clases un poco menor del que se utiliza en la practica.
En nuestro ejemplo: K = ? , n = 50
3. la idea los valores con el fin de percib ir algunas caractersticas o propiedades de los datos que no
parecen a simple vista. Para esto vamos a clasificar los 50 autobuses en 7 clases, de acuerdo con la
formula de Sturges.
La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene por medio de
la formula:
R
C= K
R' = c x K = 5 x 7 = 35
4. Teniendo en cuenta que este recorrido es mayor que el recorrido original, buscaremos el
exceso:
Exceso = 35 33 = 2 pasajeros
Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada lado, en este caso
1 a cada extremo. Sumamos el nmero 1 al valor mximo: 64 + 1 = 65 y restamos el nmero 1 al valor
mnimo: 31 - 1 = 30.
30 35 40 45 50 55 60 65
Figura 1.2
sin embargo una dificultad se presenta cuando algunos de los datos coincide con cualquiera de los
puntos de divisin: 35, 40, 45, 50, 55 y 60.
Para aclarar est ambigedad adoptamos, el intervalo abierto por la izquierda que no incluye al valor 30
(lmite inferior del intervalo) y cerrado por la derecha que incluye al valor 35 (lmite superior del
intervalo). Este tipo de intervalo se representa matemticamente por: ( Y' i-1 Y'] donde Y' i-1, representa
el lmite inferior del intervalo y Y' i representa el lmite superior.
Intervalo
(30-35] (35-40] (40-45] (45-50] (50-55] (55-60] (60-65]
de clases
Nota, Tambin existen otros dos tipos de intervalos de clases, definidas como: [Y' i-1 - Y') Intervalo semi -
cerrado. Este intervalo es cerrado por la izquierda (incluye al lmite inferior del intervalo) y abierto por
la derecha (no incluye al lmite superior del intervalo). [Y'i-1 - Y' ] Intervalo cerrado. Este intervalo
incluye a ambos lmites del intervalo.
6. Es conveniente que todos y cada uno de los datos que se hallen dentro de un mismo
intervalo, estn representados por un mismo valor. Este valor caracteriza a la clase y por eso se
llama marca de clase, se obtiene promediando los lmites de cada intervalo. Una frmula para
calcular la marca de clase de un intervalo es:
Y i = Y'i-1 + Y'i
2
7. A continuacin debemos realizar la clasificacin y conteo de los datos (ver tabla 1.2), es
decir, colocar cada uno de ellos dentro de su clase, todos representados por un mismo signo:
una tarja.
Tabla 1.2.
A continuacin presentamos la tabla 1.3, conocida como tabla de distribucin de frecuencias absolutas.
K
Propiedad.- n i , + n 2 ++ n k = i i
n i =n
h;=
ni , 0 h 1 , i = 1,2,..,K..
n
K
Propiedad.- h 1 + h 2 + h, ++ h k = i 1
hi = 1
Hi =
Ni
=
n
j 1
j
=
i
nj
=
i
h j
n j 1 n j 1
n
Propiedad.- Hi = Hi-1, + hi
Interpretacin.-
n2 = 4, significa que 4 autobuses tuvieron a bordo un nmero mayor de 35 pasajeros y menor
igual a 40 pasajeros.
N4 = 31, significa que 31 autobuses tuvieron a bordo un nmero mayor que 30 y menor o igual que
50 pasajeros, o tambin significa que 31 autobuses tuvieron a bordo un nmero menor o igual
a que 50 pasajeros.
H3 = 0.14 sign if ica que el 14% de lo s autobuse s tuvieron a bordo n mero ma yor de 40
pasajeros y menor o igual a 45 pasajeros.
H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un nmero mayo que 30 y
menor o igual que 55 pasajeros, o tamb in significa que 86% del total de autobuses tuvieron a bordo un
nmero menor o igual a que 55 pasajeros.
N6 N2 = 49 - 6 = 43 autobuses tuvieron a bordo un nmero mayor que 40 y menor o igual que 60
pasajeros.
a) Histograma.
Es una representacin grfica de una distribucin de frecuencias agrupadas en intervalos de clase,
mediante una serie de rectngulos contiguos que tienen:sus bases sobre un eje horizontal y cuya
longitud ser igual al tamao de los intervalos de clase.Las alturas proporcionales a la frecuencia
(absoluta o relativa).
21
18
15
12
9
6
3
0
30 35 40 45 50 55 60 65
Nmero de pasajeros
b) Polgono de frecuencias.
Cuando la variable est agrupada en intervalo de clase, el polgono de frecuencia se obtiene uniendo los
puntos medios de las bases superiores de cada rectngulo en el histograma.
Figura 1.4. Polgono de frecuencias del nmero de pasajeros por autobs de la tabla 1.3.
Ejemplo 1.5. En una encuesta de opinin acerca de las preferencias de una marca de bebidas gaseosas
por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N. Construir la
distribucin de frecuencias.
Solucin.
La tabulacin de estos datos, donde la variable cualitativa es X: Color de bebida gaseosa, es la
distribucin de frecuencias de la tabla 1.4.
Tabla 1.4. Distribucin de personas por su color preferido de una marca de bebida gaseosa.
Color de Nmero de Frecuencias Frecuencias
Bebida Consumidores: n i relativas: h i Porcentajes: hi (%)
Blanco (B) 8 0.40 hhhi(%) 40
Negro (N) 9 0.45 45
Rojo (R) 3 0.15 15
Total 20 1.00 100
Grficos.
Los grficos ms comunes para la distribucin de frecuencias de variable cualitativa son el de
diagrama a(, rectngulos y el de sectores circulares.
10
0
Blanco Negro Rojo
Color de las Bebidas Gaseosas
En un grfico circular, los datos de cada categora se representan por un sector circular. Es
utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Para
construir se divide el circulo en sectores, cuyas reas sern proporcionales a los valores de la
variable. Est divisin es obtenida a travs de la regla de 3 simples.
Total 3600
Parte x0
Figura 1.6. Diagrama de sectores circulares para los datos de la tabla 1.4.
Capitulo 2.
En el capitulo anterior estudiamos de que manera los datos podran ser presentados en forma
compacta, comprensible mediante tablas y grficos. Sin embargo, con f recuencia necesitamos
resumir an ms para facilitar el anlisis e interpretacin de la informacin. Cuando la variable en
estudio es cuantitativa, el investigador puede estar interesado en encontrar un solo valor, que pueda
caracterizar ms ntidamente la naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de tendencia central o
de posicin. Las ms importantes y muy usadas son: la media aritmtica o media, la mediana, la media
geomtrica y la media armnica. Tambin podemos mencionar a la moda, los cuartiles, los percentiles,
etc. Estas medidas o estadgrafos, son considerados como medidas de localizacin, puesto que sealan
la localizacin de los valores ms frecuentes o de valores extremos.
X = i 1
xi
donde n = es el tamao de la muestra.
n
b) Datos agrupados.
Sean X1, X2,..., xk valores de la variable X ponderada por sus respectivas frecuencias absolutas: n 1,
n2,...,nk. La media aritmtica de la variable X es dado por:
X =
xn
i 1
i i
, donde n =
k
n i
i 1
n
Ejemplo 2.1 Considerando la informacin contenida en la tabla 2.1 determinar el nmero medio de
pasajeros a bordo por autobs.
X =
X 1 n1 X 2n 2 ..... Xr nr
= X n i i
donde n =
k
n i
n1 n 2.... nr i 1
i 1
n
Si P1, p2, ....,p, son los pesos o ponderaciones asociados a los valores de la variable X: X 1 ,
x 2 , ...,x, respectivamente, entonces la media aritmtica ponderada ser:
Ejemplo 2.2. La empresa A tiene 100 empleados, con un sueldo promedio mensual por empleado
de S/. 1500. La empresa B tiene 200 empleados con un sueldo promedio mensual de S/. 1400.
a) Cul es el sueldo promedio mensual de las dos empresas en conjunto?
b) si a las dos empresas se a g re g a una tercera con 50 empleados y un sueldo promedio
mensual por empleado de S/. 1600, Cul es el sueldo promedio para las tres empresas en
conjunto?-
Solucin.
a) nA= 100, X =1500, nB = 200, X =1400
1.- La media aritmtica puede verse afectado por los valores extremos que no son representativos del
resto de las observaciones.
2.- no se puede calcular la media aritmtica en las distribuciones que tienen intervalos de clase abierto
en los extremos.
2.1.2.- La Mediana.
Clculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los datos x 1 , x 2 , ...,x n se tendr en cuenta el siguiente
procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me = X(n+1)/2
Ejemplo 2.3. Las siguientes cifras son los importes del consumo (en soles) de 13 en un
restaurante:
13,15,20,20,25,35,25,40,44,48,50,44,30
Determinar la mediana de estos importes.
Solucin.
Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), , se tiene que la posicin de la mediana es:
n 1
= 7, luego la mediana de los importes es: X = Med(x) = 30 soles
2
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor o
igual que 30 soles y el 50% restante de las personas tienen un importe mayor que 30 soles.
Ejemplo 2.4. Un experto en estndares de trabajo observa el tiempo que se requiere para
preparar una muestra de 10 cartas de negocios en una oficina, y obtiene los siguientes
resultados en orden y redondeados al minuto ms prximo: 5, 5, 5, 7, 9, 14, 15, 15, 16 y 18.
Determine la mediana para este grupo de valores.
Solucin.
En este caso, n es par, por consi g uiente la mediana se localiza entre los valores centrales
X5 y X6 , es decir, entre los valores 9 y 14. Por tanto, el valor mediano es:
9 14
Me = = 11.5 minutos.
2
b) Datos agrupados.
En este caso el problema consiste en determinar un punto dentro del intervalo en que est
comprendida la mediana.
Procedimiento:
n
1 Calcular la posicin de orden
2
2 Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la
clase para el cual se cumple:
n
Nj - I N j ,
2
Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada N i .
3. Utilizar la formula:
n
2 Nj 1
X = Xj-1 + c
Nj Nj 1
Xj-1 = lmite inferior de la clase que contiene a la mediana.
n = tamao de la muestra.
c = amplitud de la clase que contiene a la. Mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-i= frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la
mediana.
Solucin.
(Yi-1 Y] Y ni Ni
30 - 35 32.5 2 2
35 - 40 37.5 4 6
40 - 45 42.5 7 13
45 - 50 47.5 18 31
50 - 55 52.5 12 43
55 - 60 57.5 6 49
60 - 65 62.5 1 50
Total 50
n 50 vo
1. = 25 posicin
2 2
2. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es, a travs
de la desigualdad:
N3 =13 <25vo < N4 =31
25 13
X = 45 + 5 = 48.33 Pasajeros
31 13
Interpretacin.- Este valor mediano significa, que el 50% de los autobuses tuvieron a bordo un
nmero menor o igual que 48.33 pasajeros, en tanto que el otro 50% tuvieron a bordo un nmero
mayor que 48.33 pasajeros.
Ventajas de la mediana.
1.- veces es un valor ms representativo de un conjunto de datos que otros promedios (por ejemplo, que
la media aritmtica), gracias a su independencia, a sus valores extremos.
2. La mediana se puede calcular an cuando los intervalos de clase de la distribucin de
frecuencias son de lmites abiertos.
Q1 Q2 Q3
Figura 2.1
Q1=1er cuartil, deja 25% de las observaciones menores o iguales a l y el 75% superiores a l.
Q2 =2do cuartil, coincide con la mediana.
Q 3 = 3 er cuartil, deja 75% de las observaciones inferiores o iguales a l y el 25% de stas
superiores a l.
Es importante notar que entre dos cuartiles consecutivos se halla el 25% del nmero de valores.
Las formulas para calcular los cuartiles se derivan de la formula utilizada para calcular la
mediana y los pasos para el clculo son los mismos:
Procedimiento.
rn
1 . Se calcula para r = 1, 2, 3.
4
2 . Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas, esto es, por la
desigualdad:
rn
Nj-1 Nj
4
rn
4 Nj 1
3 . Se aplica la frmula: Q r = X j - 1 + C r = 1,2,3.
Nj Nj 1
Donde:
X = lmite inferior de la clase que contiene al cuartil Q r.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Qr,
Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a Qr.
(Yi-1 Y] Y ni Ni
30 - 35 32.5 2 2
35 - 40 37.5 4 6
40 - 45 42.5 7 13
45 - 50 47.5 18 31
50 - 55 52.5 12 43
55 - 60 57.5 6 49
60 - 65 62.5 1 50
Total 50
n 50 3n 150
1. = = 12.5 vo ; = = 37.5 vo
4 4 4 4
2. Por las frecuencias acumuladas identificamos las clases que contienen a Q 1, y Q3.
n
Como N2, = 6 < =12.5 < 13 = N3, entonces el intervalo de clases que contiene a
4
3n
Q 1 , e s (40 - 45 ] y co mo N 4 = 3 1 < =37 .5 < 4 3 = N 5 en to n ce s e l int e rva lo d e c lases
4
que contiene a Q3 es (50 - 55].
2.1.4. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes
iguales
Las formulas para determinar los percentiles, son parecidos a los cuartiles, as donde:
Ejercicio.- Determinar los valores de los puntos percentiles 10 y 90, para los datos del nmero de
pasajeros a bordo, de la tabla 2.1.
2.1.5. La Moda.-
La moda denotada por X = M., es un valor de la variable que tiene la ms alta
frecuencia, esto es, es el valor ms frecuente en un conjunto de datos. La moda puede no existe, incluso
si existe puede no ser nica.
Ejemplo 2.9. Las notas promocinales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11. Estos datos No
tienen moda. Las distribuciones de este tipo se llaman uniforme.
En general, se tiene lo siguiente:
i) La distribucin que tiene una sola moda se llama unimodal.
ii) La distribucin que tiene dos modas se llama bimodal.
iii) La distribucin que tiene ms de dos modas se llama multimodal.
(Yi-1 Y] Y ni
30 35 32.5 2
35 40 37.5 4
40 45 42.5 7
45 50 47.5 18
50 55 52.5 12
55 60 57.5 6
60 65 62.5 1
Total 50
Solucion.
1El intervalo de clase de mayor frecuencia absoluta (18) es el cuarto intervalo:
(45 50 ]
1 = 18-7=11
2 = 18-12=6
C=5.
2 Aplicando la formula tenemos :
11
X 0 = 45+5 =48.235 PASAJEROS
11 6
Este valor modal significa que: el nmero de pasajeros a bordo ms frecuente en los autobuses es de
48; o tambin que la mayora de los autobuses tienen a bordo un nmero de pasajeros igual a 48.
Se dice que una distribucin de frecuencia es simtrica cuando valores de la variable equidistantes
de un valor central tienen las mismas frecuencias. Es importante destacar en este caso que:
X= X ~ = X
Para una distribucin sesgada hacia la derecha ( si la cola mayor se presenta a la derecha de la
distribucin) se tiene que:
~>
X> X X
Para una distribucin sesgada a la izquierda tenemos:
X< X ~<
X
Ejercicio. Considerando la distribucin de la tabla 2.1, se pide analizar la asimetra de la distribucin.
Todos los valores representativos discutidos en las secciones precedentes han sido una
especie de promedio o medida de posicin. Sin embargo, el uso de un solo valor -i:a describir
una distribucin oculta muchos fenmenos importantes. Por ejemplo, l os grupos separados
de datos pueden contener la misma media, pero un grupo puede estar ms disperso o
esparcido alrededor del valor promedio que el otro.
Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para a y udar
ms completamente la distribucin. Mientras menor es la dispersin, ms tpico es el valor de
la media para toda la distribucin.
Las medidas de dispersin que se utilizan con mayor frecuencia son: la varianza, la desviacin
estndar y el coeficiente de variacin.
2.3.1. La varianza.-
Xi X
2
2
S = i 1
n 1
Definicin 2. (Para datos agrupados). La varianza de los valores una muestra con frecuencias
absolutas ni, n2, ..., nk respectivamente, es dado por:
n
Xi Y
2
ni
V(Y)=S2= i j
n 1
1. La varianza poblacional se define en trminos de la media poblacional u, esto es:
n
Xi u
2
2
= i j donde N es el tamao de la poblacin.
N
n
2
1 n
X i
S2 = X i2 i 1
n 1 i 1 n Para datos No Agrupados
k
2
k Xini
1
S2 = X i2 ni i 1 n
n 1 i 1
Para datos agrupados
Definicin.- La desviacin estndar o tpica de los valores de la variable X se define como la raz
cuadrada positiva de la varianza, y se denota por
S = V X .
valor numrico de S cuantifica el grado de dispersin de los valores de una vari a b l e c o n
r e s p e c t o a s u m e d i a . M i e n t r a s m a y o r e s l a d i s p e r s i n d e l a s o b s e r v a c i o n e s , mayor es
la magnitud de sus desviaciones respecto a la media y por ende ms alto el valor numr ico de la
desviacin estndar.
Ejemplo 2.11. Se determino los pesos de una muestra de cartas procesadas en una oficina
postal, pesadas hasta el gramo ms prximo, son: 21, 18, 30, 12, 14, 17, 28, 10, 16 y 25.
Determine a) la varianza y b) la desviacin estndar.
Solucin.-
a) Clculo de la varianza.
i) Aplicaremos la formula de definicin de la varianza para datos no agrupados, donde x es la
media aritmtica del conjunto de observaciones.
En efecto, tenemos que la media aritmtica es:
10
X i
21 18 .... 25 191
X i 1
19.1gramos
10 10 10
Luego aplicando frmula para varianza :
10
X 219.1. 25 19.
i 2 2
S2 45.6 5
i 1
10 9
i) aplicando el mtodo abreviado, tenemos:
10 10
X
i 1
i 21 18 ... 25 191 y X
i 1
i
2
212 182 ... 252 4059
luego:
n
2
n Xi
1 4059 191 45.6555
2
1
S2 X i2 i 1
n 1 i 1 n 9
10
c) clculo de la desviacin estndar.
La desviacin estndar ser la raz cuadrada del valor obtenido en la varianza, es decir:
S = 45.6555 = 6.7569 gramos.
(Yi-1 Y] Y ni
YI Y
2
YI Y ni
2
Total 50 2132
Solucin.-
a) Aplicando la formula de la definicin.
Se sabe que la media aritmtica de esta distribucin es: Y = 48.1 pasajeros
Luego aplicando la formula de definicin la varianza, tenemos:
k
n y y
i i
2
k
2
k Xini
1 117812.5 2405 43.5102
2
1 i 1
Luego tenemos: S2 i
n 1 i 1
X 2
ni
n
49 50
Por tanto la desviacin estndar es: S = 6.59622 pasajeros a bordo.
Las medidas de dispersin que se han descrito anterior se expresan en las unidades de medidas
originales, tales como altura, salarios, kilogramos, puntajes, etc. Se pueden utilizar para comparar la
variacin de dos distribuciones siempre que las variables se expresen en las mismas unidades de
medidas y sean aproximadamente del mismo tamao promedio. Sin embargo, a veces es necesario
comparar dos o ms conjuntos de datos expresados en unidades diferentes. Es esta situacin hay que
utilizar una medida relativa de dispersin que sera el coeficiente de variacin.
S
Coeficiente de variacin = C.V =
X
Generalmente el coeficiente de variacin se expresa como un porcentaje. El C.V es un nmero puro
independiente de la unidad de medicin.
Observacin.-
Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 2.13. Calcular la dispersin relativa para los datos de la tabla 2.1 , tenemos que Y = 48.1 y
S = 6.596226, entonces el C.V es:
C.V = 6.596226 x100=13.71%
48.1
Como e l va lo r de C.V = 13.71% se encuen tra ent re 10% y 33 %, indica que la dispersin
es aceptable.
Solucin.-
500 300
C.V(A) = ) = 0.33 y C.V(B) = = 0.060
1500 5000
Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms variable que el
precio de la accin B (con respecto al precio promedio para cada una de las dos).
2.4. Medidas de Asimetra: Hay ocasiones en que es deseable calcular una medida que muestre la
direccin de la dispersin con respecto al centro de la distribucin. Las medidas de dispersin
solamente indican la magnitud de las variaciones, pero no proveen informacin acerca de la
direccin hacia donde tienden a ocurrir las variaciones. Las medidas de asimetra indican la deformacin
horizontal de las curvas de frecuencias. Cuando la curva de frecuencias est inclinada o alargada hacia
derecha (ver figura 2.3), se llama asimetra a la derecha o positiva, y si esta alargada o inclinada hacia el
lado izquierdo (figura 2.4), se denomina asimetra a la izquierda o negativa.
Coeficientes de Asimetra
As = M e d i a Moda
Desviacin estndar
Si As = 0, la distribucin es simtrica.
Si As > 0, la distribucin es sesgada hacia la derecha.
Si As < 0, la distribucin es sesgada hacia el lado izquierdo.
Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones unimodales.
ndice de Asimetra.
- Para distribuciones mustrales el ndice de asimetra es estimado mediante la expresin:
n
n X 1 X
3
donde S es la desviacin estndar muestral.
g i 1
n 1 n 2 S 3
Para valores negativos de g indicaran una asimetra hacia la izquierda, mientras que para valores
positivos de g indicaran una asimetra hacia a la derecha.
Para muestras grandes (n>30), el ndice muestral g se distribuye como una normal t, con media 0 y
varianza aproximada de 6/n.
Ejemplo 2.15. Para nuestro ilustrativo sobre el nmero de pasajeros a bordo por autobs (tabla 2.1). se
pide analizar la asimetra de la distribucin.
2.5.-Medidas de Curtosis.
Definicin. Se entiende por kurtosis el grado de deformacin vertical (apuntamiento) de una distribucin
de frecuencias. Con relacin al grado de apuntamiento (ver figura 2.5), podemos tener curvas
Leptocrtica, Mesocrtica y Platicrtica.