Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva
Estadística Descriptiva
INTRODUCCIÓN
DEFINICIÓN DE ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
CONCEPTOS BÁSICOS
POBLACIÓN
VARIABLE: Cualitativas o Categóricas y Cuantitativas (Discretas y
Continuas)
MUESTRA
TAMAÑO MUESTRAL
DATO
DISTRIBUCIONES DE FRECUENCIAS
FRECUENCIA ABSOLUTA
FRECUENCIA RELATIVA
FRECUENCIA ACUMULADA
FRECUENCIA RELATIVA ACUMULADA
DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
MÉTODOS GRÁFICOS
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES O DE PASTEL
HISTOGRAMA
MEDIDAS DE POSICIÓN
MEDIDAS DE DISPERSIÓN
INTRODUCCION
Ejemplos:
Calificaciones Nº de calificaciones
Excelente 3
Sobresaliente 6
Distinguido 10
Bueno 38
Satisfactorio 25
Deficiente 50
Muy Deficiente 0
Prof. Simón Cabrera página 4 de 32
ESTADISTICA DESCRIPTIVA
Ejemplos:
Puntuación Nº de Estudiantes
90-99 2
80-89 6
70-79 15
60-69 30
Menos de 60 60
Otro ejemplo de esta escala lo constituyen las escalas utilizadas para medir
temperatura, bien sea en grados Centígrados o Fahrenheit. En estas escalas la
diferencia entre 80º y 85º es igual a la que existe entre 90º y 95º o entre dos
puntos cualesquiera de la escala.
Las estadísticas apropiadas para esta escala son: media, desviación estándar,
rango, varianza, coeficiente de variación, asimetría y kurtosis. Tipos de
gráficos: histograma, polígono de frecuencias y gráfico de tallos y hojas.
Meses Nº de computadores
Octubre 4.000
Noviembre 6.000
Diciembre 15.000
Otros ejemplos de esta escala son: la medición del peso o altura de un grupo
de personas, el ingreso familiar, la intensidad de corriente eléctrica de un cable,
la edad de un grupo de personas, etc.
Generalmente, se supone que los datos que se obtienen para una variable
cuantitativa se miden en escalas de intervalo o de razón. Estas escalas
constituyen los niveles más elevados de medición. Son formas más fuertes de
medición que la escala nominal y ordinal, porque permiten comprender no sólo
cuál de los valores de un estudio es mayor o menor, sino por cuántas
unidades de medida. Las escalas de razón son medidas de Longitud, peso,
capacidad, etc., los números reflejan razones entre particularidades y los datos
obtenidos según tales escalas pueden ser sometidas a cualquier tratamiento
estadístico
2. DISTRIBUCIONES DE FRECUENCIAS
Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el
número total de datos. Las frecuencias relativas se designan con las letras hi.
f
Se calcula, hi = i
n
Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre
F
número total de datos. Se designa con las letras Hi . Se calcula; H i = i
n
Variable (xi) fi Fi hi Hi
x1 f1 F1 h1= f1/n h1
x2 f2 f1+f2 h2= f2/n h1+h2
... ... ... ... ...
xn fn f1+f2+ … + fn hn= fn/n h1+h2+ … + hn
Σfi=n Σhi=1
Ejemplo 1:
0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6
Se pide:
a. Construir la tabla de frecuencias absolutas
b. ¿Cuál es el número de familias que tiene como máximo dos hijos?
c. ¿Cuántas familias tienen más de 1 hijo pero como máximo 3?
d. ¿Qué porcentaje de familias tiene más de 3 hijos?
Solución:
Para agrupar los datos en intervalos de clase se deben seguir las siguientes
reglas generales:
• El numero de intervalos de clase se toma entre 5 y 15 dependiendo de
los datos.
• Cada observación debe estar incluida en una y solo una clase o
intervalo.
• El valor mas pequeño y mas grande deben entrar en la clasificación.
• No deben existir brechas o vacíos entre clases sucesivas.
• Los intervalos no se deben sobreponer.
• En la medida de lo posible, se debe utilizar la misma amplitud para todos
los intervalos.
2.- Punto medio o Marca de clase ( X& ).- Es la semisuma del límite inferior y
• L +L
superior de una clase, tal como lo indica la siguiente formula: X i = i i −1 .
2
Ejemplo 2
Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el
precio de sus habitaciones, el gerente investiga los precios por habitación de
40 hoteles de la misma categoría de esta ciudad. Los datos obtenidos (en miles
de pesetas) fueron:
3.3 3.3 3.7 3.8 3.9 3.9 3.9 4.0 4.1 4.2
4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.5 4.5 4.5
4.5 4.7 4.7 4.7 4.7 4.8 4.9 5.0 5.0 5.1
5.1 5.3 5.3 5.4 5.6 5.8 5.8 6.0 6.1 6.1
Procedimiento:
1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.
2.- K= 1+3,322 log(40) = 6.3 ≈ 6 números de intervalos
3.- Ic = 2.8 / 6 = 0.467 ≈ 0.5 tamaño de los intervalos
CLASES fi Fi Ci hi Hi
[3.3, 3.8) 3 3 3.5 0.075 0.075
[3.8, 4.3) 8 11 4 0.2 0.275
[4.3, 4.8) 14 25 4.5 0.35 0.625
[4.8, 5.3) 6 31 5 0.15 0.775
[5.3, 5.8) 4 35 5.5 0.1 0.875
[5.8, 6.3) 5 40 6 0.125 1
MÉTODOS GRÁFICOS
xi fi
a favor 50%
en contra 40%
abstención 10%
Elecciones Locales
a favor
en contra
abstencion
Ejemplo:
25
21
20
16 16
15
Frecuencias
15
11
10 8
6
4
5 3
0
15 20 25 30 35 40 45 50 55 60 65
Clases
1. Forma de la distribución.
2. Acumulación o tendencia posicional (valor central de la distribución).
3. Dispersión o variabilidad.
EJERCICIOS
1.- Los siguientes datos representan los ingresos diarios (en miles) de 20
obreros de cierta compañía.
16, 16, 17, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24.
2.- Los siguientes datos corresponden al tiempo que han necesitado 30 clientes
de un banco para llevar a cabo una transacción bancaria:
0.1 0.4 1.1 1.2 1.3 1.4 1.5 1.6 2.0 2.5 2.8 2.8 3.1 3.3 3.6
4.1 4.1 4.3 4.6 5.0 5.5 6.4 6.5 7.7 7.3 7.4 8.0 9.5 9.5 10.0
10 11 12 12 13 13 13 14 14 15
15 16 16 16 16 16 16 16 17 19
MEDIDAS DE POSICIÓN
INTRODUCCIÓN
Después que los datos han sido reunidos y tabulados, se inicia el análisis con el fin de
calcular un número único, que represente o resuma todos los datos. Las medidas de
posición forman parte del conjunto de medidas descriptivas numéricas, las cuales se
clasifican en parámetros –cuando se calculan a partir de la población total- y los
estadígrafos - cuando se calculan a partir de los datos de una muestra. Una medida
de posición es un número que se toma como orientación para referirnos a un conjunto
de datos.
Uno de los problemas fundamentales que presenta un análisis estadístico, es el de
buscar el valor más representativo de una serie de valores. El primer paso que hay
que realizar para que se entienda una larga serie de valores u observaciones, es el de
resumir los datos en una distribución de frecuencia; esto no es suficiente para fines
practico, puesto que a menudo es necesario una sola medida descriptiva, y en
especial cuando se requiere comparar dos o más serie estadísticas. Es necesario
continuar el proceso de reducción hasta sustituir todos los valores observados por uno
solo que sea representativo, de tal forma que permita una interpretación global del
fenómeno en estudio; para que ese valor sea representativo debe reflejar la tendencia
de los datos individuales de la serie de valores. Un valor o dato de la serie con estas
características recibe el nombre de promedio, media o medida de posición, esto es
debido a su ubicación en la zona central de la distribución. Las medidas de posición
son de gran importancia en el resumen estadístico, ya que representan un gran
número de valores individuales por uno solo.
El valor más representativo de un conjunto de datos por lo general no es el valor más
pequeño ni el más grande, es un número cuyo valor se encuentra en un punto
intermedio de la serie de datos. Por lo tanto un promedio es con frecuencia un valor
referido que representará la medida de posición de la serie de valores. Las medidas de
posición se emplean con frecuencia como mecanismo para resumir un gran número de
datos o cantidades con la finalidad de obtener un valor que sea representativo de la
serie.
Las Principales Medidas de Posición son:
Todas ellas a su manera tratan de dar una idea del numero alrededor del cual se
centra a todo el conjunto de datos.
MEDIA ARITMÉTICA
La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn,
es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre
n
∑X i
el número total de ellos. La formula se puede expresar así: X = i =1
.
n
Desviaciones o desvíos.- Son diferencias algebraicas entre cada valor de la serie
o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado
arbitrariamente. Los desvíos o desviación se designan con la letra di.
Dado una serie de valores X1, X2, X3, .......Xn , se llama desvío a la diferencia entre un
valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor
indicado k de la serie corresponde precisamente a la media aritmética de esos valores
dados, se dice entonces que los desvíos son con respecto a la media aritmética. En
símbolo: d i = ( X i − X ).
Xt =
n1 X 1 + n 2 X 2 + n3 X 3 + ........ + n k X k
=
∑X 1
+
∑X 2
+
∑X 3
+ .......
∑X k
,
N n1 n2 n3 nk
Donde:
4. La media del producto de una constante por una variable, es igual al producto de la
constante por la media de la variable.
X =
∑ KX i
=
K∑ Xi
= KX .
n n
• El valor de la media depende de cada una de las medidas que forman la serie
de datos, y se halla afectada excesivamente por los valores extremos de la
serie de datos.
• La media es una medida de posición que se calcula con todos los datos de la
serie de valores y es susceptible de operaciones algebraicas.
X =
∑X i
. En donde n es el número total de datos y X i son los valores de la
n
variable.
Ejemplo:
X =
∑X i
=
5 + 7 + 8 + 9 + 11 + 14 54
= = 9. Por lo tanto la media es 9.
n 6 6
MÉTODO DIRECTO
Este método se le conoce también como método largo; el mismo resulta demasiado
engorroso cuando las magnitudes de los puntos medios o de las frecuencias de clase
son muy grandes, debido a que los cálculos son demasiados extensos. Los pasos a
seguir para calcular la media con este método son los siguientes:
2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias,
luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas por el punto
medio ( X& ) así: f i X& i . ∑
3. Luego se calcula la media aritmética aplicando la formula:
X =
∑ f X&
=
∑ f X&
i i i
...Donde..n es igual al número total de datos.
∑f =n in
Ejemplo:
CLASES fi
75-------79 20
80-------84 40
85-------89 60
90-------94 100
95 ------99 140
∑ f i = n =360
Solución:
X =
∑ f i X& i = 32820 = 91.17. El peso promedio del grupo de
N 360 360 obreros es de 91.17 Kg.
LA MEDIANA
X ( n / 2) + X ( n+ 2 / 2)
Si n es par, se aplica la formula Me = El resultado obtenido, es la
2
posición que ocupara la mediana, pero en este caso se ubica la posición de la
mediana por ambos extremos de la serie de valores y los dos valores que se obtengan
se le saca la media y esta será la mediana buscada, por lo tanto la mediana, en este
caso, es un número que no se encuentra dentro de la serie de datos dados.
Ejemplos:
Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo de
trabajadores. Determine la mediana.
Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los
datos ordenados quedaran así:
5, 6, 7, 8, 9, 10, 12.
Como se trata de un numero par de datos (n =8), la mediana esta dada por:
X ( n / 2) + X ( n + 2 / 2) X ( 4 ) + X ( 5) 9 + 11 20
Me = = = = = 10
2 2 2 2
Ejemplo:
Dada la siguiente distribución de frecuencia referida a las horas extras laboradas por
un grupo de obreros. Calcule la mediana. Realice los cálculos respectivos para
completar el siguiente cuadro.
Solución:
n 132
= = 66, luego se busca en la frecuencia acumulada Fi, un valor que sea igual o
2 2
superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase
mediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta
de esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:
⎡ 66 − 44 ⎤ ⎛ 22 ⎞
Me = 70 + ⎢ ⎥ 5 = 70 + ⎜ ⎟.5 = 70 + 2.2 = 72.2.
⎣ 50 ⎦ ⎝ 50 ⎠
Luego la mediana de esa distribución es 72.2. Esto quiere decir que un 50 % de los
obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaron
horas extras por encima de 72.2 horas.
CARACTERÍSTICAS DE LA MEDIANA
LA MODA
La moda es la medida de posición que indica la magnitud del valor que se presenta
con más frecuencia en una serie de datos; es pues, el valor de la variable que más se
repite en un conjunto de datos. De las medidas de posición la moda es la que se
determina con mayor facilidad, ya que se puede obtener por una simple observación
de los datos en estudio, puesto que es el dato que se observa con mayor frecuencia.
Se designa con las letras Mo.
⎛ Δ1 ⎞
Mo = Li + ⎜⎜ ⎟⎟.Ic
Δ
⎝ 1 + Δ 2 ⎠
Donde,
Ejemplo:
La clase que presenta mayor frecuencia absoluta es 80----89, entonces esta sera la
clase modal, donde Li = 80 Δ1 = 16 − 12 = 4; Δ 2 = 16 − 2 = 14; Ic = 10
Aplicando la formula se tiene:
⎛ Δ1 ⎞ ⎛ 4 ⎞ 40
Mo = Li + ⎜⎜ ⎟⎟ → Mo = 80 + ⎜ ⎟.10 = 80 + = 80 + 2.22 = 82.22.
⎝ Δ1 + Δ 2 ⎠ ⎝ 4 + 14 ⎠ 18
CARACTERÍSTICAS DE LA MODA
Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores en
dos partes iguales, una generalización de esta medida da origen a unas nuevas
medidas de posición denominadas:
⎡ cn ⎤
⎢ 4 − F(i −1) ⎥
Qc = Li + ⎢ ⎥ Ic.
⎢ fi ⎥
⎢⎣ ⎥⎦
Donde,
cn
= Posición que ocupa el cuartil en la distribución de frecuencia.
4
c = corresponde al número del cuartil solicitado: 1,2 3.
Li = Limite real inferior de la clase donde se encuentra ubicado el cuartil.
F( i-1) = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil.
fi = Frecuencia absoluta de clase donde se encuentra el cuartil.
El cálculo de los percentiles es similar al cálculo de los cuartiles con una variante en
la posición de ubicación de estos, que viene expresada por la siguiente formula:
⎡ pn ⎤
pn ⎢ 100 − F( i −1) ⎥
PP = . Con esta posición se aplica la formula: Pp = Li + ⎢ ⎥ Ic .
100 ⎢ fi ⎥
⎣⎢ ⎦⎥
Ejemplo:
SALARIO EN $ Obreros Fi
200-----299 85 85
300-----399 90 175 Clase cuartil
400-----499 120 295 Clase mediana
500-----599 70 365 Clase percentil
600-----699 62 427
700-----799 36 463
463
1x 463 463
a) Para calcular Q1 se determina primero la posición así: Q1 = = = 115.75.
4 4
Q1 = 115.75. Con ese valor de la posición encontrado se busca en las frecuencias
acumuladas para ver cual de esas es mayor o igual a ese valor. Observando las
frecuencias acumuladas se puede detectar que la posición 115.75 se encuentra
en la clase 300------399, por lo tanto el Li = 300, fi = 90, y la F(i-1) = 85 y Ic = 100,
aplicando la formula se tiene:
⎡115.75 − 85 ⎤ 3075
Q1 = 300 + ⎢ ⎥⎦. 100 = 300 + = 300 + 34.17 = 334.17
⎣ 90 90
Esto indica que el 70 % de los obreros devengan un sueldo semanal que esta por
debajo de 541.57 $ y que el 30% de los restantes obreros, ganan un salario por
encima de 541.57 $.
MEDIDAS DE DISPERSION
INTRODUCCIÓN
Son aquellas que vienen expresadas en las mismas unidades originales que
indican la serie de datos. Entre las medidas de dispersión absoluta se encuentran:
el rango, el rango intercuartilico, la desviación media, la varianza y la desviación
típica.
RANGO O RECORRIDO.
El rango nos dará una primera idea sobre las dispersión de los datos ya que si su valor
es pequeño nos indicará una gran concentración de los datos, y si por el contrario su
valor es grande nos puede indicar una gran variabilidad o dispersión de los datos.
RANGOS ESPECIALES
El rango nos da una idea de la dispersión total de las observaciones, por lo tanto
puede estar afectada por valores extremos dando en consecuencia una idea de alta
dispersión. Por tal motivo, se han definido otros rangos que tratan de subsanar este
problema.
Si los valores de la RI o RSI son pequeños indica una alta concentración de los datos
de la distribución en los valores centrales de la serie de datos. Estas medidas se
utilizan para comparar los grados de variación de los valores centrales en diferentes
distribuciones de frecuencias. Los mismos no son afectados por los valores extremos,
no se adaptan a la manipulación algebraica, por tal motivo son de poco utilidad.
∑ Xi − X ∑ di
DM = i =1
= i =1
N N
n N
∑ X& i − X fi ∑ fi d i
DM = i =1
= i =1
n n
VARIANZA
S 2
=
∑ (X i − X )2
..,. para datos no agrupados
n
S 2
=
∑ fi (X i − X )2
=
∑ fi X i
2
− X 2
para datos agrupados
n n
DESVIACIÓN TIPICA
S=
∑ ( X& i − X )2
Para datos no agrupados
n
S=
∑ ( X& i − X )2 fi
=
∑X i
2
fi
−X 2 Para datos agrupados
n n
Ejemplo:
Clases fi
30—32 10
33—35 18
36—38 60
39—41 100
42—44 80
45—47 14
48—50 6
∑ 288
Solución:
X =
∑ f X&i i
=
11520
= 40.0.
n 288
S 2
=
∑ f i X i2
− X 2
=
464508 ⎛ 11520 ⎞
−⎜ ⎟ = 12 . 88
2
n 288 ⎝ 288 ⎠
∑f ∑f
2
X& 12 ⎛ X& i ⎞ 464508 ⎛ 11520 ⎞
2
S=
i
−⎜
i ⎟ = −⎜ ⎟ =
n ⎜ n ⎟ 288 ⎝ 288 ⎠
⎝ ⎠
DISPERSIÓN RELATIVA
Las medidas de variabilidad, estudiadas hasta ahora, solo permitían medir las
dispersiones absolutas de los términos de la muestra. Las medidas, tomadas en esas
condiciones, serán de utilidad, solo cuando se trata de analizar una sola muestra;
pero, cuando hay que establecer comparaciones entre distintas muestras, será
necesario expresar tales medidas en valores relativos, que pueden ser proporciones o
porcentajes.
Una serie de valores será más dispersa que otra mientras su CV sea mayor.
Ejemplo:
Producto X S Unidades CV
1 45 5 Bs. 11.11 %
2 450 40 Bs. 8.87 %
3 4500 350 Bs. 7.78 %
CV = Sx100/ X