Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capítulo 1
ESTADÍSTICA DESCRIPTIVA.
La estadística que muchos creen como algo nuevo, ya que hoy en día todo se
fundamenta sobre datos o información estadística, para sombro de todos es tan
antigua como la propia humanidad, ya que hay vestigios de su inicio antes de Cristo,
como en China donde el emperador Yao (2,230 a. c) dispuso la realización de un
censo en su imperio; algo similar ocurrió en la época del rey Herodes, relacionado
con un empadronamiento cuando se habló del nacimiento de Cristo.
La estadística como disciplina tuvo su inicio en Alemania a mediados del siglo XVII,
en el reinado de Godofredo de Achenwall (1719 – 1772), utilizó la palabra
estadística y la separó de la sociología. Hoy en día alcanza un alto desarrollo, con la
ayuda de tantos investigadores dedicados a perfeccionar métodos estadísticos
modernos, que nos permiten seleccionar aquellas técnicas más adecuadas para
analizar una determinada cantidad de información acelerando su proceso de cálculo
con la ayuda de los programas de computación (Software estadísticos),
disminuyendo las probabilidades de error.
Para ello se requiere contar con un método, o conjunto de reglas o principios, que nos
permita la observación, el ordenamiento, la cuantificación y el análisis de dichos
fenómenos. Ese método se denomina Estadística.
considerándose esta última como la función más importante que realiza, ya que
permite obtener conclusiones para un grupo mayor, denominado población,
partiendo de una investigación realizada en un grupo menor, conocido como
muestra, cuyo elementos, en la mayoría de casos, se seleccionan aleatoriamente.
La estadística, de acuerdo con todo lo anterior, se podría definir como aquel método
que permite no sólo describir el hecho o fenómeno, sino deducir y evaluar
conclusiones acerca de una población, utilizando resultados proporcionados por
una muestra.
Población. Por otra parte, el universo viene definido por la investigación estadística
a realizarse. Y como la medición de la característica especificada por la investigación
se hace a cada unidad elemental, se puede considerar a la población como el
conjunto de medidas o el recuento de todos los elementos que presentan una
característica común especificada por la investigación estadística. El termino
población se usa para denotar el conjunto de elementos del cual se extrae la muestra.
clasificación numérica. Por ejemplo, la variable "estado civil" puede adoptar las
modalidades: soltero, casado, divorciado, viudo, etc. También son ejemplos de
variables cualitativas: clase social, profesión, cargo, marcas, calidad, etc.
A su vez ésta variable puede clasificarse en: Nominal y Ordinal.
a) Variable Cualitativa Nominal.- Son aquellas que surgen cuando se definen
categorías y se cuenta el número de observaciones pertenecientes a cada categoría y
no lleva ninguna ordenación en las posibles modalidades.
- La variable cualitativa “color de las bebida gaseosas” con las posibles modalidades:
Negro, Rojo, Naranja, es una variable cualitativa nominal.
- Son ejemplos de variables cualitativas: “estado civil”, “Ideas religiosas”,
“Nacionalidad”, entre otras.
b) Variable Cualitativa Ordinal.- Cuando se va más allá del nivel de clasificación y
se busca ordenar los casos en términos del grado que posee una determinada
característica, entonces se está trabajando con una variable cualitativa ordinal.
Ejemplos: la variable “status socioeconómico” con sus modalidades: clase baja,
media y alta es una variable cualitativa ordinal. La variable “orden de mérito” cuyas
modalidades son 1º, 2º, 3º, etc. mide las calificaciones de las unidades estadísticas en
escala ordinal.
Gráfico.
La representación gráfica más común para este tipo distribución de frecuencias es el
diagrama de barras que consiste en trazar en cada valor distinto de la variable,
segmentos de líneas proporcionales a su frecuencia.
0
0 1 2 3 4
Número de hijos
Solución.
1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por:
R = Xmax - Xmin
En nuestro ejemplo, tenemos:
Valor mínimo Xmin = 31
Valor máximo Xmáx = 64
Luego el rango es R= 64 - 31= 33
2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula
de Sturges:
K =1 +3.322 log n
donde:
K = número de clases
n = número de elementos en la muestra (tamaño de la muestra).
Está formula es muy útil porque orienta al principiante. Sin embargo, es un poco
conservador y tiende a dar un número de clases un poco menor del que se utiliza en
la practica.
En nuestro ejemplo: K = ? , n = 50
Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K.
5 ≤ K ≤ 15
3º. La idea es resumir los valores con el fin de percibir algunas características o
propiedades de los datos que no aparecen a simple vista. Para esto vamos a clasificar
los 50 autobuses en 7 clases, de acuerdo con la formula de Sturges.
Capitulo. 1. Estadística descriptiva. 8
33
Aplicando los datos a la fórmula anterior, se tiene: c = = 4.7143
7
Redondeamos a 5.
R ′ = c × K = 5 × 7 = 35
4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original,
buscaremos el exceso:
Exceso = 35 - 33= 2 pasajeros
Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada
lado, en este caso 1 a cada extremo. Sumamos el número 1 al valor máximo: 64 + 1 =
65 y restamos el número 1 al valor mínimo: 31 - 1 = 30.
30 35 40 45 50 55 60 65
Figura 1.2
sin embargo una dificultad se presenta cuando algunos de los datos coincide con
cualquiera de los puntos de división: 35, 40, 45, 50, 55 y 60.
Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no
incluye al valor 30 (límite inferior del intervalo) y cerrado por la derecha que incluye
al valor 35 (límite superior del intervalo). Este tipo de intervalo se representa
matemáticamente por: ( Yi′−1 − Yi′] , donde Yi′−1 representa el límite inferior
del intervalo y Yi′ representa el límite superior.
Intervalo
de clases (30 - 35] (35 - 40] (40 - 45] (45 - 50] (50 - 55] (55 - 60] (60 - 65]
Capitulo. 1. Estadística descriptiva. 9
Nota.- También existen otros dos tipos de intervalos de clases, definidas como:
[ Yi′−1 − Yi′ ) Intervalo semi-cerrado. Este intervalo es cerrado por la
izquierda (incluye al límite inferior del intervalo) y abierto por la derecha (no incluye
al límite superior del intervalo).
6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un
mismo intervalo, estén representados por un mismo valor. Este valor caracteriza a la
clase y por eso se llama marca de clase, se obtiene promediando los límites de cada
intervalo. Una formula para calcular la marca de clase de un intervalo es:
Yi′−1 + Yi′
Yi =
2
7º. A continuación debemos realizar la clasificación y conteo de los datos (ver tabla
1.2), es decir, colocar cada uno de ellos dentro de su clase, todos representados por
un mismo signo: una tarja.
Tabla 1.2.
Propiedad.- N i = N i −1 + n i , de donde n i = N 1 − N i −1
k
Propiedad.- h 1 + h 2 + ···· + h k = ∑ h i = 1
i =1
Ni
∑ nj i nj i
∑n = ∑h j
j=1
Hi = = =
n n j=1 j=1
Propiedad.- H i = H i −1 + h i
Interpretación.-
n2 = 4, significa que 4 autobuses tuvieron a bordo un número mayor de 35 pasajeros y
menor o igual a 40 pasajeros.
N4 = 31, significa que 31 autobuses tuvieron a bordo un número mayor que 30 y
menor o igual que 50 pasajeros, o también significa que 31 autobuses tuvieron a
bordo un número menor o igual a que 50 pasajeros.
Capitulo. 1. Estadística descriptiva. 11
h3 = 0.14, significa que el 14% de los autobuses tuvieron a bordo número mayor de
40 pasajeros y menor o igual a 45 pasajeros.
H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un número
mayor que 30 y menor o igual que 55 pasajeros, o también significa que 86% del
total de autobuses tuvieron a bordo un número menor o igual a que 55 pasajeros.
N6 - N2 = 49 - 6 = 43 autobuses tuvieron a bordo un número mayor que 40 y menor o
igual que 60 pasajeros.
a) Histograma.
Es una representación gráfica de una distribución de frecuencias agrupadas en
intervalos de clase, mediante una serie de rectángulos contiguos que tienen:
- sus bases sobre un eje horizontal y cuya longitud será igual al tamaño de los
intervalos de clase.
- Las alturas proporcionales a la frecuencia (absoluta o relativa).
18
15
12
9
6
3
0
30 35 40 45 50 55 60 65
Número de pasajeros
Capitulo. 1. Estadística descriptiva. 12
18
15
12
9
6
3
0
27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5 67,5
Número de pasajeros
Figura 1.4. Polígono de frecuencias del número de pasajeros por autobús de la tabla 1.3.
30
20
10
0
30 35 40 45 50 55 60 65
Número de pasajeros
Figura 1.5. Polígono de frecuencias acumuladas del número de pasajeros por autobús de la
tabla 1.3.
Ejemplo 1.5. En una encuesta de opinión acerca de las preferencias de una marca de
bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores
dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Solución.
La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida
gaseosa, es la distribución de frecuencias de la tabla 1.4.
Tabla 1.4. Distribución de personas por su color preferido de una marca de bebida gaseosa.
Gráficos.
Los gráficos más comunes para la distribución de frecuencias de variable cualitativa
son el de diagrama de rectángulos y el de sectores circulares.
10
Número de personas
0
Blanco Negro Rojo
Color de las bebidas gaseosas
45.00%
Figura 1.7. Diagrama de sectores circulares para los datos de la tabla 1.4.