Está en la página 1de 15

Calcular la varianza y la desviación estándar para los datos del ejemplo 3.

Solución: En primer lugar debemos hallar la suma de los cuarenta valores y


la suma de sus cuadrados:

y ahora, según la fórmula que acabamos de obtener:

ESCUELA TÉCNICA SUPERIOR DE NÁUTICA Y MÁQUINAS NAVALES /


NAUTIKAKO ETA ITSASONTZI MAKINETAKO GOI ESKOLA TEKNIKOA

NOCIONES PRELIMINARES DE MATEMÁTICAS

9. ESTADÍSTICA DESCRIPTIVA

9.1 Unidades estadísticas y caracteres.

. Se llaman unidades estadísticas o individuos a los componentes de


una determinada población de datos centro del estudio estadístico.

Cada uno de los individuos de la población puede describirse según


uno o varios caracteres.
Cada uno de los caracteres estudiados puede presentar dos o
más modalidades. Las modalidades son las diferentes situaciones
posibles del carácter, y deben ser al mismo
tiempo, incompatibles y exhaustivas.

Ejemplo 1:

El personal de una empresa (unidades estadísticas), del cual puede


ser realizado un estudio estadístico de su edad, sexo, antigüedad,
sueldo, etc. (caracteres). Por ejemplo, de la antigüedad podría
subdividirse en "menos de tres años", "entre tres y diez años" y "más
de diez años" (modalidades).

Ejemplo 2:

La totalidad de barcos fabricados en un determinado periodo de


tiempo (unidades estadísticas), de la que se hace un estudio del
material de fabricación, capacidad, modalidades de uso, etc.
(caracteres). Por ejemplo, en cuanto a las modalidades de uso pueden
ser: transporte y mercancías.

* Carácter cualitativo y cuantitativo.

Un caracter se dice cualitativo si sus diversas modalidades no son


expresables numéricamente (por ejemplo: sexo, profesión...).

Un caracter se dice cuantitativo si sus diversas modalidades se


expresan numéricamente (por ejemplo: sueldo, edad, ...). A este
número se le llama variable estadística.

NOTA: Nosotros en este tema nos limitaremos a tratar únicamente


caracteres cuantitativos.

Una variables estadística se llama discreta si sus valores son


números aislados (por ejemplo, números enteros como sucede en el
caso de "número de hijos", pues nadie tiene 1,57 hijos ).

Una variable estadística se llama continua si sus valores pueden


ser cualquier número (por ejemplo, el "tamaño de una pieza").

9.2 Distribuciones estadísticas de una carácter.

Consideremos una población estadística de n indivíduos descrita


según el carácter C, cuyas k modalidades son:

C1, C2, ... , Ci, ... , Ck


Se designa por ni el número de individuos que presentan la modalidad
Ci , y se la llama "frecuencia absoluta" de la modalidad Ci.

Por otra parte, se llama "frecuencia relativa" o simplemente


"frecuencia" de la modalidad Ci a la proporción:

Como las modalidades son a la vez incompatibles y exhaustivas, la


suma de las frecuencias absolutas es igual a la población total, y la
suma de las frecuencias es igual a la unidad, es decir:

Cuando la variable estadística es continua, las modalidades del


carácter son las clases de valores posibles definidas por los extremos
de clase. Por ejemplo, si designamos por eo, ..., ei, ..., ek los elementos
de clase, tal como se muestra en la gráfica:

entonces la clase nº i estará definida por el intervalo:

* Marca de la clase nº i viene definida por:

* Distancia entre las marcas de las clases nº i y nº i+1 viene definida


por:

* Amplitud de la clase nº i viene definida por:

* Frecuencia relativa acumulada: es la proporción de observaciones


cuyos valores son menores o iguales al límite superior de la clase, o,
en forma equivalente, menores que el límite inferior de la siguiente
clase.
Una observación: La cantidad de clases a emplear para clasificar los
datos en un conjunto están en íntima dependencia del total de
observaciones de éste. Si la cantidad de observaciones es
relativamente pequeña, la cantidad de clases a emplear será cercana a
5. Si existe una cantidad sustancial de datos, la cantidad de clases debe
encontrarse entre 8 y 12, aunque generalmente no suele superarse a
15.

Ejemplo 3:

De acuerdo con los datos publicados en la revista Sea men's en su


número de febrero de 1980, las cuotas anuales de 40 compañías para
un seguro de $25.000 por marino incluido en la tripulación son las
siguientes:

$ 82 - 85 - 86 - 87 - 87 - 89 - 89 - 90 - 91 - 91 - 92 - 93 - 94 - 95 - 95 -
95 - 95 - 95 - 97 - 98 - 99 - 99 - 100 - 100 - 101 - 101 - 103 - 103- 103
- 104 - 105 - 105 - 106 - 107 - 107 - 107 - 109 - 110 - 110 - 111

Como la diferencia entre los valores extremos es 111 - 82 = 29, al


decidir -por ejemplo- utilizar 6 clases, el intervalo de cada clase será
aproximadamente de $5. Para establecer los límites de cada clase, hay
que considerar la unidad más cercana con respecto a la cual se miden
las observaciones. En este caso se va a redondear al dolar más
cercano. Con estos datos podemos establecer la siguiente tabla:

Agrupamiento y frecuencias absolutas y acumuladas del ejemplo 3

Límites de Marca de Frecuencia Frec. Frec. relativa


Frecuencia, fi
clase clase relativa fi /n acumulada acumulada

82-86 84 3 3/40 = 0,075 3 3/40 = 0,075

87-91 89 7 7/40 = 0,175 10 10/40 = 0,250

92-96 94 8 8/40 = 0,200 18 18/40 = 0,450

97-101 99 8 8/40 = 0,200 26 26/40 = 0,650

102-106 104 7 7/40 = 0,175 33 33/40 = 0,825

107-111 109 7 7/40 = 0,175 40 40/40 = 1,000

Totales 40 1,000

9.3 Representación gráfica de las distribuciones

Aunque una tabla estadística encierra toda la información


disponible, para realizar una síntesis visual de los datos es
recomendable pasarla a forma gráfica. El principio de la
representación de los caracteres es la proporcionalidad de las áreas
con las frecuencias absolutas. Se pueden utilizar diagramas de
sectores, o de rectángulos (denominado histográma) . También se
pueden representar las frecuencias acumuladas, dando lugar a la
denominada curva de distribución, denotada por F(x).

Representación gráfica por sectores de los datos del ejemplo 3.

Histograma de los datos del ejemplo 3.

Curva de distribución de los datos del ejemplo 3.

Otra característica gráfica útil de un conjunto de datos, es


la distribución de frecuencia relativa acumulativa u ojiva. Se trata de
una poli-línea que se obtiene trazando en el eje vertical la frecuencia
relativa acumulada (última columna de la tabla) de cada clase y en el
eje horizontal el límite inferior de la clase siguiente, y uniendo con
segmentos los puntos consecutivos así obtenidos.

El principal uso de la distribución acumulativa es lo que


comúnmente se conoce como cuantíles.

En una distribución de frecuencia relativa acumulativa se


define cuantíl como el valor bajo el cual se encuentra una determinada
proporción de los valores de la distribución. El valor del cuantíl se lee
en la dirección opuesta, en el eje horizontal, a la proporción
correspondiente deseada sobre el eje vertical. El cuantíl más común es
el percentíl. Por ejemplo, qo.2 es el valor bajo el cual se encuentra el
20% de los valores de la distribución, y qo.9 es el valor bajo el cual se
encuentra el 90% de los valores de la distribución, tal como se aprecia
en la gráfica adjunta.

9.4 Descripción numérica de una variable estadística.

Para todo conjunto de datos hay dos medidas destacables: la


localización de su centro, y su variabilidad. La tendencia central de
un conjunto de datos es la disposición de éstos para agruparse ya sea
alrededor del centro o de ciertos valores numéricos.

La variabilidad de un conjunto de datos es la dispersión de las


observaciones en el conjunto.

* Características de tendencia central:

Se llama mediana al valor de la variable estadística que divide en


dos bloques iguales a los individuos de la población, suponiendo que
están ordenados por valor creciente del carácter.

Si la cantidad de observaciones es un número impar, la mediana es el


valor de la observación que se encuentra a la mitad del conjunto
ordenado. Si la cantidad de observaciones es par, la mediana es la
media aritmética de las dos observaciones que se encuentran en la
mitad del conjunto ordenado.

Para datos agrupados, la mediana es aquel valor que divide en dos


partes iguales la distribución de frecuencia relativa. La fórmula en este
caso viene dada por:

Mediana = L + c(j/fm)

donde L es el límite inferior de la clase donde se encuentra la


mediana, fm es la frecuencia de esa clase, y j es la cantidad de
observaciones en esta clase que son necesarias para completar un total
de n/2.

Se llama moda de una variable estadística al valor del carácter que


tiene mayor frecuencia. En el caso de que haya varios valores
compartiendo la frecuencia máxima esta moda puede tener una
utilidad muy limitada.

Para el caso de datos agrupados, la moda es el punto medio de la


clase que presenta una mayor frecuencia.

Se llama media de una variable estadística, denotada por a la suma


ponderada de los valores posibles por sus respectivas frecuencias:

Cuando la variable estadística es contínua, es decir, los datos están


agrupados, los valores xi son las marcas de clase de cada uno de los
intervalos.

Ejemplo 4:

Calcular las tres medidas de tendencia central para el ejemplo 3.

Solución: Teniendo en cuenta que eran 40 observaciones, se obtiene


que: la mediana es la medida de los dos valores correspondientes a las
observaciones 20 y 21, después de haberlas ordenado en orden
creciente, es decir: (98+99)/2 = 98,50.

La media en este caso es:

En cuanto a la moda es 95, el valor que más se repite, con una


frecuencia de 5 observaciones.

* Características de tendencia central:

Se denomina varianza de una variable estadística, y se denota por s²


al promedio del cuadro de las distancias entre cada observación y la
media:
Se llama desviación típica de una variable estadística, s, a la raíz
cuadrada positiva de la varianza:

Para ciertos casos, tanto en en la fórmula de s² como en la de s,


podemos expresar el recorrido del índice i entre 1 y n, en lugar de
entre 1 y k, por ejemplo, para la varianza podemos poner:

De aquí podemos extraer otra fórmula muy empleada, para ello


desarrollamos el cuadrado:

y por tanto, la desviación típica (o desviación estándar) puede


expresarse también:

Ejemplo 4:

Calcular la varianza y la desviación estándar para los datos del


ejemplo 3.

Solución: En primer lugar debemos hallar la suma de los cuarenta


valores y la suma de sus cuadrados:
y ahora, según la fórmula que acabamos de obtener:

Para datos agrupados la varianza y la desviación típica pueden


calcularse de forma aproximada mediante las siguientes expresiones:

Ejemplo 5:

Calcular los valores aproximados de la varianza y la desviación


estándar para los datos del ejemplo 3 considerándolos como
agrupados.

Solución: Con los datos del ejemplo 3 podemos establecer la


siguiente tabla (NOTA: En xi se coloca el punto medio de la clase):

xi fi xi² fi.xi²
21
84 3 7056
168
55
89 7 7921
447
70
94 8 8836
688
78
99 8 9801
408
75
104 7 10816
712
83
109 7 11881
167
384
Total 40 590

Ahora establecemos las siguientes cantidades:

Por lo tanto, tenemos:

Se llama desviación media al promedio de los valores absolutos de


la diferencia entre cada observación y la media de las observaciones.
La desviación media viene dada por:

Para datos agrupados, el valor aproximado de la desviación media se


expresa:

Ejemplo 6:

Hallar la desviación media para los valores no agrupados del


ejemplo 3.

Solución: Solamente tenemos que considerar la expresión para la


desviación media, que en este caso es:
D.M = 264,2/40 = 6,61

La desviación mediana es el promedio de los valores absolutos de las


diferencias entre cada observación y la mediana de éstas. La
desviación mediana viene dada por:

El recorrido, R, de las observaciones en un conjunto de datos es la


diferencia entre el valor más grande y el más pequeño del conjunto.

El recorrido intercuantil es la diferencia entre los percentiles 75-avo


y 25-avo.
El recorrido interdecil es la diferencia entre los percentiles 90-avo y
10-avo (décimo).

* Resumen de las medidas numéricas descriptivas para el ejemplo 3.

Medida Datos no Datos


numérica agrupados agrupados
Medida 97,90 97,75
Mediana 98,50 98,25
Moda 95,00 96,50
Varianza 61,015 61,217
Desv.
7,81 7,82
estándar
Desv.
6,61 6,63
media
Desv.
6,60 6,57
mediana
Recorrido 29,0 ---
Rec.
--- 12,50
intercuantil
Rec.
--- 22,00
interdecil

Ejercicios para el alumno:

1. Los siguientes datos son los tiempos, en minutos, necesarios para


que 50 clientes de un banco comercial lleven a cabo una transacción
bancaria:

2,3 0,2 2,9 0,4 2,8


2,4 4,4 5,8 2,8 3,3
3,3 9,7 2,5 5,6 9,5
1,8 4,7 0,7 6,2 1,2
7,8 0,8 0,9 0,4 1,3
3,1 3,7 7,2 1,6 1,9
2,4 4,6 3,8 1,5 2,7
0,4 1,2 1,1 5,5 3,4
4,2 1,2 0,5 6,8 5,2
6,3 7,6 1,4 0,5 1,4

a) Construir una distribución de frecuencia relativa.


b) Construir una distribución de frecuencia relativa acumulada.
c) Con los resultados del apartado (b), determinar los recorridos
intercuantil e interdecil.
d) Con los datos agrupados, calcular: media, mediana, moda,
desviación estándar, desviación media y desviación mediana.
e) Verificar los resultados del apartado (d) calculando las mismas
medidas para los datos no agrupados.

2. La demanda diaria, en unidades de un cierto producto, durante 30


días de trabajo es:

38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56

a) Construir la distribuciones de frecuencia relativa y de frecuencia


relativa acumulada
b) Con la distribución acumulada, determinar los tres cuantiles.
c) Calcular la media, mediana, moda, desviación estándar,
desviación media y desviación mediana, empleando tanto los datos
agrupados como los no agrupados, y comparar los dos conjuntos de
resultados.

3. Los siguientes datos agrupados representan los pagos por


almacenamiento para los 50 más grandes detallistas durante el año
1979.

Límites de clase Frecuencias


1,10 - 1,86 4
1,87 - 2,63 14
2,64 - 3,40 11
3,41 - 4,17 9
4,18 - 4,94 7
4,95 - 5,71 1
5,72 - 6,48 2
6,49 - 7,25 2

a) Construir el gráfico de la distribución de frecuencia relativa


acumulada.
b) Con los resultados del apartado (a), determinar los recorridos
intercuantil e interdecil.
c) Calcular: media, mediana y moda.
d) Calcular la varianza, desviación estándar, desviación media y
desviación mediana.

4. La siguiente información agrupada representa el número de


puntos anotados por equipo y por juego en la Liga Nacional de Fútbol
Americano durante la temporada de 1973:

Grupo Frecuencia
0-3 27
4-10 66
11-17 91
18-24 70
25-31 57
32-38 34
39-45 16
46-52 3

a) Construir el gráfico de la distribución de frecuencia relativa


b) Calcular: media, mediana y moda.
c) Calcular la varianza, desviación estándar y desviación media.

5. Se seleccionaron 20 baterías aleatoriamente de un proceso de


fabricación , y se llevó a cabo una prueba para determinar la duración
de éstas. Los siguientes datos representan el tiempo de duración en
horas para las 20 baterías:

52,5 62,7 58,9 65,7 49,3


58,9 57,3 60,4 59,6 58,1
62,3 64,4 52,7 54,9 48,8
56,8 53,1 58,7 61,6 63,3

a) Calcular: media y mediana.


b) Determinar desviación estándar, desviación media y desviación
mediana.
c) Determinar los recorridos intercuantil e interdecil.

Otras páginas sobre Estadística Descriptiva en Internet:

- Introducción a la Estadística Descriptiva (desde la Universidad


Católica de Valparaíso - Chile)

- Introducción a la Estadística Descriptiva (desde AulaFácil)

- Conceptos básicos de Estadística (desde CICA)

- Comprensión y uso de la Estadística (por Fernando Valdes -


Universidad Romulo Gallegos)
- Estadística Descriptiva y Probabilidades (por María José Japón &
José García)

- Curso de Estadística Descriptiva (desde la Universidad de


Antioquía - Colombia)

- Curso de Estadística (por Victor Larios desde la UNEQ - Méjico)

- Descriptive Statistics Introduction (by Jay Hill teacher from the


UIUC)

También podría gustarte