Está en la página 1de 12

Estadística Descriptiva

** Estadística Descriptiva **
La estadística es la rama de las matemáticas que se encarga de la selección de datos, su organización,
presentación y realización de las conclusiones que se pueden obtener de dichos datos.

La estadística puede clasificarse en: univariable y multivarible, dependiendo de la cantidad de


variables que se estén registrando. Si solo interesa el peso de las personas, entonces se desarrollará
estadística univariable, si por el contrario se pretende estudiar la relación entre el peso y la estatura,
entonces se estará desarrollando estadística multivariable.

Otra clasificación está basada en la aplicación de la estadística. La estadística descriptiva (o


deductiva) tiene como propósito la recopilación, organización y presentación de datos para su estudio,
mientras que la estadística inferencial (o inductiva) tiene como objetivo obtener conclusiones con
respecto a una población a partir de la información contenida en una muestra, cuantificando de manera
probabilística el grado de certeza de la afirmación.

La estadística descriptiva utiliza gráficas, tablas y parámetros numéricos para la presentación de la


información. La estadística inferencial utiliza técnicas de probabilidad para cuantificar el grado de
certidumbre de las conclusiones.

1. Estadística descriptiva

La estadística descriptiva es la parte de la estadística que tiene como propósito organizar y presentar
los datos de una población o de una muestra para su análisis e interpretación.

En la estadística descriptiva existen básicamente tres técnicas:

 Distribución de Frecuencias
 Gráficas
 Medidas numéricas

Las técnicas no son independientes, por el contrario, deben complementarse. La distribución de


frecuencias es la forma en la que se agrupan los datos cuando se tiene una cantidad considerable de
ellos. Las gráficas sirven para visualizar rápidamente la forma en la que se agrupan los datos, y los
parámetros numéricos son el resumen de los datos en forma cuantitativa.

2. Distribución de Frecuencia

Es una técnica de agrupación usada en estadística cuando se tiene un conjunto muy grande de datos,
de tal forma que el análisis posterior: gráficas y parámetros numéricos; se puede realizar de forma más
rápida. La tabla de distribución de frecuencias puede usarse para datos cuantitativos y para datos
cualitativos. Los datos cuantitativos son aquellos que indican cantidad, 5 personas, 2.5 Newtons, etc.;
mientras que los datos cualitativos expresan cualidades: azul, alto, sano, etc.

M.C. LEONARDO A. MEDINA R. 1


Estadística Descriptiva

Para resumir los datos en una tabla de distribución de frecuencias, se utilizan intervalos, clases o
categorías y posteriormente se indica la frecuencia de cada uno de ellos. Las columnas que forman
una tabla completa son:

Límites de clase. Son los valores menor y mayor que de encontrarse como datos en la muestra
pertenecen a la clase en cuestión. Los límites de una clase tienen la misma aproximación que los datos
en la muestra o de la población, esto es, si los datos son enteros, entonces los límites son enteros. Si
los datos tienen aproximación a décimas, entonces los límites tendrán décimas, y así sucesivamente.
Se denota por 𝑳𝒊 .

Marcas de clase. Es el punto medio de una clase. Se considera como el valor representativo de un
intervalo. Las marcas de clase se obtienen promediando los límites de un intervalo. Las marcas de
clase se obtienen promediando los límites de un intervalo, o bien, las fronteras. Se denota por 𝑥𝑖 .

Frecuencia. Es el número de elementos en la muestra o en la población que pertenece a la clase en


cuestión. Se denota por 𝒇𝒊 .

Frecuencia acumulada. Es el número de datos en la muestra o población, que son menores o iguales
que el límite superior del intervalo en cuestión. Se denota por 𝑭𝒊 , y se obtiene sumando la frecuencia
del intervalo actual y de los anteriores intervalos.

Frecuencia Relativa. Es la proporción de datos que pertenecen a la clase en cuestión. Se denota por
𝒇
𝒇′𝒊 o por 𝒇𝒊∗ . Es el cociente de la frecuencia entre el número total de datos, esto es: 𝒇∗𝒊 = 𝒏𝒊.

Frecuencia Acumulada Relativa. Es la proporción de los datos en la muestra o población que son
menores o iguales que el límite superior de la clase en cuestión. Se denota por 𝑭′𝒊 o por 𝑭∗𝒊 .
Matemáticamente se define como el cociente de la frecuencia acumulada entre el número de datos,
𝑭
esto es: 𝑭∗𝒊 = 𝒏𝒊 .

Histograma de Frecuencias. El histograma es una gráfica de barras rectangulares, en el cual los


intervalos de clase se marcan en el eje horizontal, y la frecuencia en un intervalo dado se mide en
dirección vertical y se indica mediante una línea horizontal que abarca la amplitud del intervalo de
clase.

Polígono de Frecuencias. El polígono de frecuencia es una gráfica poligonal o de líneas rectas que
indica para cada marca de clase la frecuencia. Se obtiene uniendo los puntos medios de las partes
superiores de las barras del histograma.

Ojiva. La ojiva es también una gráfica poligonal, pero se dibuja utilizando las fronteras contra las
frecuencias acumuladas (o acumuladas relativas). La ojiva indica, para cada frontera, los elementos
(o proporción de elementos), que son menores o iguales que dicha frontera. Si se utiliza la frecuencia
relativa se llama ojiva porcentual. A la ojiva también se le llama en ocasiones polígono de frecuencias
acumuladas.

M.C. LEONARDO A. MEDINA R. 2


Estadística Descriptiva

Reglas empíricas para la construcción de intervalos

1. Determinar los datos de mayor y menor valor (𝑥𝑚𝑎𝑥 , 𝑥𝑚𝑖𝑛 )

2. Calcular el rango
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 .

3. Determinar el número de intervalos (𝑚) y la amplitud de clase (𝐴):

𝑚 ≅ 1 + 3.3𝐿𝑜𝑔(𝑛)

𝑅
𝐴=
𝑚

Ejemplo 2.1. Los siguientes valores representan el tiempo diario de transporte de una muestra de 50
alumnos de cierta universidad.

69 56 73 66 64 44 36 69 76 53
79 72 82 77 71 48 49 49 60 67
73 70 64 56 31 62 56 55 51 45
30 40 80 49 59 60 76 67 30 72
45 43 77 49 46 42 63 41 64 79

a) Obtenga una tabla de frecuencias


b) Trace un histograma y un polígono de frecuencias
c) Trace un diagrama de frecuencias acumuladas

a) Obtenga una tabla de frecuencias

30 41 45 49 56 60 64 69 73 77
30 42 46 49 56 62 66 70 73 79
31 43 48 51 56 63 67 71 76 79
36 44 49 53 59 64 67 72 76 80
40 45 49 55 60 64 69 72 77 82

𝑥𝑚𝑎𝑥 = 82
𝑥𝑚𝑖𝑛 = 30

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 82 − 30 = 52

# 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 (𝑚) = 1 + 3.33𝐿𝑜𝑔(𝑛) = 1 + 3.33𝐿𝑜𝑔(50) = 6.606 ≅ 7

𝑅 52
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 ( ) = = 7.42 ≅ 8
𝑚 7

M.C. LEONARDO A. MEDINA R. 3


Estadística Descriptiva

Límite de clase Marca de clase 𝑥𝑖 Frecuencia 𝑓𝑖 F.Acumulada 𝐹𝑖 F. Relativa 𝑓𝑖 𝐹𝑖


F.A.Relativa
𝑛 𝑛
[30,38) 34 4 4 0.08 0.08
[38,46) 42 7 11 0.14 0.22
[46,54) 50 8 19 0.16 0.38
[54,62) 58 7 26 0.14 0.52
[62,70) 66 10 36 0.20 0.72
[70,78) 74 10 46 0.20 0.92
[78,86) 82 4 50 0.08 1

b) Trace un histograma y un polígono de frecuencias

c) Trace un diagrama de frecuencias acumuladas

Ejemplo 2.2. En una fábrica de confecciones 35 operarios reciben los siguientes sueldos en dólares

6.72 6.77 6.82 6.70 6.78 6.70 6.62


6.75 6.66 6.66 6.64 6.76 6.73 6.80
6.72 6.76 6.76 6.68 6.66 6.62 6.72
6.76 6.70 6.78 6.76 6.67 6.70 6.72
6.74 6.81 6.79 6.78 6.66 6.76 6.72

M.C. LEONARDO A. MEDINA R. 4


Estadística Descriptiva

a) Obtenga una tabla de frecuencias


b) Trace un histograma y un polígono de frecuencias
c) Trace un diagrama de frecuencias acumuladas

3. Características de las Distribuciones: Tendencia Central

Existen dos aspectos evidentes de los datos que se pueden caracterizar de manera simple, pero que
proporcionan una descripción muy significativa de un conjunto de observaciones: la tendencia central
y la dispersión. La primera se mide por promedios, que sirven para describir el punto alrededor del
cual se agrupan o caen los diversos valores observados. La medida de la dispersión evalúa la
separación o apartamiento respecto al promedio.

Los promedios se suelen emplear en la vida diaria para proporcionar una representación típica de un
grupo en su totalidad, posiblemente como base para la comparación con otros. En muchos casos, los
datos disponibles se refieren a la muestra obtenida a partir de un conjunto de mayor de datos. Los
elementos sometidos a prueba se conocen, en forma colectiva, como muestras y la unidad completa
como población original.

Las medidas de tendencia central más conocidas son la media, la mediana y la moda.

Media aritmética

La media aritmética es más conocida simplemente como media, y es el promedio de un conjunto de


valores. Es sin duda la medida de tendencia central más utilizada, y por lo general es la más
representativa. Se denota por 𝑥̅ .

𝑛
1
∑ 𝑥𝑖 ; 𝐷𝑎𝑡𝑜𝑠 𝑛𝑜 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝑛
𝑖=1
𝑥̅ 𝑚
1
∑ 𝑥𝑖 𝑓𝑖 ; 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
{𝑛 𝑖=1

Debe observarse que para datos agrupados la suma va desde 1 hasta 𝑚, donde 𝑚 es el número de
intervalos, y 𝑥𝑖 y 𝑓𝑖 son la marca de clase y la frecuencia del intervalo, respectivamente.

Ejemplo 3.1. Para el ejemplo 2.1 determine la media de los datos sin agrupar y agrupados

69 56 73 66 64 44 36 69 76 53
79 72 82 77 71 48 49 49 60 67
73 70 64 56 31 62 56 55 51 45
30 40 80 49 59 60 76 67 30 72
45 43 77 49 46 42 63 41 64 79

M.C. LEONARDO A. MEDINA R. 5


Estadística Descriptiva

𝑥̅ = (69 + 56 + 73 + 66 + 64 + 44 + 36 + 69 + 76 + 53 + 79 + 72 + 82 + 77 + 71 + 48 + 49 + 49 + 60
+ 67 + 73 + 70 + 64 + 56 + 31 + 62 + 56 + 55 + 51 + 45 + 30 + 40 + 80 + 49 + 59 + 60
+ 76 + 67 + 30 + 72 + 45 + 43 + 77 + 49 + 46 + 42 + 63 + 41 + 64 + 79)/50 = 𝟓𝟖. 𝟕

Límite de Marca de Frecuencia F.Acumulada F. Relativa F.A.Relativa 𝑥𝑖 ∙ 𝑓𝑖


𝑓𝑖 𝐹𝑖
clase clase 𝑥𝑖 𝑓𝑖 𝐹𝑖
𝑛 𝑛
[30,38) 34 4 4 0.08 0.08 136
[38,46) 42 7 11 0.14 0.22 294
[46,54) 50 8 19 0.16 0.38 400
[54,62) 58 7 26 0.14 0.52 406
[62,70) 66 10 36 0.20 0.72 660
[70,78) 74 10 46 0.20 0.92 740
[78,86) 82 4 50 0.08 1 328
𝑚
Totales ∑ 𝑓𝑖 = 50 ∑𝑖=1 𝑥𝑖 𝑓𝑖 = 2964

𝑚
1 2964
𝑥̅ = ∑ 𝑥𝑖 𝑓𝑖 = = 59.28
𝑛 50
𝑖=1

Ejemplo 3.2. Para el ejemplo 2.2 determine la media de los datos sin agrupar y agrupados.

Mediana

La mediana de un conjunto de datos ordenados, es el valor que divide al conjunto en dos conjuntos de
igual tamaño, o bien, es el promedio de los dos valores centrales. Se denota por 𝑥̃.

Cuando los datos no están agrupados, se deben ordenar en forma ascendente o descendente y
seleccionar el valor central. Si los datos son pares, entonces se toma el promedio de los dos valores
centrales; si los datos son impares entonces se toma el dato central.

Cuando los datos están agrupados, entonces se realiza una interpolación lineal utilizando las fronteras
y la frecuencia acumulada (es decir, los datos de la ojiva), para encontrar el valor de 𝑥̃ en el cual la
𝑛
frecuencia acumulada es de .
2

Ejemplo 4.1. Para el ejemplo 2.1 determine la mediana de los datos sin agrupar y agrupados.

69 56 73 66 64 44 36 69 76 53
79 72 82 77 71 48 49 49 60 67
73 70 64 56 31 62 56 55 51 45
30 40 80 49 59 60 76 67 30 72
45 43 77 49 46 42 63 41 64 79

M.C. LEONARDO A. MEDINA R. 6


Estadística Descriptiva

30 41 45 49 56 60 64 69 73 77
30 42 46 49 56 62 66 70 73 79
31 43 48 51 56 63 67 71 76 79
36 44 49 53 59 64 67 72 76 80
40 45 49 55 60 64 69 72 77 82

60 + 60
𝑥̃ = = 60
2
𝐹
Marca de clase 𝑥𝑖 Frecuencia 𝑓𝑖 F.Acumulada 𝐹𝑖 F. Relativa 𝑓𝑖 F.A.Relativa 𝑛𝑖
𝑛
[30,38) 34 4 4 0.08 0.08
[38,46) 42 7 11 0.14 0.22
[46,54) 50 8 19 0.16 0.38
[54,62) 58 7 26 0.14 0.52
[62,70) 66 10 36 0.20 0.72
[70,78) 74 10 46 0.20 0.92
[78,86) 82 4 50 0.08 1

𝑛 50
= = 25
2 2

Frontera inferior Frecuencia acumulada


54 (𝑦0 ) 19 (𝑥0 )
𝑥̃ (𝑦𝑥 ) 25 (𝑥)
62 (𝑦1 ) 26 (𝑥1 )

𝑥 − 𝑥𝑜
𝑦𝑥 = 𝑦0 + (𝑦 − 𝑦𝑜 )
𝑥1 − 𝑥𝑜 1

25 − 19
𝑦𝑥 = 54 + (62 − 54) = 54 + 0.857(8) = 60.85
26 − 19

Ejemplo 4.2. Para el ejemplo 2.2 determine la mediana de los datos sin agrupar y agrupados.

Moda

La moda de un conjunto de datos es el valor que se repite con mayor frecuencia. Se denota por 𝑥𝑚𝑜 ,
o en ocasiones 𝑚𝑜. Si existe más de una moda, entonces se dice que los datos tienen distribución
bimodal.

Para datos sin agrupar, se deben contar las repeticiones que puedan existir, y el que se repita mayor
número de veces será la moda. Si todos los datos aparecen el mismo número de veces, entonces se
dice que no existe moda.

M.C. LEONARDO A. MEDINA R. 7


Estadística Descriptiva

Para datos agrupados, la moda se aproxima con la marca de clase del intervalo con mayor frecuencia,
o bien, utilizando la fórmula:

∆1
𝑥𝑚𝑜 = 𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + ( )𝑐
∆1 + ∆2
Donde:

𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟. Es la frontera inferior del intervalo con mayor frecuencia.


∆1. Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata anterior.
∆2 . Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata posterior.
𝑐. Es la longitud de la clase

Ejemplo 5.1. Para el ejemplo 2.1 determine la moda de los datos sin agrupar y agrupados.

69 56 73 66 64 44 36 69 76 53
79 72 82 77 71 48 49 49 60 67
73 70 64 56 31 62 56 55 51 45
30 40 80 49 59 60 76 67 30 72
45 43 77 49 46 42 63 41 64 79

30 41 45 49 56 60 64 69 73 77
30 42 46 49 56 62 66 70 73 79
31 43 48 51 56 63 67 71 76 79
36 44 49 53 59 64 67 72 76 80
40 45 49 55 60 64 69 72 77 82

30 – 2 43 – 1 51 – 1 62 – 1 70 – 1 79 – 2
31 – 1 44 – 1 53 – 1 63 – 3 71 – 1 80 – 1
36 – 1 45 – 2 55 – 1 64 – 3 72 – 2 82 – 1
40 – 1 46 – 1 56 – 3 66 – 1 73 – 2
41 – 1 48 – 1 59 – 1 67 – 2 76 – 2
42 – 1 49 – 4 60 – 2 69 – 2 77 – 2

𝒙𝒎𝒐 = 𝟒𝟗

Límite de clase Marca de clase 𝑥𝑖 Frecuencia 𝑓𝑖 F.Acumulada 𝐹𝑖 F. Relativa 𝑓𝑖 𝐹


F.A.Relativa 𝑛𝑖
𝑛
[30,38) 34 4 4 0.08 0.08
[38,46) 42 7 11 0.14 0.22
[46,54) 50 8 19 0.16 0.38
[54,62) 58 7 26 0.14 0.52
[62,70) 66 10 36 0.20 0.72
[70,78) 74 10 46 0.20 0.92
[78,86) 82 4 50 0.08 1

M.C. LEONARDO A. MEDINA R. 8


Estadística Descriptiva

Utilizando la fórmula para la moda se tiene:

∆1 3
𝑥𝑚𝑜 = 𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + ( ) 𝑐 = 62 + ( ) (8) = 62 + 8 = 70
∆1 + ∆2 3+0

∆1 0
𝑥𝑚𝑜 = 𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + ( ) 𝑐 = 70 + ( ) (8) = 70
∆1 + ∆2 0+6

Ejemplo 5.2. Para el ejemplo 2.2 determine la moda de los datos sin agrupar y agrupados.

4. Características de las dispersiones: Dispersión

Las medidas de dispersión proporcionan un indicador del alejamiento de los datos. También se les
llama medidas de variación. Las medidas más comunes son: Rango, desviación media, variancia,
desviación estándar y el coeficiente de variación.

Rango. El rango de un conjunto de datos es la diferencia entre el mayor valor menos el menor valor.
Se denota por 𝑅𝑎𝑛𝑔𝑜, o simplemente por 𝑅. Para datos agrupados se utilizan los límites mayor y
menor. Es común no realizar la operación de resta y solamente indicarla.

Para los datos del ejemplo 2.1

69 56 73 66 64 44 36 69 76 53
79 72 82 77 71 48 49 49 60 67
73 70 64 56 31 62 56 55 51 45
30 40 80 49 59 60 76 67 30 72
45 43 77 49 46 42 63 41 64 79

30 41 45 49 56 60 64 69 73 77
30 42 46 49 56 62 66 70 73 79
31 43 48 51 56 63 67 71 76 79
36 44 49 53 59 64 67 72 76 80
40 45 49 55 60 64 69 72 77 82

Límite de clase Marca de clase 𝑥𝑖 Frecuencia 𝑓𝑖 F.Acumulada 𝐹𝑖 F. Relativa 𝑓𝑖 𝐹


F.A.Relativa 𝑛𝑖
𝑛
[30,38) 34 4 4 0.08 0.08
[38,46) 42 7 11 0.14 0.22
[46,54) 50 8 19 0.16 0.38
[54,62) 58 7 26 0.14 0.52
[62,70) 66 10 36 0.20 0.72
[70,78) 74 10 46 0.20 0.92
[78,86) 82 4 50 0.08 1

M.C. LEONARDO A. MEDINA R. 9


Estadística Descriptiva

82 − 30 𝐷𝑎𝑡𝑜𝑠 𝑛𝑜 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝑅={
86 − 30 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠

Desviación Media. La desviación media o desviación promedio de un conjunto de datos es el promedio


de las distancias de cada valor con respecto a la media. Se denota por 𝐷𝑀.

𝑛
1
∑|𝑥𝑖 − 𝑥̅ | 𝐷𝑎𝑡𝑜𝑠 𝑛𝑜 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝑛
𝑖=1
𝐷𝑀 = 𝑚
1
∑|𝑥𝑖 − 𝑥̅ |𝑓𝑖 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
{𝑛
𝑖=1

Ejemplo 6.1. Para el ejemplo 2.1 determine la media de los datos sin agrupar y agrupados.

Para los datos no agrupados se utiliza la media de datos no agrupados.

𝑥̅ = (69 + 56 + 73 + 66 + 64 + 44 + 36 + 69 + 76 + 53 + 79 + 72 + 82 + 77 + 71 + 48 + 49 + 49 + 60
+ 67 + 73 + 70 + 64 + 56 + 31 + 62 + 56 + 55 + 51 + 45 + 30 + 40 + 80 + 49 + 59 + 60
+ 76 + 67 + 30 + 72 + 45 + 43 + 77 + 49 + 46 + 42 + 63 + 41 + 64 + 79)/50 = 𝟓𝟖. 𝟕

𝑛
|69 − 58.7| + |56 − 58.7| + |73 − 58.7| + |66 − 58.7| + |64 − 58.7|
1 +|44 − 5 8.7| + |36 − 58.7| + |69 − 58.7| + |76 − 58.7| + |53 − 58.7|
𝐷𝑀 = ∑|𝑥𝑖 − 𝑥̅ | = ( ) /50
𝑛 +|79 − 58.7| + |72 − 58.7| + |82 − 58.7| + |77 − 58.7| + |71 − 58.7|
𝑖=1
+|48 − 58.7| + ⋯ + |63 − 58.7| + |41 − 58.7| + |64 − 58.7| + |79 − 58.7|

𝑛
1 612.2
𝐷𝑀 = ∑|𝑥𝑖 − 𝑥̅ | = = 𝟏𝟐. 𝟐𝟒𝟒
𝑛 50
𝑖=1

Para datos agrupados, se utiliza la media de datos agrupados, las marcas de clase y la frecuencia.

Límite de Marca de Frecuencia F.Acumulada F. Relativa F.A.Relativa 𝑥𝑖 ∙ 𝑓𝑖


𝑓𝑖 𝐹𝑖
clase clase 𝑥𝑖 𝑓𝑖 𝐹𝑖
𝑛 𝑛
[30,38) 34 4 4 0.08 0.08 136
[38,46) 42 7 11 0.14 0.22 294
[46,54) 50 8 19 0.16 0.38 400
[54,62) 58 7 26 0.14 0.52 406
[62,70) 66 10 36 0.20 0.72 660
[70,78) 74 10 46 0.20 0.92 740
[78,86) 82 4 50 0.08 1 328
𝑚
Totales ∑ 𝑓𝑖 = 50 ∑𝑖=1 𝑥𝑖 𝑓𝑖 = 2964

𝑚
1 2964
𝑥̅ = ∑ 𝑥𝑖 𝑓𝑖 = = 59.28
𝑛 50
𝑖=1

M.C. LEONARDO A. MEDINA R. 10


Estadística Descriptiva

𝑚
1 1 |34 − 59.28|(4) + |42 − 59.28|(7) + |50 − 59.28|(8) + |58 − 59.28|(7)
𝐷𝑀 = ∑|𝑥𝑖 − 𝑥̅ |𝑓𝑖 = ( )
𝑛 50 +|66 − 59.28|(10) + |74 − 59.28|(10) + |82 − 59.28|(4)
𝑖=1

𝑚
1
𝐷𝑀 = ∑|𝑥𝑖 − 𝑥̅ |𝑓𝑖 = 𝟏𝟐. 𝟐𝟏𝟏𝟐
𝑛
𝑖=1

Ejemplo 6.2. Para el ejemplo 2.2 determine la media de los datos sin agrupar y agrupados.

Variancia. La variancia de un conjunto de datos es el promedio de las distancias cuadradas de cada


2
valor con respecto a su media. Se denota por 𝑠𝑛2 o por 𝑠𝑛−1 dependiendo del valor que se utilice para
promediar. Se divide entre 𝑛 (se promedia entre 𝑛), cuando se considera que se tienen todos los datos
posibles (población), y se divide entre 𝑛 − 1 cuando se tiene solo una fracción de los datos (muestra).
La fórmula para la variancia es:
𝑛
1
∑(𝑥𝑖 − 𝑥̅ )2 𝐷𝑎𝑡𝑜𝑠 𝑛𝑜 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝑛
𝑖=1
𝑠𝑛2 = 𝑚
1
∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
{𝑛
𝑖=1
o bien:

𝑛
1
∑(𝑥𝑖 − 𝑥̅ )2 𝐷𝑎𝑡𝑜𝑠 𝑛𝑜 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝑛−1
2 𝑖=1
𝑠𝑛−1 = 𝑚
1
∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
{ 𝑛 − 1
𝑖=1

Ejemplo 7.1. Para el ejemplo 2.1 determine la variancia de los datos sin agrupar y agrupados.

Para los datos no agrupados se utiliza la media de datos no agrupados.

𝑥̅ = (69 + 56 + 73 + 66 + 64 + 44 + 36 + 69 + 76 + 53 + 79 + 72 + 82 + 77 + 71 + 48 + 49 + 49 + 60
+ 67 + 73 + 70 + 64 + 56 + 31 + 62 + 56 + 55 + 51 + 45 + 30 + 40 + 80 + 49 + 59 + 60
+ 76 + 67 + 30 + 72 + 45 + 43 + 77 + 49 + 46 + 42 + 63 + 41 + 64 + 79)/50 = 𝟓𝟖. 𝟕

𝑛 (69 − 58.7)2 + (56 − 58.7)2 + (73 − 58.7)2 + (66 − 58.7)2


2
1 1
𝑠𝑛−1 = ∑(𝑥𝑖 − 𝑥̅ )2 = (+(64 − 58.7)2 + (44 − 58.7)2 + (36 − 58.7)2 + ⋯ + (41 − 58.7)2)
𝑛−1 50 − 1
𝑖=1 +(64 − 58.7)2 + (79 − 58.7)2

2
𝑠𝑛−1 = 𝟐𝟎𝟔. 𝟗𝟒𝟖𝟗𝟖

M.C. LEONARDO A. MEDINA R. 11


Estadística Descriptiva

Para datos agrupados, se utiliza la media de datos agrupados, las marcas de clase y la frecuencia.

Límite de Marca de Frecuencia F.Acumulada F. Relativa F.A.Relativa 𝑥𝑖 ∙ 𝑓𝑖


𝑓𝑖 𝐹𝑖
clase clase 𝑥𝑖 𝑓𝑖 𝐹𝑖
𝑛 𝑛
[30,38) 34 4 4 0.08 0.08 136
[38,46) 42 7 11 0.14 0.22 294
[46,54) 50 8 19 0.16 0.38 400
[54,62) 58 7 26 0.14 0.52 406
[62,70) 66 10 36 0.20 0.72 660
[70,78) 74 10 46 0.20 0.92 740
[78,86) 82 4 50 0.08 1 328
𝑚
Totales ∑ 𝑓𝑖 = 50 ∑𝑖=1 𝑥𝑖 𝑓𝑖 = 2964

𝑚
1 2964
𝑥̅ = ∑ 𝑥𝑖 𝑓𝑖 = = 59.28
𝑛 50
𝑖=1

𝑚 (34 − 59.28)2 (4) + (42 − 59.28)2 (7) + (50 − 59.28)2 (8)


2
1 1
𝑠𝑛−1 = ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 = (+(58 − 59.28)2 (7) + (66 − 59.28)2 (10) + (74 − 59.28)2 (10))
𝑛−1 49
𝑖=1 +(82 − 59.28)2 (4)

2
𝑠𝑛−1 = 204.69551

Ejemplo 7.2. Para el ejemplo 2.2 determine la variancia de los datos sin agrupar y agrupados.

Desviación estándar. La desviación estándar de un conjunto de datos es la raíz cuadrada de la


variancia. Se denota por 𝑠𝑛−1 o por 𝑠𝑛 , dependiendo de si se obtiene la desviación estándar de una
muestra o de toda la población.

Es claro que para calcular la desviación estándar debe calcularse la variancia primero, de forma que:

2
𝑠𝑛−1 = √𝑠𝑛−1

𝑠𝑛 = √𝑠𝑛2

La desviación estándar del ejemplo 7.1 es

𝑠𝑛−1 = √206.94898 = 14.3857214 𝐷𝑎𝑡𝑜𝑠 sin 𝑎𝑔𝑟𝑢𝑝𝑎𝑟

𝑠𝑛−1 = √204.69551 = 14.3071839 𝐷𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠

M.C. LEONARDO A. MEDINA R. 12

También podría gustarte