Media - Desviación Estándar - CV Tomado de Valdivieso (2011)

3
Medidas numéricas Descriptivas
3.1 Introducción.
De manera Intuitiva, un valor de una estadística o estimador se

calcula con los datos correspondientes a una variable de interés en una
muestra obtenida por conveniencia o escogida usando métodos
aleatorios. Un parámetro es un valor verdadero para toda la población,
el cual se calcula con los datos poblacionales referidos a una
determinada variable que interesa analizar. En este capítulo se presentan
las principales medidas Descriptivas correspondientes a medidas de
tendencia central, posición y variabilidad.
3.2 Valores de estadísticas y parámetros.
Si los datos x1 , x2 ,...xn son las observaciones (valores numéricos) de

la variable X que corresponden a una muestra de tamaño n , entonces
un valor x de la estadística X denominada media muestral, está dado
por:
n
x i
x i 1
Para datos agrupados, x se puede calcular utilizando la siguiente

expresión:
m
x
j 1
j fj
x
n
53
Los x j corresponden a la marca de clase en una tabla de frecuencias
para datos agrupados y m al número de clases.
Para medir la dispersión de los datos en una muestra se pueden

utilizar valores correspondientes a estadísticas como: la varianza, la
desviación estándar o el coeficiente de variación.
Un valor s 2 de la estadística S 2 denominada varianza muestral,

cuyo valor no es conveniente interpretar ya que resulta en unidades
cuadradas, se calcula a través de la siguiente expresión,
n
 (x  x ) i
2
s2  i 1
Para datos agrupados, s 2 se pude calcular mediante,
 (x
j 1
j  x )2 f j
s2 
n
Un valor ŝ 2 de la estadística Ŝ 2 llamada cuasi varianza muestral o

varianza muestral corregida utilizada por lo general cuando el número
de datos es pequeño ( n  30 ), se calcula a través de la siguiente
expresión,
 (x  x ) i
2
sˆ 2  i 1
n 1
Para datos agrupados,

m ( x j  x )2 f j
sˆ2  
j 1 n 1
De las anteriores expresiones se tiene la siguiente relación:
54
n 2
sˆ2  s
n 1
Un valor s para la estadística S denominada desviación estándar

es:
 (x  x ) i
2
s i 1

m
 (x
j 1
j  x )2 f j
s
n
La desviación estándar indica qué tan desviados están los datos con
respecto a la media, si los datos están cercanos a la media, la desviación
estándar resulta pequeña y se constituye en un indicio de que los datos
pueden ser homogéneos. Un valor ŝ para la estadística Ŝ llamada
desviación estándar corregida o cuasi desviación estándar es:
 (x  x ) i
2
sˆ  i 1
n 1

m
 (x
j 1
j  x )2 f j
sˆ 
n 1
La desviación estándar corregida se utiliza para definir el coeficiente

de variación, el cual se calcula de la siguiente manera:
55
ŝ
cv 
x
El coeficiente de variación solo tiene sentido (es adecuado usarlo)

con variables en escala de razón, sólo allí es válido.
Para hacer análisis exploratorio de datos, se inicia determinando

algunas medidas numéricas descriptivas que se obtienen con las
observaciones (datos) de la variable que se esté estudiando, es decir se
recomienda empezar con un análisis univariado de datos. Si se tiene más
de una variable y se hace un análisis para cada variable sin considerar
alguna relación o dependencia entre ellas se está trabajando aún un
análisis univariante de datos. Un análisis multivariado de datos involucra
el estudio conjunto de las relaciones (correlaciones) que se puedan
presentar entre dos o más variables.
Los parámetros o valores verdaderos para toda la población son

valores que permitirán determinar completamente a una población objeto
de estudio, algunas medidas descriptivas correspondientes a parámetros
son: la media poblacional, la varianza poblacional, la desviación
estándar poblacional, el coeficiente de variación poblacional, entre otros.
Si se tiene datos x1 , x2 ,...xN correspondientes a una variable X que

se desea estudiar en todos los individuos de la población de tamaño N ,
se puede calcular el parámetro media poblacional denotada con 
mediante la siguiente expresión:
x i
 i 1
N
Para datos agrupados, se utiliza:
m
x
j 1
j fj

N
56
Los x j corresponden a la marca de clase en una tabla de frecuencias
para datos agrupados.
La varianza poblacional es un parámetro dado por:
 (x  ) i
2
2  i 1

m
 (x
j 1
j   )2 f j
2 
N
La desviación estándar poblacional está dada por:
 (x  ) i
2
 i 1
N
 (x
j 1
j   )2 f j

N
El coeficiente de variación poblacional se calcula de la siguiente

forma:

CV 

Ejemplo 3.1. En la Tabla 3.1 se presentan 50 datos correspondientes

al salario diario en pesos de los trabajadores de la empresa M&A.
57
40200 28350 21750 110625 35100
21450 27750 24000 42000 23250
21900 35100 16950 92000 29250
45000 27300 21150 81250 30750
32100 40800 31050 31350 22350
36000 46000 60375 29100 30000
21900 103750 32550 31350 30750
27900 42300 135000 36000 34800
24000 26250 31200 19200 60000
30300 38850 36150 23550 35550
Tabla 3.1
Se ha seleccionado de la Tabla 3.1 una muestra por conveniencia de

tamaño n  5 para hacer un análisis exploratorio del salario de los
trabajadores de la empresa M&A, la muestra resultó conformada por los
siguientes datos:
40200, 21450, 21900, 45000, 32100
Más adelante se analizaran algunas medidas de posición para los

datos de este ejemplo. Un valor de la media muestral o promedio se
calcula de la siguiente manera,
x i
40200  21450  21900  45000  32100 160650
x i 1
   32130
n 5 5
Se puede interpretar así: en una muestra de 5 trabajadores de la

empresa M&A en promedio el salario diario es de 32130 pesos. Lo
anterior significa que si el total pagado por salario diario en la muestra
de 5 tomada por conveniencia se dividiera en partes iguales, cada uno de
los 5 trabajadores debería recibir 32130 pesos.
Un valor de la varianza muestral es,
(40200  32130)2  (21450  32130)2  (21900  32130)2  (45000  32130)2  (32100  32130)2
s2 
5
58
449478000
s2 
 89895600 pesos 2
5
Como se observa la varianza no se debe interpretar, ya que las
unidades quedan expresadas al cuadrado.
Un valor de la desviación estándar muestral se obtiene de la

siguiente forma:
s  89895600pesos2  9481.32 pesos
Un valor de la cuasi varianza es:
(40200  32130)2  (21450  32130)2  (21900  32130)2  (45000  32130)2  (32100  32130)2
sˆ2 
4
449478000
sˆ2   112369500 pesos 2
4
El anterior valor también se puede obtener utilizando la siguiente

relación entre la cuasi varianza y la varianza.
n 2 5
sˆ2  s  (89895600)  112369500 pesos 2
n 1 5 1
Un valor de la cuasi desviación estándar o desviación estándar

corregida es,
n
( xi  x )2
sˆ  
i 1 n 1
 112369500  10600.44 pesos
Un valor del coeficiente de variación se determina por:
sˆ 10600.44
cv    0.3299
x 32130
59
El coeficiente de variación se puede utilizar como una medida de
homogeneidad de los datos siempre y cuando ellos estén en una escala
de razón. Es razonable pensar que un coeficiente de variación inferior al
0.08 (8%) indica que los datos son homogéneos, desde 0.08 hasta 0.18
moderadamente homogéneos, entre el 0.18 y el 0.3 moderadamente
heterogéneos y superior a 0.3 (30%) los datos pueden considerarse
heterogéneos. Los anteriores límites no son absolutos y se han
establecido tomando como base la experiencia, cuando la media es muy
pequeña el coeficiente de variación no es muy confiable. Para el ejemplo
anterior, se obtuvo un cv  0.3299 que corresponde al 32.99% lo cual
indica que los datos de la muestra considerada son heterogéneos.
Además es importante resaltar que si el coeficiente de variación se

aproxima más a cero (0), menor es la dispersión relativa y mejor la
representatividad de la media aritmética; dicho coeficiente también se
utiliza para comparar la variabilidad relativa entre dos conjuntos de
datos, independientemente del valor de sus medias y de la unidad de
medida de las variables.
Ejemplo 3.2. Los datos que se presentan a continuación
corresponden a una muestra aleatoria de tamaño n  5 (seleccionada con
muestreo aleatorio simple) de la Tabla 3.1 para realizar una segunda
exploración sobre el salario de los trabajadores de la empresa M&A.
40800, 38850, 35100, 46000, 36000
Otro valor de la media o promedio calculado en la segunda muestra

es,
x i
40800+38850+35100+46000+36000 196750
x i 1
   39350
n 5 5
El anterior valor indica, en una segunda muestra escogida

aleatoriamente también de tamaño 5 de trabajadores de la empresa M&A
en promedio el salario diario es de 39350 pesos. Esto significa que si el
total pagado por salario diario en esta segunda muestra de 5 se repartiera
en partes iguales, cada uno de los 5 trabajadores debería recibir 39350
pesos.
60
Otro valor de la varianza obtenido con los datos de la segunda
muestra es,
(40800  39350)2  (38850  39350)2  (35100  39350)2  (46000  39350)2  (36000  39350)2
s2 
5
75860000
s2   15172000 pesos 2
5
Otro valor de la desviación estándar que se obtiene con los datos de

la segunda muestra es,
s  15172000  3895.12 pesos
Otro valor de la cuasi varianza es:

n 2 5
sˆ2  s  (15172000)  18965000 pesos 2
n 1 5 1
Otro valor de la cuasi desviación estándar es,
 (x  x )
i
2
sˆ  i 1
 18965000  4354.88 pesos
n 1
Otro valor del coeficiente de variación se determina por,
sˆ 4354.88
cv    0.1106
x 39350
Como cv  0.1106 , que corresponde al 11.06%, entonces los datos

que conforman la segunda muestra se pueden considerar moderadamente
homogéneos.
Ejemplo 3.3. Si se toman los N  50 datos correspondientes a la

variable salario diario en pesos de los trabajadores de la empresa M&A,
se pueden obtener los valores de los parámetros para la media
61
poblacional, la varianza, la desviación estándar poblacional y el
coeficiente de variación. Al aplicar las fórmulas se obtienen:
x i
 i 1
 39112 pesos
N
N
( xi   )2
2   586115581 pesos 2
i 1 N
N
( xi   )2
 
i 1 N
 24209.82 pesos
 24209.82
CV    0.6189
 39112
Si se observan los valores de la media para las dos muestras

consideradas y se comparan con el parámetro, se puede afirmar que el
valor de la media calculada en la muestra aleatoria de tamaño 5
seleccionada de la población mencionada en el ejemplo 3.1 está más
cerca del parámetro   39112 pesos o verdadero valor de la media
poblacional. Si ahora se toman en cuenta los valores para el coeficiente
de variación en las dos muestras consideradas, se puede afirmar que el
coeficiente de variación de la primera muestra está menos distante al
valor del parámetro CV  0.6189 . En el caso anterior es posible que el
tamaño (pequeño) de la muestra esté influyendo para que los valores de
las estadísticas mencionadas no resultaran cercanos a los parámetros.
Ejemplo 3.4. A continuación se retoma el estudio de la variable X :

ventas en millones de pesos en el mes de Julio de 2008 de 50
restaurantes en la ciudad de Cali, cuyos datos se indicaron en la Tabla 2.9
de frecuencias para datos agrupados. Si se asume que los datos
corresponden a una muestra, entonces se calculan algunos valores de las
estadísticas media o promedio, varianza, desviación estándar y
coeficiente de variación usando los datos y resultados que se indican en
la Tabla 3.2.
62
X fj xj xj f j ( x j  x )2 ( x j  x )2 f j
Li - Ls
191 – 212 11 201.5 2216.5 2456.1936 27018.1296
212 – 233 13 222.5 2892.5 815.6736 10603.7568
233– 254 7 243.5 1704.5 57.1536 400.0752
254 – 275 3 264.5 739.5 180.6336 541.9008
275 – 296 5 285.5 1427.5 1186.1136 5930.568
296 –317 4 306.5 1226 3073.5936 12294.3744
317– 338 7 327.5 2292.5 5843.0736 40901.5152
n = 7
x j f j  12553  97690.32
50 j 1
Tabla 3.2
x
j 1
j f
12553
x   251.06 millones de pesos
n 50
m
 (x
j 1
j  x )2 f j
97690.32
s2    1953.8064
n 50
s  1953.8064  44.2 millones de pesos

m
 (x
j 1
j  x )2 f j
97690.32
sˆ2    1993.68
n 1 49
 (x
j 1
j  x )2 f j
sˆ   1993.68  44.65 millones de pesos
n 1
sˆ 44.65
cv  
x 251.06
Puesto que cv  0.1778 , que corresponde al 17,78%, así los datos

que conforman la muestra de las ventas en millones de pesos en el mes
63

Media - Desviación Estándar - CV Tomado de Valdivieso (2011)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Media - Desviación Estándar - CV Tomado de Valdivieso (2011)

Cargado por

Copyright:

Formatos disponibles

3

Medidas numéricas Descriptivas

De manera Intuitiva, un valor de una estadística o estimador se

3.2 Valores de estadísticas y parámetros.

Si los datos x1 , x2 ,...xn son las observaciones (valores numéricos) de

Para datos agrupados, x se puede calcular utilizando la siguiente

Para medir la dispersión de los datos en una muestra se pueden

Un valor s 2 de la estadística S 2 denominada varianza muestral,

Para datos agrupados, s 2 se pude calcular mediante,

Un valor ŝ 2 de la estadística Ŝ 2 llamada cuasi varianza muestral o

Para datos agrupados,

De las anteriores expresiones se tiene la siguiente relación:

Un valor s para la estadística S denominada desviación estándar

Para datos agrupados,

Para datos agrupados,

La desviación estándar corregida se utiliza para definir el coeficiente

El coeficiente de variación solo tiene sentido (es adecuado usarlo)

Para hacer análisis exploratorio de datos, se inicia determinando

Los parámetros o valores verdaderos para toda la población son

Si se tiene datos x1 , x2 ,...xN correspondientes a una variable X que

La varianza poblacional es un parámetro dado por:

Para datos agrupados,

La desviación estándar poblacional está dada por:

El coeficiente de variación poblacional se calcula de la siguiente

Ejemplo 3.1. En la Tabla 3.1 se presentan 50 datos correspondientes

Se ha seleccionado de la Tabla 3.1 una muestra por conveniencia de

40200, 21450, 21900, 45000, 32100

Más adelante se analizaran algunas medidas de posición para los

Se puede interpretar así: en una muestra de 5 trabajadores de la

Un valor de la varianza muestral es,

Un valor de la desviación estándar muestral se obtiene de la

s  89895600pesos2  9481.32 pesos

Un valor de la cuasi varianza es:

El anterior valor también se puede obtener utilizando la siguiente

Un valor de la cuasi desviación estándar o desviación estándar

Un valor del coeficiente de variación se determina por:

Además es importante resaltar que si el coeficiente de variación se

40800, 38850, 35100, 46000, 36000

Otro valor de la media o promedio calculado en la segunda muestra

El anterior valor indica, en una segunda muestra escogida

Otro valor de la desviación estándar que se obtiene con los datos de

s  15172000  3895.12 pesos

Otro valor de la cuasi varianza es:

Otro valor de la cuasi desviación estándar es,

Otro valor del coeficiente de variación se determina por,

Como cv  0.1106 , que corresponde al 11.06%, entonces los datos

Ejemplo 3.3. Si se toman los N  50 datos correspondientes a la

Si se observan los valores de la media para las dos muestras

Ejemplo 3.4. A continuación se retoma el estudio de la variable X :

s  1953.8064  44.2 millones de pesos

Puesto que cv  0.1778 , que corresponde al 17,78%, así los datos

También podría gustarte