Está en la página 1de 11

3

Medidas numéricas Descriptivas

3.1 Introducción.

De manera Intuitiva, un valor de una estadística o estimador se


calcula con los datos correspondientes a una variable de interés en una
muestra obtenida por conveniencia o escogida usando métodos
aleatorios. Un parámetro es un valor verdadero para toda la población,
el cual se calcula con los datos poblacionales referidos a una
determinada variable que interesa analizar. En este capítulo se presentan
las principales medidas Descriptivas correspondientes a medidas de
tendencia central, posición y variabilidad.

3.2 Valores de estadísticas y parámetros.

Si los datos x1 , x2 ,...xn son las observaciones (valores numéricos) de


la variable X que corresponden a una muestra de tamaño n , entonces
un valor x de la estadística X denominada media muestral, está dado
por:
n

x i
x i 1

Para datos agrupados, x se puede calcular utilizando la siguiente


expresión:
m

x
j 1
j fj
x
n

53
Los x j corresponden a la marca de clase en una tabla de frecuencias
para datos agrupados y m al número de clases.

Para medir la dispersión de los datos en una muestra se pueden


utilizar valores correspondientes a estadísticas como: la varianza, la
desviación estándar o el coeficiente de variación.

Un valor s 2 de la estadística S 2 denominada varianza muestral,


cuyo valor no es conveniente interpretar ya que resulta en unidades
cuadradas, se calcula a través de la siguiente expresión,
n

 (x  x ) i
2

s2  i 1

Para datos agrupados, s 2 se pude calcular mediante,

 (x
j 1
j  x )2 f j
s2 
n

Un valor ŝ 2 de la estadística Ŝ 2 llamada cuasi varianza muestral o


varianza muestral corregida utilizada por lo general cuando el número
de datos es pequeño ( n  30 ), se calcula a través de la siguiente
expresión,

 (x  x ) i
2

sˆ 2  i 1

n 1

Para datos agrupados,


m ( x j  x )2 f j
sˆ2  
j 1 n 1

De las anteriores expresiones se tiene la siguiente relación:

54
n 2
sˆ2  s
n 1

Un valor s para la estadística S denominada desviación estándar


es:

 (x  x ) i
2

s i 1

Para datos agrupados,


m

 (x
j 1
j  x )2 f j
s
n

La desviación estándar indica qué tan desviados están los datos con
respecto a la media, si los datos están cercanos a la media, la desviación
estándar resulta pequeña y se constituye en un indicio de que los datos
pueden ser homogéneos. Un valor ŝ para la estadística Ŝ llamada
desviación estándar corregida o cuasi desviación estándar es:

 (x  x ) i
2

sˆ  i 1

n 1

Para datos agrupados,


m

 (x
j 1
j  x )2 f j
sˆ 
n 1

La desviación estándar corregida se utiliza para definir el coeficiente


de variación, el cual se calcula de la siguiente manera:

55

cv 
x

El coeficiente de variación solo tiene sentido (es adecuado usarlo)


con variables en escala de razón, sólo allí es válido.

Para hacer análisis exploratorio de datos, se inicia determinando


algunas medidas numéricas descriptivas que se obtienen con las
observaciones (datos) de la variable que se esté estudiando, es decir se
recomienda empezar con un análisis univariado de datos. Si se tiene más
de una variable y se hace un análisis para cada variable sin considerar
alguna relación o dependencia entre ellas se está trabajando aún un
análisis univariante de datos. Un análisis multivariado de datos involucra
el estudio conjunto de las relaciones (correlaciones) que se puedan
presentar entre dos o más variables.

Los parámetros o valores verdaderos para toda la población son


valores que permitirán determinar completamente a una población objeto
de estudio, algunas medidas descriptivas correspondientes a parámetros
son: la media poblacional, la varianza poblacional, la desviación
estándar poblacional, el coeficiente de variación poblacional, entre otros.

Si se tiene datos x1 , x2 ,...xN correspondientes a una variable X que


se desea estudiar en todos los individuos de la población de tamaño N ,
se puede calcular el parámetro media poblacional denotada con 
mediante la siguiente expresión:

x i
 i 1

N
Para datos agrupados, se utiliza:
m

x
j 1
j fj

N

56
Los x j corresponden a la marca de clase en una tabla de frecuencias
para datos agrupados.

La varianza poblacional es un parámetro dado por:

 (x  ) i
2

2  i 1

Para datos agrupados,


m

 (x
j 1
j   )2 f j
2 
N

La desviación estándar poblacional está dada por:

 (x  ) i
2

 i 1

N
Para datos agrupados,

 (x
j 1
j   )2 f j

N

El coeficiente de variación poblacional se calcula de la siguiente


forma:


CV 

Ejemplo 3.1. En la Tabla 3.1 se presentan 50 datos correspondientes


al salario diario en pesos de los trabajadores de la empresa M&A.

57
40200 28350 21750 110625 35100
21450 27750 24000 42000 23250
21900 35100 16950 92000 29250
45000 27300 21150 81250 30750
32100 40800 31050 31350 22350
36000 46000 60375 29100 30000
21900 103750 32550 31350 30750
27900 42300 135000 36000 34800
24000 26250 31200 19200 60000
30300 38850 36150 23550 35550
Tabla 3.1

Se ha seleccionado de la Tabla 3.1 una muestra por conveniencia de


tamaño n  5 para hacer un análisis exploratorio del salario de los
trabajadores de la empresa M&A, la muestra resultó conformada por los
siguientes datos:

40200, 21450, 21900, 45000, 32100

Más adelante se analizaran algunas medidas de posición para los


datos de este ejemplo. Un valor de la media muestral o promedio se
calcula de la siguiente manera,

x i
40200  21450  21900  45000  32100 160650
x i 1
   32130
n 5 5

Se puede interpretar así: en una muestra de 5 trabajadores de la


empresa M&A en promedio el salario diario es de 32130 pesos. Lo
anterior significa que si el total pagado por salario diario en la muestra
de 5 tomada por conveniencia se dividiera en partes iguales, cada uno de
los 5 trabajadores debería recibir 32130 pesos.

Un valor de la varianza muestral es,

(40200  32130)2  (21450  32130)2  (21900  32130)2  (45000  32130)2  (32100  32130)2
s2 
5

58
449478000
s2 
 89895600 pesos 2
5
Como se observa la varianza no se debe interpretar, ya que las
unidades quedan expresadas al cuadrado.

Un valor de la desviación estándar muestral se obtiene de la


siguiente forma:

s  89895600pesos2  9481.32 pesos

Un valor de la cuasi varianza es:

(40200  32130)2  (21450  32130)2  (21900  32130)2  (45000  32130)2  (32100  32130)2
sˆ2 
4

449478000
sˆ2   112369500 pesos 2
4

El anterior valor también se puede obtener utilizando la siguiente


relación entre la cuasi varianza y la varianza.

n 2 5
sˆ2  s  (89895600)  112369500 pesos 2
n 1 5 1

Un valor de la cuasi desviación estándar o desviación estándar


corregida es,

n
( xi  x )2
sˆ  
i 1 n 1
 112369500  10600.44 pesos

Un valor del coeficiente de variación se determina por:

sˆ 10600.44
cv    0.3299
x 32130
59
El coeficiente de variación se puede utilizar como una medida de
homogeneidad de los datos siempre y cuando ellos estén en una escala
de razón. Es razonable pensar que un coeficiente de variación inferior al
0.08 (8%) indica que los datos son homogéneos, desde 0.08 hasta 0.18
moderadamente homogéneos, entre el 0.18 y el 0.3 moderadamente
heterogéneos y superior a 0.3 (30%) los datos pueden considerarse
heterogéneos. Los anteriores límites no son absolutos y se han
establecido tomando como base la experiencia, cuando la media es muy
pequeña el coeficiente de variación no es muy confiable. Para el ejemplo
anterior, se obtuvo un cv  0.3299 que corresponde al 32.99% lo cual
indica que los datos de la muestra considerada son heterogéneos.

Además es importante resaltar que si el coeficiente de variación se


aproxima más a cero (0), menor es la dispersión relativa y mejor la
representatividad de la media aritmética; dicho coeficiente también se
utiliza para comparar la variabilidad relativa entre dos conjuntos de
datos, independientemente del valor de sus medias y de la unidad de
medida de las variables.
Ejemplo 3.2. Los datos que se presentan a continuación
corresponden a una muestra aleatoria de tamaño n  5 (seleccionada con
muestreo aleatorio simple) de la Tabla 3.1 para realizar una segunda
exploración sobre el salario de los trabajadores de la empresa M&A.

40800, 38850, 35100, 46000, 36000

Otro valor de la media o promedio calculado en la segunda muestra


es,

x i
40800+38850+35100+46000+36000 196750
x i 1
   39350
n 5 5

El anterior valor indica, en una segunda muestra escogida


aleatoriamente también de tamaño 5 de trabajadores de la empresa M&A
en promedio el salario diario es de 39350 pesos. Esto significa que si el
total pagado por salario diario en esta segunda muestra de 5 se repartiera
en partes iguales, cada uno de los 5 trabajadores debería recibir 39350
pesos.

60
Otro valor de la varianza obtenido con los datos de la segunda
muestra es,

(40800  39350)2  (38850  39350)2  (35100  39350)2  (46000  39350)2  (36000  39350)2
s2 
5

75860000
s2   15172000 pesos 2
5

Otro valor de la desviación estándar que se obtiene con los datos de


la segunda muestra es,

s  15172000  3895.12 pesos

Otro valor de la cuasi varianza es:


n 2 5
sˆ2  s  (15172000)  18965000 pesos 2
n 1 5 1

Otro valor de la cuasi desviación estándar es,

 (x  x )
i
2

sˆ  i 1
 18965000  4354.88 pesos
n 1

Otro valor del coeficiente de variación se determina por,

sˆ 4354.88
cv    0.1106
x 39350

Como cv  0.1106 , que corresponde al 11.06%, entonces los datos


que conforman la segunda muestra se pueden considerar moderadamente
homogéneos.

Ejemplo 3.3. Si se toman los N  50 datos correspondientes a la


variable salario diario en pesos de los trabajadores de la empresa M&A,
se pueden obtener los valores de los parámetros para la media

61
poblacional, la varianza, la desviación estándar poblacional y el
coeficiente de variación. Al aplicar las fórmulas se obtienen:

x i
 i 1
 39112 pesos
N

N
( xi   )2
2   586115581 pesos 2
i 1 N

N
( xi   )2
 
i 1 N
 24209.82 pesos

 24209.82
CV    0.6189
 39112

Si se observan los valores de la media para las dos muestras


consideradas y se comparan con el parámetro, se puede afirmar que el
valor de la media calculada en la muestra aleatoria de tamaño 5
seleccionada de la población mencionada en el ejemplo 3.1 está más
cerca del parámetro   39112 pesos o verdadero valor de la media
poblacional. Si ahora se toman en cuenta los valores para el coeficiente
de variación en las dos muestras consideradas, se puede afirmar que el
coeficiente de variación de la primera muestra está menos distante al
valor del parámetro CV  0.6189 . En el caso anterior es posible que el
tamaño (pequeño) de la muestra esté influyendo para que los valores de
las estadísticas mencionadas no resultaran cercanos a los parámetros.

Ejemplo 3.4. A continuación se retoma el estudio de la variable X :


ventas en millones de pesos en el mes de Julio de 2008 de 50
restaurantes en la ciudad de Cali, cuyos datos se indicaron en la Tabla 2.9
de frecuencias para datos agrupados. Si se asume que los datos
corresponden a una muestra, entonces se calculan algunos valores de las
estadísticas media o promedio, varianza, desviación estándar y
coeficiente de variación usando los datos y resultados que se indican en
la Tabla 3.2.

62
X fj xj xj f j ( x j  x )2 ( x j  x )2 f j
Li - Ls
191 – 212 11 201.5 2216.5 2456.1936 27018.1296
212 – 233 13 222.5 2892.5 815.6736 10603.7568
233– 254 7 243.5 1704.5 57.1536 400.0752
254 – 275 3 264.5 739.5 180.6336 541.9008
275 – 296 5 285.5 1427.5 1186.1136 5930.568
296 –317 4 306.5 1226 3073.5936 12294.3744
317– 338 7 327.5 2292.5 5843.0736 40901.5152
n = 7

x j f j  12553  97690.32
50 j 1

Tabla 3.2

x
j 1
j f
12553
x   251.06 millones de pesos
n 50
m

 (x
j 1
j  x )2 f j
97690.32
s2    1953.8064
n 50

s  1953.8064  44.2 millones de pesos


m

 (x
j 1
j  x )2 f j
97690.32
sˆ2    1993.68
n 1 49

 (x
j 1
j  x )2 f j
sˆ   1993.68  44.65 millones de pesos
n 1

sˆ 44.65
cv  
x 251.06

Puesto que cv  0.1778 , que corresponde al 17,78%, así los datos


que conforman la muestra de las ventas en millones de pesos en el mes
63

También podría gustarte