Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIDAD II
Cualquiera sea el conjunto de datos en los cuales se ha estudiado una o más va-
riables cuantitativas, resulta interesante tener información resumida de sus caracterís-
ticas, como pueden ser la localización del conjunto de observaciones y la dispersión de
éstas. Definiremos entonces algunas medidas de posición y otras de dispersión utiliza-
das en el estudio de variables unidimensionales.
Las medidas de posición más utilizadas son los valores medios o de tendencia
central (promedios, mediana y modo) aunque también dan mucha información los
cuartiles, los deciles y los percentiles. Estas medidas proporcionan la diferencia de lo-
calización de la distribución sobre el eje de las abscisas respecto al origen. Graficamen-
te obsevamos el desplazamiento de una distribución de frecuencias respecto a la otra
sobre el eje de las abscisas.
fi
fi
Las medidas de asimetría son aquellas que tomando como eje de simetría la or-
denada correspondiente a un valor central, clasificaremos las distribuciones en simétri-
cas, asimétrica a la derecha y asimétrica a la izquierda.
SERIE SIMPLE
Cuando la cantidad de observaciones (n) es pequeña, entonces disponemos de una se-
rie simple de datos, no es necesario organizarlos en una tabla de frecuencias.
Supongamos una serie simple de observaciones unidimensionales : x1, x2,
......, xn,
En dicha serie podemos calcular todas las medidas de posición (salvo el modo), y to-
das las medidas de dispersión.
Medidas de posición
Promedios :
Existen tres tipos de promedio : aritmético, geométrico y armónico. Según la natu-
raleza de la variable corresponde usar uno u otro promedio. Cualquiera sea el
promedio utilizado, en su cálculo intervienen todos los valores observados.
n
xi
Promedio aritmético: x i 1
n
- El promedio de una constante es la misma constante.
- El promedio de una variable multiplicada por una constante es igual a la cons-
tante multiplicada por el promedio de la variable.
Por ser el más utilizado, el más importante es el promedio aritmético x que tam-
bién lo simbolizaremos M(x), además de estas dos propiedades:
n
xi x1 x2 ....... xn
i 1
Promedio Aritmético : x M (x)
n n
Propiedades
Demostracion:
n n n n n
( x j k) x k x
j j k
j 1 j 1 j 1 j 1 j 1
M(x k) M ( x) k
n n n n
• M(a.x ± b) = a.M(x) ± b para a, b constantes
• M( xi - x ) = 0
Demostración
n n n
( x i x ) 0 x j x nx nx 0
i 1 j 1 j 1
• M(xi - x )2 = mínimo
Demostración
n
( xi x )2 min
i 1
n n
( x j x ) ( x j C )2 ,
2
para cx
j 1 j 1
n n
x 2j nx 2 x 2j nx 2 n2 lo queimplicaque
j 1 j 1
n n
( x j x )2 ( x j C )2 , para Cx
j 1 j 1
Mediana :
Es el valor de la variable que supera a no más de la mitad de las observaciones
y a la vez es superada por no más de la mitad de las observaciones. Para su cálculo es
necesario ordenar la serie de datos.
Si n (cantidad de observaciones) es impar, entonces la mediana es el valor
que ocupa el lugar central.
M na x n 1
2
2
Otras medidas de posición, ya no de tendencia central, son :
Cuartiles :
x n x n 1 x 3n x 3n 1
Qi Q1 4 4
Qs Q3 4 4
2 2
Deciles :
Son valores de la variable que dividen (o clasifican) a las observaciones en 10 partes,
cada una de ellas conteniendo no más del 10% de las observaciones
Medidas de dispersión
Entre las más simples se encuentran el rango, el recorrido intercuartil y la desviación
cuartílica, simples porque para su cálculo sólo intervienen dos valores.
Rango :
Es la diferencia entre los valores extremos : el máximo valor observado menos el mí-
nimo valor observado : R = xmáx - xmín
Recorrido Intercuartil :
Es la diferencia entre los cuartiles: cuartil superior menos cuartil inferior, su ventaja
frente al Rango es que elimina el 50% de los valores extremos. El recorrido intercuartil
cubre el 50% de las observaciones centrales : RQ Qs Qi
Desviación Cuartílica :
Qs Qi
Es la mitad del recorrido intercuartil : DQ
2
En distribuciones simétricas se verifica que el intervalo ( x DQ ; x DQ) contiene el
50% de las observaciones centrales, pues coincide con el intervalo (Qi ; Qs )
Variancia :
Se la define y calcula como el promedio de los cuadrados de los desvíos respecto de la
media aritmética.
n n
( xi x ) 2 xi2
i 1 i 1
V ( x) x2
n n
Propiedades de la variancia :
- 1 - V(x) > 0 para X variable
- 2 - V(k) = 0 para k constante
- 3 - V(x ± k) = V(x) para k constante
- 4 - V(k.x) = k2.V(x) para k constante
2
- 5 - V(a.x ± b) = a .V(x) para a y b constantes
-6 - V( x ± y ) = V(x) + V(y) para x, y variables independientes
-7 - V( x ± y ) = V(x) + V(y) 2 cov (x,y) para x, y variables no inde-
pendientes
Observaciones:
Si V(x) = 0 entonces X es una constante (no es variable)
Dadas dos poblaciones existe mayor dispersión en aquella que posee mayor va-
riancia.
Desvío Standart :
El desvío standart es la medida de dispersión más utilizada. En su cálculo inter-
vienen todas las observaciones. Se lo define como la raíz cuadrada de la varian-
cia.
n
(x x)i
2
S ( x) i 1
n
Observe que el desvío standart está expresado en la misma unidad de medida
que la variable y su media; en cambio la variancia lo está en términos de "cua-
drados de unidades".
Propiedades del desvío standart :
- 1 - S(x) > 0 para X variable
- 2 - S(k) = 0 para k constante
- 3 - S(x ± k) = S(x) para k constante
- 4 - S(k.x) = k.S(x) para k constante
- 5 - S(a.x ± b) = a.S(x) para a y b constantes
xi . f i x . f i i m
fi m
promedio aritmético = x i 1
m
i 1
xi . xi hi
f
n i 1 n i 1
i
i 1
Mediana y Modo
El cálculo de la mediana y el modo es muy sencillo, basta observar los gráficos.
Analíticamente :
Mediana :
Modo :
Es el valor de la variable al cual le corresponde la máxima frecuencia. Por lo tanto, se
busca la mayor frecuencia simple f i , y el modo será el valor xi de la variable al cual
le corresponda dicha frecuencia simple f i .
xn xn
1
M na 2 2
2
Notas : - al valor modal Mdo xi le corresponde una frecuencia que supera a la de los
valores inmediatamente superior xi1 e inferior xi1 .
es decir f i f i 1 y f i f i 1
- En una distribución de frecuencias puede existir más de un modo. Si existen
dos modos, la distribución se denomina bimodal.
Cuartiles:
Se determinan gráficamente.
3n
Q3
4
n
Q1
4
n
Qi Q1
o o
Analíticamente : Se calculan los cuartiles de orden
4
3. n
Qs Q3
o o
Variancia :
En su cálculo intervienen todas las observaciones. Al igual que en el cálculo de los
promedios, se toman los distintos valores observados tantas veces como lo indican sus
respectivas frecuencias.
La variancia es el promedio de los cuadrados de los desvíos respecto de la media arit-
mética.
m m
( xi x ) 2 . f i x 2
i . fi
V ( x) i 1
m
i 1
x2
f
n
i
i 1
Desvío Standart
m
(x x) . f
i
2
i
S ( x) i 1
n
Datos agrupados
Si los datos están agrupados en intervalos o clases, entonces se pierde parte de la in-
formación.
Se supone que la distribución es uniforme dentro de cada intervalo y que éste está re-
presentado por su punto medio.
m es la cantidad de intervalos
Promedio Aritmético :
m m
x . f i i x . f i i m
fi m
x i 1
m i 1
xi . xi hi
f i
n i 1 n i 1
i 1
Mediana :
n
Se busca la mediana de orden M na , luego se determina la frecuencia acumu-
o
2
lada Fi tal que Fi 1 M ona Fi . Esto indica que la mediana será el valor que
pertenece al i-ésimo intervalo, para el cual corresponde la frecuencia acumula-
da Fi . Es decir :
M na ( xi1 ; xi )
Utilizando las propiedades de triángulos semejantes, se deduce que la mediana es:
o
M na Fi 1
M na xi1 .( xi xi1 )
fi
n
2
Modo :
Es el valor de la variable al cual le corresponde la máxima frecuencia. En este caso no
existe un valor de máxima frecuencia, sino un intervalo de máxima frecuencia. Por lo
tanto tendremos un intervalo modal, que será aquél al cual le corresponda la mayor
frecuencia simple f i , siendo ésta aquella frecuencia que supera a la de los intervalos
inmediatamente superior e inferior, es decir f i f i 1 y f i f i 1 .
Una vez identificado el intervalo modal, se sabe que el modo pertenece al mismo, es
decir :
M do ( xi1 ; xi )
1
M do xi1 .( xi xi1 )
1 2
Se calcula graficamente de la siguiente forma:
Cuartiles :
El cálculo de los cuartiles es muy similar al de la mediana. Primeramente se calcula el
n 3. n k .n
Qi Q1 Qs Q3 , en general : Qk
o o o o o
cuartil de orden o , luego
4 4 4
tal que Fi 1 Qk Fi . Esto indica que la
o
se determina la frecuencia acumulada Fi
mediana será el valor que pertenece al i-ésimo intervalo, para el cual corresponde la
frecuencia acumulada Fi . Es decir :
Qk ( xi1 ; xi )
y por la misma propiedad de triángulos semejantes se deduce que :
Qko Fi 1
Qk xi1 .( xi xi1 )
fi
Relación entre las medidas de posición de tendencia central
Si la distribución es simétrica, entonces la media aritmética coincide con el modo y la
mediana
Como la media aritmética se halla muy afectada por los valores de datos extremos, y
la mediana tan sólo por la cantidad de datos extremos. Por lo tanto , en una distribu-
ción asimétrica , resulta lo siguiente:
Variancia :
m m
( x x ) . f
i
2
i x . f 2
i i
i 1 i 1
V ( x) m x2
f i
n
i 1
Desvío Standart :
m
( x x ) . f i
2
i
i 1
S ( x)
n
S ( x)
C.V . .100
X
Cuándo se lo utiliza?
- Cuando es necesario comparar dos poblaciones en las cuales se estudia variables di-
ferentes, y por lo tanto se está utilizando unidades de medida diferentes.
- Cuando es necesario comparar dos poblaciones en las cuales se estudia la misma va-
riable pero con medias diferentes , ya que una misma dispersión no significa tanto
si la media de la variable es mayor.
VARIABLE BIDIMENSIONAL:
x . f i i.
i 1
M ( x) x
n
p
y . f j .j
j 1
M ( y) y
n
m m
( xi x ) 2 . f i. x . f 2
i i.
i 1 i 1
V ( x) x2
n n
p p
( y j y ) . f. j
2
y . f 2
j .j
j 1 j 1
V ( y) y2
n n
m p m p
(x x ).( y i j y ). f ij x . y . fi j ij
i 1 j 1 i 1 j 1
Cov( x , y ) x. y
n n
Covariancia:
En el estudio de una variable bidimensional adquiere importancia el análisis de
la variación conjunta de ambas variables, además de la media y la variancia de
cada variable. La variación conjunta se mide a través de un coeficiente llamado
covariancia.
Sea la siguiente serie simple de datos bidimensionales :
(x1, y1 ), (x2, y2 ), (x3, y3 ), ......, (xn, yn )
A este conjunto de datos podemos estudiarle las siguientes características que conden-
san dicha información :
n n n
xi ( xi x ) 2 x 2
i
i 1 i 1
M ( x) x i 1
V ( x) x2
n n n
n n n
y i ( y y ) i
2
y 2
i
i 1 i 1
M ( y) y i 1
V ( y) y2
n n n
n n
(x i x ).( yi y ) x .y i i
Cov( x, y ) i 1
i 1
x. y
n n
Signo de la covariancia
Cuadrante Relación respecto al promedio Signo de los desvíos Signo del produc-
to
xi x yi y ( xi x ).( yi y )
I xi x , yi y + + +
II xi x , yi y - + -
III xi x , yi y - - +
IV xi x , yi y + - -
Y Y
X X