Está en la página 1de 17

8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Análisis de Datos Unidimensionales


Estadística descriptiva y nociones de probabilidad. [Jesús Estaban García, , José M. Bachero Nebot, ,
Olga Maria Blasco Blasco, , Vicente Coll Serrano, , Rafael Díez García, , Antonia Ivars Escortell,] et
al.Madrid, Spain: Paraninfo, 2005. p25-69.
Copyright: COPYRIGHT 2005 Cengage Learning Paraninfo, S.A.

Texto completo:
Página 25

Análisis de Datos Unidimensionales


2.1. Medidas de posición.
2.2. Medidas de dispersión.
2.3. Momentos.
2.4. Medidas de forma.
2.5. Transformaciones lineales y tipificación de variables.
2.6. Medidas de concentración. Curva de Lorenz e índice de Gini.
Cuestiones de autoevaluación.
Ejercicios propuestos.
Problemas resueltos.
Problemas propuestos.

OBJECTIVOS
Definir una serie de medidas (estadisticos descriptivos básicos) que sinteticen la información
contenida en una distribución de frecuencias unidimensional, tanto de valores agrupados como
sin agrupar, y aprendet a calcularlos e interpretarlos. Comparar la dispersión entre dos o más
variables o distribuciones de frecuencias. Estudiar cómo se ven afectados los estadísticos al
transformar los datos de una variable. Cuantificar e interpretar la concentración de una
distribución.

Página 26 | Inicio del artículo

2.1. Medidas de posición


En general, las medidas de posición indican un valor de la variable en torno al cual se sitúan un grupo
de observaciones. Puede distinguirse entre:

a) Medidas de tendencia central: media aritmética, armónica, geométrica, mediana y moda.

b) Medidas de tendencia no central: cuantiles.

A continuación se abordan los principales detalles conceptuales y de aplicación de cada una de las
medidas referidas anteriormente.

2.1.1. Media aritmética(1)

Es la suma de todos los valores de la variable divididos por el número total de observaciones. Se
denota por .

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 1/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Evidentemente, esta medida sólo se puede calcular si la variable estadística objeto de estudio es de
naturaleza cuantitativa.

El valor que toma la media debe estar siempre incluido entre el valor mínimo y máximo del dominio
de la variable analizada.

Ejemplo 2.1

La plantilla de una empresa durante los últimos 4 meses ha estado formada por 16, 14, 15 y 15
empleados. Determinar la plantilla media de la empresa.

Solución

A partir de la información proporcionada, construimos la distribución de frecuencias. La variable toma


I = 3 valores distintos (xi para i = 1, 2, 3), con frecuencias 1, 2 y 1, respetivamente.

Página 27 | Inicio del artículo

Si se añade una tercera columna que recoja, para cada elemento, el producto xini, su suma se
corresponderá con el numerador de la expresión de la media, de manera que se obtendrá al dividir
por el número total de observaciones (N), en este caso N = 4.

La media será: , es decir, la plantilla media de la empresa en los últimos 4 meses ha sido de 15
empleados.

Obsérvese que la media de empleados ( ) se encuentra comprendida entre el mínimo valor de la


variable (x1 = 14) y el máximo (x3 = 16).

Si la distribución de frecuencias con la que se trabaja es de datos agrupados, para poder calcular la
media se toman, a modo de aproximación a los valores de la variable, las marcas de clase

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 2/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

correspondientes a cada uno de los intervalos, lo que supondrá una pérdida de precisión, que será
tanto mayor cuanto mayor sea la amplitud de los mismos.

Ejemplo 2.2

De un total de 10 asignaturas optativas se ha tomado el número de alumnos matriculados en cada


una de ellas, obteniéndose la siguiente distribución de frecuencias.

¿Cuál es el número medio de alumnos matriculados?

Solución

Para calcular la media de alumnos matriculados ( ), lo primero es determinar la marca de clase (xi, i =
1, 2) de cada intervalo. Seguidamente se añade una columna que recoja el producto xini y se suma.

Página 28 | Inicio del artículo

Al dividir este resultado entre el número total de observaciones (N = 10) se obtiene la media,

La media aritmética puede utilizarse si los datos con los que se trabaja son de naturaleza aditiva, es
decir, que al sumar todos los valores, estos representen el total de la población. Variables aditivas
son, por ejemplo, el número de empleados, la renta, el salario, etc. Por el contrario, variables no
aditivas son: tipos de interés, velocidad, rentabilidad, etc.

Entre las principales ventajas que presenta la media se pueden destacar las siguientes:

Se puede calcular siempre que las variables sean de tipo cuantitativo.


Su cálculo resulta fácil y en él intervienen todos los valores de la distribución.
La media aritmética es el centro de gravedad de la distribución, es decir, es el punto que
por término medio dista menos de todas las observaciones de la distribución.
Es una medida única y definida de forma objetiva en cada distribución de frecuencias.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 3/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de la
distribución puede llegar a ser muy poco representativa del conjunto de los valores observados si
existe mucha dispersión en los datos. Se trata de una medida muy sensible a los valores extremos(2)
.

Ejemplo 2.3

Para un total de 4 empresas se dispone de información relativa al tamaño, medido a través del activo
(millones de €):

¿Cuál es el tamaño medio del conjunto de las empresas?

Página 29 | Inicio del artículo

Solución

El tamaño medio ( ) se obtiene al sumar todos los valores de la variable y dividir por el número de
observaciones (empresas), así:

Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy diferentes entre sí,
con lo que la media (275 millones de €) será poco representativa. Cuando ocurre esto, es preferible
utilizar otras medidas de posición central, por ejemplo la mediana (véase Epígrafe 2.1.2.).

Con todo, la media aritmética es la medida de posición central más utilizada, de la que cabe destacar
las siguientes propiedades:

1. La suma de las desviaciones de todos los valores de la variable respecto a su media es


cero.

2. Si (i = 1, 2, …, k) corresponden a las medias de k grupos distintos de tamaño Ni (i = 1,


2, …, k), respectivamente, se cumple que la media aritmética del conjunto es:

3. Depende de los cambios de origen y de unidad (véase Apartado 2.5).

Ejemplo 2.4

En una empresa de fabricación de muebles, el departamento de control de calidad ha inspeccionado


cada hora, durante las 3 últimas, un total de 6, 8 y 6 muebles respectivamente, encontrando en cada

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 4/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

una de ellas un número medio de defectos de 3, 5 y 2. Determinar el número medio de defectos del
total de muebles inspeccionados.

Solución

Aplicando la segunda propiedad de la media:

Página 30 | Inicio del artículo

2.1.2. Media armónica y geométrica


La media armónica, que se denota por Mh, se define como:

siendo:

En el caso particular de que las frecuencias fuesen unitarias, esto es, ni = 1 ∀ i, entonces:

Además, a la hora de calcular la media armónica suele utilizarse que la inversa de la media armónica
es la media aritmética de los valores inversos de la variable, esto es:

Por su parte, la media geométrica, que es empleada cuando las variables son de naturaleza
multiplicativa en el sentido, por ejemplo, que los intereses generan nuevos intereses o cuando el
incremento salarial se efectúa sobre el anterior y no sobre uno fijo, se denota por Mg y se define
como:

En el caso particular de que las frecuencias fuesen unitarias (ni = 1 ∀ i), entonces se tienen:

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 5/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Además, a la hora de calcular la media geométrica suele utilizarse que el logaritmo de la media
geométrica que es igual a la media aritmética de los logaritmos de los valores de la variable, esto es:

Página 31 | Inicio del artículo

De la misma forma que se indicó para la media aritmética, el valor que tome la media armónica y la
media geométrica(3) debe estar siempre incluido entre el valor mínimo y máximo del dominio de la
variable analizada.

2.1.3. Mediana
Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se denota por Me, es un
valor del recorrido de la variable que deja el mismo número de observaciones a su izquierda y a su
derecha.

Para el cálculo de la mediana es necesario distinguir entre distribuciones de frecuencias de valores


sin agrupar y agrupados, pero la idea que siempre hay que tener presente es que la mediana es
aquel valor de la variable al que corresponde una frecuencia acumulada igual a N/2.

2.1.3.1. Distribuciones de frecuencias de valores sin agrupar

Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones (Figura 2.1). Cada
una de éstas será tratada a continuación.

Figura 2.1.

Situación 1. Distribución de frecuencias unitarias

Si el número de observaciones es impar, el valor de la mediana coincidirá con el valor xi (Me = xi) que
deje a derecha e izquierda el mismo número de observaciones.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 6/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Si el número de observaciones es par, entonces el valor de la mediana se obtendrá como la media


del valor(4) ): .

Página 32 | Inicio del artículo

Ejemplo 2.5

Una variable estadística X toma los siguientes 7 valores distintos:

Determinar la mediana.

Solución

Puede verse fácilmente que el valor de la variable xi = 6 deja el mismo número de observaciones, un
total de 3, a cada lado.

Por tanto, el valor de la mediana es:

Ejemplo 2.6

Obtener la mediana de una variable estadística que toma los siguientes 6 valores distintos:

Solución

En este caso, lo primero que debe hacerse es ordenar la distribución de frecuencias de menor a
mayor.

El valor de la variable que deja el mismo número de observaciones a ambos lados, la mediana, se
sitúa entre 5 y 6. Así:

Situación 2. Distribución de frecuencias no unitarias

Cuando la distribución de frecuencias es no unitaria, se suele utilizar el siguiente criterio para


determinar el valor de la mediana: sea Ni la primera frecuencia absoluta acumulada igual o superior a
N/2, entonces:

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 7/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Página 33 | Inicio del artículo

Ejemplo 2.7

Obtener la mediana de la siguiente distribución de frecuencias.

Solución

La mitad de las observaciones corresponde a . El valor de la variable que contiene una frecuencia
acumulada de 4 es x2 = 3, con N2 = 5.

Por tanto, como entonces Me = x2 → Me = 3.

Ejemplo 2.8

Obtener la mediana de la siguiente distribución de frecuencias.

Solución

El valr de la variable que acumula un número de observactiones igual ex x2 = 4.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 8/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Por tanto, como se tendrá que . La mediana de la distribución es 5.

Página 34 | Inicio del artículo

2.1.3.2. Distribuciones de frecuencias agrupadas

Este caso tiene menos interés, pues actualmente no se suele trabajar con datos agrupados, dado que
la informática permite manejar mucha información sin necesidad de perder parte de ella en
agrupaciones.

El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano, el primero cuya
frecuencia absoluta acumuluda Ni alcanza o sobrepasa N/2.

Es decir, .

Para precisar el valor de la variable que corresponde a la mediana(5) se supone que la frecuencia
correspondiente al intervalo se distribuye uniformemente y por reparto proporcional se obtiene el valor
buscado.

Ejemplo 2.9

El número de proyectos de mejora propuestos por los 20 círculos de calidad existentes en una
empresa han sido agrupados de la siguiente forma:

Determinar el intervalo mediano.

Solución

Para saber en qué intervalo estará incluida la mediana lo primero es insertar una columna que
represente la frecuencia absoluta acumulada (Ni), tal y como se refleja en la siguiente tabla.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 9/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Página 35 | Inicio del artículo

Como la mediana es el valor de la variable que acumula observaciones, ésta estará contenida en el
intervalo [16, 20[, que es el intervalo mediano, puesto que .

2.1.4. Moda
La moda de una distribución, a la que se denotará por Mo, representa el valor de la variable con
mayor frecuencia. No tiene por qué ser única. Es decir, si hay dos o más valores de la variable que
tienen la misma frecuencia, siendo esta la mayor, se estará ante una distribución multimodal
(bimodal, dos modas; trimodal, tres modas; etc.).

Del mismo modo que se procedió con la mediana, para determinar la moda debe distinguirse entre
distribuciones de valores sin agrupar y agrupados.

2.1.4.1. Distribuciones de frecuencias de valores sin agrupar

En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor de la variable que
más se repite, el de mayor frecuencia.

Ejemplo 2.10

Se ha preguntado a 15 estudiantes por el número de horas semanales dedicadas al estudio,


recogiéndose sus respuestas en la siguiente distribución de frecuencias.

Obtener la moda del número de horas de estudio.

Solución

La moda es 5 (Mo = 5), puesto que es el valor de la variable con mayor frecuencia. Un total de 8
estudiantes dedican 5 horas a estudiar.

Página 36 | Inicio del artículo

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 10/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Ejemplo 2.11

Se ha preguntado a 5 estudiantes por el número de horas semanales dedicadas al estudio, siendo


sus respuestas:

Obtener la moda del número de horas de estudio.

Solución

En esta distribución todos los valores de la variable se considerarían modas pues ni = 1 ∀ i.

2.1.4.2. Distribuciones de frecuencias de valores agrupados

Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para determinar el valor
modal consiste en dibujar el histograma.

La moda estará contenida en el intervalo de mayor altura, al que se denomina intervalo modal.

Ejemplo 2.12

Obtener el intervalo modal de la distribución de frecuencias del Ejemplo 2.9.

Solución

Para determinar el intervalo modal se añade una columna que recoja la altura (hi) asociada a cada
intervalo. En este ejemplo todos los intervalos tienen la misma amplitud (ci = 4), por lo que el intervalo
de mayor frecuencia será el que tenga mayor altura y, por tanto, el intervalo modal.

Así pues, la moda estará contenida en el intervalo [16, 20[.

Existen casos en los que, sin necesidad de realizar ningún cálculo, es posible aproximar el valor que
toma la moda en el intervalo modal. Así, en la Figura 2.2, Gráfica (a), puede observarse cómo, si los
intervalos anterior y posterior al intervalo modal tienen la misma altura, la moda coincidirá con la
marca de clase. En cambio, si el intervalo posterior al modal es de mayor altura que el anterior,

Página 37 | Inicio del artículo

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 11/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Figura 2.2.

Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidiendo su valor con el
límite superior del intervalo modal cuando la altura del anterior al mismo sea cero, como puede verse
en la Gráfica (c). De forma análoga, la moda coincidirá con el extremo inferior del intervalo modal
cuando la altura del intervalo posterior a éste sea cero, Gráfica (d).

Siguiendo con el criterio anterior de aproximar el valor de la moda en proporción inversa a las alturas
de los rectángulos del histograma anterior y posterior al modal, se recurre a la siguiente expresión:

donde ci es la amplitud del intervalo modal, Li-1 su extremo inferior; hi-1 es la altura asociada al
intervalo anterior al modal y hi+1 a la del posterior.

Ejemplo 2.13

En la siguiente distribución de frecuencias se refleja la retribución mensual de los 260 empleados del
área de fabricación de una gran empresa industrial.

¿Cuál es la retribución más frecuente en esta área funcional?

Página 38 | Inicio del artículo

Solución
go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 12/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

Como fácilmente puede observarse en la distribución de frecuencias del enunciado, los intervalos son
de distinta amplitud. En consecuencia, y a diferencia del Ejemplo 2.12, el intervalo al que corresponde
mayor frecuencia no necesariamente tiene que ser el que tenga mayor altura asociada.

Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura (hi) de cada intervalo:

Como puede verse en la tabla anterior, en este caso existen dos modas (la distribución es bimodal),
la primera estará incluida en el intervalo [800, 1.000] y la segunda en [1.000, 1.400].

Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será 1.000, puesto que
la altura del intervalo anterior al modal es cero. En cambio, respecto a la segunda, como el intervalo
anterior a [1.000, 1.400] es de mayor altura que el posterior, sólo puede decirse que su valor se
encontrará ligeramente por debajo de la marca de clase (x2 = 1.200). Una mejor aproximación al valor
de la moda puede obtenerse con la expresión dada en (2.1).

Por tanto, las retribuciones más frecuentes en el área de fabricación de esta empresa son 1.000 € y
1.177,78 €.

2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero positivo k, las familias de
cuantiles serán valores del recorrido de la variable que dividirán la distribución en k partes,
conteniendo cada una de ellas la misma proporción de observaciones .

Página 39 | Inicio del artículo

Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de frecuencias en
cuatro, diez y cien partes y se conocen con el nombre de cuartiles, deciles y percentiles,
respectivamente:

a) Cuartiles (k = 4): son tres valores (Cs, s = 1, 2, 3) del recorrido que dividen la distribución en 4
partes, conteniendo cada una de ellas el 25% de las observaciones.

b) Deciles (k = 10): son nueve valores del recorrido (Ds, s = 1, 2, …, 9) que dividen la distribución en
10 partes, de tal forma que cada una de ellas contendrá el 10% de las observaciones.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 13/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

c) Percentiles (k = 100): son noventa y nueve valores del recorrido (Ps, s = 1, 2, …, 99) que dividen la
distribución en 100 partes, conteniendo cada una de ellas el 1% de las observaciones.

En general (para cualquier valor de k): una familia de cuantiles de orden s = 1, 2, …, (k − 1), se
identificará como los (k − 1) valores del recorrido de la variable , que dividirán en k partes la
distribución de la variable conteniendo, cada una de ellas, una proporción de valores de .

De esta forma, si es el cuantil de orden , un porcentaje de de los valores de la variable (como


mínimo) serán menores o iguales que y un porcentaje de . 100 de los valores (como mínimo) serán
mayores o iguales que .

Así, por ejemplo, el primer cuartil C1 será el cuantil Q1/4, de tal forma que, al menos, el 25% de los
valores serán menores o iguales que C1 y, al menos, el 75% restante serán mayores o iguales que
C1.

Análogamente, podemos identificar los deciles y percentiles como cuantiles en general: , etc.

El procedimiento de cálculo es análogo al estudiado en el caso de la mediana, es decir, suponiendo


datos sin agrupar:

Página 40 | Inicio del artículo

donde Qs/k es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acumulará una
proporción de observaciones.

Si la distribución de frecuencias es de valores agrupados se determinará el intervalo cuantílico, es


decir, aquel que contiene el cuantil que se quiere obtener.

Ejemplo 2.14

Dada la siguiente tabla de frecuencias:

Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.

Solución

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 14/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

El segundo cuartil (C2) es el valor de la variable que deja a su izquierda, esto es acumula, un número
mínimo de observaciones del 50%.

por tanto, como entonces C2 = Q2/4 = x3 = 18.

Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De hecho, C2 = D5 = P50 =
Me = Q1/2.

El cuarto decil (D4) es el valor que acumula como mínimo un 40% de las observaciones:

Página 41 | Inicio del artículo

en consecuencia, como , el cuarto decil será:

Por último, el nonagésimo percentil, P90, es el valor que acumula como mínimo un 90% de las
observaciones:

con lo que el percentil noventa será: , dado que .

2.2. Medidas de dispersión


El término dispersión o variabilidad hace referencia a cómo de distantes, de separados, se
encuentran los datos. En este sentido, si los distintos valores de la distribución se encuentran
próximos entre sí, estos presentarán poca dispersión o variabilidad; si por el contrario están alejados,
mostrarán mucha dispersión.

Pueden calcularse diversas medidas de dispersión, aunque las más habituales son el rango (o
recorrido), la varianza y la desviación típica. Las anteriores son medidas de dispersión absoluta. Sin
go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 15/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

embargo, si lo que se quiere es comparar varias distribuciones de frecuencias en términos de


variabilidad, para ver cuál es la que presenta mayor o menor dispersión, debe obtenerse una medida
relativa como, por ejemplo, el coeficiente de variación de Pearson.

2.2.1. Rango
El rango o recorrido de una distribución es la diferencia entre el valor máximo y mínimo, es decir, Re
= xmax − xmin. La principal desventaja de este tipo de medida de dispersión es que únicamente tiene
en cuenta dos valores de la variable.

2.2.2. Varianza y desviación típica

La varianza, que se denota por S2X, se define como la media aritmética de los cuadrados de las
diferencias de los valores de la variable a la media aritmética:

Página 42 | Inicio del artículo

Con la varianza se pretende medir la dispersión que presentan los valores de la variable respecto de
su media. Cuanto mayor sea la varianza, cuanto mayor sea la dispersión, menos representativa
resultará ser la media.

Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por cuanto simplifica
considerablemente la operatoria, es:

(6)

De la definición de varianza se desprende que ésta nunca puede ser negativa (S2X≥0) y que se
encuentra expresada en unidades de medida al cuadrado.

Además, la varianza no depende de los cambios de origen, pero sí de los de unidad (véase Apartado
2.5.).

Por su parte, la desviación típica o estándar, que se denota por Sx, es la raíz cuadrada positiva de la
varianza, es decir:

La desviación típica es una medida de dispersión que suele proporcionarse junto con la media de la
distribución, puesto que ambas magnitudes vienen expresadas en la misma unidad de medida, lo que
facilita enormemente la interpretación de los resultados.

Otro estadístico que se utiliza mucho, especialmente en inferencia estadística, es la cuasivarianza,


que se denota por S*2X, y se define como:
go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 16/42
8/4/2019 Gale Virtual Reference Library - Documento - Análisis de Datos Unidimensionales

siendo la cuasidesviación típica,

Ejemplo 2.15

El número de ofertas de empleo publicadas en los últimos cinco números en una revista
especializada ha sido:

Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación típica.

Solución

El rango o recorrido del número de ofertas de empleo (variable X) es:

Página 43 | Inicio del artículo

Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3). Evidentemente el resultado es
el mismo, simplemente una forma resulta más cómoda que la otra, como se verá.

Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo una serie de
columnas a la tabla de frecuencias de las ofertas de empleo publicadas, tal y como se muestra a
continuación:

(7)

Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y de la varianza.

go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 17/42

También podría gustarte