Está en la página 1de 24

Distribución de datos.

Forma

1. Forma
La tercera propiedad importante de una serie de datos es su forma, la manera en que los datos
se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea. La distribución simétrica -
ya se ha visto en las lecturas anteriores- es aquella cuya “mitad izquierda de su histograma es
aproximadamente una imagen en espejo de su mitad derecha” (Triola, 2013, p. 85). Cuando la
distribución no es simétrica se llama asimétrica o sesgada y su histograma “se extiende más
hacia un lado que hacia otro” (Triola, 2013, p. 85).

Para describir la forma solo necesitamos comparar la media y mediana. Así, de acuerdo a la
relación que se encuentre entre ellas, se tendrá:

“Media > mediana: negativa o sesgada hacia la izquierda.

Media = mediana: simetría o de sesgo cero.

Media < mediana: positiva sesgada hacia la derecha” (Levine, Krehbiel y Berenson, 2014, p. 105).

Cuando la media se incrementa en algunos valores inusualmente altos. Surge el sesgo positivo;
en cambio cuando la media se reduce en algunos valores extremadamente bajos ocurre el sesgo
negativo. Cuando no existen valores extremos reales en una dirección particular, los datos son
simétricos, de forma tal que los valores bajos y altos se compensan entre sí. (Levine, Krehbiel y
Berenson, 2014).
Figura 1: Distribución sesgada a la derecha
Fuente: adaptado de Triola, 2013.

En la figura 1 puede verse el caso de distribución sesgada a la derecha o positiva, que muestra
cómo el valor de la media es mayor que el de la mediana (y también que la moda).
Figura 2: Distribución sesgada a la izquierda

Fuente: adaptado de Triola, 2013.

En la figura 2 se observa una distribución sesgada a izquierda o negativa, donde puede verse que
el valor de la media es menor que el valor de la mediana (y también que la moda).
Figura 3: Distribución sin sesgo (simétrica)
Fuente: adaptado de Triola, 2013.

En la figura 3 se ve una distribución simétrica, o sin sesgo, donde la media, la mediana y la moda
son iguales.

Medidas de posición relativa y gráficas de caja


Las medidas de posición relativa consisten en números que indican la ubicación de valores de
datos con respecto a otros valores dentro de un conjunto de datos. Se verán varios conceptos,
como la puntuación z (importante con mucho uso), los cuartiles y percentiles, (estadísticos
comunes) y la gráfica de caja (nuevo tipo de gráfica estadística).

Puntuaciones z
La puntuación z (o valor estandarizado) consiste en convertir un valor a una escala
estandarizada, y se define:
Una puntuación z (o valor estandarizado) es el número de desviaciones estándar que un
valor x se encuentra por arriba o por debajo de la media. Se calcula (…):

Muestra z = o Población z= (Triola, 2013, p. 110)


Ejemplo: se tiene un conjunto de datos de estaturas de hombres adultos cuya x̄ = 68,34 pulgadas
y s = 3,02 pulgadas; también un conjunto de datos de pesos de hombres adultos que producen x̄
= 172,55 lb y s = 26,33 lb. Determina cuál dato es más extremo: la estatura de 76,2 pulgadas o el
peso de 237,1 libras de un hombre.
Como las estaturas y los pesos se miden en escalas diferentes y con distintas unidades de
medición, para compararlas, se estandarizan los datos convirtiéndolos en puntuaciones z.

Estatura de 76,2 pulgadas: z = = = 2,60

Peso de 237,1 libras: z = = = 2,45


Estos resultados muestran que la estatura de 76,2 pulgadas está a 2,60 desviaciones estándar
por arriba de la estatura media, por su lado el peso de 237,1 libras está a 2,45 desviaciones
estándar por arriba del peso medio. Como la estatura está más lejos de la media, es el valor más
extremo. Así, la estatura de 76,2 pulgadas es un valor más extremo que el peso de 237,1 libras.

Puntuaciones z, valores inusuales y valores extremos


Se utilizó la regla práctica de las desviaciones para concluir que un valor es “inusual” si está a
más de 2 desviaciones estándar de la media. De esta forma los valores inusuales tienen
puntuaciones z menores que -2 o mayores que +2, (como se ve en la figura 4). Con este criterio
en el ejemplo anterior, la estatura de 76,2 pulgadas y el peso de 237,1 libras son inusuales
porque sus puntuaciones z son mayores que 2 (Triola, 2013).
“Valores comunes: -2 ≤ z puntuación ≤ 2

Valores inusuales: z puntuación < -2 o z puntuación > 2” (Triola, 2013, p.111).
Estos criterios objetivos se pueden emplear para identificar valores inusuales. Se define por ahora
a los valores atípicos o inusuales como datos que se encuentran muy alejados de la gran mayoría
de los otros datos. Es importante buscar e identificar valores atípicos, porque pueden tener un
gran efecto sobre los estadísticos como la media y la desviación estándar.
Figura 4: Interpretación de las puntuaciones z

Fuente: Triola, M.L. (2013). Interpretación de las puntuaciones z, p. 115.

Los valores inusuales son aquellos con puntuaciones z menores que -2,00 o mayores que 2,00.

Siguiendo con el ejemplo de las estaturas, para el caso de la estatura 61,3 pulgadas el valor de z
será: (se utiliza x̄ = 68,34 pulgadas y s = 3,02 pulgadas).

z= = = -2,33
Así esta estatura de 61,3 pulgadas ilustra el principio siguiente:
Para todo valor que sea menor que la media, su puntuación z correspondiente será
negativa.

Las puntuaciones z son medidas de posición, ya que describen la localización de un valor
(en términos de desviación estándar) en relación con la media. Una puntuación z de 2
indica que un valor está a dos desviaciones estándar por arriba de la media, en el caso de
una puntuación z de -3 indica que un valor está a tres desviaciones estándar por debajo
de la media. (Triola, 2013, p. 116)

Percentiles
Son un tipo de cuartiles (o fractiles) que dividen a los datos en grupos con el mismo número de
valores aproximadamente en cada uno. De esta forma se define:
Los percentiles son medidas de ubicación, que se nombran con P1, P2, …, P99, las cuales

dividen un conjunto de datos en 100 grupos con aproximadamente 1 % de los valores en cada
grupo.

Está el caso especial del percentil 50 que se expresa P50 que deja el 50 % de los datos por
debajo y alrededor del 50 % de los datos por arriba de él. De esta forma el percentil 50 es igual a
la mediana. Para el cálculo de los percentiles, no hay un acuerdo universal sobre el mejor
procedimiento, pero se describirán dos procedimientos relativamente sencillos para:

1. Calcular el percentil de un dato.


2. Convertir un percentil en su valor correspondiente.

​Cálculo del percentil de un dato


El proceso de calcular el percentil que corresponde a un valor x específico es bastante
sencillo, tal como se indica en la siguiente expresión:

Percentil del valor x = . 100

(El resultado se redondea al entero más cercano). (Triola, 2013, p. 116)


Ejemplo: en la tabla 1 se muestra una lista de 35 presupuestos (en millones de dólares)
ordenados, que provienen de una muestra aleatoria simple de películas. Calcula el percentil para
el valor $29 millones.
Tabla 1: Presupuestos de películas ordenados (en millones de dólares)

Fuente: Triola, 2013, p. 116.

Se observa que hay 6 cantidades menores que 29 en la lista ordenada de la tabla 1, así:

Percentil de 29 = .100 = 17 (redondeado al entero más cercano)

El presupuesto de $29 millones corresponde al percentil 17, de lo que se puede decir que el
presupuesto de $29 millones separa al 17 % inferior de los presupuestos, del 83 % superior de
los presupuestos.
Transformación de un percentil en un valor. Existen varios métodos diferentes para el
procedimiento de convertir o transformar un percentil en el valor correspondiente del conjunto de
datos. Se empleará el que se resume en la figura 5:
Figura 5: Transformación del percentil k-ésimo en el valor correspondiente

Fuente: Triola, M.L. (2013). Transformación del percentil k-ésimo en el valor correspondiente, p. 118.

Notación de la figura 5
n número total de valores en el conjunto de datos.

k percentil utilizado (Ejemplo: para el percentil 25, k = 25).

L localizador que da la posición de un valor (Ejemplo: para el valor en el lugar 12 en la


lista ordenada, L = 12).

pK percentil k-ésimo (Ejemplo: P25 es el percentil 25). (Triola, 2013, p. 117)
Ejemplo: de los presupuestos ordenados de la tabla 1, calcula el valor del percentil 90, P90.

Emplee el procedimiento descrito en la figura 5.

En este caso los datos muestrales ya están ordenados, entonces, vamos a calcular el valor del
localizador L. Para el percentil 90 k = 90 y n = 35 porque hay 35 valores:

L= = = 31,5

Como L = 31,5 no es un número entero, se pasa al recuadro siguiente, donde dice que se
redondea L al siguiente entero más grande, de 31,5 a 32 (este es uno de los pocos casos en que
se redondea hacia arriba y no hacia abajo). Según el último recuadro el valor de P90 es el 32°

valor contando desde el más bajo. Viendo en la Tabla 1 el 32° corresponde al valor de 150; es
decir P90 =$150 millones. De acuerdo a esto, alrededor del 90 % de las películas tienen

presupuestos por debajo de $150 millones y aproximadamente el 10 % de las películas tienen


presupuestos por encima de $150 millones.

Cuartiles
Los cuartiles son medidas de ubicación, Q1, Q2 y Q3 que dividen un conjunto de datos ordenado

en cuatro partes iguales, con aproximadamente el 25 % de los valores en cada grupo.

Una descripción más exacta de los cuartiles sería:


Q1 (primer cuartil): Separa el 25% inferior de los valores ordenados del 75% superior.
(Para ser más precisos, al menos el 25% de los valores ordenados son menores o iguales
que a Q1, y al menos el 75% de los valores son mayores o iguales que a Q1).

Q2 (segundo cuartil): Igual a la mediana; separa el 50% inferior de los valores


ordenados del 50% superior.

Q3 (tercer cuartil): Separa el 75% inferior de los valores ordenados del 25% superior.
(Para ser más precisos, al menos el 75% de los valores ordenados son menores o iguales
que a Q3, y al menos el 25% de los valores son mayores o iguales que a Q3). (Triola,
2013, p. 120).
Se pueden calcular los valores de los cuartiles con el mismo procedimiento utilizado para calcular
los percentiles. Para ello se utiliza las relaciones siguientes:

Q1 = P25

Q2 = P50

Q3 = P75

Ejemplo: teniendo en cuenta los presupuestos ordenados de películas de la tabla 1, calcula el


valor del primer cuartil Q1.

Calcular Q1 es lo mismo que calcular P25, entonces utilizando el procedimiento de la figura 5,

como los datos ya están ordenados se obtiene el valor del localizador L:

L= = 35 = 8,75
Como L=8,75 no es un número entero, se redondea hacia arriba al siguiente entero, así tenemos
L= 9. El valor de P25 es el noveno valor de la lista ordenada es decir $35 millones. Entonces el

primer cuartil está dado por Q1 = $35 millones.

Tampoco hay un acuerdo universal sobre un procedimiento para el cálculo de cuartiles, y los
diferentes programas de computadora suelen arrojar resultados diferentes. Si se emplea una
calculadora o un programa de cómputo es posible que obtenga resultados que difieran
ligeramente de las respuestas que se obtienen utilizando los procedimientos que aquí se
describen.
Algunos datos estadísticos se definen con el uso de cuartiles y percentiles, como los
siguientes:

recorrido intercuartil (o RIC) = Q3 - Q1

recorrido semi-intercuartil =

cuartil medio =

rango de percentiles 10–90 = P90 – P10. (Triola, 2013, p. 120)


Resumen de los 5 números y gráfica de caja
Los valores de los tres cuartiles se utilizan para el resumen de los 5 números y la
construcción de gráficas de caja.

Para un conjunto de datos, el resumen de los 5 números consiste en: el valor mínimo; el
primer cuartil, Q1; la mediana (o segundo cuartil, Q2); el tercer cuartil, Q3; y el valor
máximo.

Una gráfica de caja (o diagrama de caja y bigotes) es una gráfica de un conjunto de
datos consistente en una línea que se extiende desde el valor mínimo hasta el valor
máximo, y una caja con líneas trazadas en el primer cuartil, Q1, la mediana y el tercer
cuartil, Q3. [Puede verse en la figura 6 más adelante]. (Triola, 2013, 121)
Ejemplo: utilizando los presupuestos de películas de la tabla 1, obtén el resumen de los 5
números.

Como los presupuestos de la tabla 1 están ordenados se puede ver fácilmente que el valor
mínimo es $4,5 millones y el valor máximo es $225 millones. El primer cuartil se calculó antes y
es Q1 = $35 millones. De igual manera calcularemos Q2 y Q3.

L= = 35 = 17,5 = 18 Q2 = $68 millones.

L= = 35 = 26,25 = 27 Q3 = $113 millones.

De esta forma, el resumen de los 5 números es: 4, 5, 35, 68, 113, 225. Todo expresado en
millones de dólares.

El resumen de los 5 números se utiliza para construir una gráfica de caja, la cual se realiza con el
siguiente procedimiento:

1. Elabore el resumen de los 5 números que consistente en el valor mínimo, Q1, la


mediana, Q3, y el valor máximo.
2. Construya una escala con valores que incluyan el valor mínimo y el valor máximo.
3. Construya una [caja] (un rectángulo) que se extienda desde Q1 hasta Q3, y dibuje
una línea en la caja, en el valor de la mediana.
4. Dibuje líneas que se extiendan hacia fuera [de la caja] hasta los valores mínimo y
máximo. (Triola, 2013, p. 121)
De esta manera, con el resumen de los 5 números para el ejemplo de los presupuestos de
películas se construyó la gráfica de caja correspondiente de la figura 6.
Figura 6: Gráfica de caja de presupuestos de películas

Fuente: Triola, M. (2013). Gráfica de caja de presupuestos de películas, p. 122.

Las gráficas de caja nos brindan información acerca de la distribución y la dispersión de los datos.
A continuación, en la figura 7 se comprueba la relación que existe entre la gráfica de caja y bigote
y sus polígonos, para cuatro distintos tipos de distribución. El área bajo cada polígono se divide
en cuartiles que corresponden al resumen de 5 números de la gráfica de caja y bigotes.
Figura 7: Gráficas de caja y bigotes, y sus polígonos correspondientes de 4 distribuciones

Fuente: Levine D.M., Krehbiel T. C. y Berenson M.L. (2014). Gráficas de caja y bigotes, y sus polígonos correspondientes de 4 distribuciones,
p. 114.

Los paneles A y D de la figura 7, son simétricos. En estas distribuciones, la media y la mediana


son iguales. La longitud del bigote derecho es igual a la del izquierdo, y la línea que representa la
mediana divide la caja por la mitad.

El panel B de la figura 7, es asimétrico a la izquierda. Los pocos valores pequeños inclinan la


media hacia la punta izquierda. Esta distribución asimétrica a la izquierda indica que hay un
marcado agrupamiento de los valores en el extremo superior de la escala (o sea el lado derecho);
el 75 % de todos los valores se encuentran entre el extremo izquierdo de la caja (Q1) y el extremo

del bigote derecho (valor máximo). Así el largo bigote izquierdo contiene el 25 % más pequeño de
los valores, lo que muestra distorsión de la simetría de este conjunto de datos.

El panel C de la Figura 7 es asimétrico a la derecha. La concentración de valores está en el


extremo inferior de la escala (o sea, en el lado izquierdo de la gráfica de caja y bigote). El 75 %
de todos los valores se encuentran entre el principio del bigote izquierdo (valor mínimo) y el
extremo derecho de la caja (Q3), y el 25 % restante de los valores está disperso a lo largo del

bigote derecho, en el extremo superior de la escala.


Las gráficas de caja no muestran tanta información detallada como los histogramas o las
gráficas de tallo y hojas, por lo que quizás no sean la mejor elección cuando se maneja un
solo conjunto de datos. Suelen ser muy útiles para comparar dos o más conjuntos de
datos. Cuando se utilicen dos o más gráficas de [caja] para comparar distintos conjuntos
de datos, es importante emplear la misma escala, de forma que puedan realizarse
comparaciones correctas. (Triola, 2013, p. 121)

2. Valores atípicos
Cuando se analizan datos es importante identificar y tomar en cuenta los valores atípicos, porque
podrían afectar de forma determinante los valores de algunas estadísticas importantes (como la
media y la desviación estándar). Una descripción vaga, sin criterios, objetivos específicos, define
a los valores atípicos como datos muestrales que se ubican muy lejos de la gran mayoría de los
demás valores en un conjunto de datos.

Para la finalidad de construir gráficas de caja modificadas, podemos considerar que los valores
atípicos son datos que satisfacen criterios específicos basados en los cuartiles y en el rango
intercuartil. (RIC = Q3 - Q1).
En las gráficas de caja modificadas, un valor es atípico si está…

“por arriba de Q3 en una cantidad mayor que 1.5 X RIC

por debajo de Q1 en una cantidad mayor que 1.5 X RIC” (Triola, 2013, p. 123)

Gráficas de caja modificadas


Las gráficas mencionadas anteriormente se denominan gráficas de cajas esqueléticas (o
regulares), pero ciertos paquetes de programas estadísticos realizan gráficas de caja
modificadas que representan los valores atípicos como puntos especiales.
Una gráfica de caja modificada es aquella que se construye con las siguientes
modificaciones:

1. Se usa un símbolo especial (un asterisco [o un punto]) para identificar valores


[atípicos] (…) y
2. la línea horizontal sólida se extiende únicamente hasta el valor del dato mínimo que
no es un valor mínimo que no es un valor [atípico] y hasta el valor del dato máximo
que tampoco es un valor [atípico]. (Triola, 2013, p. 124)

Ejemplo: empleando los pulsos de mujeres incluidos en un conjunto de datos se pide construir
una gráfica de caja modificada.

De la gráfica de caja realizada con los valores de pulsos de mujeres de la figura 8, vemos que
Q1= 68 y Q3= 80.

Figura 8: Gráfica de caja de los pulsos de mujeres

Fuente: Triola M.L. (2013). Statdisk, p. 123.

El rango o recorrido intercuartil RIC = Q3 - Q1 = 80 – 68 = 12.

Usando los criterios para identificar valores atípicos, se buscan pulsos que estén por arriba del
tercer cuartil de 80 en una cantidad mayor que 1,5 X RIC = 1,5 X 12=18, así los valores extremos
superiores son mayores a 98. Los pulsos de 104 y 124 cumplen esa condición, entonces ambos
son valores atípicos.

Siguiendo con los criterios de identificación de valores atípicos, se buscan pulsos que estén por
debajo del primer cuadril de 68 en una cantidad mayor que 18 (1,5 X RIC). Los valores atípicos
están por debajo de 68 en una cantidad de 18, o sea son cifras menores de 50. No se observan
pulsos de mujeres menores de 50 en el conjunto de datos.
De esta forma los únicos valores atípicos son 104 y 124 y se pueden ver identificados con
claridad como puntos especiales en la gráfica de caja modificada generada por Minitab en la
figura 9.
Figura 9: Gráfica de caja modificada de los pulsos de mujeres

Fuente: Triola M.L. (2013). Minitab, p. 124.

Integración
Hemos analizado varias herramientas básicas que se utilizan con gran frecuencia en
estadística. Al diseñar un experimento, analizar datos, leer un artículo en una revista
científica o al manejar datos, es importante tomar en cuenta ciertos factores
fundamentales, como los siguientes:

● El contexto de los datos.


● La fuente de los datos.
● El método de muestreo.
● Las medidas de tendencia central.
● Las medidas de desviación.
● La distribución.
● Los valores atípicos.
● Los patrones de cambio con el paso del tiempo.
● Las conclusiones.
● Las implicaciones prácticas.

Esta lista es un excelente recurso, no debe dejarse de lado la reflexión sobre cualquier
otro factor importante. Puede ser que algunas aplicaciones de la estadística precisen de
elementos que no se encuentren en esta lista o que algunos de estos no sean importantes
para ciertas aplicaciones.
Por ejemplo, al comparar los pulsos de mujeres y hombres incluidos en un conjunto de
datos, debemos entender qué representan esos pulsos (pulsaciones en latidos por
minuto), conocer la fuente (el National Center for Health Statistics), el método de muestreo
(muestreo aleatorio simple de sujetos sometidos a un examen de salud), las medidas de
tendencia central (por ejemplo, X̅ = 69,4 para los hombres y X̅ = 76,3 para las mujeres),
las medidas de variación (por ejemplo, s = 11.3 para los hombres y s = 12.5 para las
mujeres), la distribución (histogramas que no son muy diferentes de una curva normal),
valores atípicos (por ejemplo, pulsos de 104 y 124 para las mujeres), patrones de cambio
con el paso del tiempo (este aspecto no se tomó en cuenta con los datos en cuestión), las
conclusiones (el pulso de los hombres parece ser menor que el de las mujeres) y las
implicaciones prácticas (la determinación de un pulso inusual debe tomar en cuenta el
género del sujeto). (Triola, 2013, p. 125)

3. Obtención de mediciones descriptivas de resumen de


datos agrupados
Muchas veces se necesita obtener mediciones descriptivas de resumen de datos agrupados en
tablas de distribución de frecuencia o presentados en histogramas, polígonos u ojivas. Tales
distribuciones se obtienen directamente de informes publicados en periódicos, revistas o boletines
profesionales. En estos casos los datos originales (sin procesar) no están disponibles. Pero se
pueden obtener aproximaciones de estas mediciones descriptivas a partir de los datos
agrupados.

Uso de polígonos para comparar series de datos agrupados


Los polígonos nos brindan una ayuda visual útil para comparar dos o más series de datos
numéricos en términos de sus propiedades, tendencia central, desviación y forma.

La figura 10 muestra una distribución normal de campana perfectamente simétrica. La media,


mediana, moda, alcance medio y eje medio son teóricamente iguales.
Figura 10: Curva en forma de campana
Fuente: Triola, M.L. (2013). La distribución normal, p. 250.

En la figura 11 se observa dos distribuciones normales idénticas. Los polígonos A y B están


sobrepuestos entre sí.
Figura 11: Dos distribuciones normales de campanas simétricas

Fuente: Berenson y Levine, 1996.

En la figura 12 muestra dos distribuciones normales que difieren solo en la tendencia central. La
media, mediana, moda, recorrido medio y eje medio en el polígono C exceden (están a la derecha
de) aquellos para el polígono A.
Figura 12: Dos distribuciones normales de campana simétricas que difieren solo en la
tendencia central

Fuente: Berenson y Levine, 1996.

La figura 13 presenta dos distribuciones normales que difieren solo en dispersión. El recorrido,
recorrido intercuartil, varianza, desviación estándar y coeficiente de variación del polígono D son
menores que los del polígono A.
Figura 13: Dos distribuciones normales de campanas simétricas que difieren solo en
dispersión

Fuente: Berenson y Levine, 1996.

La figura 14 demuestra tres polígonos hipotéticos: el polígono A es distribución normal de


campana simétrica; el polígono L es sesgado a la izquierda o negativo (ya que la distorsión a la
izquierda es ocasionada por valores extremadamente pequeños); y el polígono R es sesgado a la
derecha o positivo (la distorsión a la derecha es debido a valores extremadamente grandes).
Figura 14: Tres distribuciones que difieren principalmente en forma

Fuente: Berenson y Levine, 1996.


En distribuciones sesgadas a la izquierda (figura 15) las pocas observaciones muy pequeñas
distorsionan el rango medio y la media hacia el extremo izquierdo. De esta forma se espera que
la moda sea el valor más grande y el recorrido medio el más pequeño:

Recorrido o rango medio < media < eje medio < mediana < moda.
Figura 15: Distribución sesgada a la izquierda

Fuente: Berenson y Levine, 1996.

Para distribuciones sesgadas a la derecha (figura 16) lo inverso se cumple. Las pocas
observaciones muy grandes distorsionan el recorrido o rango medio y la media hacia el extremo
derecho. Así se espera que el recorrido medio exceda a las demás mediciones:

Moda < mediana < eje medio < media < recorrido o rango medio.
Figura 16: Distribución sesgada a la derecha

Fuente: Berenson y Levine, 1996.


Cuando se tienen distribuciones perfectamente simétricas: la media, mediana, recorrido o rango
medio y eje medio serán idénticos. Esto se puede observar en las figuras 17 y 18, de estas
mediciones de tendencia central, donde la forma de la curva del lado izquierdo es la imagen de
espejo de la forma de la curva a su derecha.
Figura 17: Curva de forma rectangular (no incluye moda)

Fuente: Berenson y Levine, 1996.

Figura 18: Curva en forma de U

Fuente: Berenson y Levine, 1996.

Aproximación de mediciones de tendencia central y dispersión


Si bien existen variadas fórmulas para aproximar los valores de las distintas mediciones de
posición (o tendencia central) y dispersión. Pero si se tiene los datos numéricos agrupados en
una tabla de distribución de frecuencia es más simple y conveniente usar otros enfoques. Para
entender mejor vamos a emplear un ejemplo: un analista investigador de asesoría colegial,
emplea el conjunto de datos especiales de las colegiaturas cobradas a residentes fuera del
estado 90 colegios y universidades del estado de Pennsylvania. Con esos datos, desarrolla las
distribuciones de frecuencia y porcentaje de la tabla 2.
Tabla 2: Distribución de frecuencias y distribución de porcentaje de colegiaturas cobradas
a residentes fuera del estado en 90 escuelas y universidades de Pennsylvania

Fuente: Berenson y Levine, 1996.

Con la tabla 2, el analista construye el polígono de porcentaje (figura 19) y la ojiva de porcentaje
(figura 20).
Figura 19: Polígono de porcentaje de colegiaturas cobradas a residentes fuera del estado
en 90 escuelas y universidades de Pennsylvania

Fuente: Berenson y Levine, 1996.

Figura 20: Ojiva de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90
escuelas y universidades de Pennsylvania
Fuente: Berenson y Levine, 1996.

La mediana se puede aproximar fácilmente en la ojiva de porcentaje de la figura 20, ¿50 % de las
colegiaturas están por debajo de qué cantidad? Para calcular esto (ver figura 21) se traza una
línea horizontal desde el punto de porcentaje 50, hasta intersecar la curva “menor que”. Desde
este punto de intersección se baja una perpendicular (una línea vertical) hasta el eje horizontal,
donde se encuentra el valor de la colegiatura mediana, que se aproxima a 10,5 miles de dólares.

La moda se aproxima eligiendo el punto medio de la clase que contenga la mayor parte de las
observaciones, la más típica o clase modal. En la tabla 2 la clase modal contiene colegiaturas de
10,0 a 12,0 miles de dólares (son la que tiene más cantidad de escuelas 22 y 24), así la moda se
aproxima a 11,0 miles de dólares.

El recorrido o rango puede aproximarse promediando los extremos posibles, el límite superior del
agrupamiento de la última clase (valor máximo) y el límite inferior del agrupamiento de la primera
clase (valor mínimo). Para nuestro ejemplo el valor máximo es 24,0 y valor mínimo 2,0 en miles
de dólares, el recorrido o rango medio aproximado es el promedio, o sea 13,0 miles de dólares.

Para el caso de aproximar los cuartiles se emplea la ojiva de porcentaje de la figura 21. Al valor
de Q1 le corresponde el punto de porcentaje acumulativo 25,0, desde donde se traza una línea

horizontal hasta intersecar la curva de la ojiva “menor que”. Bajando desde ese punto una línea
perpendicular hasta el eje horizontal. Allí el valor aproximado del primer cuartil Q1 = 8,5 miles de

dólares. Para el tercer cuartil Q3, se traza una horizontal desde el punto de porcentaje

acumulativo 75,0 hasta intersecar la curva “menor que”, bajando desde ese punto una
perpendicular hasta la intersección con eje horizontal, Dando el valor aproximado del tercer cuartil
Q3 = 13,3 miles de dólares.

Figura 21: Aproximación de la mediana y los cuartiles a partir de la ojiva de porcentaje

Fuente: Berenson y Levine, 1996.

El eje medio se aproxima promediando los cuartiles, es decir, el promedio de 8,5 y 13,0 miles de
dólares, lo que da un valor aproximado del eje medio de 10,9 miles de dólares.

Para la aproximación del recorrido o rango, de la Tabla 2 se hace la diferencia entre el límite
superior del agrupamiento de la última clase y el límite inferior del agrupamiento de la primera
clase (24,0 – 2,0), siendo el valor aproximado del rango o recorrido 22,0 miles de dólares.

El rango o recorrido intercuartil se puede aproximar con la diferencia entre Q3 y Q1, (13,3 – 8,5),

así el recorrido o rango intercuartil aproximado es de 4,8 miles de dólares.

La media, la varianza, la desviación estándar y el coeficiente de variación no pueden aproximarse


exactamente cuando los datos sin procesar ya se agruparon en una distribución de frecuencia sin
usar fórmulas especiales. Si se tiene una serie de datos numéricos perfectamente simétrica, la
media sería igual a la mediana, al rango medio y eje medio; y si los datos fueran
aproximadamente simétricos, la media podría aproximarse por el promedio de estas mediciones
de tendencia central. Si el polígono o histograma parece el de una distribución “normal” de
campana, la desviación estándar se podría aproximar como el promedio entre un sexto del rango
y tres cuartos del rango intercuartil.

Para nuestro caso de las colegiaturas de Pennsylvania, la distribución de frecuencia o el polígono


muestran que los datos están sesgados, pero tienen un pico (clase modal). Si se hace un
promedio entre el rango medio (13,0 miles de dólares) y la mediana (10,5 miles de dólares),
puede obtenerse una media que se aproxima en general a 11,75 miles de dólares.

Una aproximación más general para la desviación estándar se calcula con un quinto del recorrido
(1/5 de 22,0) lo que daría un valor aproximado más general de 4,4 miles de dólares para la
desviación estándar.

El coeficiente de variación se define como una medición de dispersión relativa alrededor de la


media, así puede aproximarse haciendo el cociente de la desviación estándar y la media.,
multiplicado por el 100 %. En nuestro ejemplo sería (4,4 / 11,75 = 0,374) x100 %, así el
coeficiente de variación se aproxima generalmente como 37,4 %.

Comparación de mediciones descriptivas: valores reales y


aproximaciones de datos agrupados
En la tabla 3 podemos observar un resumen de las mediciones descriptivas reales obtenidas de
los datos sin procesar y sus aproximaciones correspondientes resultantes de la distribución de
frecuencias y ojiva de porcentaje, para las colegiaturas de 90 colegios y universidades de
Pennsylvania.
Tabla 3: Comparación de valores reales y aproximaciones de datos agrupados

Fuente: Berenson y Levine, 1996.


Cuando se examinan los resultados, se puede comprobar que las interpretaciones (tabular y
graficar) son menos complicadas, brindan aproximaciones de los valores reales, obtenidos de
cálculos de datos no agrupados más laboriosos.

Referencias
Berenson, M. L. y Levine, D. M. (1996). Estadística básica en administración. México: Pearson
educación.

Levine D. M., Krehbiel T. C. y Berenson M.L. (2014). Estadística para administración. Sexta
edición. México: Pearson educación.

Triola. M. F. (2013). Estadística. Décimo primera edición. México: Pearson educación.

Revisión

☰ Medidas de posición o de tendencia central y media aritmética

Las mediciones descriptivas de resumen se pueden calcular a partir de una muestra de datos, y
se denominan estadísticas. O se pueden calcular a partir de una población completa de datos,
en cuyo caso se denominan parámetros. Por lo general, se toman muestras en vez de estudiar
poblaciones enteras. Por esta razón se hará énfasis en las mediciones estadísticas. Es
conveniente examinar tres propiedades de los datos numéricos para tener una mayor
comprensión de los datos. Estas propiedades son:

1. la tendencia central o de posición;


2. la variación o dispersión;
3. la forma.

☰ Mediana, moda y rango

La mediana es otro valor importante entre los valores de posición. A diferencia de la media
aritmética, los valores de las observaciones no la determinan. En el caso de la mediana, lo
relevante es el ordenamiento (generalmente) de menor a mayor. La mediana es el valor que se
encuentra en el centro de una secuencia ordenada de datos. Es importante respetar el
ordenamiento de los datos: de mayor a menor, o de menor a mayor.
El modo (o moda) de una distribución es el valor de la variable al que corresponde la mayor
frecuencia. Es decir, es el valor que se presenta más frecuentemente. Esta medida de posición
(al igual que la mediana) tampoco se ve afectada por valores extremos, muy pequeños o muy
grandes.

La mitad del rango, o rango medio, es otra medida de tendencia central. La mitad de rango
constituye el valor que se encuentra a la mitad, entre la puntuación más alta y la más baja, en el
conjunto original de datos.

☰ Medidas de dispersión

La dispersión es la segunda propiedad más importante para describir una serie de datos
numéricos. Representa la cantidad de “variación” o “propagación” en los datos.

Los parámetros de dispersión son las medidas que indican cómo se concentra la distribución.
Dispersión es la variación de los valores de un conjunto de datos, y se refiere a la mayor o
menor concentración de valores en torno a un valor central. Poca dispersión muestra que la
media es representativa del conjunto de datos; por el contrario, una mayor dispersión significa
menor representatividad del parámetro de posición media aritmética.

☰ Distribución de datos. Forma

La tercera propiedad importante de una serie de datos es su forma, la manera en que los datos
se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea. La distribución simétrica
-ya se ha visto en las lecturas anteriores- es aquella cuya “mitad izquierda de su histograma es
aproximadamente una imagen en espejo de su mitad derecha” (Triola, 2013, p. 85). Cuando la
distribución no es simétrica se llama asimétrica o sesgada y su histograma “se extiende más
hacia un lado que hacia otro” (Triola, 2013, p. 85).

También podría gustarte