Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Forma
1. Forma
La tercera propiedad importante de una serie de datos es su forma, la manera en que los datos
se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea. La distribución simétrica -
ya se ha visto en las lecturas anteriores- es aquella cuya “mitad izquierda de su histograma es
aproximadamente una imagen en espejo de su mitad derecha” (Triola, 2013, p. 85). Cuando la
distribución no es simétrica se llama asimétrica o sesgada y su histograma “se extiende más
hacia un lado que hacia otro” (Triola, 2013, p. 85).
Para describir la forma solo necesitamos comparar la media y mediana. Así, de acuerdo a la
relación que se encuentre entre ellas, se tendrá:
Media < mediana: positiva sesgada hacia la derecha” (Levine, Krehbiel y Berenson, 2014, p. 105).
Cuando la media se incrementa en algunos valores inusualmente altos. Surge el sesgo positivo;
en cambio cuando la media se reduce en algunos valores extremadamente bajos ocurre el sesgo
negativo. Cuando no existen valores extremos reales en una dirección particular, los datos son
simétricos, de forma tal que los valores bajos y altos se compensan entre sí. (Levine, Krehbiel y
Berenson, 2014).
Figura 1: Distribución sesgada a la derecha
Fuente: adaptado de Triola, 2013.
En la figura 1 puede verse el caso de distribución sesgada a la derecha o positiva, que muestra
cómo el valor de la media es mayor que el de la mediana (y también que la moda).
Figura 2: Distribución sesgada a la izquierda
En la figura 2 se observa una distribución sesgada a izquierda o negativa, donde puede verse que
el valor de la media es menor que el valor de la mediana (y también que la moda).
Figura 3: Distribución sin sesgo (simétrica)
Fuente: adaptado de Triola, 2013.
En la figura 3 se ve una distribución simétrica, o sin sesgo, donde la media, la mediana y la moda
son iguales.
Puntuaciones z
La puntuación z (o valor estandarizado) consiste en convertir un valor a una escala
estandarizada, y se define:
Una puntuación z (o valor estandarizado) es el número de desviaciones estándar que un
valor x se encuentra por arriba o por debajo de la media. Se calcula (…):
Los valores inusuales son aquellos con puntuaciones z menores que -2,00 o mayores que 2,00.
Siguiendo con el ejemplo de las estaturas, para el caso de la estatura 61,3 pulgadas el valor de z
será: (se utiliza x̄ = 68,34 pulgadas y s = 3,02 pulgadas).
z= = = -2,33
Así esta estatura de 61,3 pulgadas ilustra el principio siguiente:
Para todo valor que sea menor que la media, su puntuación z correspondiente será
negativa.
Las puntuaciones z son medidas de posición, ya que describen la localización de un valor
(en términos de desviación estándar) en relación con la media. Una puntuación z de 2
indica que un valor está a dos desviaciones estándar por arriba de la media, en el caso de
una puntuación z de -3 indica que un valor está a tres desviaciones estándar por debajo
de la media. (Triola, 2013, p. 116)
Percentiles
Son un tipo de cuartiles (o fractiles) que dividen a los datos en grupos con el mismo número de
valores aproximadamente en cada uno. De esta forma se define:
Los percentiles son medidas de ubicación, que se nombran con P1, P2, …, P99, las cuales
dividen un conjunto de datos en 100 grupos con aproximadamente 1 % de los valores en cada
grupo.
Está el caso especial del percentil 50 que se expresa P50 que deja el 50 % de los datos por
debajo y alrededor del 50 % de los datos por arriba de él. De esta forma el percentil 50 es igual a
la mediana. Para el cálculo de los percentiles, no hay un acuerdo universal sobre el mejor
procedimiento, pero se describirán dos procedimientos relativamente sencillos para:
Se observa que hay 6 cantidades menores que 29 en la lista ordenada de la tabla 1, así:
El presupuesto de $29 millones corresponde al percentil 17, de lo que se puede decir que el
presupuesto de $29 millones separa al 17 % inferior de los presupuestos, del 83 % superior de
los presupuestos.
Transformación de un percentil en un valor. Existen varios métodos diferentes para el
procedimiento de convertir o transformar un percentil en el valor correspondiente del conjunto de
datos. Se empleará el que se resume en la figura 5:
Figura 5: Transformación del percentil k-ésimo en el valor correspondiente
Fuente: Triola, M.L. (2013). Transformación del percentil k-ésimo en el valor correspondiente, p. 118.
Notación de la figura 5
n número total de valores en el conjunto de datos.
En este caso los datos muestrales ya están ordenados, entonces, vamos a calcular el valor del
localizador L. Para el percentil 90 k = 90 y n = 35 porque hay 35 valores:
L= = = 31,5
Como L = 31,5 no es un número entero, se pasa al recuadro siguiente, donde dice que se
redondea L al siguiente entero más grande, de 31,5 a 32 (este es uno de los pocos casos en que
se redondea hacia arriba y no hacia abajo). Según el último recuadro el valor de P90 es el 32°
valor contando desde el más bajo. Viendo en la Tabla 1 el 32° corresponde al valor de 150; es
decir P90 =$150 millones. De acuerdo a esto, alrededor del 90 % de las películas tienen
Cuartiles
Los cuartiles son medidas de ubicación, Q1, Q2 y Q3 que dividen un conjunto de datos ordenado
Q1 = P25
Q2 = P50
Q3 = P75
L= = 35 = 8,75
Como L=8,75 no es un número entero, se redondea hacia arriba al siguiente entero, así tenemos
L= 9. El valor de P25 es el noveno valor de la lista ordenada es decir $35 millones. Entonces el
Tampoco hay un acuerdo universal sobre un procedimiento para el cálculo de cuartiles, y los
diferentes programas de computadora suelen arrojar resultados diferentes. Si se emplea una
calculadora o un programa de cómputo es posible que obtenga resultados que difieran
ligeramente de las respuestas que se obtienen utilizando los procedimientos que aquí se
describen.
Algunos datos estadísticos se definen con el uso de cuartiles y percentiles, como los
siguientes:
recorrido semi-intercuartil =
cuartil medio =
Para un conjunto de datos, el resumen de los 5 números consiste en: el valor mínimo; el
primer cuartil, Q1; la mediana (o segundo cuartil, Q2); el tercer cuartil, Q3; y el valor
máximo.
Una gráfica de caja (o diagrama de caja y bigotes) es una gráfica de un conjunto de
datos consistente en una línea que se extiende desde el valor mínimo hasta el valor
máximo, y una caja con líneas trazadas en el primer cuartil, Q1, la mediana y el tercer
cuartil, Q3. [Puede verse en la figura 6 más adelante]. (Triola, 2013, 121)
Ejemplo: utilizando los presupuestos de películas de la tabla 1, obtén el resumen de los 5
números.
Como los presupuestos de la tabla 1 están ordenados se puede ver fácilmente que el valor
mínimo es $4,5 millones y el valor máximo es $225 millones. El primer cuartil se calculó antes y
es Q1 = $35 millones. De igual manera calcularemos Q2 y Q3.
De esta forma, el resumen de los 5 números es: 4, 5, 35, 68, 113, 225. Todo expresado en
millones de dólares.
El resumen de los 5 números se utiliza para construir una gráfica de caja, la cual se realiza con el
siguiente procedimiento:
Las gráficas de caja nos brindan información acerca de la distribución y la dispersión de los datos.
A continuación, en la figura 7 se comprueba la relación que existe entre la gráfica de caja y bigote
y sus polígonos, para cuatro distintos tipos de distribución. El área bajo cada polígono se divide
en cuartiles que corresponden al resumen de 5 números de la gráfica de caja y bigotes.
Figura 7: Gráficas de caja y bigotes, y sus polígonos correspondientes de 4 distribuciones
Fuente: Levine D.M., Krehbiel T. C. y Berenson M.L. (2014). Gráficas de caja y bigotes, y sus polígonos correspondientes de 4 distribuciones,
p. 114.
del bigote derecho (valor máximo). Así el largo bigote izquierdo contiene el 25 % más pequeño de
los valores, lo que muestra distorsión de la simetría de este conjunto de datos.
2. Valores atípicos
Cuando se analizan datos es importante identificar y tomar en cuenta los valores atípicos, porque
podrían afectar de forma determinante los valores de algunas estadísticas importantes (como la
media y la desviación estándar). Una descripción vaga, sin criterios, objetivos específicos, define
a los valores atípicos como datos muestrales que se ubican muy lejos de la gran mayoría de los
demás valores en un conjunto de datos.
Para la finalidad de construir gráficas de caja modificadas, podemos considerar que los valores
atípicos son datos que satisfacen criterios específicos basados en los cuartiles y en el rango
intercuartil. (RIC = Q3 - Q1).
En las gráficas de caja modificadas, un valor es atípico si está…
por debajo de Q1 en una cantidad mayor que 1.5 X RIC” (Triola, 2013, p. 123)
Ejemplo: empleando los pulsos de mujeres incluidos en un conjunto de datos se pide construir
una gráfica de caja modificada.
De la gráfica de caja realizada con los valores de pulsos de mujeres de la figura 8, vemos que
Q1= 68 y Q3= 80.
Usando los criterios para identificar valores atípicos, se buscan pulsos que estén por arriba del
tercer cuartil de 80 en una cantidad mayor que 1,5 X RIC = 1,5 X 12=18, así los valores extremos
superiores son mayores a 98. Los pulsos de 104 y 124 cumplen esa condición, entonces ambos
son valores atípicos.
Siguiendo con los criterios de identificación de valores atípicos, se buscan pulsos que estén por
debajo del primer cuadril de 68 en una cantidad mayor que 18 (1,5 X RIC). Los valores atípicos
están por debajo de 68 en una cantidad de 18, o sea son cifras menores de 50. No se observan
pulsos de mujeres menores de 50 en el conjunto de datos.
De esta forma los únicos valores atípicos son 104 y 124 y se pueden ver identificados con
claridad como puntos especiales en la gráfica de caja modificada generada por Minitab en la
figura 9.
Figura 9: Gráfica de caja modificada de los pulsos de mujeres
Integración
Hemos analizado varias herramientas básicas que se utilizan con gran frecuencia en
estadística. Al diseñar un experimento, analizar datos, leer un artículo en una revista
científica o al manejar datos, es importante tomar en cuenta ciertos factores
fundamentales, como los siguientes:
Esta lista es un excelente recurso, no debe dejarse de lado la reflexión sobre cualquier
otro factor importante. Puede ser que algunas aplicaciones de la estadística precisen de
elementos que no se encuentren en esta lista o que algunos de estos no sean importantes
para ciertas aplicaciones.
Por ejemplo, al comparar los pulsos de mujeres y hombres incluidos en un conjunto de
datos, debemos entender qué representan esos pulsos (pulsaciones en latidos por
minuto), conocer la fuente (el National Center for Health Statistics), el método de muestreo
(muestreo aleatorio simple de sujetos sometidos a un examen de salud), las medidas de
tendencia central (por ejemplo, X̅ = 69,4 para los hombres y X̅ = 76,3 para las mujeres),
las medidas de variación (por ejemplo, s = 11.3 para los hombres y s = 12.5 para las
mujeres), la distribución (histogramas que no son muy diferentes de una curva normal),
valores atípicos (por ejemplo, pulsos de 104 y 124 para las mujeres), patrones de cambio
con el paso del tiempo (este aspecto no se tomó en cuenta con los datos en cuestión), las
conclusiones (el pulso de los hombres parece ser menor que el de las mujeres) y las
implicaciones prácticas (la determinación de un pulso inusual debe tomar en cuenta el
género del sujeto). (Triola, 2013, p. 125)
En la figura 12 muestra dos distribuciones normales que difieren solo en la tendencia central. La
media, mediana, moda, recorrido medio y eje medio en el polígono C exceden (están a la derecha
de) aquellos para el polígono A.
Figura 12: Dos distribuciones normales de campana simétricas que difieren solo en la
tendencia central
La figura 13 presenta dos distribuciones normales que difieren solo en dispersión. El recorrido,
recorrido intercuartil, varianza, desviación estándar y coeficiente de variación del polígono D son
menores que los del polígono A.
Figura 13: Dos distribuciones normales de campanas simétricas que difieren solo en
dispersión
Recorrido o rango medio < media < eje medio < mediana < moda.
Figura 15: Distribución sesgada a la izquierda
Para distribuciones sesgadas a la derecha (figura 16) lo inverso se cumple. Las pocas
observaciones muy grandes distorsionan el recorrido o rango medio y la media hacia el extremo
derecho. Así se espera que el recorrido medio exceda a las demás mediciones:
Moda < mediana < eje medio < media < recorrido o rango medio.
Figura 16: Distribución sesgada a la derecha
Con la tabla 2, el analista construye el polígono de porcentaje (figura 19) y la ojiva de porcentaje
(figura 20).
Figura 19: Polígono de porcentaje de colegiaturas cobradas a residentes fuera del estado
en 90 escuelas y universidades de Pennsylvania
Figura 20: Ojiva de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90
escuelas y universidades de Pennsylvania
Fuente: Berenson y Levine, 1996.
La mediana se puede aproximar fácilmente en la ojiva de porcentaje de la figura 20, ¿50 % de las
colegiaturas están por debajo de qué cantidad? Para calcular esto (ver figura 21) se traza una
línea horizontal desde el punto de porcentaje 50, hasta intersecar la curva “menor que”. Desde
este punto de intersección se baja una perpendicular (una línea vertical) hasta el eje horizontal,
donde se encuentra el valor de la colegiatura mediana, que se aproxima a 10,5 miles de dólares.
La moda se aproxima eligiendo el punto medio de la clase que contenga la mayor parte de las
observaciones, la más típica o clase modal. En la tabla 2 la clase modal contiene colegiaturas de
10,0 a 12,0 miles de dólares (son la que tiene más cantidad de escuelas 22 y 24), así la moda se
aproxima a 11,0 miles de dólares.
El recorrido o rango puede aproximarse promediando los extremos posibles, el límite superior del
agrupamiento de la última clase (valor máximo) y el límite inferior del agrupamiento de la primera
clase (valor mínimo). Para nuestro ejemplo el valor máximo es 24,0 y valor mínimo 2,0 en miles
de dólares, el recorrido o rango medio aproximado es el promedio, o sea 13,0 miles de dólares.
Para el caso de aproximar los cuartiles se emplea la ojiva de porcentaje de la figura 21. Al valor
de Q1 le corresponde el punto de porcentaje acumulativo 25,0, desde donde se traza una línea
horizontal hasta intersecar la curva de la ojiva “menor que”. Bajando desde ese punto una línea
perpendicular hasta el eje horizontal. Allí el valor aproximado del primer cuartil Q1 = 8,5 miles de
dólares. Para el tercer cuartil Q3, se traza una horizontal desde el punto de porcentaje
acumulativo 75,0 hasta intersecar la curva “menor que”, bajando desde ese punto una
perpendicular hasta la intersección con eje horizontal, Dando el valor aproximado del tercer cuartil
Q3 = 13,3 miles de dólares.
El eje medio se aproxima promediando los cuartiles, es decir, el promedio de 8,5 y 13,0 miles de
dólares, lo que da un valor aproximado del eje medio de 10,9 miles de dólares.
Para la aproximación del recorrido o rango, de la Tabla 2 se hace la diferencia entre el límite
superior del agrupamiento de la última clase y el límite inferior del agrupamiento de la primera
clase (24,0 – 2,0), siendo el valor aproximado del rango o recorrido 22,0 miles de dólares.
El rango o recorrido intercuartil se puede aproximar con la diferencia entre Q3 y Q1, (13,3 – 8,5),
Una aproximación más general para la desviación estándar se calcula con un quinto del recorrido
(1/5 de 22,0) lo que daría un valor aproximado más general de 4,4 miles de dólares para la
desviación estándar.
Referencias
Berenson, M. L. y Levine, D. M. (1996). Estadística básica en administración. México: Pearson
educación.
Levine D. M., Krehbiel T. C. y Berenson M.L. (2014). Estadística para administración. Sexta
edición. México: Pearson educación.
Revisión
Las mediciones descriptivas de resumen se pueden calcular a partir de una muestra de datos, y
se denominan estadísticas. O se pueden calcular a partir de una población completa de datos,
en cuyo caso se denominan parámetros. Por lo general, se toman muestras en vez de estudiar
poblaciones enteras. Por esta razón se hará énfasis en las mediciones estadísticas. Es
conveniente examinar tres propiedades de los datos numéricos para tener una mayor
comprensión de los datos. Estas propiedades son:
La mediana es otro valor importante entre los valores de posición. A diferencia de la media
aritmética, los valores de las observaciones no la determinan. En el caso de la mediana, lo
relevante es el ordenamiento (generalmente) de menor a mayor. La mediana es el valor que se
encuentra en el centro de una secuencia ordenada de datos. Es importante respetar el
ordenamiento de los datos: de mayor a menor, o de menor a mayor.
El modo (o moda) de una distribución es el valor de la variable al que corresponde la mayor
frecuencia. Es decir, es el valor que se presenta más frecuentemente. Esta medida de posición
(al igual que la mediana) tampoco se ve afectada por valores extremos, muy pequeños o muy
grandes.
La mitad del rango, o rango medio, es otra medida de tendencia central. La mitad de rango
constituye el valor que se encuentra a la mitad, entre la puntuación más alta y la más baja, en el
conjunto original de datos.
☰ Medidas de dispersión
La dispersión es la segunda propiedad más importante para describir una serie de datos
numéricos. Representa la cantidad de “variación” o “propagación” en los datos.
Los parámetros de dispersión son las medidas que indican cómo se concentra la distribución.
Dispersión es la variación de los valores de un conjunto de datos, y se refiere a la mayor o
menor concentración de valores en torno a un valor central. Poca dispersión muestra que la
media es representativa del conjunto de datos; por el contrario, una mayor dispersión significa
menor representatividad del parámetro de posición media aritmética.
La tercera propiedad importante de una serie de datos es su forma, la manera en que los datos
se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea. La distribución simétrica
-ya se ha visto en las lecturas anteriores- es aquella cuya “mitad izquierda de su histograma es
aproximadamente una imagen en espejo de su mitad derecha” (Triola, 2013, p. 85). Cuando la
distribución no es simétrica se llama asimétrica o sesgada y su histograma “se extiende más
hacia un lado que hacia otro” (Triola, 2013, p. 85).