Está en la página 1de 18

Estadística I

Prof. Javier Martínez

TEMA II
ESTADÍSTICA DESCRIPTIVA

2.1- La estadística Descriptiva


La mayor parte de la información estadística en periódicos, revistas, informes de
empresas y otras publicaciones consta de datos que se resumen y presentan en una
forma fácil de leer y de entender. A estos resúmenes de datos, que pueden ser tabulares,
gráficos o numéricos se les conoce como Estadística Descriptiva.
Los métodos de la estadística descriptiva pueden emplearse para resumir la información
en un determinado conjunto de datos. Estos tipos de resúmenes, tabular y gráfico,
permiten que los datos sean más fáciles de interpretar.
Una vez que se han recogido y tabulado los datos, los mismos deben ser presentados de
una manera organizada para facilitar el acceso a la información que contienen. Aunque
en el proceso de agrupamiento generalmente se pierde parte del detalle original de los
datos, tiene la importante ventaja de presentarlos a todos en un sencillo cuadro que
facilita asimilar la información. Dado que es posible manejar diversos tipos de datos,
primeramente, se trataran los cuantitativos y posteriormente los cualitativos.

2.2.- Tablas de Distribución de Frecuencias


Resumen de Datos Cuantitativos
Es conviene iniciar el estudio acerca del uso de los métodos tabulares y gráficos para
resumir datos con las siguientes definiciones:

1.- Distribución de Frecuencia: es un resumen tabular de datos que muestra el número


(frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se
sobreponen).
2.- Frecuencia Absoluta (𝑓𝑖 ): es un resumen tabular de un conjunto de datos que
muestra la cantidad de elementos en cada una de las diferentes clases que la conforman.
3.- Frecuencia Relativa (ℎ𝑖 ): La frecuencia relativa de una clase es igual a la parte o
proporción de los elementos que pertenecen a cada clase. En un conjunto de datos, en el
que hay n observaciones, la frecuencia relativa de cada clase se determina como:
𝑓𝑖
ℎ𝑖 =
𝑛

1
Estadística I
Prof. Javier Martínez

4.- Frecuencia Absoluta Acumulada (𝐹𝑖 ): La cual representa al número acumulado de


frecuencias absolutas.
5.- Frecuencia Relativa Acumulada (𝐻𝑖 ): Es la cantidad acumulada de frecuencias
relativas.
6.- Distribución de Frecuencias para Datos no Agrupados: es una tabla compuesta por
columnas. En una se ubican los valores de la variable y en las otras la Frecuencia
Absoluta, Frecuencia Relativa, Frecuencia Absoluta Acumulada y Frecuencia Relativa
Acumulada.
Ejemplo 2.1:
Supongamos que los siguientes datos corresponden al peso en Kg. de un grupo de
estudiantes:
56, 58, 61, 62, 67, 68, 70, 75, 56, 58, 61, 68, 75, 58, 68, 68.
Al construir la tabla de distribución de frecuencias obtenemos:

Tabla de Datos No Agrupados


Peso (Kg) 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
56 2 0,125 2 0,125
58 3 0,1875 5 0,3125
61 2 0,125 7 0,4375
62 1 0,0625 8 0,5
67 1 0,0625 9 0,5625
68 4 0,25 13 0,8125
70 1 0,0625 14 0,875
75 2 0,125 16 1
Total 16 1

7.- Distribución de Frecuencias para Datos Agrupados: es una tabla resumen en la cual
los datos se encuentran divididos en grupos ordenados numéricamente. A estos grupos
se les denominan clases o categorías. Esta tabla se emplea cuando la variable es
continua o se obtiene un gran número de datos. Para la elaboración de estas tablas en
conveniente seguir los siguientes pasos:
4.1.- Selección del número de clases (𝑘): el número de clases que se utilizan
depende primordialmente de la cantidad de datos que se tengan, es una decisión

2
Estadística I
Prof. Javier Martínez

arbitraria; sin embargo, en términos generales, se recomienda que sean


aproximadamente √𝑛 clases, donde n es el número de datos.
4.2.- Selección de la Longitud o Ancho de la Clase: Es común tomar clases de
igual tamaño, es decir, si 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛 representan el valor máximo y mínimo de
los datos, y además se decide usar k clases, la longitud de cada una de las clases es
obtenida calculando:
𝑥𝑚á𝑥 − 𝑥𝑚í𝑛
𝐿𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝐶𝑙𝑎𝑠𝑒 =
𝑘
4.3.- Límites de Clase: Una vez fijado convenientemente el valor inicial para a
clasificación, los límites de cada clase se obtienen sumando la longitud de la clase
menos uno a partir del valor inicial. Por lo general no se incluye el límite derecho
de cada clase.
4.4.- Puntos Medios o Marcas de Clase (𝑥̇ ): Son los promedios de los límites de
cada clase. Si LS y LI representan el Límites Superior e Inferior, respectivamente,
de la i-ésima clase, entonces:
𝐿𝑆𝑖 + 𝐿𝐼𝑖
𝑥̇ 𝑖 =
2
Ejemplo 2.2:
Continuemos con los datos del Ejemplo 2.1, y deseamos realizar una tabla de
datos agrupados para este problema. Por tanto calculamos:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 (𝑘) = √𝑛 = √16 = 4
𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 75 − 56
𝐿𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝐶𝑙𝑎𝑠𝑒 = = = 4,75 ≈ 5
𝑘 4
El cálculo anterior nos permite identificar que nuestra tabla debe contener 4 clases
con una amplitud (ancho) de 5 cada una. Por lo que seleccionamos las siguientes
clases: [55, 60), [60, 65), [65, 70) y [70, 75]. Y calculamos cada uno de sus
puntos medios de la siguiente manera:
55+60 60+65
𝑥̇ 1 = = 57,5 ; 𝑥̇ 2 = = 62,5
2 2
65+70 70+75
𝑥̇ 3 = = 67,5 ; 𝑥̇ 4 = = 72,5
2 2

Luego de lo anterior tenemos que:

3
Estadística I
Prof. Javier Martínez

Tabla de datos Agrupados

Peso (Kg) 𝒙̇ 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
[𝟓𝟓, 𝟔𝟎) 57,5 5 0,3125 5 0,3125

[𝟔𝟎, 𝟔𝟓) 62,5 3 0,1875 8 0,5

[𝟔𝟓, 𝟕𝟎) 67,5 5 0,3125 13 0,8125

[𝟕𝟎, 𝟕𝟓] 72,5 3 0,1875 16 1

Total 16

Resumen de Datos Cualitativos


Para el problema que implica la construcción de distribuciones cualitativas es muy
parecido al problema de datos cuantitativo. Es necesario decidir la cantidad de clases a
usar y los elementos que contendrá cada una de las categorías, asegurándonos que se
puedan acomodar la totalidad de los datos y además que no se presenten ambigüedades.
En la construcción de una tabla de frecuencias para datos cualitativos solo se requiere
del conteo de elementos o individuos que caen dentro de cierta clase o tienen
determinada característica.
Ejemplo 2.3:
La siguiente tabla pertenece a los planes de estudios superiores de un grupo de 548
estudiantes del último año del bachillerato:
𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊 %
Planea ir a la universidad. 240 0,4379 240 0,4379 43,79
Quizás vayan a la universidad. 146 0,2703 386 0,7082 27,03
Planean ir o quizás vayan a una escuela
57 0,1055 443 0,8137 10,55
vocacional.
No irán a ninguna universidad. 105 0,1944 548 1 19,44
Total 548

Para la tabulación de datos cualitativos también se pueden usar tablas de contingencia o


supertablas, el valor de una tabulación cruzada consiste en que proporciona una idea de
la relación entre las variables (ya sean ambas cualitativas, ambas cuantitativas o
combinación de ambas).

4
Estadística I
Prof. Javier Martínez

Ejemplo 2.4:
Un prestamista local tiene en la actualidad 120 cuentas, su contable le comunica que de
las 25 cuentas comprendidas entre 0 y 4999 dólares; 10 vencen ahora, 5 vencieron hace
tiempo y el resto son morosas; lo que implica para el deudor el peligro de ver ejecutada
la deuda por el prestamista.
De las 37 cuentas situadas en el intervalo de 5000 a 9999 dólares; 15 vencen ahora, 10
han vencido hace tiempo y el resto son morosas.
Hay 39 cuentas en el intervalo de 10000 a 14999 dólares que indican que 11 vencen
ahora, 10 vencieron hace tiempo y el resto son morosas. Del resto de las cuentas, en el
intervalo de 15000 o más; 5 vencen ahora, 7 han vencido y el resto son morosas.
El prestamista quiere ver una tabla de contingencia de estas cuentas, para lo cual le pide
a su contable que la elabore:

Cuentas
0 - 4999 5000 - 9999 10000-14999 15000 o más Totales
Condición
Vencen ahora 10 15 11 5 41
Vencieron hace 5 10 10 7 32
tiempo
Morosas 10 12 18 7 47
Totales 25 37 39 19 120

2.3.- Representación Gráfica de Datos


En el ámbito de la estadística, es importante la elaboración de gráficos que permitan a
simple vista la comprensión de la información recabada. Para variables cualitativas es
muy común la implementación de diagramas de sectores, pictogramas y gráficos de
barras. En el caso de variables cuantitativas son implementados los histogramas,
polígonos de frecuencia y ojivas.

Gráficos para Variables Cualitativas


Diagrama de Sectores: es un gráfico que consiste en un círculo dividido en sectores de
amplitud proporcional a la frecuencia de cada valor. Se utiliza con datos cualitativos y
cuantitativos. Por tanto, para el Ejemplo 2.2 y Ejemplo 2.3 tenemos:

5
Estadística I
Prof. Javier Martínez

Gráfico del Ejemplo 2.2

19%
[70, 75] 31%
[55, 60)

31%
[65, 70)
19%
[60, 65)

Gráfico del Ejemplo 2.3


No irán a
ninguna
universidad
19%

Planean ir o Planea ir a la
quizás vayan a universidad
una escuela 43%
vocacional.
11%

Quizás vayan
a la
universidad.
27%

Pictogramas: Son representaciones graficas que se hacen por medio de dibujos, que en
la mayoría de los casos son semejantes al fenómeno que se quiere representar. Por
ejemplo, si estudiamos el número de botellas recogidas el pictograma correspondiente
seria:

500 botellas 125 botellas


Ciudad A Ciudad B

6
Estadística I
Prof. Javier Martínez

Gráficos de Barras: Es una gráfica que muestra datos utilizando barras horizontales o
verticales cuyas longitudes son proporcionales a las cantidades que representan. Se
puede utilizar para datos cuantitativos y cualitativos. Por tanto, para el Ejemplo 2.2 y
Ejemplo 2.3.

[55, 60) [60, 65) [65, 70) [70, 75]

Gráficos para Variables Cuantitativas


Histogramas: Son gráficos de barras en los cuales no hay separación entre los
rectángulos que se forman, se construyen mediante la representación de las clases de
una distribución de frecuencia en el eje horizontal y las frecuencias en el eje vertical. A

7
Estadística I
Prof. Javier Martínez

través de él se pueden visualizar las tres características de los datos: forma, acumulación
o tendencia posicional y la dispersión o variabilidad.

Polígonos de Frecuencia: Son gráficos de línea trazados sobre las marcas de clase de
cada intervalo, puede obtenerse uniendo los puntos medios de los techos de los
rectángulos del histograma y tomando en cuenta que se deben extender ambos extremos
del polígono hasta el eje horizontal en aquellos puntos que serían las marcas de clase
adyacentes a cada extremo.

8
Estadística I
Prof. Javier Martínez

Ojivas:
Es la gráfica de una distribución de frecuencias acumuladas, los intervalos de las clases
se ubican en el eje horizontal.

2.4 Medidas Descriptivas de las Distribuciones de Frecuencia


Con la finalidad de tener la descripción de los datos de manera precisa, se recurren a
una serie de medidas calculadas a partir de la información brindada por el conjunto de
datos. Estas son conocidas como Estadísticos.
Mediante el uso de los estadísticos es posible describir ciertas características del
conjunto de datos los cuales permiten una comprensión rápida para así tomar decisiones
satisfactorias.
Estas características son:
1.- Medidas de Tendencia Central
2.- Medidas de Posición.
3.- Medidas de Dispersión.
4.- Medidas de Sesgo.
5.- Medidas de Curtosis.

Medidas de Tendencia Central

Media Aritmética
La medida de localización más importante es la media, o valor promedio, de una
variable.

9
Estadística I
Prof. Javier Martínez

Si tenemos una variable aleatoria X tal que la primera, segunda y i-ésima observación es
representada por 𝑥1 , 𝑥2 𝑦 𝑥𝑖 respectivamente. La Media Muestra es definida como:
a) Para la Tabla de Datos No Agrupados,
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1

donde n es el número de observaciones.


b) Para la Tabla de Datos Agrupados,
𝑛
1
𝑥̅ = ∑ 𝑓𝑖 𝑥̇ 𝑖
𝑛
𝑖=1

donde 𝑓𝑖 y 𝑥̇ 𝑖 son la frecuencia y la marca de clase de la i-ésima clase y n es el


número de observaciones.

La Media Aritmética Ponderada


A veces se asocia a los números de un conjunto de datos, ciertos factores o pesos y es
por ello que la media aritmética ponderada es un promedio que se calcula a fin de tener
en cuenta la importancia de cada valor para el total global.
𝑛
1
𝑥̅ = ∑ 𝑓𝑖 𝑥𝑖
𝑛
𝑖=1

Moda
Es el valor de los datos que se presenta con más frecuencia, por lo que representa el
punto más alto en la curva de distribución de un conjunto de datos.
a) Para la Tabla de Datos No Agrupados,
Consiste en visualizar cuál valor o elemento presenta mayor frecuencia.
b) Para la Tabla de Datos Agrupados,
Si 𝑙𝑖 ,𝑓𝑎 , 𝑓𝑠 , 𝑓𝑚𝑜𝑑 y a representan el límite inferior de la i-ésima clase, la
frecuencia absoluta anterior, la frecuencia absoluta siguiente, la frecuencia de la
clase con mayor frecuencia y la amplitud o longitud de la clase, respectivamente,
se tiene que:

𝑓𝑚𝑜𝑑 − 𝑓𝑎
𝑚𝑜𝑑𝑎 = 𝑙𝑖 + 𝑎
(𝑓𝑚𝑜𝑑 − 𝑓𝑎 ) + (𝑓𝑚𝑜𝑑 − 𝑓𝑠 )

10
Estadística I
Prof. Javier Martínez

Mediana
La Mediana es otra medida de localización central. Es el valor central en los datos
ordenados de menor a mayor (en forma ascendente).

a) Para la Tabla de Datos No Agrupados,


Cuando tiene un número impar de observaciones, la mediana es el valor central.
Cuando la cantidad de observaciones es par, la mediana es definida como el
promedio de las dos observaciones centrales.
b) Para la Tabla de Datos Agrupados,
Si 𝑙𝑖 , 𝐹𝑎 , 𝑓𝑚𝑒𝑑 y a representan el límite inferior de la i-ésima clase, la frecuencia
acumulada anterior, la frecuencia absoluta del intervalo de la mediana y la
amplitud o longitud de la clase, respectivamente, se tiene que:
𝑎 𝑛
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑙𝑖 + ( − 𝐹𝑎 )
𝑓𝑚𝑒𝑑 2

Medidas de Posición

Percentiles
Un Percentil aporta información acerca de la dispersión de los datos en el intervalo que
va del menor al mayor valor de los datos. Dicho de otra forma, el percentil son aquellos
valores que dividen a un conjunto de datos ordenados en cien partes iguales. 𝑝𝑖
representa al i-ésimo percentil. Así por ejemplo, 𝑝1 es el valor donde se sitúa a la sumo
el 1% de los datos.
a) Para la Tabla de Datos No Agrupados,
Primeramente, se ordenen los datos de manera ascendente, luego, se calcula
𝑖
(100) 𝑛 (n es el número de datos). Si este valor es entero, el i-ésimo percentil es el
𝑖 𝑖
promedio de los valores de los datos ubicados en los lugares (100) 𝑛 y (100) 𝑛+1.
𝑖
Si por el contrario, este valor no es entero, el valor entero inmediato a (100) 𝑛

indica la posición del i-ésimo percentil.


b) Para la Tabla de Datos Agrupados,
𝑛𝑗
Primeramente, calcular 𝑝𝑗 se resuelve 100

11
Estadística I
Prof. Javier Martínez

𝑎 𝑛𝑗
𝑝𝑗 = 𝑙𝑖 + ( − 𝐹𝑎 )
𝑓𝑗 100

Cuartiles
Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos
ordenados. Se representan por 𝑞𝑖 con 𝑖 = 1, 2, 3. Para el cálculo de los mismos, se parte
de la idea que 𝑞1 = 𝑝25 , 𝑞2 = 𝑝50, 𝑞3 = 𝑝75.

Deciles
Son aquellos valores que dividen en diez partes iguales a un conjunto de datos
ordenados. Se representan por 𝑑𝑖 con 𝑖 = 1, 2, … 9. Para calcular los deciles
consideramos que 𝑑1 = 𝑝10 , 𝑑2 = 𝑝20 , 𝑑3 = 𝑝30 , 𝑑4 = 𝑝40 , 𝑑5 = 𝑝50 , …, 𝑑𝑖 =
𝑝(10)𝑖 , con 𝑖 = 1, 2, … ,9.

Medidas de Dispersión
Mientras que los estadísticos de tendencia central nos indican los valores alrededor de
los cuales se sitúa un grupo de observaciones, los estadísticos de variabilidad o
dispersión muestran si los valores de las observaciones están próximos entre sí o están
muy separados.
La dispersión, es definida como el grado en que los datos numéricos tienden a
extenderse alrededor de un valor medio. La dispersión de la distribución suministra
información completa que permite juzgar la confiabilidad de nuestra medida de
tendencia central. Si los datos están ampliamente dispersos, la localización central será
menos representativa de los datos en su conjunto de lo que sería en el caso de datos que
se acumulasen más alrededor de la media.

Rango
El Rango (R), es definido como la diferencia entre el valor más alto y más bajo
observado. Es decir:
𝑅 = 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛
Un rango pequeño indica poca variación, mientras que uno grande gran variabilidad.
También, es importante tener en consideración que el rango o es muy útil ya que solo
toma en cuenta el valor máximo y mínimo de una distribución por lo que no da una

12
Estadística I
Prof. Javier Martínez

información relevante de la verdadera concentración de los datos. Igualmente, es


importante destacar que, no es posible utilizar el rango en distribuciones que tengan
intervalos abiertos y además, el mismo puede ser afectado por observaciones externas.

Rango Intercuartil
El Rango Intercuartil (RI) Es la diferencia entre los valores del primer y tercer cuartil.
Esto permite reflejar la variabilidad de las observaciones del 50% intermedio de los
datos y tiene la venta de no verse influenciado por valores extremos.
𝑅𝐼 = 𝑞3 − 𝑞1
Es relevante mencionar que al hacer referencia al Rango Semi-Intercuartil (RSI) nos
referimos a;
𝑞3 − 𝑞1 𝑅𝐼
𝑅𝑆𝐼 = =
2 2

Varianza y Desviación Estándar


La Varianza, es la medida del cuadrado de la diferencia promedio entre la media y cada
uno de los elementos de la población. Utilizaremos, 𝜎 2 y 𝑆 2 para hacer referencia a la
varianza poblacional y muestral, respectivamente. Formulas:
a) Para la Tabla de Datos No Agrupados,
∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2
𝜎2 =
𝑛
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑆2 =
𝑛−1
b) Para la Tabla de Datos Agrupados,

2
∑𝑘𝑖=1(𝑥𝑖̇ − 𝜇)2 𝑓𝑖
𝜎 =
𝑛

2
∑𝑘𝑖=1(𝑥𝑖̇ − 𝑥̅ )2 𝑓𝑖
𝑆 =
𝑛−1

Siguiendo con el mismo orden de ideas, la Desviación Estándar (𝜎 𝑜 𝑆) es definida


como la raíz cuadrada positiva de la varianza. Existen algunos aspectos importantes a
considerar:
1.- La desviación estándar de una constante es cero.
2.- La desviación estándar siempre es una cantidad positiva.

13
Estadística I
Prof. Javier Martínez

3.- Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de
una distribución de frecuencia en relación con la media.
4.- Las unidades de la desviación típica se expresan en las mismas unidades de los
datos.
5.- Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el
conjunto.

Coeficiente de Variación
El Coeficiente de Variación (CV) mide el grado de dispersión de un conjunto de datos
en relación a su media.
𝑆
𝐶𝑉 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = ( ) 100%
𝑥̅
𝜎
𝐶𝑉 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 = ( ) 100%
𝜇
Es importante resaltar que, el CV es un estadístico útil para comparar la dispersión de
conjuntos de datos que tienen distintas desviaciones estándar y distintos promedios. Al
igual que, el CV pierde su utilidad cuando la media se aproxima a cero. También, se
tiene que cuando |𝐶𝑉| ≤ 10% la distribución de los datos es homogénea, es decir,
existe poca dispersión en los datos, por lo que se puede concluir que la media es
significativa.

Medidas de Sesgo y Curtosis


Una distribución de datos es Simétrica cuando sus frecuencias se repartes
simétricamente en torno a la media y a la mediana, que en este caso coinciden. En el
caso contrario, cuando las frecuencias no tienen una distribución simétrica, la
distribución presenta una cola más pesada que otra y en ese caso se dice que es una
distribución Asimétrica o Sesgada.

14
Estadística I
Prof. Javier Martínez

Coeficiente de asimetría de Pearson


Este coeficiente se basa en la idea de que en las distribuciones simétricas la media es
igual a la moda. Para su cálculo:
𝑥̅ − 𝑀𝑜𝑑𝑎
𝑆𝐾 =
𝑆

(𝑥̅ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝐾 = 3
𝑆

Si 𝑆𝐾 > 0 La asimetría es positiva. Entonces la distribución de los datos es segada a la


derecha. En este caso 𝑥̅ > 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
Si 𝑆𝐾 = 0 Existe simetría. 𝑥̅ = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
Si 𝑆𝐾 < 0 La asimetría es negativa. La distribución es sesgada a la izquierda en este
caso, 𝑥̅ < 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.

Medidas de Curtosis
La Curtosis hace referencia a la concentración de datos en la región central. Es el grado
de pico o apuntamiento que presenta una distribución. El patrón de referencia es la
distribución normal.
Para su cálculo,

15
Estadística I
Prof. Javier Martínez

a) Para la Tabla de Datos No Agrupados,


Sea 𝑥1 , … , 𝑥𝑛 una muestra observada, la curtosis es dada por:
𝑛
1 𝑥𝑖 − 𝑥̅ 4
𝛾2 = [( ) ∑ ( ) ]−3
𝑛 𝑆
𝑖=1

b) Para la Tabla de Datos Agrupados,


Si disponemos de una tabla de frecuencias, la curtosis viene dada por:
𝑘
1 𝑥̇ 𝑖 − 𝑥̅ 4
𝛾2 = [( ) ∑ 𝑓𝑖 ( ) ]−3
𝑛 𝑆
𝑖=1

En términos de curtosis una curva puede ser:

Curva platicúrtica: es aquella que presenta un pico ligero, es achatada. En este caso
𝛾2 < 0.

Curva mesocúrtica: es aquella no es ni muy puntiaguda ni muy achatada (es la curva


normal). En este caso 𝛾2 = 0.

Curva leptocúrtica: es aquella que presenta un pico alto. 𝛾2 > 0.

16
Estadística I
Prof. Javier Martínez

2.5.- Gráficos de Cajas y Bigotes (Boxplots). Diagramas de Paretos


El Boxplots
Es una representación gráfica de los datos, que permite analizar una serie de medias
numéricas, tales como el mínimo, el máximo, la mediana y los cuartiles. En este grafico
es posible observar características de los datos, como la simetría y datos atípicos. En
este sentido, para la construcción de un Boxplot, es recomendable seguir los siguientes
pasos.
1.- Construir una recta y marcar en ella los tres cuartiles.
2.- Dibujar una caja sobre la recta con los extremos localizados en 𝑞1 y 𝑞3 .
3.- Trazar un segmento vertical por el punto correspondiente a la mediana dentro de la
caja.
4.- Ubicar los limites mediante el Rango Intercuartil: Los limites están a (1,5)𝑅𝐼 debajo
de 𝑞1 y (1,5)𝑅𝐼 por encima de 𝑞3 . Se considera que los datos fuera de estos límites son
Valores Atípicos.
5.- Trazar dos líneas punteadas (bigotes de la caja): una que va del centro de la primera
vertical hasta el valor mínimo dentro de los limites, y la otra que va del centro de la
segunda vertical hasta el valor máximo dentro de los limites.
6.- Marcar con un asterisco las localizaciones de los valores atípicos.

El lugar ocupado por la mediana dentro de la caja es un buen indicador de la simetría,


así, al visualizar la caja, si la línea trazada por la mediana se encuentra en el centro la
distribución de los datos tiende a ser simétrica, si por el contrario, la mediana se
encuentra cerca del límite inferior o superior, existen indicios de asimetría positiva o
negativa, respectivamente.

17
Estadística I
Prof. Javier Martínez

El Diagrama de Pareto (Diagrama ABC o Diagrama 20-80)

El Diagrama de Pareto, es una representación gráfica de los datos, que ayuda en la


identificación de los aspectos prioritarios. Está fundamentado en la consideración del
20% de las causas que producen la mayoría de los efectos (80%). Por lo que con el
mismo se busca encontrar el pequeño grupo de causas para actuar de manera prioritaria
sobre ellas. Para su construcción:
1.- Dibujar dos ejes verticales y uno horizontal.
2.- Situar en el eje vertical izquierdo la magnitud de cada factor. La escala del eje está
comprendida entre cero y la magnitud total de los factores. Mientras que en el derecho,
se representa el porcentaje acumulado de los factores, por tanto, la escala es de cero a
100. El punto que representa a 100 en el eje derecho está alineado con el que muestra la
magnitud total de los factores detectados en el eje izquierdo.
3.- En el eje horizontal dibujar barras con los elementos clasificados de mayor a menor.
4.- Dibujar la curva representativa de los porcentajes acumulados

El diagrama de Pareto es especialmente útil cuando se trata de mostrar la importancia


relativa de las diversas causas identificadas para un determinado efecto o problema.
Para determinar los factores clave (o los más importantes) que influyen en una
problemática y también, la hora de tomar una decisión sobre los aspectos a trabajar de
manera inmediata en una complicación.

18

También podría gustarte