Está en la página 1de 14

Estadística Descriptiva

Guía de estudio

1. Descripción de una característica cuantitativa


 Descripción numérica
 Descripción gráfica
 Estimaciones con datos agrupados

2. Descripción de una característica cualitativa

3. Ejercicios

Holger Benalcázar Paladines

holger.benalcazar@epn.edu.ec

holger.benalcazar@gmail.com

abril - 2020
La Estadística Descriptiva abarca el conjunto de técnicas gráficas y numéricas que permiten organizar,
representar e interpretar en una fase inicial la información recogida en una muestra. Las conclusiones que
se derivan se refieren a la muestra y no a toda la población; sin embargo, lo que se aprecia en la muestra
mediante técnicas descriptivas facilita la elaboración de hipótesis acerca de la población, para luego, aceptarlas
o rechazarlas mediante técnicas inferenciales.

1. Descripción de una característica cuantitativa

En lo que sigue, supondremos que se dispone de una muestra de tamaño n de una característica cuantitativa;
a las n observaciones disponibles en la muestra, las denotaremos por x1, x2,...,xn.

Descripción Numérica

Cuando se trabaja con una característica cuantitativa es importante determinar como se distribuyen las
observaciones a lo largo del intervalo donde la característica toma sus valores. La distribución de los datos se
determina mediante el análisis de la tendencia central, la dispersión, la posición y la forma; para esto, se
utilizan estimadores, que son indicadores numéricos calculados a partir de la información muestral. Los
estimadores más comunes son:

- Tendencia central: la media, la mediana y la moda para determinar la localización del centro de los
valores de la característica sobre el eje real.

- Dispersión: la varianza, la desviación estándar, la amplitud y la amplitud intercuartílica para determinar


que tan dispersas se encuentran las observaciones de su centro.

- Posición: los percentiles, los deciles, los quintiles y los cuartiles para identificar la posición de un valor
dentro de un conjunto ordenado de datos.

- Forma: el coeficiente de asimetría y el coeficiente de agudeza para determinar la forma de la distribución


de las observaciones.

Media o promedio: es el promedio aritmético de los datos muestrales. La media muestral se calcula por:

x
1
x1  x 2  ...  xn 
n
Figura 01
50% 50%
de los datos de los datos

mín ෡
𝑀 máx
mediana

Mediana: es el valor tal que el 50% de los datos de la muestra le son menores o iguales, y el otro 50% le es mayor
o igual. Existen varias formas de estimar la mediana, aunque en la mayoría de los casos, no difieren
significativamente; nosotros adoptaremos la forma más sencilla. Para calcular la mediana, ordenaremos los
datos en forma ascendente y estimaremos la mediana según el valor de n, de la siguiente forma:

- Si n es impar, la mediana será la observación que se ubica en el puesto (n+1)/2


- Si n es par, la mediana será el promedio de las observaciones ubicadas en los puestos n/2 y (n/2 +1)

Holger Benalcázar Paladines estadística descriptiva 1


Figura 02

muestra = {3 , −8 , 1 , −2 , 4} muestra = {3 , −8 , 1 , −2 , 4 , 0.2}

n= 5 impar n= 6 par

P1) Ordenar los datos P1) Ordenar los datos

−8 − 2 1 3 4 −8 − 2 0.2 1 3 4

P2) La mediana es el valor que está en el puesto P2) La mediana es el promedio de los valores que
(n+1)/2 = 3 se encuentran en el puesto n/2=3 y en el
puesto n/2 +1= 4.
෡ =1
Entonces M
෡ = (0.2 +1)/2 =0.6
Entonces M

Moda: es el valor que aparece el mayor número de veces en la muestra.

Varianza muestral: es la medida más común de la dispersión de los datos alrededor de la media muestral, una
varianza grande indicará una mayor dispersión de observaciones. Se la calcula mediante:

s2 
1
n 1

(x1  x) 2  (x 2  x) 2  ...  (x n  x) 2 
Desviación típica: es la raíz cuadrada de la varianza y se la denota por s. Como la unidad de la varianza es la
unidad de las observaciones elevada al cuadrado, es más fácil interpretar la dispersión en función de la
desviación típica que conserva la misma unidad de las observaciones.

Un resultado que es válido para cualquier tipo de datos, es que al menos el 75% de los mismos se encontrarán
en el intervalo [ x - 2s , x + 2s ], y al menos el 89%, en el intervalo [ x - 3s , x + 3s ]. En cambio, si la
distribución de los datos tiene la forma de campana, los porcentajes anteriores se incrementan al 95% el
primero, y a casi el 100% el segundo.

Amplitud (Rango): indica la longitud del intervalo donde Figura 03


se encuentran todas las observaciones de la muestra y
se la calcula restando del valor máximo de los datos el Rango
valor mínimo de los mismos:

R = x max – x min mín máx

Otros estimadores que también son de utilidad para describir una característica cuantitativa son los
estimadores de localización, como los percentiles, cuartiles y deciles.

Percentil k (Pk): es el valor tal que el k% de los datos Figura 04


le son menores o iguales, y el (100-k)% le son
mayores o iguales; por ejemplo, la mediana es k% de (100-k)%
igual al percentil 50. Al igual que para estimar la los datos de los datos
mediana, existen varias formas de estimar un
percentil; la manera que adoptaremos es la mín 𝑃𝑘 máx
siguiente:

holger.benalcazar@epn.edu.ec estadística descriptiva 2


Primero, ordenamos los datos en forma ascendente y luego, calculamos el valor r = k(n+1)/100; entonces:

- Si el valor r es entero, tomaremos como el percentil Pk a la observación que se encuentra en el puesto r

- Si el valor de r no es entero, buscamos el entero m tal que, m< r < (m+1), y tomamos como el percentil Pk
al promedio de las observaciones que se encuentran en los puestos m y (m+1)

Cuartiles: son los percentiles 25, 50 y 75, y los Figura 05


denotaremos por Q1, Q2 y Q3, respectivamente.
25% 25% 25% 25%
- El primer cuartil o cuartil inferior, Q1, es el valor
tal que el 25% de los datos de la muestra le son mín 𝑄1 𝑄2 𝑄3 máx
menores o iguales, y el 75% restante, le son
mayores o iguales.

- El segundo cuartil, Q2, es la ya definida mediana.

- El tercer cuartil o cuartil superior, Q3, es el valor tal que el 75% de los datos de la muestra le son menores
o iguales, y el 25% restante, le son mayores o iguales.

Como se ve, los cuartiles separan en 4 partes a los datos ordenados ascendentemente; cada parte, contiene al
25% de los datos. Observemos con cuidado que no estamos hablando de una división del rango donde caen
los datos; esto es, las distancias entre los cuartiles no tienen por que ser iguales.

Amplitud intercuartílica: es la longitud existente entre el cuartil superior y el cuartil inferior, e indica la longitud
del intervalo central donde caen el 50% de los datos (la mitad de los datos).

Deciles: son los percentiles 10, 20, ...,90. Se denotan por D1, D2, …, D9. Los deciles separan en 10 partes los datos
ordenados en forma ascendente; donde cada parte contiene el 10% de los datos.

Figura 06

𝐾>0

𝐾<0

𝐾=0
𝑆<0 𝑆=0 𝑆>0

El sesgo es significativo si |𝑆𝐸| > 2 La curtosis es significativa si |𝐾𝐸| > 2

Coeficiente de asimetría: mide la asimetría de la distribución de los datos. Un coeficiente positivo indica que la
cola superior de la distribución es más larga que la cola inferior; un coeficiente negativo, indica que es la cola
inferior la más larga; y si el coeficiente es cero, indicará que tenemos una distribución completamente
simétrica. Para decidir si el sesgo que muestran los datos es significativo, nos fijaremos en el coeficiente de
asimetría estandarizado: si este valor es mayor a 2 o menor a –2, el sesgo es importante en la respectiva
dirección.

Coeficiente de agudeza: mide el alargamiento o achatamiento de la distribución de los datos. Para una
distribución normal (el histograma adopta la forma de una campana) este coeficiente vale cero. Cuando el
coeficiente es mayor que cero, la distribución es más alargada al centro que una normal o tiene colas
relativamente largas; cuando es menor que cero, la distribución es más achatada o tiene colas relativamente
cortas. En este caso también, un coeficiente de agudeza estandarizado mayor a 2 o menor a -2, indicará un
alargamiento o un achatamiento significativo respecto a la distribución normal.

Holger Benalcázar Paladines estadística descriptiva 3


Descripción Gráfica

Histograma: es una gráfica que indica la distribución de los datos. Para construirlo, se divide el rango de los
datos en intervalos de la misma longitud y se cuenta el número de observaciones que caen en cada intervalo
(la frecuencia absoluta del intervalo o simplemente, la frecuencia del intervalo). Luego, sobre cada
intervalo se dibuja una barra con una altura igual a la frecuencia del intervalo. Así, los intervalos que contengan
una mayor cantidad de observaciones que otros, estarán identificados por las barras de mayor altura. La región
determinada por un intervalo se denomina clase.

La frecuencia relativa de un intervalo es igual a la frecuencia absoluta del intervalo dividida por el total de
observaciones en la muestra; entonces, cuando a la altura de las barras se les asocia la frecuencia relativa del
intervalo se obtiene un histograma de frecuencias relativas. El único cambio que observaremos en el
histograma es en la escala vertical, pues ahora la altura de las barras estará expresada en frecuencias relativas,
la forma del histograma no se verá modificada. Esto es, un histograma de frecuencias absolutas proporciona
la misma información respecto a la distribución de los datos (la forma del histograma) que un histograma de
frecuencias relativas.

El número de clases o intervalos lo escoge el analista, aunque es recomendable que esté entre 5 y 15. Si hay
menos de 5 clases, la distribución de los datos se verá muy comprimida; mientras que si hay más de 15 clases,
sucederá lo contrario. Como reglas empíricas para determinar el número adecuado de clases puede recurrirse
a la regla de Sturges que sugiere tomar aproximadamente [1 + 3.322 (log10 n)] clases, o a la regla que sugiere
tomar un número de clases aproximado a la raíz cuadrada del tamaño de muestra n.

Figura 07

Polígono de frecuencias: se lo obtiene uniendo los puntos medios superiores de las barras del histograma.
Luego, el polígono de frecuencias no es más que una representación de la forma del histograma y por tanto,
de la distribución de los datos muestrales. Según el tipo de frecuencia utilizada en la construcción del
histograma, diremos que se trata de un polígono de frecuencias o un polígono de frecuencias relativas.

Diagrama de caja: es un diagrama que muestra detalles importantes de la distribución de los datos, como la
localización central, la dispersión, la forma y la existencia de valores inusuales y/o valores extremos:

La caja central del diagrama se ubica entre el cuartil inferior y el cuartil superior, cubriendo al 50% de los
datos; la línea vertical que la divide, indica la posición de la mediana (la media se indica con una cruz).

Las líneas a los extremos de la caja central, denominadas bigotes o pestañas, se dibujan de tal manera que
el bigote izquierdo va desde el cuartil inferior hasta el dato más pequeño que todavía se encuentra dentro
de 1.5 veces la amplitud intercuartílica medida hacia la izquierda desde el cuartil inferior; y el otro, el bigote
derecho, va desde el cuartil superior hasta el dato más grande dentro de 1.5 veces la amplitud intercuartílica
medida hacia la derecha desde el cuartil superior.

holger.benalcazar@epn.edu.ec estadística descriptiva 4


Los valores que caen más allá de los bigotes pero dentro de 3 veces la amplitud intercuartílica medida desde
los bordes de la caja central, se denominan valores inusuales; si van más allá, se denominan valores
extremos. Los valores inusuales y extremos, son valores que no siguen el patrón de la mayoría de los datos
(son valores muy pequeños o muy grandes respecto al resto de datos). Dado que el resultado de un análisis
estadístico puede ser influenciados por este tipo de valores, es una buena idea investigar su procedencia: si
son consecuencia de errores de medición pueden ser removidos, si no, podrían estar indicando cambios
importantes en la población de la cuál se extrajo la muestra. Además, si existen valores inusuales o
extremos, la media estará más corrida en esa dirección que la mediana, indicando que la estimación de la
media es más afectada por este tipo de valores que la estimación de la mediana.

Cuando la forma del diagrama de caja es simétrica respecto a la línea central que representa la mediana, la
distribución de los datos también lo será; en cambio, si el diagrama es más alargado hacia uno de los lados,
indicará un sesgo en esa dirección.

Figura 08

Extremo Inusual Inusual Extremo


Q1 Q2 Q3
+

BEI BII BIS BES


1.5 AIQ 1.5 AIQ

3 AIQ 3 AIQ

Diagrama de árbol: es una gráfico que permite visualizar la distribución de los datos, similar a un histograma,
con la ventaja de que presenta los valores aproximados de los datos, el rango donde caen, la mediana, la
acumulación de las frecuencias, la concentración de los datos, su simetría, donde existen brechas entre los
datos, y los valores inusuales y extremos. Para interpretarlo es necesario observar la manera en que se han
dividido los dígitos de los datos para formar los tallos, ubicados a la izquierda de la línea vertical, y las
hojas, ubicadas a la derecha de la línea vertical.

Ejemplo: Consideremos la variable precio del archivo CARDATA. Primero obtengamos un resumen de los
estadísticos para luego utilizarlos en la descripción de la variable.

n=155 mín=1900 máx=15475 rango=13575


x =4633.1 s= 2028.2 cv=100* s / x = 43.8%
Q1=3275 Q2=4250 Q3=5500 AIC=2225
Asimetría= 2.1 Asimetría estandarizada= 10.5
Agudeza= 7.4 Agudeza estandarizada= 18.8

Entonces, disponemos de una muestra de 155 precios de automóviles, los cuales caen en el intervalo que
va desde $1900 hasta $15475, con una longitud de 13575. Los precios tienen un promedio de $4633.1 y
una mediana de $4250; como la media es mayor a la mediana, podríamos esperar que algunos autos
tengan precios bastantes altos comparados con el resto.

Holger Benalcázar Paladines estadística descriptiva 5


Si dividimos el rango en 12 clases, teniendo el cuidado de que la primera clase empiece un poco antes que
el mínimo (por ejemplo, 1850) y que la última clase termine un poco más allá del máximo (por ejemplo,
15500), obtenemos la tabla de frecuencias y el histograma siguientes:
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
--------------------------------------------------------------------------------
at or below 1850.000 0 0.00000 0 0.000
1 1850.000 2987.500 2418.750 31 0.20000 31 0.200
2 2987.500 4125.000 3556.250 45 0.29032 76 0.490
3 4125.000 5262.500 4693.750 35 0.22581 111 0.716
4 5262.500 6400.000 5831.250 24 0.15484 135 0.871
5 6400.000 7537.500 6968.750 8 0.05161 143 0.923
6 7537.500 8675.000 8106.250 8 0.05161 151 0.974
7 8675.000 9812.500 9243.750 1 0.00645 152 0.981
8 9812.500 10950.000 10381.250 1 0.00645 153 0.987
9 10950.000 12087.500 11518.750 0 0.00000 153 0.987
10 12087.500 13225.000 12656.250 0 0.00000 153 0.987
11 13225.000 14362.500 13793.750 1 0.00645 154 0.994
12 14362.500 15500.000 14931.250 1 0.00645 155 1.000
above15500.000 0 0.00000 155 1.000
--------------------------------------------------------------------------------

Observemos que las 3 primeras clases son las de mayor frecuencia, de hecho, en ellas se encuentra el
71.6% de los precios, que son los que no sobrepasan los $5263. Si seguimos hacia la derecha, la quinta
clase muestra que el 92.3% de los precios no sobrepasa los $7538, y la sexta clase indica que el 97.4% de
los precios no sobrepasa los $8675. La media cae en la tercera clase, por lo que hasta ahora, podemos
decir que la mayoría de los precios se ubican alrededor de la media y que existen 4 precios que parecen
bastantes grandes respecto al resto; además, dado que la mediana es menor que la media, más de la mitad
de los precios son menores al precio promedio de $4633.

Otra indicación de que la dispersión alrededor de la media no es grande, es que el coeficiente de variación
indica que la desviación típica es algo menor que la mitad del valor de la media; de hecho, el intervalo [
x - 2s , x + 2s ]= [577, 8690], contiene alrededor del 97.4% de los precios, como se aprecia en la tabla de
frecuencias.

El coeficiente de asimetría indica un sesgo significativo de los datos hacia la derecha, cosa que se puede
ver con facilidad en el histograma. Lo que tal vez, no es tan claro, es que la agudeza también es significativa
respecto a la distribución normal; entonces, mejor recurramos al siguiente histograma donde se le
superpone una distribución normal.

holger.benalcazar@epn.edu.ec estadística descriptiva 6


Figura 09

Ahora se ve que la agudeza significativa se debe a que las frecuencias de las dos primeras clases supera
en mucho, a lo que se esperaría en una distribución normal. Además, una distribución normal tendría
datos menores al mínimo de esta muestra ($1900) y sería muy improbable que tenga valores tan altos en
su lado derecho. Entonces, la conclusión que aflora es que sería una gran equivocación suponer que los
precios de estos autos tienen una distribución normal (posteriormente, revisaremos pruebas estadísticas
numéricas para averiguar si una característica tiene distribución normal).

Figuras 10

Diagrama de Caja

0 4 8 12 16
precio
5550
4250
3275
1900

15475
14275
9475

9900
8550

Q1 Q2 Q3
BEI
-3400
++

0 4 6 8 10 12 14 16
BII 2
BIS BES
-62.26 8837.5 12175

Holger Benalcázar Paladines estadística descriptiva 7


El diagrama de caja para los precios entrega la información del histograma con algunas otras
características adicionales; para revisarlo, es aconsejable superponer los dos gráficos cuidando de
mantener la misma escala. Un buen ejercicio para comprender la relación entre los dos gráficos, es
reconstruir el histograma partiendo del diagrama de caja, y viceversa.

Continuando con el ejemplo, el 75% de los precios se reparte entre el valor mínimo de $1900 (brazo
izquierdo) y $5500, el valor del cuartil superior (lado derecho de la caja); este intervalo corresponde
aproximadamente al intervalo que ocupan las 3 primeras clases del histograma que tienen una alta
frecuencia. A partir de ahí, del valor de $5500 hasta el valor máximo de $15475, se reparte la cuarta parte
de los precios, correspondientes a los más altos, que en el histograma corresponde aproximadamente, al
intervalo que ocupan las 9 clases, desde la clase 4 hasta la 12, siendo esto, la razón del sesgo hacia la
derecha que se observa en el histograma.

La amplitud intercuartílica es AIC= 2225, entonces las barreras son:

 Barrera externa inferior= Q1 – 3*AIC = -3400

 Barrera interna inferior= Q1 – 1.5*AIC = -62.25

 Barrera interna superior= Q3 + 1.5*AIC = 8837.5

 Barrera externa superior= Q3 + 3*AIC = 12175

El valor mínimo ($1900) es mayor que la barrera interna inferior, por lo que es el valor más pequeño que
todavía no es inusual ni extremo, por lo que el brazo izquierdo se dibuja en este punto. Entre las barreras
superiores existen 2 precios, $9475 y $9900, que son inusuales, y existen también, dos precios mayores a
la barrera externa superior, $14275 y $15475, que resultan ser extremos; estos 4 precios, son bastante
grandes si se los compara con el resto de precios. El brazo derecho está dibujado sobre $8550, que es el
precio más grande que todavía no es inusual ni extremo. Adicionalmente, la cruz a la derecha de la
mediana (línea central de la caja), indica el valor de la media muestral; observándose lo ya anotado, la
media es más sensible a los valores inusuales y extremos por lo que tiende a correrse en esa dirección.

Figura 11

×
HOJA Unidad = 1 5⁄3 ⇒ 53 × 1 = 53
TALLO

×
×|× × × × ×
Unidad = 10 5⁄3 ⇒ 53 × 10 = 530
× RAMA
× Unidad = 0.1 5⁄3 ⇒ 53 × 0.1 = 5.3

Stem-and-leaf display for CARDATA.price: unit = 100 1|2 represents 1200

1 1|9
31 2|122222334444556777777777889999
70 3|011122223333334455556666667778889999999
(30) 4|000011223444455666666778889999
55 5|000111112222444455566666678899
25 6|00123568
17 7|0023479
10 8|123455
HI|94
HI|99
HI|142
HI|154

holger.benalcazar@epn.edu.ec estadística descriptiva 8


El diagrama de árbol de los precios toma el 100 como unidad. En este ejemplo, la primera rama contiene
solamente al valor mínimo ($1900); la segunda rama contiene 30 valores (31-1), que van
aproximadamente, desde $2100 hasta $2900; la tercera rama contiene 39 valores (70-31), que van
aproximadamente, desde $3000 hasta $3900; la cuarta rama contiene 30 valores y es donde se encuentra
la mediana; la quinta rama contiene 30 precios (55-25); la sexta rama contiene 8 valores (25-17); etc. La
rama etiquetada por “HI”, la cuál ha sido modificada ligeramente, indica que existen en los datos 4 valores
inusuales o extremos, cuyos valores son aproximadamente, $9400, $9900, $14200 y $15400. Si se observa
el diagrama de árbol en conjunto, notaremos que la mayoría de precios se ubican en las primeras ramas
y que existe un sesgo hacia la derecha. Como se aprecia, el diagrama de árbol entrega mucha más
información que un histograma.

En definitiva, si la muestra de 155 precios fuese representativa, podemos plantear algunas hipótesis acerca
del comportamiento que esperaríamos tenga la población de precios. Con una probabilidad muy alta, los
precios no tienen una distribución normal. Más bien, esperaríamos una distribución con una cola izquierda
muy corta, cercana a los precios de mayor frecuencia, y una cola derecha larga, como producto de precios
altos aunque con baja frecuencia. El valor de la media poblacional se encontrará cerca de la media
muestral, $4633; y, la dispersión de los precios respecto a la media poblacional es afectada por los precios
altos, aunque no será alta si se la compara con el valor de la media poblacional.

Ejemplo: Para familiarizarnos con los estadísticos y técnicas descriptivas no descritas anteriormente,
respondamos algunas preguntas adicionales sobre las características de los 155 autos:

 ¿Qué cantidad no es sobrepasada por el 90% de los precios?


 ¿Qué cantidad no es sobrepasada por el 10% de los precios más bajos?
 ¿Cuál es la procedencia de los autos más caros?
 ¿Cómo se comporta el precio según el origen de los autos?
 ¿Son los autos japoneses más livianos?
 ¿Los autos más antiguos son más baratos?
 ¿De qué parte provienen los autos de mejor rendimiento por galón?
 ¿Cómo se relaciona el peso del auto con la aceleración que alcanza?, ¿con el consumo de
combustible?, ¿con el desplazamiento?, ¿con el cilindraje?
 ¿Un cilindraje mayor y más caballos de fuerza, son característicos de los autos más nuevos?

Estimaciones con datos agrupados


Cuando la única información que disponemos es una tabla de frecuencias, como sucede en las publicaciones
especializadas (no conocemos los datos de la muestra y tampoco los valores de los estadísticos principales),
es útil poder obtener a partir de la tabla, aproximaciones de los estadísticos para mejorar la interpretación de
la característica resumida en la tabla.

Notaciones

n: total de observaciones resumidas en la tabla


k: número de clases presentes en la tabla
(Li, Ui]: intervalo de la clase i-ésima
Li: extremo inferior de la clase i-ésima
Ui: extremo superior de la clase i-ésima
Ai: longitud de la clase i-ésima ( Ui - Li )
mi: punto medio de la clase i-ésima
fi: frecuencia de la clase i-ésima
fai: frecuencia acumulada hasta la clase i-ésima

Holger Benalcázar Paladines estadística descriptiva 9


Media muestral

k
1
x 
n
m f
i 1
i i

Varianza muestral

1  k  k  
2

s 
2
n (m i * f i )   m i * f i  
2

n(n  1)  i1  i1  

Observación xr

Supongamos que tenemos ordenadas en forma ascendente las n observaciones de la muestra, de esta manera:
x1, x2, .., xn, y que deseamos aproximar el valor de la observación xr, la que se encuentra en el puesto r;
entonces debemos proceder así:

1- Localizamos la primera clase cuya frecuencia acumulada sea mayor o igual a r, llamémosla clase i.

2- Calculamos la diferencia d, entre r y la frecuencia acumulada hasta la clase precedente ( i-1); esto es:

d= r – fa i-1

3- Encontramos el valor aproximado buscado, mediante: xr  Li + (d * Ai / fi )

Percentil p

Para estimar el valor que corresponde al percentil p, se procede de la siguiente manera:

1. Calculamos el puesto correspondiente al percentil: r = (n+1)*p/100

2. Por ser una aproximación, utilizamos el cálculo del subtítulo anterior para estimar la observación xr.

2. Descripción de una característica cualitativa

En lo que sigue, consideraremos una muestra de tamaño n de una característica cualitativa con m categorías,
donde cada observación pertenece a una y solo una de las m categorías de la característica; además, cuando
hablemos de la categoría i, estamos refiriéndonos a cualquiera de las m categorías de la característica.

Para describir las categorías podemos usar las frecuencias absolutas o las frecuencias relativas de las mismas,
con la precaución de comprobar que la suma de las frecuencias absolutas sea igual al total de observaciones
disponibles, o que, la suma de las frecuencias relativas sea igual a uno. En ocasiones, también se utiliza el
porcentaje de cada categoría (la frecuencia relativa multiplicada por 100).

Cuando se requiera la tasa de ocurrencia de la categoría i por cada K elementos, simplemente debemos
multiplicar la frecuencia relativa de la categoría por K. Es fácil verificar que la suma de las tasas de ocurrencia
de todas las categorías será igual a K.

Para representar gráficamente las frecuencias o las frecuencias relativas de las categorías de una característica
cualitativa podemos recurrir a los diagramas de barras. En estos, la altura de cada barra está en relación
directa con la frecuencia observada de la categoría que representa.

holger.benalcazar@epn.edu.ec estadística descriptiva 10


Las diferencias existentes entre las frecuencias de las categorías pueden distinguirse también con un diagrama
circular. Para esto, se divide un círculo en m sectores, uno por categoría considerada. El área asignada a cada
sector está en relación directa con la frecuencia observada de la categoría que representa.

Si nuestra intención es comparar la distribución de una característica cualitativa sobre las categorías de otra
característica cualitativa, es aconsejable utilizar frecuencias relativas para evitar conclusiones erróneas.

3. Ejercicios

1- Esbozar un proyecto en el que la Estadística sea una herramienta de apoyo. Además, del objetivo del proyecto,
incluya:

- La identificación de las características que cree debería analizar, los elementos a observarse y las
poblaciones que conforman.
- Determine las interrelaciones que sospecha existen entre los elementos de las poblaciones, entre las
características, y entre los elementos y las características.
- Indique el procedimiento de recolección de información que cree más adecuado: un censo, una muestra, o
un diseño experimental.

2- Los datos siguientes corresponden a los pesos en onzas de impurezas sólidas encontradas en 57 canecas de
aceite lubricante.

68 22 36 12 16 23 28 43 45 31
63 23 42 32 24 19 32 25 12 50
42 24 28 49 69 46 79 74 57 38
27 25 31 38 47 30 27 51 51 21
30 44 28 42 23 43 43 49 28 12
36 65 25 27 22 49 27

a- ¿Entre que valores varía el peso?


b- ¿Qué valor no es superado por el 90% de los pesos?
c- ¿Tiene el peso algún sesgo?, ¿Qué significa?
d- ¿Existen pesos muy grandes o muy pequeños respecto al resto? ¿Cuáles son?

3- Describir la variable QCDATA.cereal.

4- Describir la variable QCDATA.burger.

5- Con 18 individuos se conformaron de manera aleatoria 3 grupos de 6 individuos para estudiar el efecto de 3
programas de ejercicios físicos sobre el rendimiento medido en porcentaje.

Programa sujeto tiempo rendim programa sujeto tiempo rendim programa sujeto tiempo rendim
No 1 0 87 semana 7 0 84 diario 13 0 72
No 1 10 89 semana 7 10 78 diario 13 10 55
No 2 0 67 semana 8 0 78 diario 14 0 83
No 2 10 65 semana 8 10 72 diario 14 10 72
No 3 0 55 semana 9 0 64 diario 15 0 75
No 3 10 58 semana 9 10 53 diario 15 10 63
No 4 0 66 semana 10 0 73 diario 16 0 55
No 4 10 68 semana 10 10 65 diario 16 10 49
No 5 0 88 semana 11 0 84 diario 17 0 83
No 5 10 90 semana 11 10 82 diario 17 10 68
no 6 0 75 semana 12 0 55 diario 18 0 63
no 6 10 73 semana 12 10 53 diario 18 10 54

Holger Benalcázar Paladines estadística descriptiva 11


El primer grupo no realizó ejercicio alguno, el segundo realizó ejercicio una vez por semana y, el tercer grupo
lo hizo diariamente. Se tomó a cada persona 2 mediciones, una al empezar el experimento y otra luego de
transcurridas 10 semanas.

a- Al inicio del experimento, ¿existieron diferencias sustanciales en la conformación de los 3 grupos?


b- ¿Qué puede decir de la variación experimentada por los 18 individuos?
c- Con base en la muestra, ¿Cree que algún programa de ejercicio es mejor que los otros 2?

6- Una farmacéutica realizó un estudio sobre la edad de las mujeres que utilizan anticonceptivos orales. Los datos
agrupados se recogen en la tabla siguiente.
EDAD MUJERES
14.5 a 19.5 171
19.5 a 24.5 785
24.5 a 29.5 837
29.5 a 34.5 554
34.5 a 39.5 382
39.5 a 44.5 432
44.5 a 49.5 562
49.5 a 54.5 610
54.5 a 59.5 490
59.5 a 64.5 258
64.5 a 69.5 153
69.5 a 74.5 60
a- Aproxime la media, varianza, desviación típica y los cuartiles.
b- ¿La edad de las mujeres está sesgada?

7- En una planta manufacturera, se recogió durante un mes, el tiempo (en horas) ocupado en reparaciones
menores de máquinas de coser de dos marcas diferentes. Un propósito del estudio fue comparar la distribución
del tiempo de reparación sobre las dos marcas. Los datos agrupados se muestran en la tabla siguiente.

TIEMPO MARCA A MARCA B


4.5 a 9.5 1 0
9.5 a 14.5 4 2
15 a 19.5 7 10
20 a 24.5 23 7
25 a 29.5 16 3
30 a 34.5 7 5
35 a 39.5 10 2

a- Aproxime la media, varianza, desviación típica y los cuartiles, para cada grupo.
b- Si en la planta existe el mismo número de máquinas de coser de las dos marcas, poner de manifiesto las
semejanzas y las diferencias entre los dos grupos.

8- En una fábrica de esculturas de cerámica, con forma humana y con forma de animales, se registró la siguiente
información sobre los defectos ocurridos en la producción de 20 días de trabajo.

TABLA 1 Defectos Lotes Esculturas


ocurridos revisados fabricadas
Turno 1 235 220 2900
Turno 2 214 335 2100
Turno 3 105 400 2800
Total 554 955 7800

holger.benalcazar@epn.edu.ec estadística descriptiva 12


TABLA 2 Defectos ocurridos Lotes revisados Esculturas fabricadas
F. humana F. animal Total F. humana F. animal Total F.humana F. animal Total
Turno 1 34 201 235 24 196 220 200 2700 2900
Turno 2 109 105 214 160 175 335 1100 1000 2100
Turno 3 49 56 105 320 80 400 2300 500 2800
Total 192 362 554 504 451 955 3600 4200 7800

TABLA 3 TIPO DE DEFECTO


Forma humana Forma animal Total
Turno 1 Turno 2 Turno 3 Total Turno 1 Turno 2 Turno 3 Total
Forma 5 9 3 17 19 9 5 33 50
Fractura 4 3 1 8 13 5 2 20 28
Color 7 8 8 23 19 20 6 45 68
Rasmillado 7 40 15 62 37 20 10 67 129
Delineación 4 42 13 59 98 36 22 156 215
Otros 7 7 9 23 15 15 11 41 64
Total 34 109 49 192 201 105 56 362 554

TABLA 4 LOCALIZACION DEL DEFECTO


Forma humana Forma animal Total
Turno 1 Turno 2 Turno 3 Total Turno 1 Turno 2 Turno 3 Total
Cabeza 1 3 3 7 8 4 2 14 21
Tronco 3 12 7 22 4 24 13 41 63
Ext. Superior 5 19 13 37 5 33 25 63 100
Ext. Inferior 25 40 18 83 131 25 15 171 254
Base 0 35 8 43 53 19 1 73 116
Total 34 109 49 192 201 105 56 362 554

a- Exprese la distribución sobre los 3 turnos de los defectos ocurridos mediante frecuencias absolutas,
frecuencias relativas y porcentajes.
b- Realice diagramas de barras y circulares para visualizar la distribución de los defectos sobre los turnos.
c- En el turno 1, ¿cuál es la tasa de defectos por cada 10 lotes revisados? Encuentre también, la tasa de defectos
por cada 10 lotes revisados para el turno 2 y para el turno 3. Compare las 3 tasas obtenidas con la tasa
conjunta para los 3 turnos.
d- Encuentre la tasa de defectos por cada 100 esculturas fabricadas para los 3 turnos y en forma conjunta.
e- ¿Qué tasa, la de la parte b o la de la parte c, ofrece una mejor medida de la eficiencia de los turnos?
f- ¿Cuál turno es más deficiente con las esculturas de forma humana? ¿Cuál con las de forma animal?
g- ¿Qué tipo de defectos es más frecuente?
h- ¿Existe alguna diferencia en la distribución del tipo de defectos según la forma de la escultura?
i- Si se habla del turno 2, ¿existe alguna diferencia en la distribución del tipo de defectos según la forma de la
escultura?
j- ¿Existe alguna localización especial de los defectos según el turno que se considere?
k- ¿Existe alguna diferencia en la distribución del lugar del defecto según la forma de la escultura y según el
turno que se considere?

Holger Benalcázar Paladines estadística descriptiva 13

También podría gustarte