Está en la página 1de 29

ESTADÍSTICA DESCRIPTIVA

INTRODUCCIÓN

Definición de estadística: es la ciencia que trata de la recolección, presentación, análisis y uso de


datos para la toma decisiones.

Cuando escuchamos la palabra estadística, inmediatamente nos imaginamos cosas como:


promedios de bateo, índices de accidentes, tasas de mortalidad, etc., la historia del desarrollo de la
teoría estadística y su práctica es larga; mucha gente a contribuido al estudio de la estadística con
refinamientos e innovaciones, que en conjunto constituyen la base teórica de lo que se conoce como
estadística.

Ramas de la Estadística:

La estadística puede presentarse en diferentes niveles de dificultad matemática y puede estar


dirigida hacia varias aplicaciones en distintos campos de la investigación.

La estadística para su estudio se divide en dos ramas:

Descriptiva:

Incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos, gráficas,
tablas y diagramas que muestran los datos y facilitan su interpretación.

Inferencial:

Se sirve de los resultados de la estadística descriptiva, para usar técnicas por medio de las cuales
se toman decisiones sobre una población estadística basada en una muestra.

 Estadística Descriptiva.

o Definición de estadística descriptiva.

Es la rama de la estadística que trata con la organización, el resumen y la presentación de los datos;
la moderna tecnología de las computadoras, en particular las gráficas por computadora, han
ampliado en forma considerable el campo de la estadística descriptiva; las técnicas de la estadística
descriptiva pueden aplicarse ya sea a poblaciones enteras o a muestras, también utiliza las tablas y
gráficas para la presentación de los datos de una forma lógica y ordenada.

1
ESTADÍSTICA DESCRIPTIVA

Recopilación de datos

En general, la estadística esta ligada con el método científico para realizar la recopilación,
organización, resumen, presentación y análisis de datos, con dos objetos bien definidos.

 El establecimiento de descripciones, conclusiones e inferencias y


 La toma de decisiones de acuerdo con el mencionado análisis.

Definición de población, muestra y muestra aleatoria.

a) Población:

Es una colección de todos los elementos que estamos estudiando y acerca de los cuales intentamos
establecer conclusiones.

b) Muestra:

Es una colección de algunos de los elementos que componen una población.

c) Muestra aleatoria:

Es una muestra al azar, para que se considere propia y representativa de la población, deberá ser al
azar.

LLENA EL SIGUIENTE CUADRO RESUMEN CON LOS DIFERENTES TIPOS DE MUESTREO


ALEATORIO.

TIPO DE
CARACTERÍSTICAS VENTAJAS DESVENTAJAS USOS
MUESTREO

SIMPLE

Mejores
ESTRATIFICADO estimaciones
que el simple

Costos Resultados
reducidos. menos exactos Los estudios
CONGLOMERADOS Simplificación en el muestreo son a gran
de trabajo de aleatorio con el escala
campo y mismo tamaño

2
ESTADÍSTICA DESCRIPTIVA

admistartivo de muestra

SISTEMÁTICO

Organiza

Una vez recopilados los datos numéricos podemos organizarlos para que su análisis sea más expedito.
Una manera de organizarlos es utilizando el diagrama de tallos y hojas.

Una técnica para organizar información cuantitativa en forma condensada es el Diagrama de tallos y
hojas este diagrama permite identificar a cada observación.

En donde el tallo es el o los dígitos principales y las hojas son los dígitos secundarios, el tallo se coloca
a la izquierda de una línea vertical y los valores de las hojas a la derecha.

En este diagrama no se pierden los datos originales. Es recomendable no elegir menos de 5 ni más de
20 tallos.

El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.

Ejemplo:

El director de producción de una empresa de telares, es responsable de la fabricación de alfombras en


más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 máquinas.

En la siguiente tabla se presenta la producción en metros de cada uno de los 50 telares, éstas
cantidades son datos sin procesar desde los cuales el director de producción puede llegar a una
conclusión que abarque la totalidad de los telares en su desempeño del día anterior.

14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8

De acuerdo con los datos de la tabla de arriba el número mínimo de producción en metros es de 14.2,
así el primer valor del tallo es 14. El número máximo es de 17.9 entonces los tallos comienzan desde 14
y continúan hasta 17. El primer valor de la tabla es 14.2, el cual tendrá un valor de tallo de 14 y un valor
de hoja 2, el segundo valor es 15.7 el cual tendrá un valor de tallo de 15 y un valor de hoja 7.
Al organizar cada uno delos datos de igual forma el diagrama de tallos y hojas queda:

3
ESTADÍSTICA DESCRIPTIVA

Tallos sencillos

Tallos (dígitos Hojas ( dígitos derivados)


frecuencia
Primarios)
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4

Tallos codificados

El diagrama de tallos y hojas anterior contiene solo cuatro troncos y, en consecuencia, no proporciona
facilidad para trabajar los datos. Para evitar ese problema, se necesita incrementar el número de troncos
en la tabla; el número adecuado de intervalos debe ser de 5 a 20 intervalos.

Tallos (dígitos Primarios) Hojas (dígitos derivados) frecuencia


14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2

Note que cada uno de los tallos se dividió en dos partes.

El primero para los dígitos unitarios inferiores ( 0,1,2,3,4)


El segundo para los dígitos unitarios superiores ( 5,6,7,8,9) representado por un *.

Dado que los datos anteriores son proporcionados en bruto (es decir, en el orden en que
aparecen), hace falta ordenarlos de manera ascendente:

Tallos ( dígitos Primarios) Hojas (dígitos derivados)


14. 0,2.
14. * 6,9.
15. 0,1,2,2,3,3,4,4.
15. * 6,6,6,6,7,8,8,8,8,8,9,9.
16. 0,0,0,1,1,2,2,2,3,3,3,4,4.
16. * 5,6,7,8,8,8,8,9,9.
17. 0,3.
17. * 7,9.

De esta manera puede observarse con mayor facilidad la forma en que están distribuidos los datos.

Diagrama de tallos y hojas MINITAB

4
ESTADÍSTICA DESCRIPTIVA

Resumen de Datos

Para describir los datos necesitamos resumimos en medidas de tendencia central, de dispersión, de
apuntalamiento, de posicionamiento o de sesgo.

Para encontrar estas medidas podemos tratar a los datos como datos no agrupados o datos
agrupados.

Existen dos criterios para optar por datos no agrupados.

Optamos por datos no agrupados cuando:

 Las características individuales (el peso de cada observación) se vea reflejado en el


resumen de los datos.

 El número de datos es pequeño, estadísticamente n ≤ 30.

Definición datos no agrupados:

Son datos no agrupados cuando se consideran y analizan todos los valores observados tal como se
obtuvieron.

Ventajas:

Resulta más fácil y rápido trabajar con los datos no agrupados.

Desventajas:

Solo se puede aplicar en pequeñas cantidades de datos, ya que en grandes cantidades resultaría un
tanto tedioso y por lo mismo existiría más probabilidad de equivocarse.

Definición Datos agrupados

Son datos que están organizados (formando grupos). Podemos formar más o menos grupos,
dependiendo de que tan exacto queramos trabajar, a cada grupo le llamamos clase. Rara vez se
emplean menos de seis clases o más de quince. La restricción para agrupar es que todas las clases
tengan la misma amplitud.

Ventajas:

 Facilidad y rapidez al manejo de datos.


 Se notan rápidamente el valor mayor y el valor menor de los datos
 Se puede dividir fácilmente los datos en secciones.

5
ESTADÍSTICA DESCRIPTIVA

 Se puede observar si algún valor aparece más de una vez en el ordenamiento.


Desventajas:

 Las características individuales de los datos no son tomadas en cuenta


 Cuando los cálculos son a mano resulta complicado, y es necesario utilizar algún software.

El análisis descriptivo de la información para Datos no agrupados

Medidas de tendencia central

Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a
ser el más representativo de un conjunto de números. Las tres medidas de tendencia central que
más comúnmente se emplean son: la media, la mediana y la moda.

Media: La media aritmética es lo que viene a la mente de la mayoría de las personas cuando se
menciona la palabra promedio, también se le denomina valor esperado o esperanza matemática. La
media se calcula al sumar los valores de un conjunto y al dividir el valor de su suma entre el número
de valores del mismo.

La media aritmética o promedio, se obtiene de la siguiente manera.

x x
Media de la Muestra: x  i 1
Media de la población.  
n N

Ejemplo:

Considere 8 mediciones 5, 8, 8, 11, 11, 11, 14, 16.

5  8  8  11  11  11  14  16 84
x   10.5
8 8

Mediana: La mediana representada por Md o P50, es el valor central de una serie cuando los
valores se ordenan según su magnitud, y es aquel que divide a una serie de tal forma que 50% de
los valores son menores o iguales que él, y el 50% de los valores son mayores o iguales que él.

Si se ordena un conjunto de datos xi de manera ascendente, la ubicación de la mediana puede


obtenerse mediante la siguiente fórmula:

X (1/2)(n+1) el subíndice indica la posición del dato.

Para los datos del ejemplo anterior ordenados de 5 a 16, la mediana se ubica en la posición:

6
ESTADÍSTICA DESCRIPTIVA

x1 / 2 (81)  x1 / 2 (9)  x4.5

Esto quiere decir que el centro de los datos está a la mitad del dato 4 y el dato 5. Es decir, el valor
de la mediana los valores x4 y x5. Para el ejemplo, x4=11 y x5=11.

por lo tanto

x  x5 11  11
x 4
~   11
2 2

Moda: Se denota por M o Mo y es el valor que con más frecuencia se presenta en un conjunto de
datos, es muy fácil de determinarlo, basta con observar detenidamente al conjunto de datos y ver
cuál es el que más se repite; sin embargo, no es muy útil porque puede ocurrir que una distribución
tenga dos o más valores que se repitan con la misma frecuencia, en tal caso se tiene dos o mas
modas, también puede ocurrir que no exista ningún valor que se repita y entonces no habrá moda.

En el ejemplo, el valor que se repite más veces es el 11 que aparece 3 veces, por lo tanto:

Mo = 11

En este caso, se observa que los valores de la media, mediana y moda se encuentran muy
x  Mo . Sin embargo, esto no siempre ocurre.
cercanos, incluso ~

Comparación entre la media, la mediana y la moda:

NOMBRE SÍMBOLO VENTAJAS DESVENTAJAS


Refleja cada valor. Puede ser excesivamente
Media X Es la más usada en influenciada por valores
análisis estadísticos extremos.
Difícil de calcular si hay
Mediana ~
x
.Menos sensible a
valores extremos que
muchos datos.
No tiene propiedades
la media
algebraicas.
Fácil de calcular. 1. No se presta para el
Valor Típico análisis estadístico.
Moda Mo Más valores reunidos
en este punto que en Puede existir más de una
cualquier otro. moda o ninguna.

Medidas de dispersión

Las medidas de dispersión indican si los valores están relativamente cercanos uno del otro o si se
encuentran dispersos, otra manera de interpretar las medidas de dispersión es si los valores de las
observaciones son homogéneos.

7
ESTADÍSTICA DESCRIPTIVA

Las medidas de dispersión más comunes son: rango (amplitud), desviación media, varianza,
desviación estándar y coeficiente de variación. Todas estas medidas excepto el rango toman la
media como punto de referencia. En cada caso un valor cero indica que no hay dispersión y mientras
mayor sea el valor de estas medidas es mayor la dispersión de los datos.

Rango: Es la diferencia entre el valor mayor y menor del conjunto de datos.

Rango  R  xmáx  xmín

Desviación media: Es el promedio del valor absoluto de las desviaciones de los datos con respecto
a la media.

Para una población: Para una muestra:

DM 
 x DM  
xx
N n

Varianza:

Mide las diferencias entre los puntos observados y la media utilizando el artificio de elevar éstos al
cuadrado para penalizar aquellos datos que se encuentran alejados de la media y suavizar las
diferencias de los datos que se encuentren próximos a la media.
La desviación estándar presenta grandes ventajas sobre la varianza, pues sus unidades físicas son
las mismas que las de las observaciones, mientras que las de la varianza son unidades físicas
cuadradas.

Para una población: Para una muestra:

 x     x  x 
2 2

 2
 s 2

N n 1

Por otra parte, la desviación estándar es la más usada en el análisis estadístico.

Desviación Estándar: Es la raíz cuadrada positiva de la varianza.

Para una población: Para una muestra:

  2 s  s2

Una interpretación de la desviación estándar es si la distribución es aproximadamente normal, el


intervalo:
a) x  s, contiene aproximadamente 68% de las observaciones.
b) x  2s, contiene aproximadamente 95% de las observaciones.
c) x  3s, contiene aproximadamente casi todas las observaciones (99.7%).

8
ESTADÍSTICA DESCRIPTIVA

Coeficiente de variación: Es una medida relativa de dispersión, la cual nos permite comparar dos
distribuciones.

Relaciona la desviación estándar y la media al expresar la primera como un porcentaje de la


segunda.

Para una población: Para una muestra:


CV  100 CV 
s
100
 x

Ejemplo:

Considerando que los datos del ejemplo anterior constituyen una población, sus medidas de
dispersión se calculan como sigue:

Con n = 8 y las siguientes mediciones 5, 8, 8, 11, 11, 11, 14, 16.

Rango = R = 16-5 = 11

5  8  8  11  11  11  14  16 84
x   10.5
8 8

/ x  xi /
x x x  xi ( x  x) 2

5 10.5 -5.5 5.5 30.25


8 10.5 -2.5 2.5 6.25
8 10.5 -2.5 2.5 6.25
11 10.5 0.5 0.5 6.25
11 10.5 0.5 0.5 0.25
11 10.5 0.5 0.5 0.25
14 10.5 3.5 3.5 12.25
16 10.5 5.5 5.5 30.25
∑= 84 ∑= 0 ∑= 21 ∑= 86

 (x i  x)
21
DM  i 1
  2.6
n 8

 ( x  x)
2
86
   12.2857
2
s n 1 7

s  12.2857 
2
s

9
ESTADÍSTICA DESCRIPTIVA

s
CV  *100  *100  %
x 10.5

Medidas de posicionamiento
Cuartiles, deciles y percentiles

Cuartiles

La mediana (ya sea de una población o de una muestra) divide los datos en dos partes iguales.
También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales los puntos de división se conocen como cuartiles. El primer cuartil
inferior, Q1, es el valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por
debajo de él, y el 75% restante, por encima de él. El segundo cuartil, Q2, tiene aproximadamente la
mitad (50%) de las observaciones por debajo de él. El segundo cuartil es exactamente igual a la
mediana. El tercer cuartil ó cuartil superior, Q3, tiene aproximadamente las tres cuartas partes (75%)
de las observaciones por debajo de él. Al igual que en el caso de la mediana, es posible que los
cuartiles no sean únicos. Por simplicidad, si más de una observación satisface la definición de un
cuartil, entonces se utiliza el promedio de ellas como cuartil.

En general, la fórmula para calcular el encontrar la ubicación del k-ésimo cuartil de una serie de
datos es:

Qk  x kn 1
  
 4 2

Ejemplo:

Para los datos de la sección anterior: 5, 8, 8, 11, 11, 11, 14 y 16.

El primer cuartil es:

Q1  x 1(8)1
 x2.5 Lo que significa, que el primer cuartil es el promedio de los datos x 2 y x3,
  
 4 2
entonces

x 2  x3 8  8
Q1   8
2 2

El tercer cuartil es:

Q3  x 3(8) 1
 x6.5 Lo que significa, que el tercer cuartil es el promedio de los datos x6 y x7,
  
 4 2
entonces

x6  x7 11  14
Q3    12.5
2 2

10
ESTADÍSTICA DESCRIPTIVA

Deciles

La definición de los deciles, es similar al de los cuartiles, únicamente, que en este caso, los datos
son divididos en 10 partes. Por ejemplo, el primer cuartil tiene el 10% de los datos debajo de él y el
90% arriba de él.

En general, la fórmula para calcular el encontrar la ubicación del k-ésimo decil de una serie de datos
es:

Dk  x kn 1
  
 10 2 

Ejemplo:

Para los mismos datos, el primer decil es:

D1  x 1(8) 1
 x1.3 Lo que significa, que el primer decil, puede calcularse con la interpolación de
  
 10 2 
los datos x1 y x2, entonces

D1  x1  ( x2  x1 ) * .3  5  (8  5) * .3  5.9

El tercer decil es:

D3  x 3(8) 1
 x2.9
  
 10 2 

Lo que significa, que el tercer decil, se obtiene con la interpolación de los datos x 2 y x3, entonces

D3  x2  ( x3  x2 ) * .9  8  (8  8) * .9  8

Percentiles

En el caso de los percentiles, los datos se dividen en 100 partes. El vigésimo percentil, tiene el 20%
de los datos debajo de él y el 80% de los datos, arriba de él.

La fórmula para calcular el encontrar la ubicación del k-ésimo percentil de una serie de datos es:

Pk  x kn 1
  
 100 2 
Ejemplo:

Tomando los datos anteriores, el décimo percentil se obtiene de la siguiente manera:

11
ESTADÍSTICA DESCRIPTIVA

P10  x 10(8) 1
 x1.3 Lo que significa, que el décimo percentil, puede calcularse con la
  
 100 2 
interpolación de los datos x1 y x2, entonces

P10  x1  ( x2  x1 ) * .3  5  (8  5) * .3  5.9

Medidas de asimetría

Sesgo:

Grado de concentración de una distribución de datos en uno o en otro extremo.

__
f ( x  x )3
Coeficiente de sesgo: 3  
n 1

 3  0  simetría
 3  0  sesgo _ positivo
 3  0  sesgo _ negativo

La diferencia entre los valores de la media, la mediana y la moda, nos permiten saber la forma de la
distribución.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson mide la desviación de la simetría.


 __ 
3 x  ~
x
3  ~   
Asimetría Poblacional = Asimetría Muestral =
 S

12
ESTADÍSTICA DESCRIPTIVA

De acuerdo con esta expresión, el sesgo puede variar de -3 a 3. un valor cercano a -3 indica un
sesgo negativo y viceversa. Un valor de 0, ocurre cuando la media y la mediana son iguales, indica
que la distribución es simétrica.

Coeficiente de asimetría calculado con software

n   n 
3

sk    
(n  1)(n  2)   (n  1)(n  2)  
 

Curtosis

Es una medida de forma o apuntamiento basado en el cuarto momento con respecto a la media.
Esta medida determina el grado de concentración que presentan los valores en la región central de
la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran
concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).

Coeficiente de curtosis:

__
f ( x  x )4
4  
n 1
Tomando, pues, la distribución normal como referencia, una distribución puede ser:

 4  3  Leptocurti ca más apuntada que la normal


 4  3  Mesocurtica la distribución normal
 4  3  Platicurti ca menos apuntada que la normal

13
ESTADÍSTICA DESCRIPTIVA

Datos agrupados

Determinación de clases

Los tres métodos más comúnmente usados para determinar las clases (categorías o número de
intervalos) en que se agruparán los datos son:
 Método Lógico: Tallos y hojas.
 Método del Experto: predeterminación del número de clases.
 Utilización de algún algoritmo: Sturges, n .

Los cuales, se describirán a continuación, aplicando cada método a los datos del siguiente ejemplo:

Ejemplo:

El director de producción de una empresa de telares, es responsable de la fabricación de alfombras


en más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar,
toma una muestra diaria de 50 telares de las 500 máquinas.

En la siguiente tabla se presenta la producción en metros de cada uno de los 50 telares, éstas
cantidades son datos sin procesar desde los cuales el director de producción puede llegar a una
conclusión que abarque la totalidad de los telares en su desempeño del día anterior.

14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8

Método Lógico Tallos y hojas

Es una alternativa para agrupar los datos de la muestra. Podemos construir un diagrama de tallos y
hojas y de manera natural respeta la restricción de que la amplitud sea la misma para cada clase.

a) El tallo (dígito primario), consiste en uno o más de los primeros dígitos.


b) La hoja (dígito derivado), consiste en el número o números restantes.

El diagrama es similar al histograma y puede verse de inmediato en donde se están agrupando la


mayoría de los datos.

El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.

14
ESTADÍSTICA DESCRIPTIVA

Tallos (dígitos Hojas ( dígitos derivados)


frecuencia
Primarios)
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4
Total = 50 Datos. 50

Tallos codificados

Tallos (dígitos Primarios) Hojas (dígitos derivados) frecuencia


14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2
Total = 50 Datos 50 Datos

Note que cada uno de los tallos se dividió en dos partes.

- El primero para los dígitos unitarios inferiores ( 0,1,2,3,4)


- El segundo para los dígitos unitarios superiores ( 5,6,7,8,9)
representado por un *.

De esta manera puede observarse con mayor facilidad la forma en que están distribuidos los datos.

Una vez construido el diagrama de tallos y hojas vaciamos la información en una tabla de
frecuencias.
En la siguiente tabla, se presentan los datos agrupados en las 8 clases, con el límite inferior, límite
superior y las frecuencias de cada una de ellas:

Límites Reales
Frecuencia
Límite inferior Límite superior
14.0 14.4 2
14.5 14.9 2
15.0 15.4 8
15.5 15.9 12
16.0 16.4 13
16.5 16.9 9
17.0 17.4 2
17.5 17.9 2
Σ=50

15
ESTADÍSTICA DESCRIPTIVA

Método del Experto o Utilizando algún algoritmo

La metodología para ambos casos es la misma

1. Definir el número de intervalos k


2. Obtener el rango modificado
Rm = dato mayor – dato menor + 1 cifra significativa
3. Dividir el rango modificado entre el número de intervalos
4. Obtener la amplitud de la clase. Cerrada a la cifra significativa.

Método de Sturges para determinar el número de clases:

1. Obtener el rango modificado "Rm".

Rm = 17.9 – 14.0 + 0.1 Rm = 4

2. Determinar el número de clases "k" mediante el número de Sturges.

k = 1 + 3.322 log (50)

k = 6.64 ≈ 7

3. Obtener la amplitud de clase (amplitud del intervalo) "A": A = Rm / k A= 4 / 7 = 0.57

4. A= ≈ 0.6

Se redondea a décimas, por ser la cifra significativa con que fueron proporcionados los datos.

Una vez obtenidos los valores de Rm, k y A, se establecen los límites de clase. Siendo el límite
inferior de la primera clase, el valor inferior, en este caso 14.0. Posteriormente se le suma a este
valor la amplitud (A), esto es: 14.0 + 0.6 = 14.6, este valor es el límite inferior de la segunda clase, y
así sucesivamente.

Límite superior de la primera clase = Límite inferior de la segunda clase – 0.1 = 14.6 – 0.1 = 14.5

El límite superior de las clases superiores se obtiene sumando a cada límite superior de la clase
inmediata inferior el valor de A.

En la siguiente tabla se presentan las 7 clases establecidas con este método y sus respectivas
frecuencias:

16
ESTADÍSTICA DESCRIPTIVA

Límites Reales
Frecuencia
Límite inferior Límite superior
14.0 14.5 2
14.6 15.1 4
15.2 15.7 11
15.8 16.3 18
16.4 16.9 11
17.0 17.5 2
17.6 18.1 2
Σ=50

Nota: Cuando el número de datos es pequeño, el número de clases k, puede obtenerse también
como k = n , obteniéndose valores muy cercanos al número de Sturges calculado en el paso 2 de
este método.

Método del Experto Predeterminando el número de clases

En este método el procedimiento es el mismo para el método de Sturges, con la única diferencia de
que el número de clases lo determina el analista de acuerdo a las necesidades del estudio,
basándose únicamente en su criterio y experiencia.

Ejemplo:

Suponiendo que para los mismos valores de los métodos anteriores, el analista decide agrupar los
datos en 6 clases. Es decir k = 6.

1. Obtener el rango modificado "Rm".

Rm = 17.9 – 14.0 + 0.1

Rm = 4

2. Obtener la amplitud de clase (amplitud del intervalo) "A":

A = Rm / k

k=6

A = 4 / 6 = 0.67 ≈ 0.7

Se redondea a décimas, por ser la cifra significativa con que fueron proporcionados los datos.

El límite inferior y superior de cada clase, se obtiene de la misma manera que en el método de
Sturges.

17
ESTADÍSTICA DESCRIPTIVA

La tabla resultante con este método, agrupando los datos en las 6 clases correspondientes, queda
de la siguiente manera:

Límites Reales
Frecuencia
Límite inferior Límite superior
14.0 14.6 3
14.7 15.3 7
15.4 16.0 17
16.1 16.7 13
16.8 17.4 8
17.5 18.1 2
Σ=50

Una vez definidos los límites reales construimos la tabla de frecuencias

Tabla de frecuencias

Una tabla de frecuencias es aquélla que concentra y organiza las clases y contiene:

Límites de clase:

Los límites de clase obtenidos en la sección anterior, son los límites nominales de clase, sin
embargo, también es necesario establecer los límites exactos para cada clase. A continuación se
describe la diferencia entre estos dos tipos de límites:

Limites reales:

Superior o inferior, indican los valores incluidos dentro de la clase.

Limites exactos:

Se determinan identificando los puntos que están a la mitad entre los límites superior de cada clase
y el límite inferior de la próxima clase. Estos se determinan para evitar la ambigüedad en cuanto a
dónde ubicar un dato cuyo valor coincida con un límite nominal.

Marca de clase (M-C) o punto medio de clase (PM):

Es el promedio de los límites superior e inferior de cada clase (ya sean los nominales o los exactos).

Frecuencia (f):

Es el número de datos que se ubican dentro de cada clase.

Frecuencia acumulada (Fa):

18
ESTADÍSTICA DESCRIPTIVA

Es la suma de la frecuencia de cada clase, con la frecuencia de todas las clases anteriores. Por
ejemplo, la frecuencia acumulada de la segunda clase, es la suma de frecuencias de la primera y la
segunda clase.

Frecuencia relativa de ocurrencia (fr):

Es la fracción de los datos de la muestra que se encuentra en determinada clase, se obtiene de la


siguiente manera: fr = f / n

Frecuencia relativa acumulada (Fra):

Es la suma de la frecuencia relativa de cada clase, con la frecuencia relativa de todas las clases
anteriores. Por ejemplo, la frecuencia relativa acumulada de la cuarta clase, es la suma de
frecuencias relativas de las clases 1-3 y la frecuencia relativa de la cuarta clase.

Ejemplo:

A continuación se presenta la tabla de frecuencias correspondiente al ejemplo de los tres métodos


aplicados para agrupar los datos.

a) Tallos y hojas

Límite real Límite exacto M.C f Fa Fr Fra


14.0-14.4 13.95-14.45 14.2 2 2 2/50 2/50
14.5-14.9 14.45-14.95 14.7 2 4 2/50 4/50
15.0-15.4 14.95-15.45 15.2 8 12 8/50 12/50
15.4-15.9 15.45-15.95 15.7 12 24 12/50 24/50
16.0-16.4 15.95-16.45 16.2 13 37 13/50 37/50
16.5-16.9 16.45-16.95 16.7 9 46 9/50 46/50
17.0-17.4 16.95-17.45 17.2 2 48 2/50 48/50
17.5-17.9 17.45-17.95 17.7 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0

b) Sturges

Límite nominal Límite exacto M.C f Fa Fr Fra


14.0-14.5 13.95-14.55 14.25 2 2 2/50 2/50
14.6-15.1 14.55-15.15 14.85 4 6 4/50 6/50
15.2-15.7 15.15-15.75 15.45 11 17 11/50 17/50
15.8-16.3 15.75-16.35 16.05 18 35 18/50 35/50
16.4-16.9 15.35-16.95 16.65 11 46 11/50 46/50
17.0-17.5 16.95-17.55 17.25 2 48 2/50 48/50
17.6-18.1 17.55-18.15 17.85 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0

19
ESTADÍSTICA DESCRIPTIVA

c) Predeterminando el número de clases

Límite nominal Límite exacto M.C f Fa Fr Fra


14.0-14.6 13.95-14.65 14.3 3 3 3/50 3/50
14.7-15.3 14.65-15.35 15.0 7 10 7/50 10/50
15.4-16.0 15.35-16.05 15.7 17 27 17/50 27/50
16.1-16.7 16.05-16.75 16.4 13 40 13/50 40/50
16.8-17.4 16.75-17.45 17.1 8 48 8/50 48/50
17.5-18.1 17.45-18.15 17.8 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0

El análisis descriptivo de la información para Datos Agrupados

Medidas de tendencia central

En esta sección, se presentan las fórmulas para obtener las medidas de tendencia central (media,
mediana y moda) para datos agrupados, aplicando cada fórmula para el siguiente caso.

Se tiene información acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el número de trabajadores que corresponde a cada categoría con base en
su percepción mensual.

SALARIO NÚMERO
MENSUAL DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100

La tabla de frecuencias correspondiente, queda como sigue:

Límite real Límite exacto M.C f Fa Fr Fra


2400 - 2599 2399.5 – 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 – 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 – 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 – 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 – 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 – 3599.5 3499.5 4 100 4/100 100/100
Σ = 100 Σ = 100/100 = 1.0

El concepto de cada una de las medidas de tendencia central es el mismo para datos no agrupados
y agrupados, lo único que cambia es la fórmula para obtenerlas.

20
ESTADÍSTICA DESCRIPTIVA

Media

Para una población: Para una muestra:

 f * MC 
f * MC
x
n N

Mediana
 n 
 ( 2 )  Faa 
x  LEINF
~  A
fc
 
 

LEINF = Límite exacto inferior de la clase que contiene la mediana.

n = número de datos.

Faa = Frecuencia acumulada de la clase que está antes de la clase que contiene a la mediana.

fc = Frecuencia de la clase que contiene la mediana.

A = Amplitud de clase.

Moda

d1
Mo  LEINF  ( )A
d1  d 2

LEINF = Límite exacto inferior de la clase que contiene la moda.

d1 = Diferencia absoluta de la frecuencia de la clase modal y de la clase anterior.

d2 = Diferencia absoluta de la frecuencia de la clase modal y de la clase siguiente.

A = Amplitud

Ejemplo:

Media

21
ESTADÍSTICA DESCRIPTIVA

294950
x  2949.5
100

Mediana

 100 
 ( )  27 
x  2799.5   2
 * 200  2938.9
~
33
 
 
Moda

13
Mo  2799.5  ( ) * 200  2923.3
13  8

Medidas de dispersión

Rango:

Se define como la diferencia entre el límite exacto superior de la clase más alta y el límite exacto
inferior de la clase más baja.

Desviación media

Para la población: Para una muestra:

DM 
 ( f ) MC   DM 
 ( f ) MC  x
N n
x = punto medio de la clase.
Varianza

 ( f )MC      ( f )MC  x  
2 2

 2
 s 2

N n 1
población muestra

Desviación estándar

  2 s  s2
población muestra

Ejemplo:

22
ESTADÍSTICA DESCRIPTIVA

A continuación se calculan las medidas de dispersión para los salarios de los trabajadores, para lo
cual, se presenta un resumen de la tabla de frecuencias, agregando algunas columnas que se
requieren para este efecto:

Salario Mensual MC f MC  x MC  x 2 ( f )MC  x 


2

2400 – 2599 2499.5 7 -450 202500 1417500


2600 - 2799 2699.5 20 -250 62500 1250000
2500 - 2999 2899.5 33 -50 2500 82500
3000 - 3199 3099.5 25 150 22500 562500
3200 - 3399 3299.5 11 350 122500 1347500
3400 - 3599 3499.5 4 550 302500 1210000
 = 5870000

Rango = 3599.5 – 2399.5 = 1200

___
  f * MC   294950  2949.50
x n 100

  __ 2 

 ( f ) MC  x  
  19600
DM    196
n 100

  __ 2 

 ( f ) MC  x  
s2     5870000  59292.93
n 1 100  1

s  s 2  59292.93  243.5

Medidas de posición

Cuartiles
El k-ésimo cuartil en datos agrupados es:

 kn 
  Fa 
Qk  LEINF  4 * A
 fc 
 
 

23
ESTADÍSTICA DESCRIPTIVA

Deciles

El k-ésimo decil, se obtiene como:

 kn 
  Fa 
D k  LE INF   10 * A
 fc 
 
 
Percentiles

El k-ésimo percentil está dado por:

 kn 
  Fa 
Pk  LE INF   100 * A
 fc 
 
 
En todas las fórmulas anteriores:

Fa = frecuencia acumulada de la clase anterior.

fc = Frecuencia de la clase.

A = Amplitud de clase.

Ejemplo:

Obtener P90 para el salario mensual de los trabajadores.

  90 *100  
  - 85 
P90  3199.5   
100   * 200  3290.5
 11 
 
 

Medidas de sesgo

__
f ( x  x )3
3  
n 1

Medidas de apuntalamiento
__
f ( x  x )4
4  
n 1

24
ESTADÍSTICA DESCRIPTIVA

Gráficas de estadística descriptiva

Las gráficas de distribuciones de frecuencias son de utilidad debido a que resaltan y aclaran los
patrones que no se pueden distinguir fácilmente en las tablas. Atraen la atención del que las
observa hacia los patrones existentes en los datos. Las gráficas pueden también ayudarnos a
resolver problemas concernientes a las distribuciones de frecuencia. Nos permitirán estimar algunos
valores con solo una mirada y nos proporcionarán una verificación visual sobre la precisión de
nuestras soluciones.

Las gráficas más comunes para representar los datos son: Histograma, polígono de frecuencias,
gráfica de pastel y ojiva.

Representación gráfica de Datos no agrupados

Una representación gráfica de los datos no agrupados es a través del diagrama de caja éste se
elabora siguiendo los siguientes pasos:

1. Trace una recta numérica que empiece en el dato menor y termine en el dato mayor.
2. Encuentre el cuartil 1 y 3 y trace dos líneas perpendiculares a la recta numérica que pasen
por los cuartiles encontrados y construya una caja.
3. Trace la mediana y la media .

Ejemplo

El director de producción de una empresa de telares, es responsable de la fabricación de alfombras en


más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 máquinas.

En la siguiente tabla se presenta la producción en metros de cada uno de los 50 telares, éstas
cantidades son datos sin procesar desde los cuales el director de producción puede llegar a una
conclusión que abarque la totalidad de los telares en su desempeño del día anterior.

14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8

25
ESTADÍSTICA DESCRIPTIVA

Representación gráfica de Datos agrupados.

Histograma

Un histograma consiste en una serie de rectángulos, cuyo ancho es proporcional al alcance


(intervalo que abarcan) de los datos que se encuentran dentro de una clase, y cuya altura es
proporcional al número de elementos que caen dentro de la clase. Si las clases que utilizamos en la
distribución de frecuencias son del mismo ancho, entonces las barras verticales del histograma
también tiene el mismo ancho. La altura de la barra correspondiente a cada clase representa el
número de observaciones de la clase. Como consecuencia a lo anterior, el área contenida en cada
rectángulo (ancho por altura) ocupa un porcentaje del área total de todos los rectángulos igual al
porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones
hechas.

Por lo general, se señalan en el eje horizontal las clases y en el eje vertical se colocan el número de
observaciones que es la frecuencia.

Ejemplo:
Se tiene información acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el número de trabajadores que corresponde a cada categoría con base en
su percepción mensual.

SALARIO NÚMERO
MENSUAL DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100

26
ESTADÍSTICA DESCRIPTIVA

La tabla de frecuencias correspondiente, queda como sigue:

Límite real Límite exacto M.C f Fa Fr Fra


2400 - 2599 2399.5 – 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 – 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 – 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 – 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 – 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 – 3599.5 3499.5 4 100 4/100 100/100

Histograma

HISTOGRAMA DE FRECUENCIAS

35
30
TRABAJADORES

25
20
15
10
5
0
2399.5 2399.5 2399.5 2399.5 2399.5 2399.5 2399.5
2399.5 2599.5 2799.5 2999.5 3199.5 3599.5
LIMITES EXACTOS INFERIORES

Polígono de frecuencias

Aunque se utilizan menos, los polígonos de frecuencias son otra forma de representar gráficamente
las distribuciones. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los
valores de la variable que estamos midiendo en el eje horizontal, del mismo modo que lo hicimos en
el histograma. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su
marca de clases (punto medio de clase) y conectamos los resultantes puntos sucesivos con una
línea recta para formar un polígono.

Ejemplo:

27
ESTADÍSTICA DESCRIPTIVA

POLIGONO DE FRECUENCIAS

35

30

25
TRABAJADORES

20

15

10

0
2299.5 2499.5 2699.5 2899.5 3099.5 3299.5 3499.5 3699.5

LIMITES EXACTOS INFERIORES

Gráfica de pastel

También se le denomina gráfica de sectores o gráfica circular. Esta gráfica resulta muy útil para
representar una distribución de frecuencias relativas.

Una fácil y comprensible de representar las frecuencias relativas en una gráfica de sectores consiste
en considerar solo los porcentajes, puesto que las áreas en el círculo corresponden directamente a
las frecuencias relativas; es muy fácil apreciar que área es la mayor y que sector es el más pequeño.

Su nombre se debe, a que las clases se representan como rebanadas de un pastel y su tamaño
corresponde a la frecuencia de la clase, convertida ésta al porcentaje del total que le corresponde y
multiplicada por 3.6 ya que un circulo consta de 360° y 3.6° es la centésima parte del circulo. Para
hacer la gráfica de manera manual se requiere del uso de un transportador.

Ejemplo:

Número de obreros Frecuencia relativa Porcentaje (%) Ángulo


7 0.07 7 25.2 °
20 0.20 20 72 °
33 0.33 33 118.8 °
25 0.25 25 90 °
11 0.11 11 39.6 °
4 0.40 4 14.4 °
Σ = 360 °

28
ESTADÍSTICA DESCRIPTIVA

DIAGRAMA DE PASTEL
4% 7%
11%
20%

25%
33%

Ojiva

Es una gráfica de distribución de frecuencias acumuladas. Nos permite ver cuántas observaciones
están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos
que hay dentro de los intervalos.

Se construye graficando el límite inferior exacto en el eje horizontal y la frecuencia acumulada o la


frecuencia relativa acumulada de cada clase en el eje vertical.

Ejemplo:

OJIVA

1
0.9
0.8
FRECUENCIA ACUMULADA

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
2299.5 2399.5 2599.5 2799.5 2999.5 3199.5 3599.5

LIMITE EXACTO INFERIOR

29

También podría gustarte