Estadistica Descriptiva PDF

ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN
Definición de estadística: es la ciencia que trata de la recolección, presentación, análisis y uso de

datos para la toma decisiones.
Cuando escuchamos la palabra estadística, inmediatamente nos imaginamos cosas como:

promedios de bateo, índices de accidentes, tasas de mortalidad, etc., la historia del desarrollo de la
teoría estadística y su práctica es larga; mucha gente a contribuido al estudio de la estadística con
refinamientos e innovaciones, que en conjunto constituyen la base teórica de lo que se conoce como
estadística.
Ramas de la Estadística:
La estadística puede presentarse en diferentes niveles de dificultad matemática y puede estar

dirigida hacia varias aplicaciones en distintos campos de la investigación.
La estadística para su estudio se divide en dos ramas:
Descriptiva:
Incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos, gráficas,
tablas y diagramas que muestran los datos y facilitan su interpretación.
Inferencial:
Se sirve de los resultados de la estadística descriptiva, para usar técnicas por medio de las cuales
se toman decisiones sobre una población estadística basada en una muestra.
 Estadística Descriptiva.
o Definición de estadística descriptiva.
Es la rama de la estadística que trata con la organización, el resumen y la presentación de los datos;
la moderna tecnología de las computadoras, en particular las gráficas por computadora, han
ampliado en forma considerable el campo de la estadística descriptiva; las técnicas de la estadística
descriptiva pueden aplicarse ya sea a poblaciones enteras o a muestras, también utiliza las tablas y
gráficas para la presentación de los datos de una forma lógica y ordenada.
1
Recopilación de datos
En general, la estadística esta ligada con el método científico para realizar la recopilación,
organización, resumen, presentación y análisis de datos, con dos objetos bien definidos.
 El establecimiento de descripciones, conclusiones e inferencias y

 La toma de decisiones de acuerdo con el mencionado análisis.
Definición de población, muestra y muestra aleatoria.
a) Población:
Es una colección de todos los elementos que estamos estudiando y acerca de los cuales intentamos
establecer conclusiones.
b) Muestra:
Es una colección de algunos de los elementos que componen una población.
c) Muestra aleatoria:
Es una muestra al azar, para que se considere propia y representativa de la población, deberá ser al
azar.
LLENA EL SIGUIENTE CUADRO RESUMEN CON LOS DIFERENTES TIPOS DE MUESTREO

ALEATORIO.
TIPO DE
CARACTERÍSTICAS VENTAJAS DESVENTAJAS USOS
MUESTREO
SIMPLE
Mejores
ESTRATIFICADO estimaciones
que el simple
Costos Resultados
reducidos. menos exactos Los estudios
CONGLOMERADOS Simplificación en el muestreo son a gran
de trabajo de aleatorio con el escala
campo y mismo tamaño
2
admistartivo de muestra
SISTEMÁTICO
Organiza
Una vez recopilados los datos numéricos podemos organizarlos para que su análisis sea más expedito.
Una manera de organizarlos es utilizando el diagrama de tallos y hojas.
Una técnica para organizar información cuantitativa en forma condensada es el Diagrama de tallos y
hojas este diagrama permite identificar a cada observación.
En donde el tallo es el o los dígitos principales y las hojas son los dígitos secundarios, el tallo se coloca
a la izquierda de una línea vertical y los valores de las hojas a la derecha.
En este diagrama no se pierden los datos originales. Es recomendable no elegir menos de 5 ni más de
20 tallos.
El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.
Ejemplo:
El director de producción de una empresa de telares, es responsable de la fabricación de alfombras en

más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 máquinas.
En la siguiente tabla se presenta la producción en metros de cada uno de los 50 telares, éstas
cantidades son datos sin procesar desde los cuales el director de producción puede llegar a una
conclusión que abarque la totalidad de los telares en su desempeño del día anterior.
14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8
De acuerdo con los datos de la tabla de arriba el número mínimo de producción en metros es de 14.2,
así el primer valor del tallo es 14. El número máximo es de 17.9 entonces los tallos comienzan desde 14
y continúan hasta 17. El primer valor de la tabla es 14.2, el cual tendrá un valor de tallo de 14 y un valor
de hoja 2, el segundo valor es 15.7 el cual tendrá un valor de tallo de 15 y un valor de hoja 7.
Al organizar cada uno delos datos de igual forma el diagrama de tallos y hojas queda:
3
Tallos sencillos
Tallos (dígitos Hojas ( dígitos derivados)

frecuencia
Primarios)
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4
Tallos codificados
El diagrama de tallos y hojas anterior contiene solo cuatro troncos y, en consecuencia, no proporciona
facilidad para trabajar los datos. Para evitar ese problema, se necesita incrementar el número de troncos
en la tabla; el número adecuado de intervalos debe ser de 5 a 20 intervalos.
Tallos (dígitos Primarios) Hojas (dígitos derivados) frecuencia

14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2
Note que cada uno de los tallos se dividió en dos partes.
El primero para los dígitos unitarios inferiores ( 0,1,2,3,4)

El segundo para los dígitos unitarios superiores ( 5,6,7,8,9) representado por un *.
Dado que los datos anteriores son proporcionados en bruto (es decir, en el orden en que
aparecen), hace falta ordenarlos de manera ascendente:
Tallos ( dígitos Primarios) Hojas (dígitos derivados)

14. 0,2.
14. * 6,9.
15. 0,1,2,2,3,3,4,4.
15. * 6,6,6,6,7,8,8,8,8,8,9,9.
16. 0,0,0,1,1,2,2,2,3,3,3,4,4.
16. * 5,6,7,8,8,8,8,9,9.
17. 0,3.
17. * 7,9.
De esta manera puede observarse con mayor facilidad la forma en que están distribuidos los datos.
Diagrama de tallos y hojas MINITAB
4
Resumen de Datos
Para describir los datos necesitamos resumimos en medidas de tendencia central, de dispersión, de
apuntalamiento, de posicionamiento o de sesgo.
Para encontrar estas medidas podemos tratar a los datos como datos no agrupados o datos
agrupados.
Existen dos criterios para optar por datos no agrupados.
Optamos por datos no agrupados cuando:
 Las características individuales (el peso de cada observación) se vea reflejado en el

resumen de los datos.
 El número de datos es pequeño, estadísticamente n ≤ 30.
Definición datos no agrupados:
Son datos no agrupados cuando se consideran y analizan todos los valores observados tal como se
obtuvieron.
Ventajas:
Resulta más fácil y rápido trabajar con los datos no agrupados.
Desventajas:
Solo se puede aplicar en pequeñas cantidades de datos, ya que en grandes cantidades resultaría un
tanto tedioso y por lo mismo existiría más probabilidad de equivocarse.
Definición Datos agrupados
Son datos que están organizados (formando grupos). Podemos formar más o menos grupos,
dependiendo de que tan exacto queramos trabajar, a cada grupo le llamamos clase. Rara vez se
emplean menos de seis clases o más de quince. La restricción para agrupar es que todas las clases
tengan la misma amplitud.
Ventajas:
 Facilidad y rapidez al manejo de datos.

 Se notan rápidamente el valor mayor y el valor menor de los datos
 Se puede dividir fácilmente los datos en secciones.
5
 Se puede observar si algún valor aparece más de una vez en el ordenamiento.

Desventajas:
 Las características individuales de los datos no son tomadas en cuenta

 Cuando los cálculos son a mano resulta complicado, y es necesario utilizar algún software.
El análisis descriptivo de la información para Datos no agrupados
Medidas de tendencia central
Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a
ser el más representativo de un conjunto de números. Las tres medidas de tendencia central que
más comúnmente se emplean son: la media, la mediana y la moda.
Media: La media aritmética es lo que viene a la mente de la mayoría de las personas cuando se
menciona la palabra promedio, también se le denomina valor esperado o esperanza matemática. La
media se calcula al sumar los valores de un conjunto y al dividir el valor de su suma entre el número
de valores del mismo.
La media aritmética o promedio, se obtiene de la siguiente manera.
x x
Media de la Muestra: x  i 1
Media de la población.  
n N
Ejemplo:
Considere 8 mediciones 5, 8, 8, 11, 11, 11, 14, 16.
5  8  8  11  11  11  14  16 84
x   10.5
8 8
Mediana: La mediana representada por Md o P50, es el valor central de una serie cuando los
valores se ordenan según su magnitud, y es aquel que divide a una serie de tal forma que 50% de
los valores son menores o iguales que él, y el 50% de los valores son mayores o iguales que él.
Si se ordena un conjunto de datos xi de manera ascendente, la ubicación de la mediana puede

obtenerse mediante la siguiente fórmula:
X (1/2)(n+1) el subíndice indica la posición del dato.
Para los datos del ejemplo anterior ordenados de 5 a 16, la mediana se ubica en la posición:
6
x1 / 2 (81)  x1 / 2 (9)  x4.5
Esto quiere decir que el centro de los datos está a la mitad del dato 4 y el dato 5. Es decir, el valor
de la mediana los valores x4 y x5. Para el ejemplo, x4=11 y x5=11.
por lo tanto
x  x5 11  11
x 4
~   11
2 2
Moda: Se denota por M o Mo y es el valor que con más frecuencia se presenta en un conjunto de
datos, es muy fácil de determinarlo, basta con observar detenidamente al conjunto de datos y ver
cuál es el que más se repite; sin embargo, no es muy útil porque puede ocurrir que una distribución
tenga dos o más valores que se repitan con la misma frecuencia, en tal caso se tiene dos o mas
modas, también puede ocurrir que no exista ningún valor que se repita y entonces no habrá moda.
En el ejemplo, el valor que se repite más veces es el 11 que aparece 3 veces, por lo tanto:
Mo = 11
En este caso, se observa que los valores de la media, mediana y moda se encuentran muy
x  Mo . Sin embargo, esto no siempre ocurre.
cercanos, incluso ~
Comparación entre la media, la mediana y la moda:
NOMBRE SÍMBOLO VENTAJAS DESVENTAJAS

Refleja cada valor. Puede ser excesivamente
Media X Es la más usada en influenciada por valores
análisis estadísticos extremos.
Difícil de calcular si hay
Mediana ~
x
.Menos sensible a
valores extremos que
muchos datos.
No tiene propiedades
la media
algebraicas.
Fácil de calcular. 1. No se presta para el
Valor Típico análisis estadístico.
Moda Mo Más valores reunidos
en este punto que en Puede existir más de una
cualquier otro. moda o ninguna.
Medidas de dispersión
Las medidas de dispersión indican si los valores están relativamente cercanos uno del otro o si se
encuentran dispersos, otra manera de interpretar las medidas de dispersión es si los valores de las
observaciones son homogéneos.
7
Las medidas de dispersión más comunes son: rango (amplitud), desviación media, varianza,
desviación estándar y coeficiente de variación. Todas estas medidas excepto el rango toman la
media como punto de referencia. En cada caso un valor cero indica que no hay dispersión y mientras
mayor sea el valor de estas medidas es mayor la dispersión de los datos.
Rango: Es la diferencia entre el valor mayor y menor del conjunto de datos.
Rango  R  xmáx  xmín
Desviación media: Es el promedio del valor absoluto de las desviaciones de los datos con respecto
a la media.
Para una población: Para una muestra:
DM 
 x DM  
xx
N n
Varianza:
Mide las diferencias entre los puntos observados y la media utilizando el artificio de elevar éstos al
cuadrado para penalizar aquellos datos que se encuentran alejados de la media y suavizar las
diferencias de los datos que se encuentren próximos a la media.
La desviación estándar presenta grandes ventajas sobre la varianza, pues sus unidades físicas son
las mismas que las de las observaciones, mientras que las de la varianza son unidades físicas
cuadradas.
 x     x  x 
2 2
 2
 s 2

N n 1
Por otra parte, la desviación estándar es la más usada en el análisis estadístico.
Desviación Estándar: Es la raíz cuadrada positiva de la varianza.
  2 s  s2
Una interpretación de la desviación estándar es si la distribución es aproximadamente normal, el

intervalo:
a) x  s, contiene aproximadamente 68% de las observaciones.
b) x  2s, contiene aproximadamente 95% de las observaciones.
c) x  3s, contiene aproximadamente casi todas las observaciones (99.7%).
8
Coeficiente de variación: Es una medida relativa de dispersión, la cual nos permite comparar dos
distribuciones.
Relaciona la desviación estándar y la media al expresar la primera como un porcentaje de la

segunda.

CV  100 CV 
s
100
 x
Ejemplo:
Considerando que los datos del ejemplo anterior constituyen una población, sus medidas de
dispersión se calculan como sigue:
Con n = 8 y las siguientes mediciones 5, 8, 8, 11, 11, 11, 14, 16.
Rango = R = 16-5 = 11
5  8  8  11  11  11  14  16 84
x   10.5
8 8
/ x  xi /
x x x  xi ( x  x) 2
5 10.5 -5.5 5.5 30.25

8 10.5 -2.5 2.5 6.25
8 10.5 -2.5 2.5 6.25
11 10.5 0.5 0.5 6.25
11 10.5 0.5 0.5 0.25
11 10.5 0.5 0.5 0.25
14 10.5 3.5 3.5 12.25
16 10.5 5.5 5.5 30.25
∑= 84 ∑= 0 ∑= 21 ∑= 86
 (x i  x)
21
DM  i 1
  2.6
n 8
 ( x  x)
2
86
   12.2857
2
s n 1 7
s  12.2857 
2
s
9
s
CV  *100  *100  %
x 10.5
Medidas de posicionamiento
Cuartiles, deciles y percentiles
Cuartiles
La mediana (ya sea de una población o de una muestra) divide los datos en dos partes iguales.
También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales los puntos de división se conocen como cuartiles. El primer cuartil
inferior, Q1, es el valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por
debajo de él, y el 75% restante, por encima de él. El segundo cuartil, Q2, tiene aproximadamente la
mitad (50%) de las observaciones por debajo de él. El segundo cuartil es exactamente igual a la
mediana. El tercer cuartil ó cuartil superior, Q3, tiene aproximadamente las tres cuartas partes (75%)
de las observaciones por debajo de él. Al igual que en el caso de la mediana, es posible que los
cuartiles no sean únicos. Por simplicidad, si más de una observación satisface la definición de un
cuartil, entonces se utiliza el promedio de ellas como cuartil.
En general, la fórmula para calcular el encontrar la ubicación del k-ésimo cuartil de una serie de
datos es:
Qk  x kn 1
  
 4 2
Ejemplo:
Para los datos de la sección anterior: 5, 8, 8, 11, 11, 11, 14 y 16.
El primer cuartil es:
Q1  x 1(8)1
 x2.5 Lo que significa, que el primer cuartil es el promedio de los datos x 2 y x3,
  
 4 2
entonces
x 2  x3 8  8
Q1   8
2 2
El tercer cuartil es:
Q3  x 3(8) 1
 x6.5 Lo que significa, que el tercer cuartil es el promedio de los datos x6 y x7,
  
 4 2
entonces
x6  x7 11  14
Q3    12.5
2 2
10
Deciles
La definición de los deciles, es similar al de los cuartiles, únicamente, que en este caso, los datos
son divididos en 10 partes. Por ejemplo, el primer cuartil tiene el 10% de los datos debajo de él y el
90% arriba de él.
En general, la fórmula para calcular el encontrar la ubicación del k-ésimo decil de una serie de datos
es:
Dk  x kn 1
  
 10 2 
Ejemplo:
Para los mismos datos, el primer decil es:
D1  x 1(8) 1
 x1.3 Lo que significa, que el primer decil, puede calcularse con la interpolación de
  
 10 2 
los datos x1 y x2, entonces
D1  x1  ( x2  x1 ) * .3  5  (8  5) * .3  5.9
El tercer decil es:
D3  x 3(8) 1
 x2.9
  
 10 2 
Lo que significa, que el tercer decil, se obtiene con la interpolación de los datos x 2 y x3, entonces
D3  x2  ( x3  x2 ) * .9  8  (8  8) * .9  8
Percentiles
En el caso de los percentiles, los datos se dividen en 100 partes. El vigésimo percentil, tiene el 20%
de los datos debajo de él y el 80% de los datos, arriba de él.
La fórmula para calcular el encontrar la ubicación del k-ésimo percentil de una serie de datos es:
Pk  x kn 1
  
 100 2 
Ejemplo:
Tomando los datos anteriores, el décimo percentil se obtiene de la siguiente manera:
11
P10  x 10(8) 1
 x1.3 Lo que significa, que el décimo percentil, puede calcularse con la
  
 100 2 
interpolación de los datos x1 y x2, entonces
P10  x1  ( x2  x1 ) * .3  5  (8  5) * .3  5.9
Medidas de asimetría
Sesgo:
Grado de concentración de una distribución de datos en uno o en otro extremo.
__
f ( x  x )3
Coeficiente de sesgo: 3  
n 1
 3  0  simetría
 3  0  sesgo _ positivo
 3  0  sesgo _ negativo
La diferencia entre los valores de la media, la mediana y la moda, nos permiten saber la forma de la
distribución.
Coeficiente de asimetría de Pearson
El coeficiente de asimetría de Pearson mide la desviación de la simetría.

 __ 
3 x  ~
x
3  ~   
Asimetría Poblacional = Asimetría Muestral =
 S
12
De acuerdo con esta expresión, el sesgo puede variar de -3 a 3. un valor cercano a -3 indica un
sesgo negativo y viceversa. Un valor de 0, ocurre cuando la media y la mediana son iguales, indica
que la distribución es simétrica.
Coeficiente de asimetría calculado con software
n   n 
3
sk    
(n  1)(n  2)   (n  1)(n  2)  
 
Curtosis
Es una medida de forma o apuntamiento basado en el cuarto momento con respecto a la media.
Esta medida determina el grado de concentración que presentan los valores en la región central de
la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran
concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).
Coeficiente de curtosis:
__
f ( x  x )4
4  
n 1
Tomando, pues, la distribución normal como referencia, una distribución puede ser:
 4  3  Leptocurti ca más apuntada que la normal

 4  3  Mesocurtica la distribución normal
 4  3  Platicurti ca menos apuntada que la normal
13
Datos agrupados
Determinación de clases
Los tres métodos más comúnmente usados para determinar las clases (categorías o número de
intervalos) en que se agruparán los datos son:
 Método Lógico: Tallos y hojas.
 Método del Experto: predeterminación del número de clases.
 Utilización de algún algoritmo: Sturges, n .
Los cuales, se describirán a continuación, aplicando cada método a los datos del siguiente ejemplo:
Ejemplo:
El director de producción de una empresa de telares, es responsable de la fabricación de alfombras

en más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar,
toma una muestra diaria de 50 telares de las 500 máquinas.
14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8
Método Lógico Tallos y hojas
Es una alternativa para agrupar los datos de la muestra. Podemos construir un diagrama de tallos y
hojas y de manera natural respeta la restricción de que la amplitud sea la misma para cada clase.
a) El tallo (dígito primario), consiste en uno o más de los primeros dígitos.

b) La hoja (dígito derivado), consiste en el número o números restantes.
El diagrama es similar al histograma y puede verse de inmediato en donde se están agrupando la

mayoría de los datos.
El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.
14
Tallos (dígitos Hojas ( dígitos derivados)

frecuencia
Primarios)
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4
Total = 50 Datos. 50
Tallos codificados
Tallos (dígitos Primarios) Hojas (dígitos derivados) frecuencia

14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2
Total = 50 Datos 50 Datos
Note que cada uno de los tallos se dividió en dos partes.
- El primero para los dígitos unitarios inferiores ( 0,1,2,3,4)

- El segundo para los dígitos unitarios superiores ( 5,6,7,8,9)
representado por un *.
De esta manera puede observarse con mayor facilidad la forma en que están distribuidos los datos.
Una vez construido el diagrama de tallos y hojas vaciamos la información en una tabla de
frecuencias.
En la siguiente tabla, se presentan los datos agrupados en las 8 clases, con el límite inferior, límite
superior y las frecuencias de cada una de ellas:
Límites Reales
Frecuencia
Límite inferior Límite superior
14.0 14.4 2
14.5 14.9 2
15.0 15.4 8
15.5 15.9 12
16.0 16.4 13
16.5 16.9 9
17.0 17.4 2
17.5 17.9 2
Σ=50
15
Método del Experto o Utilizando algún algoritmo
La metodología para ambos casos es la misma
1. Definir el número de intervalos k

2. Obtener el rango modificado
Rm = dato mayor – dato menor + 1 cifra significativa
3. Dividir el rango modificado entre el número de intervalos
4. Obtener la amplitud de la clase. Cerrada a la cifra significativa.
Método de Sturges para determinar el número de clases:
1. Obtener el rango modificado "Rm".
Rm = 17.9 – 14.0 + 0.1 Rm = 4
2. Determinar el número de clases "k" mediante el número de Sturges.
k = 1 + 3.322 log (50)
k = 6.64 ≈ 7
3. Obtener la amplitud de clase (amplitud del intervalo) "A": A = Rm / k A= 4 / 7 = 0.57
4. A= ≈ 0.6
Se redondea a décimas, por ser la cifra significativa con que fueron proporcionados los datos.
Una vez obtenidos los valores de Rm, k y A, se establecen los límites de clase. Siendo el límite
inferior de la primera clase, el valor inferior, en este caso 14.0. Posteriormente se le suma a este
valor la amplitud (A), esto es: 14.0 + 0.6 = 14.6, este valor es el límite inferior de la segunda clase, y
así sucesivamente.
Límite superior de la primera clase = Límite inferior de la segunda clase – 0.1 = 14.6 – 0.1 = 14.5
El límite superior de las clases superiores se obtiene sumando a cada límite superior de la clase
inmediata inferior el valor de A.
En la siguiente tabla se presentan las 7 clases establecidas con este método y sus respectivas
frecuencias:
16
Límites Reales
Frecuencia
14.0 14.5 2
14.6 15.1 4
15.2 15.7 11
15.8 16.3 18
16.4 16.9 11
17.0 17.5 2
17.6 18.1 2
Σ=50
Nota: Cuando el número de datos es pequeño, el número de clases k, puede obtenerse también
como k = n , obteniéndose valores muy cercanos al número de Sturges calculado en el paso 2 de
este método.
Método del Experto Predeterminando el número de clases
En este método el procedimiento es el mismo para el método de Sturges, con la única diferencia de
que el número de clases lo determina el analista de acuerdo a las necesidades del estudio,
basándose únicamente en su criterio y experiencia.
Ejemplo:
Suponiendo que para los mismos valores de los métodos anteriores, el analista decide agrupar los
datos en 6 clases. Es decir k = 6.
1. Obtener el rango modificado "Rm".
Rm = 17.9 – 14.0 + 0.1
Rm = 4
2. Obtener la amplitud de clase (amplitud del intervalo) "A":
A = Rm / k
k=6
A = 4 / 6 = 0.67 ≈ 0.7
Se redondea a décimas, por ser la cifra significativa con que fueron proporcionados los datos.
El límite inferior y superior de cada clase, se obtiene de la misma manera que en el método de
Sturges.
17
La tabla resultante con este método, agrupando los datos en las 6 clases correspondientes, queda
de la siguiente manera:
Límites Reales
Frecuencia
14.0 14.6 3
14.7 15.3 7
15.4 16.0 17
16.1 16.7 13
16.8 17.4 8
17.5 18.1 2
Σ=50
Una vez definidos los límites reales construimos la tabla de frecuencias
Tabla de frecuencias
Una tabla de frecuencias es aquélla que concentra y organiza las clases y contiene:
Límites de clase:
Los límites de clase obtenidos en la sección anterior, son los límites nominales de clase, sin
embargo, también es necesario establecer los límites exactos para cada clase. A continuación se
describe la diferencia entre estos dos tipos de límites:
Limites reales:
Superior o inferior, indican los valores incluidos dentro de la clase.
Limites exactos:
Se determinan identificando los puntos que están a la mitad entre los límites superior de cada clase
y el límite inferior de la próxima clase. Estos se determinan para evitar la ambigüedad en cuanto a
dónde ubicar un dato cuyo valor coincida con un límite nominal.
Marca de clase (M-C) o punto medio de clase (PM):
Es el promedio de los límites superior e inferior de cada clase (ya sean los nominales o los exactos).
Frecuencia (f):
Es el número de datos que se ubican dentro de cada clase.
Frecuencia acumulada (Fa):
18
Es la suma de la frecuencia de cada clase, con la frecuencia de todas las clases anteriores. Por
ejemplo, la frecuencia acumulada de la segunda clase, es la suma de frecuencias de la primera y la
segunda clase.
Frecuencia relativa de ocurrencia (fr):
Es la fracción de los datos de la muestra que se encuentra en determinada clase, se obtiene de la

siguiente manera: fr = f / n
Frecuencia relativa acumulada (Fra):
Es la suma de la frecuencia relativa de cada clase, con la frecuencia relativa de todas las clases
anteriores. Por ejemplo, la frecuencia relativa acumulada de la cuarta clase, es la suma de
frecuencias relativas de las clases 1-3 y la frecuencia relativa de la cuarta clase.
Ejemplo:
A continuación se presenta la tabla de frecuencias correspondiente al ejemplo de los tres métodos

aplicados para agrupar los datos.
a) Tallos y hojas
Límite real Límite exacto M.C f Fa Fr Fra

14.0-14.4 13.95-14.45 14.2 2 2 2/50 2/50
14.5-14.9 14.45-14.95 14.7 2 4 2/50 4/50
15.0-15.4 14.95-15.45 15.2 8 12 8/50 12/50
15.4-15.9 15.45-15.95 15.7 12 24 12/50 24/50
16.0-16.4 15.95-16.45 16.2 13 37 13/50 37/50
16.5-16.9 16.45-16.95 16.7 9 46 9/50 46/50
17.0-17.4 16.95-17.45 17.2 2 48 2/50 48/50
17.5-17.9 17.45-17.95 17.7 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0
b) Sturges
Límite nominal Límite exacto M.C f Fa Fr Fra

14.0-14.5 13.95-14.55 14.25 2 2 2/50 2/50
14.6-15.1 14.55-15.15 14.85 4 6 4/50 6/50
15.2-15.7 15.15-15.75 15.45 11 17 11/50 17/50
15.8-16.3 15.75-16.35 16.05 18 35 18/50 35/50
16.4-16.9 15.35-16.95 16.65 11 46 11/50 46/50
17.0-17.5 16.95-17.55 17.25 2 48 2/50 48/50
17.6-18.1 17.55-18.15 17.85 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0
19
c) Predeterminando el número de clases
Límite nominal Límite exacto M.C f Fa Fr Fra

14.0-14.6 13.95-14.65 14.3 3 3 3/50 3/50
14.7-15.3 14.65-15.35 15.0 7 10 7/50 10/50
15.4-16.0 15.35-16.05 15.7 17 27 17/50 27/50
16.1-16.7 16.05-16.75 16.4 13 40 13/50 40/50
16.8-17.4 16.75-17.45 17.1 8 48 8/50 48/50
17.5-18.1 17.45-18.15 17.8 2 50 2/50 50/50
Σ = 50 Σ = 50/50 = 1.0
El análisis descriptivo de la información para Datos Agrupados
Medidas de tendencia central
En esta sección, se presentan las fórmulas para obtener las medidas de tendencia central (media,
mediana y moda) para datos agrupados, aplicando cada fórmula para el siguiente caso.
Se tiene información acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el número de trabajadores que corresponde a cada categoría con base en
su percepción mensual.
SALARIO NÚMERO
MENSUAL DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100
La tabla de frecuencias correspondiente, queda como sigue:

2400 - 2599 2399.5 – 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 – 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 – 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 – 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 – 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 – 3599.5 3499.5 4 100 4/100 100/100
Σ = 100 Σ = 100/100 = 1.0
El concepto de cada una de las medidas de tendencia central es el mismo para datos no agrupados
y agrupados, lo único que cambia es la fórmula para obtenerlas.
20
Media
 f * MC 
f * MC
x
n N
Mediana
 n 
 ( 2 )  Faa 
x  LEINF
~  A
fc
 
 
LEINF = Límite exacto inferior de la clase que contiene la mediana.
n = número de datos.
Faa = Frecuencia acumulada de la clase que está antes de la clase que contiene a la mediana.
fc = Frecuencia de la clase que contiene la mediana.
A = Amplitud de clase.
Moda
d1
Mo  LEINF  ( )A
d1  d 2
LEINF = Límite exacto inferior de la clase que contiene la moda.
d1 = Diferencia absoluta de la frecuencia de la clase modal y de la clase anterior.
d2 = Diferencia absoluta de la frecuencia de la clase modal y de la clase siguiente.
A = Amplitud
Ejemplo:
Media
21
294950
x  2949.5
100
Mediana
 100 
 ( )  27 
x  2799.5   2
 * 200  2938.9
~
33
 
 
Moda
13
Mo  2799.5  ( ) * 200  2923.3
13  8
Medidas de dispersión
Rango:
Se define como la diferencia entre el límite exacto superior de la clase más alta y el límite exacto
inferior de la clase más baja.
Desviación media
Para la población: Para una muestra:
DM 
 ( f ) MC   DM 
 ( f ) MC  x
N n
x = punto medio de la clase.
Varianza
 ( f )MC      ( f )MC  x  
2 2
 2
 s 2

N n 1
población muestra
Desviación estándar
  2 s  s2
población muestra
Ejemplo:
22
A continuación se calculan las medidas de dispersión para los salarios de los trabajadores, para lo
cual, se presenta un resumen de la tabla de frecuencias, agregando algunas columnas que se
requieren para este efecto:
Salario Mensual MC f MC  x MC  x 2 ( f )MC  x 

2
2400 – 2599 2499.5 7 -450 202500 1417500

2600 - 2799 2699.5 20 -250 62500 1250000
2500 - 2999 2899.5 33 -50 2500 82500
3000 - 3199 3099.5 25 150 22500 562500
3200 - 3399 3299.5 11 350 122500 1347500
3400 - 3599 3499.5 4 550 302500 1210000
 = 5870000
Rango = 3599.5 – 2399.5 = 1200
___
  f * MC   294950  2949.50
x n 100
  __ 2 

 ( f ) MC  x  
  19600
DM    196
n 100
  __ 2 

 ( f ) MC  x  
s2     5870000  59292.93
n 1 100  1
s  s 2  59292.93  243.5
Medidas de posición
Cuartiles
El k-ésimo cuartil en datos agrupados es:
 kn 
  Fa 
Qk  LEINF  4 * A
 fc 
 
 
23
Deciles
El k-ésimo decil, se obtiene como:
 kn 
  Fa 
D k  LE INF   10 * A
 fc 
 
 
Percentiles
El k-ésimo percentil está dado por:
 kn 
  Fa 
Pk  LE INF   100 * A
 fc 
 
 
En todas las fórmulas anteriores:
Fa = frecuencia acumulada de la clase anterior.
fc = Frecuencia de la clase.
A = Amplitud de clase.
Ejemplo:
Obtener P90 para el salario mensual de los trabajadores.
  90 *100  
  - 85 
P90  3199.5   
100   * 200  3290.5
 11 
 
 
Medidas de sesgo
__
f ( x  x )3
3  
n 1
Medidas de apuntalamiento
__
f ( x  x )4
4  
n 1
24
Gráficas de estadística descriptiva
Las gráficas de distribuciones de frecuencias son de utilidad debido a que resaltan y aclaran los
patrones que no se pueden distinguir fácilmente en las tablas. Atraen la atención del que las
observa hacia los patrones existentes en los datos. Las gráficas pueden también ayudarnos a
resolver problemas concernientes a las distribuciones de frecuencia. Nos permitirán estimar algunos
valores con solo una mirada y nos proporcionarán una verificación visual sobre la precisión de
nuestras soluciones.
Las gráficas más comunes para representar los datos son: Histograma, polígono de frecuencias,
gráfica de pastel y ojiva.
Representación gráfica de Datos no agrupados
Una representación gráfica de los datos no agrupados es a través del diagrama de caja éste se
elabora siguiendo los siguientes pasos:
1. Trace una recta numérica que empiece en el dato menor y termine en el dato mayor.
2. Encuentre el cuartil 1 y 3 y trace dos líneas perpendiculares a la recta numérica que pasen
por los cuartiles encontrados y construya una caja.
3. Trace la mediana y la media .
Ejemplo
El director de producción de una empresa de telares, es responsable de la fabricación de alfombras en

más de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 máquinas.
14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8
25
Representación gráfica de Datos agrupados.
Histograma
Un histograma consiste en una serie de rectángulos, cuyo ancho es proporcional al alcance

(intervalo que abarcan) de los datos que se encuentran dentro de una clase, y cuya altura es
proporcional al número de elementos que caen dentro de la clase. Si las clases que utilizamos en la
distribución de frecuencias son del mismo ancho, entonces las barras verticales del histograma
también tiene el mismo ancho. La altura de la barra correspondiente a cada clase representa el
número de observaciones de la clase. Como consecuencia a lo anterior, el área contenida en cada
rectángulo (ancho por altura) ocupa un porcentaje del área total de todos los rectángulos igual al
porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones
hechas.
Por lo general, se señalan en el eje horizontal las clases y en el eje vertical se colocan el número de
observaciones que es la frecuencia.
Ejemplo:
Se tiene información acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el número de trabajadores que corresponde a cada categoría con base en
su percepción mensual.
SALARIO NÚMERO
MENSUAL DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100
26
La tabla de frecuencias correspondiente, queda como sigue:

2400 - 2599 2399.5 – 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 – 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 – 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 – 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 – 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 – 3599.5 3499.5 4 100 4/100 100/100
Histograma
HISTOGRAMA DE FRECUENCIAS
35
30
TRABAJADORES
25
20
15
10
5
0
2399.5 2399.5 2399.5 2399.5 2399.5 2399.5 2399.5
2399.5 2599.5 2799.5 2999.5 3199.5 3599.5
LIMITES EXACTOS INFERIORES
Polígono de frecuencias
Aunque se utilizan menos, los polígonos de frecuencias son otra forma de representar gráficamente
las distribuciones. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los
valores de la variable que estamos midiendo en el eje horizontal, del mismo modo que lo hicimos en
el histograma. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su
marca de clases (punto medio de clase) y conectamos los resultantes puntos sucesivos con una
línea recta para formar un polígono.
Ejemplo:
27
POLIGONO DE FRECUENCIAS
35
30
25
TRABAJADORES
20
15
10
0
2299.5 2499.5 2699.5 2899.5 3099.5 3299.5 3499.5 3699.5
LIMITES EXACTOS INFERIORES
Gráfica de pastel
También se le denomina gráfica de sectores o gráfica circular. Esta gráfica resulta muy útil para
representar una distribución de frecuencias relativas.
Una fácil y comprensible de representar las frecuencias relativas en una gráfica de sectores consiste
en considerar solo los porcentajes, puesto que las áreas en el círculo corresponden directamente a
las frecuencias relativas; es muy fácil apreciar que área es la mayor y que sector es el más pequeño.
Su nombre se debe, a que las clases se representan como rebanadas de un pastel y su tamaño
corresponde a la frecuencia de la clase, convertida ésta al porcentaje del total que le corresponde y
multiplicada por 3.6 ya que un circulo consta de 360° y 3.6° es la centésima parte del circulo. Para
hacer la gráfica de manera manual se requiere del uso de un transportador.
Ejemplo:
Número de obreros Frecuencia relativa Porcentaje (%) Ángulo

7 0.07 7 25.2 °
20 0.20 20 72 °
33 0.33 33 118.8 °
25 0.25 25 90 °
11 0.11 11 39.6 °
4 0.40 4 14.4 °
Σ = 360 °
28
DIAGRAMA DE PASTEL
4% 7%
11%
20%
25%
33%
Ojiva
Es una gráfica de distribución de frecuencias acumuladas. Nos permite ver cuántas observaciones
están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos
que hay dentro de los intervalos.
Se construye graficando el límite inferior exacto en el eje horizontal y la frecuencia acumulada o la

frecuencia relativa acumulada de cada clase en el eje vertical.
Ejemplo:
OJIVA
1
0.9
0.8
FRECUENCIA ACUMULADA
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
2299.5 2399.5 2599.5 2799.5 2999.5 3199.5 3599.5
LIMITE EXACTO INFERIOR
29

Estadistica Descriptiva PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva PDF

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA DESCRIPTIVA

Definición de estadística: es la ciencia que trata de la recolección, presentación, análisis y uso de

Cuando escuchamos la palabra estadística, inmediatamente nos imaginamos cosas como:

La estadística puede presentarse en diferentes niveles de dificultad matemática y puede estar

La estadística para su estudio se divide en dos ramas:

o Definición de estadística descriptiva.

 El establecimiento de descripciones, conclusiones e inferencias y

Definición de población, muestra y muestra aleatoria.

Es una colección de algunos de los elementos que componen una población.

LLENA EL SIGUIENTE CUADRO RESUMEN CON LOS DIFERENTES TIPOS DE MUESTREO

El director de producción de una empresa de telares, es responsable de la fabricación de alfombras en

Tallos (dígitos Hojas ( dígitos derivados)

Tallos (dígitos Primarios) Hojas (dígitos derivados) frecuencia

Note que cada uno de los tallos se dividió en dos partes.

El primero para los dígitos unitarios inferiores ( 0,1,2,3,4)

Tallos ( dígitos Primarios) Hojas (dígitos derivados)

Diagrama de tallos y hojas MINITAB

Existen dos criterios para optar por datos no agrupados.

Optamos por datos no agrupados cuando:

 Las características individuales (el peso de cada observación) se vea reflejado en el

 El número de datos es pequeño, estadísticamente n ≤ 30.

Definición datos no agrupados:

Resulta más fácil y rápido trabajar con los datos no agrupados.

Definición Datos agrupados

 Facilidad y rapidez al manejo de datos.

 Se puede observar si algún valor aparece más de una vez en el ordenamiento.

 Las características individuales de los datos no son tomadas en cuenta

El análisis descriptivo de la información para Datos no agrupados

Medidas de tendencia central

La media aritmética o promedio, se obtiene de la siguiente manera.

Considere 8 mediciones 5, 8, 8, 11, 11, 11, 14, 16.

Si se ordena un conjunto de datos xi de manera ascendente, la ubicación de la mediana puede

X (1/2)(n+1) el subíndice indica la posición del dato.

x1 / 2 (81)  x1 / 2 (9)  x4.5

Comparación entre la media, la mediana y la moda:

NOMBRE SÍMBOLO VENTAJAS DESVENTAJAS

Rango: Es la diferencia entre el valor mayor y menor del conjunto de datos.

Rango  R  xmáx  xmín

Para una población: Para una muestra:

Para una población: Para una muestra:

Por otra parte, la desviación estándar es la más usada en el análisis estadístico.

Desviación Estándar: Es la raíz cuadrada positiva de la varianza.

Para una población: Para una muestra:

Una interpretación de la desviación estándar es si la distribución es aproximadamente normal, el

Relaciona la desviación estándar y la media al expresar la primera como un porcentaje de la

Para una población: Para una muestra:

Con n = 8 y las siguientes mediciones 5, 8, 8, 11, 11, 11, 14, 16.

5 10.5 -5.5 5.5 30.25

Para los datos de la sección anterior: 5, 8, 8, 11, 11, 11, 14 y 16.

El primer cuartil es:

El tercer cuartil es:

Para los mismos datos, el primer decil es:

El tercer decil es:

Tomando los datos anteriores, el décimo percentil se obtiene de la siguiente manera:

Grado de concentración de una distribución de datos en uno o en otro extremo.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson mide la desviación de la simetría.

Coeficiente de asimetría calculado con software

 4  3  Leptocurti ca más apuntada que la normal

El director de producción de una empresa de telares, es responsable de la fabricación de alfombras

Método Lógico Tallos y hojas

a) El tallo (dígito primario), consiste en uno o más de los primeros dígitos.

El diagrama es similar al histograma y puede verse de inmediato en donde se están agrupando la