Está en la página 1de 76

UNIVERSIDAD NACIONAL DE INGENIERÍA

Facultad de Ingeniería Química y Textil

2020 - 1
Estadistica Descriptiva
Clasificación y
presentación de los
datos
CLASIFICACIÓN Y PRESENTACIÓN
DE LOS DATOS:
Luego de recopilar los datos, éstos
tienen que ser ordenados y clasificados
para una correcta presentación.
 La presentación puede ser mediante
Tablas de Frecuencias y/o Gráficos.
La Tabla de Frecuencias tiene como
objetivo resumir los datos sin perder
ninguno de ellos.
Según el tipo de variable tenemos los
siguientes casos :
I.- Tabla de Frecuencias cuando la
Variable es Cualitativa:
En este caso de manera inmediata se
construye la tabla de frecuencias, según las
diferentes opciones que se obtenga como
respuesta.

Los gráficos que se pueden presentar en este


caso son: Diagrama de barras, Gráficos por
Sectores Circulares, De Pareto, Pictogramas,
etc.

Ejemplo: Se realiza un control de calidad de


20 productos alimenticios, los resultados que
dieron se presentan en el siguiente cuadro:
Tabla de Frecuencia
Datos cualitativos

CONTROL DE N° productos
Porcentaje
CALIDAD alimenticios

MALO 3 15 %
REGULAR 4 20 %
BUENO 4 20 %

MUY BUENO 7 35 %

EXCELENTE 2 10 %

Total 20 100 %
Gráfica de barras
Frecuencia absoluta

8
7
6
5
4
3
2
1
0
Malo Regular Bueno Muy Bueno Excelente
Diagrama Circular (Gráfico de pastel)

10%
15%

35% 20%
20%

Malo Regular Bueno

Muy Bueno Excelente


II.- Tabla de Frecuencias cuando la
Variable es Cuantitativa.:

f
i 1
i n 0  fi  n
i
Fi   f j
j 1
m
fi
hi 
n
h
i 1
i 1

Generalmente en porcentaje : hi%= hix100%


II.- Tabla de Frecuencias cuando la
Variable es Cuantitativa.:
Número de hijos a 30 familias encuestadas:
Número de hijos (xi) fi Fi hi% Hi%

0 2 2 7% 7%

1 6 8 20% 27%

2 10 18 33% 60%

3 4 22 13% 73%

4 3 25 10% 83%

5 5 30 17% 100%
Diagrama de Líneas o Bastones

Gráfica de N° de hijos
10

8
N° de familias

0
0 1 2 3 4 5
N° de hijos
B.Tabla de Frecuencias Por Intervalos

 En este nivel es posible cuantificar la diferencia


de todos los individuos pertenecientes a los
intervalos o categorías distintas.

 Se usa para variables cuantitativas continuas, y


también para variables cuantitativas discretas
de recorrido largo.

 Ejemplos:
temperatura al interior de un lugar, interés
sólo clasificar en intervalos de cinco grados
{(0; 5°), (5 ;10°), .....,(30;35°)}.
Procedimiento para construir una TDF por
intervalos:

1. Calcular el número de intervalos (m):


puede ser por criterio personal
(experiencia del investigador) o mediante
la Regla de Sturges: m = 1 + 3,3 log n

2. Calcular el Rango de la muestra (R):


R= Valor Máx – Valor Mín.

3. Calcular la amplitud del Intervalo(c,A) :


A = R/m
Procedimiento para construir una TDF por
intervalos:
El número de decimales se redondea según la
cantidad de decimales que tienen los datos.
El redondeo sólo en este caso es por exceso, para no
perder ningún dato, los intervalos son semi abiertos,
a excepción del último que puede ser cerrado .

4. Calcular las marcas de clase ( xi): son los puntos


medios de cada intervalo, sirve para representar a
li  ls
los datos de cada intervalo: xi 
2

5. Tabular
Representación de la Tabla de Frecuencias
por Intervalos de Clase

Marcas Frecuencia Frecuenci Frecuencia


CLASES de Frecuencia
Absoluta
Absoluta a Relativa
Clase
Acumulada Relativa Acumulada

xi fi Fi hi % H i%
Gráficos

Gráficos para las variables Cuantitativas:

 Histogramas: valores discretos y continuos.

 Polígono de frecuencias.

 Frecuencia Acumulada - Ojiva.


Histogramas

 Este gráfico se puede preparar con datos que


han sido resumido en una distribución de
frecuencia
 Generalmente se coloca la variable de interés
en el eje horizontal y la distribución de
frecuencia el vertical
 A diferencia del gráfico de barras no hay
separación entre los rectángulos formados por
las clases adyacentes, se completa con la línea
vertical que separa a cada uno de ellos.
 Usar 5 a 20 clases (intervalos o
grupos).
Polígono de Frecuencias

 En base al histograma, con marcas de


clase.

 Cuando se traza un línea recta entre


cada punto medio de clase se
construye el polígono de frecuencia
Ejemplo

 HISTOGRAMA Y POLIGONO DE
FRECUENCIAS

10 15 20 25
Unidad de medición
Ojiva

 Este tipo de resumen corresponde a la


distribución de frecuencias acumuladas, en
donde se emplean la cantidad de clases, anchos
y límites definidos anteriormente.

 Esta distribución muestra la cantidad de


elementos menores que, o iguales al límite
superior de clase para cada clase

 El último elemento de una frecuencia acumulada


es siempre la cantidad de elementos
Ejemplo:

Los siguientes datos representan el peso


en gramos de 40 productos alimenticios

111; 112 ; 113 ; 117 ; 119 ; 120 ; 123 ; 123 ; 124 ; 108 ;
128 ; 131 ; 132 ; 132 ; 134 ; 135 ; 136 ; 160 ; 161; 137 ;
138 ; 162 ; 126 ; 160 ; 148 ; 150 ; 141 ; 142 ; 143; 144 ;
143 ; 145 ; 147 ; 148 ; 152 ; 153 ; 153 ; 158 ; 158 ; 130
Procedimiento

 1er. Paso. Calculamos en número de


intervalos con la Regla de Sturges:

m= 1 + 3,3 log 40 = 6,28679  6

 2do.Paso. Rango de la muestra:

R= 162 – 108 = 54
Procedimiento

 3er. Paso. Cálculo de la amplitud del


intervalo:
 A := Amplitud = R / m = 54 / 6 = 9

 Se redondea al entero ya que los datos no


tienen decimales.

 4to.Paso. Tabulación
Histograma
N° de productos
alimenticios
9

0
108 117 126 135 144 153 162

Peso (gramos)
Polígono de Frecuencias
N° de
productos
alimenticios

0 103.5 112.5 121.5 130.5 139.5 148.5 157.5 166.5

Peso (gramos)
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

99 107 116 125 134 143 152 161 170


MEDIDAS
DESCRIPTIVAS
MEDIDAS DESCRIPTIVAS

Llamados también estadígrafos ó


estadísticos, son aquellas medidas que
sirven para representar y caracterizar a
los datos numéricos de la muestra. Los
estadígrafos se clasifican en:

 I) Estadígrafos de Tendencia Central


 II) Estadígrafos de Dispersión
Medidas de Tendencia Central

Estas medidas tienden a ubicarse en el


centro de las observaciones.
Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.

• Media Aritmética • Media Armónica


• Mediana • Media Geométrica
• Moda
Medidas de Dispersión

Miden la “dispersión” o variabilidad de valores


dentro del conjunto de datos respecto de
alguna medida de tendencia central.

• Varianza
• Rango
• Desviación Estándar
• Rango Cuartílico
• Coeficiente de Variación
• Rango Percentil
• Desviación Media
MEDIDAS DE
TENDENCIA CENTRAL
1. Promedio o Media Aritmética

 Es el estadígrafo de posición más


simple y fácil de calcular, es el más
común.

 Se denota x ó M(x) y se calcula


teniendo en cuenta los siguientes casos:
1er.Caso: Datos no agrupados en TDF

Sean x1 , x2 , x3 ,........, xn ; variables que


representan los n datos de una muestra, la
media aritmética se calcula :

x i
x i 1

n
2do.Caso: Datos agrupados en TDF

 Cuando los datos están clasificados en


tablas de frecuencias, entonces la media
se calcula mediante la siguiente fórmula:

x i fi
x i 1
n
 xi : valor de la variable (o marca de
clase)
 fi : frecuencia absoluta
Propiedades de la media aritmética
 Si todos los datos son iguales a una constante k,
entonces la media es igual a dicha constante:
M(k) = k
 Si a cada dato se le suma (ó resta) una constante
k, a la media también se le suma (ó resta) dicha
constante:
M(x + k) = M(x) + k
 Si a cada dato se le multiplica (ó divide) por una
constante k, a la media también se le multiplica (
ó divide) dicha constante:
M(k x) = k M(x).
 La suma de las desviaciones con
respecto a la media es igual a cero:
n m

 x
i 1
i  x i  0 ,  x
i 1
i  x fi  0

 Promedio de promedios
 Dados r grupos con n1, n2,..., nr
observaciones y siendo
las respectivas medias de cada uno de
ellos. Entonces la media de todas las
observaciones es:
n x1  n 2 x 2  .....  n r x r
x 1
n1  n 2  ....  n r
Media Ponderada

 Media Ponderada (x w ), si cada observación


tiene un peso o ponderación:

 Se calcula:

 x .w i i
xw  i 1
m

w
i 1
i
Observación:

Cuando las observaciones de la variable en


estudio corresponden a los datos de una
población de tamaño N (N elementos
conforman la población), entonces la media
aritmética se denomina media poblacional
(denotado por ), la cual constituye un
parámetro que se define como:

𝑥1 + 𝑥2 +𝑥3 +𝑥4 +⋯+𝑥𝑁 σ𝑁


𝑖=1 𝑥𝑖
𝜇 = =
𝑁 𝑵
Ejemplo 1
Calcule el número promedio de hijos por familia.

Número de hijos (xi) fi Fi hi% Hi%

0 2 2 7% 7%

1 6 8 20% 27%

2 10 18 33% 60%

3 4 22 13% 73%

4 3 25 10% 83%

5 5 30 17% 100%
6

x 02   16   210   34   43  55


i
X 
i 1
 2,5
30 30

En promedio cada familia tiene


aproximadamente 3 hijos
Ejemplo 2:
Calcular la media en la siguiente tabla de
distribución de 350 artículos producidos
por una fábrica:

Peso (g) xi fi

5 –10 7,5 30
[10-15 12,5 70
[15-20 17,5 150
[20-25 22,5 80
[25-30 27,5 20
Total n=350
5

x f i i
7,530   12,570   17,5150   22,580   27,520 
X i 1
 
30 350

X  17,3571 gramos

En promedio cada artículo producido


tiene un peso de 17,3571 gramos
2. La Mediana: Me

Es aquél estadígrafo que divide en dos


partes iguales al conjunto de
observaciones.
La mediana representa el valor central de
una distribución de datos ordenados en
forma creciente o decreciente.

Me

50% 50%
1er. Caso: Datos No Agrupados en
Tabla de frecuencias:
 Primero se ordena los datos en forma
creciente y luego se tiene en cuenta sí:

 n es impar.- La mediana es el valor


central.

M e  x n 1
2

 (posición del valor central)


Ejemplo:

 Calcular la Me de los siguientes datos:


32, 34, 31, 42, 36, 41, 32, 45, 37 n=9
 Ordenando:
 31, 32, 32, 34, 36, 37, 41, 42, 45
 Observamos el valor central

Me = 36 (representa la 5ta. posición)


Ejemplo:

 n es par.- La mediana es igual al


promedio ó semisuma de los valores
centrales: xn  xn
1
Me  2 2

 Determine la mediana de los siguientes


datos: 12, 21, 16, 18 , 20, 19, 16, 15, 16, 17
Solución: ordenando
 12, 15, 16, 16, 16, 17, 18, 19, 20, 21 n = 10

 Me = 16,5
2do.Caso: Datos Agrupados en Tabla de
frecuencias:
 En este caso la mediana se calcula mediante la
siguiente fórmula:
n 
  Fme 1 
Me  x´ me 1  c me  2 
 f me 
 
 
 donde ;
 x´ me1 = límite inferior de la clase mediana.
 c me = tamaño del intervalo de la clase mediana.
 Fme1 = frecuencia absoluta acumulada anterior a
la clase mediana.
 f me = frecuencia absoluta de la clase mediana.
2do.Caso: Datos Agrupados en Tabla de
frecuencias:
 Clase mediana.- Es aquél intervalo que
contiene a la mediana es decir el intervalo
cuya Fi supera por primera vez a n/2
 Donde se cumple:

n
Fme 1   Fme
2
 Fme= frecuencia absoluta acumulada de la
clase mediana
Ejemplo:
Calcular la mediana en la siguiente tabla
de distribución de datos:

Peso(gramos) fi Fi

5 –10 30 30
10-15 70 100
15-20 150 250
20-25 80 330
25-30 20 350
Total n=350
Solución:

n
Fi 1   Fi  100  175  250
2

El intervalo mediano (o clase mediana) es el


tercer intervalo.

n 
 2  Fi 1   175  100 
Me  Li  C    15  5    17.5
 fi   150 
 
3. La Moda

 La moda de una muestra de n datos es el valor


de la variable que más se repite en la muestra.
se denota por Mo.

 También es una medida que se puede calcular


para las variables cualitativas.

 Cuando todos los datos tienen la misma


frecuencia, la moda no existe, (distribución
Uniforme), con una moda (Unimodal), también
existen datos que tienen más de una moda
(Bimodal, Trimodal, Polimodal).
1er. Caso: Datos No Agrupados en
Tabla de frecuencias:

Sólo se considera aquel valor (o


valores) que más se repiten, es decir
los que destacan del resto.

Ejemplo. Calcular la moda de las


siguientes observaciones:

12; 14; 13; 13; 14; 12; 15; 13; 13; 16; 16
Mo=13 (se repite 4 veces)
2do.Caso: Datos Agrupados en Tabla de
frecuencias:
Se debe identificar la mayor frecuencia absoluta
(clase modal), a la cual llamaremos fj, y luego aplicar
la siguiente fórmula:

 d1 
Mo  li  cmo  
 d1  d 2 
donde :
li = límite inferior de la clase modal.
cmo = tamaño del intervalo de la clase modal.
d1  f j  f j 1
d 2  f j  f j 1
Ejemplo:
Calcular la moda en la siguiente tabla de
distribución de datos:

Peso (gramos) fi
[5 –10> 30
[10-15> 70
[15-20> 150
[20-25> 80
[25-30> 20
Total n=350
El tercer intervalo tiene la mayor
frecuencia absoluta, entonces ahí se
encuentra la Moda.

 d1   80 
Mo  L j  C    15  5    17.67
 d1  d 2   80  70 
d1  150  70  80
d 2  150  80  70
Medidas de Tendencia Central

0,5000
Mediana
Moda
0,4500
Media
0,4000 Aritmética
0,3500

0,3000

0,2500

0,2000

0,1500

0,1000 Q1 Q2 Q3 Q4
0,0500

0,0000
0 1 2 3 4 5 6 7

Rango
62
Relación entre la Media, Mediana y Moda

Si las medidas de tendencia central se


presentan en el siguiente orden de magnitud:

Moda < Mediana < Media o


Media < Mediana < Moda
Se dice que el polígono de frecuencias
(histograma) es asimétrico, lo que indica que
los datos se encuentran distribuidos con algún
grado de tendencia
Distribución Sesgada a la Derecha

Curva sesgada a la derecha


o con sesgo positivo:

Moda<Mediana<Media

en este caso la mayoría de


las observaciones se
encuentran por debajo de
la Media.
Distribución Sesgada a la Izquierda

Curva sesgada a la
izquierda (sesgo negativo):

Media<Mediana< Moda

en este caso la mayoría


de las observaciones se
encuentran por arriba de
la Media
Distribución Simétrica

Curvas Simétricas o Normales


Si la Media, Moda y Mediana son iguales, esto es,
Media = Mediana = Moda
se dice que los datos se distribuyen simétricamente.
Las frecuencias absolutas equidistantes son iguales.

promedio
mediana
moda
MEDIDAS DE
DISPERSIÓN
( II ) ESTADIGRAFOS DE DISPERSIÓN

 Son Aquellos números que miden o


cuantifican la variabilidad de las
observaciones, con respecto a un
estadígrafo posición (generalmente la
media aritmética).
1.- LA VARIANZA : V(X)

 Se define como el promedio del cuadrado


de las desviaciones con respecto a la media.
 Cuando la varianza es muestral, entonces
V(X) se puede denotar como S²(X); y si la
varianza es poblacional, entonces V(X) se
denota como  X2.
 En este capítulo estudiaremos la varianza
muestral.
1er. Caso: Datos no agrupados

 i
( X  X ) 2

S² (x)  i 1

n 1

 X i2  nX 2

S² (x)  i 1

n 1
2do. Caso: Datos agrupados .

 i
( X  X ) 2
fi
S2  i 1

n 1

 X i2 f i  nX 2
S2  i 1

n 1
Propiedades de la Varianza:

 1.- V(X)  0
 2.- V(K) = 0,esto es si cada Xi = K
(constante).
 3.- V(X ± K) = V(X),
 4.- V(K.X) = K².V(X) ,
 5. - V (ax ± by) = a². V (X) + b². V(Y)
 siendo a y b constantes , X e Y
variables independientes.
2.- DESVIACIÓN ESTÁNDART: S(x).

 Es la raíz cuadrada positiva de la


varianza, y está expresada en las
mismas unidades de los datos,
representa mejor la variabilidad de las
observaciones.

S (x)  2
S ( x)
3.- COEFICIENTE DE VARIACIÓN : C.V

 Indica el grado de dispersión de la


muestra.
 El C.V. como no tiene unidades se debe
expresar en porcentaje y sirve como
medida de comparación con otras
distribuciones de cualquier tipo de
unidad.
S ( x)
C.V .  .100%
X
INTERPRETACIÓN

Rango del Interpretación Nivel de


CV variabilidad
0% < CV < 5% Datos muy homogéneos

Baja variabilidad
5 %≤ CV < 10% Datos homogéneos

10% ≤ CV < 15% Datos regularmente


homogéneos
Moderada
15% ≤ CV < 20% Datos regularmente variabilidad
heterogéneos

20% ≤ CV < 25% Datos heterogéneos

Alta variabilidad
CV ≥ 25% Datos muy heterogéneos
El pensamiento estadístico algún
día será parte del ciudadano
eficiente, y tan necesario como la
habilidad para leer y escribir.

También podría gustarte