Está en la página 1de 103

Universidad Nacional Mayor de San Marcos

Facultad de química e Ingeniería Química


Escuela Profesional de Química
Departamento Académico de Análisis y Diseño de Procesos
Estadística Aplicada a la
Ingeniería
Ing. CIP Jorge Luis Cárdenas Ruiz
Distribución de frecuencias y sus gráficas
Medidas de tendencia central y de dispersión
Introducción
• La importancia la estadística matemática
está aumentando particularmente en lo que
respecta a la producción en masa y el
análisis de datos experimentales.
• En la estadística se tiene interés en los
métodos para diseñar y evaluar
experimentos con el fin de obtener
información acerca de problemas
prácticos.
Ejemplos
• El control de calidad de materia prima o de los productos
manufacturados.
• La comparación de las máquinas y herramientas o los métodos
empleados en la producción.
• El rendimiento de los trabajadores.
• La reacción de los consumidores ante productos nuevos.
• El rendimiento de un proceso químico bajo diversas
condiciones.
• La relación del contenido de hierro de un mineral y la densidad
de éste.
• La eficiencia de los sistemas de acondicionamiento de aire bajo
diversas temperaturas.
• La relación entre la dureza Rockwell y el contenido de carbono
• Tornillos
Proceso de • Focos
producción en • Pernos
masa • Teclados, etc.

Artículos no Artículos
defectuosos defectuosos
• Aquellos que • Los que no
satisfacen los satisfacen esos
requisitos de requisitos.
calidad.
Requisitos de calidad
 Diámetros máximos y mínimos de ejes.
 Vidas mínimas de los focos.
 Valores límites de las resistencias de los
resistores en la producción de radios y TV.
 Pesos máximos para los correo aéreo.
 Contenidos mínimos de botellas que se llenan
automáticamente.
 Tiempo máximo de reacción de los
interruptores.
 Valores mínimos de la resistencia de un hilo.
 La razón para que existan
diferencias en la calidad de
los productos es la variación
debido a numerosos factores,
cuya influencia no puede ser
predicha de tal modo que la
variación debe considerarse
aleatoria.
Conceptos básicos
• Estadística:
Ciencia que se encarga de
recolectar, organizar, resumir y
analizar datos para después obtener
conclusiones. Se divide en:
• Estadística Descriptiva

• Estadística Inferencial.
• Población estadística:
Conjunto de TODOS los DATOS que se
obtienen al realizar la medición de una
variable en los elementos de una población.
• Muestra:
Subconjunto de una población, que intenta
reflejar las características de la población lo
mejor posible.
• El número de individuos que integran la
muestra, llamado tamaño de la muestra se
representa con la letra n.
Estadística

Población Muestra

Probablidad
Estadística descriptiva
 Se encarga de la recolección, organización,
presentación y análisis de los datos de una
población.
Objetivo de la Estadística Descriptiva
 Conocer la información que se
tiene para poder identificar e
interpretar aspectos relevantes de
una muestra.
 Utilizar esta información para
obtener resultados, planear o
hacer inferencia acerca de la
población bajo estudio.
Estadística Descriptiva
 Suministra los instrumentos que permiten el
salto de las observaciones a la inferencia,
siendo el resumen de las observaciones el
paso previo.
 Se dedica a expresar regularidades propias de
las observaciones o conjunto de datos, a través
de operaciones numéricas para permitir la
cuantificación.
 Agrupa todas aquellas técnicas y
procedimientos que permiten caracterizar una
muestra y población, algunas de estas técnicas
son las medidas de tendencia central,
dispersión, posición, regresión y correlación.
Estadística inferencial
Se encarga de analizar la información
presentada por la estadística descriptiva
mediante técnicas que nos ayuden a
conocer, con determinado grado de
confianza, a la población. Lo que nos
permite tomar decisiones.
Población

ión

In
fe
ipc

re
n
scr

ci
a
De

Muestr
a

Transformación Análisis
Resumir Estimación
Ilustración Hipótesis
• Población:
Conjunto definido de TODOS los
INDIVIDUOS, de donde se observa cierta
característica.

• Al número de integrantes de la población se


llama tamaño de la población y se
representa con la letra N.
• Las poblaciones pueden ser finitas o infinitas.
• Individuo:
Es el elemento de la población o de la muestra que
aporta información sobre lo que se estudia.

• Variable:
Característica o propiedad de los individuos que se
desea estudiar y se puede medir o calificar; cambia
o varía con el tiempo en un individuo dado, o
cambia o varía de elemento a elemento.
Ej. Edad, peso, sexo, estado civil, número de hijos,
etc.
Variables cualitativas
 Variables que denotan una cualidad o atributo y
solo pueden ser clasificadas en categorías o clases
mutuamente excluyentes y exhaustivas, p.e., medir
peso, estatura, temperatura, establecer el número de
hijos.

Variables cuantitativas
 Variables que se obtuvieron de un proceso de
conteo o enumeración (discretas) o medición
(contínuas), p.e., sexo, estado civil, grado máximo
de estudios.
Fuentes de información
 Encuesta:
Recopilar los datos mediante el uso de
cuestionarios o entrevistas.

 Experimento:
Procedimiento utilizado en la investigación
científica para obtener información que
permita conocer el comportamiento de algún
proceso.
Fuentes de Información
 Investigación Documental:
Procedimiento para obtener datos
mediante la consulta de información
ya escrita y concentrada en
documentos que se localicen en
libros o revistas en bibliotecas,
hemerotecas, o en centros virtuales.
Orden de datos (Sorting)
 El ordenamiento es el proceso mediante el
cual los datos están acomodados de tal
manera que se establece un orden (ascendente
o descendente) entre ellos.

 Hay dos métodos comunes:


• Listado en orden ascendente
• Método de tallo y hojas
Ejemplo
 Considera que la variable de estudio es el peso de
25 estudiantes. Los pesos se encuentran en la
siguiente tabla:
Peso de 25 estudiantes (en kg)

40 43 48 51 49
56 44 42 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
Listado en orden ascendente
 El proceso consiste en ordenarlos de menor a
mayor
Peso de 25 estudiantes (en kg) Peso de 25 estudiantes (en kg)

42 40 48 51 49
40 42 43 44 44
56 44 43 55 52
45 48 49 50 50
52 62 44 50 59
51 51 52 52 55
63 50 56 55 45
55 56 56 57 58
57 66 63 51 58
59 62 63 63 66
Método de tallo y hojas
 Si los números de los datos están
formados por dos dígitos, se hace
una columna con el primer dígito
(decenas) y a la derecha de cada uno
de ellos se escribe, en fila, sólo el
segundo dígito (unidades) de cada
uno de los datos que tengan el
mismo primer dígito.
 Datos sin ordenar: Peso de 25 estudiantes (en kg)

4 2,0,8,9,4,3,4,5 42 40 48 51 49
5 56 44 43 55 52
1,6,5,2,2,0,9,0,6,5,7,1,8
52 62 44 50 59
6 2,3,6,3
63 50 56 55 45
57 66 63 51 58

 Datos ordenados:

4 0,2,3,4,4,5,8,9
5 0,0,1,1,2,2,5,5,6,6,7,8,9
6 2,3,3,6
Doble tallo
 Una variante de este método es en lugar de dividir
en un grupo las decenas, se divide en dos grupos.
El primero abarcando los dígitos del 0 al 4 y el
segundo del 5 al 9.
 El ejemplo anterior

queda: 4 0,2,3,4,4
4 5,8,9
5 0,0,1,1,2,2,
5 5,5,6,6,7,8,9
6 2,3,3
6 6
hi = fi/n
Caso de variables
cualitatitivas
• El procedimiento es:
 Se identifican todos los valores
diferentes y se acomodan en
columna.
 Se agrega una segunda columna en
donde se van registrando, mediante
una línea vertical, la veces que
aparece el valor dado.
Ejemplo
 Considera que la variable de estudio es el color de
playera de 25 estudiantes.
Los colores se encuentran en la siguiente tabla:

rosa azul blanco azul rosa


gris blanco café negro blanco
rosa azul café blanco blanco
gris azul blanco rosa gris
gris blanco café negro verde
Color Frecuencia
rosa azul blanco azul rosa Azul IIII
gris blanco café negro blanco Blanco IIII I
rosa azul café blanco blanco Café II I I
gris azul blanco rosa gris Gris IIII
gris blanco café negro verde
Negro II
Rosa IIII
Verde I
Tabla de frecuencia de datos
 Una vez que se tenga ordenados los
datos, se acomodan en la “tabla de
distribución de frecuencias o tabla de
frecuencias”.

 La tabla es básicamente una tabla de


valores x - y, dónde “x” representa el dato
y “y” representa la frecuencia.
 La frecuencia es el número de
veces que aparece cada dato.
 Hay dos clases de tablas de

frecuencias:
 Para datos NO agrupados.
 Para datos agrupados.
Tabla de frecuencias para datos NO agrupados

 Está formada por dos columnas:


una para la variable “xi” y la
otra para su frecuencia “f ”, a
esta frecuencia se le llama
frecuencia absoluta o frecuencia
observada.
Ejemplo
 Tabla de frecuencias de los pesos en kg de 25
alumnos.
xi fi xi fi
Peso de 25 estudiantes (en kg)
40 1 52 2
42 1 55 2
40 42 43 44 44 43 56
1 2
45 48 49 50 50 44 2 57 1
51 51 52 52 55 45 1 58 1
55 56 56 57 58 48 1 59 1
59 62 63 63 66 49 1 62 1
50 2 63 2
51 2 66 1
Total 25
Frecuencia relativa y acumulada
 Por lo regular, se agregan dos columnas: la de la
frecuencia relativa “h” y la de la frecuencia
acumulada “F”.
 La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el número total de
datos, esto es h = f/n.
 La frecuencia acumulada se obtiene sumando las
frecuencias anteriores a las frecuencias de un dato
dado.
Ejemplo
1/25
xi f h F xi f h F
40 1 0.04 1 52 2 0.08 14
42 1 0.04 2 55 2 0.08 16
43 1 3 2/25 56 2 0.08 18
0.04
44 2 0.08 5 57 1 0.04 19
45 1 0.04 6 58 1 0.04 20
48 1 59 1
0.04 7 0.04 21 Siempre
49 1 8 62 1
0.04 0.04 22 es el
50 2 63 2 número
0.08 10 0.08 24
51 2 66 1 total
0.08 12 0.04 25
Tota 25
l 1

Siempre es 1
Intervalo de clase
 En ocasiones es conveniente acomodar los datos en
pequeños grupos de igual tamaño, llamados
intervalos de clase.
 El punto medio o marca de clase “xi”, se obtiene
con:
Marca de clase = Límite inferior + límite superior
2
 El tamaño del intervalo se obtiene mediante la
diferencia de los límites superior e inferior.
Ejemplo
Límite inferior Límite superior Lím inf + Lim sup
2
Intervalo de clase Punto medio “xi”
38 – 42 40
43 – 47 45 +5
48 – 52
+5 50
+5 53 – 57 55
58 – 62 60
63 – 67 65
Límite verdadero del intervalo
• Frontera de clase o límite verdadero del intervalo:
Intervalo de clase Punto medio “xi”
37.5 – 42.5 40
5/2 = 2.5
40 – 2.5 42.5 – 47.5 40 + 2.5 45
47.5 – 52.5 50

+5 52.5 – 57.5
57.5 – 62.5
55
60
62.5 – 67.5 65 +5
Tabla de intervalos con
límites verdaderos
 Usando símbolos de  Usando
Está incluidoparéntesis y
No está incluido
Está incluido No está incluido
desigualdad corchetes
Intervalo de Punto Intervalo de Punto
clase medio “xi” clase medio “xi”
37.5 ≤ x < 42.5 40 [37.5 , 42.5) 40
42.5 ≤ x < 47.5 45 [42.5 , 47.5) 45
47.5 ≤ x < 52.5 50 [47.5 , 52.5) 50
52.5 ≤ x < 57.5 55 [52.5 , 57.5) 55
57.5 ≤ x < 62.5 60 [57.5 , 62.5) 60
62.5 ≤ x < 67.5 65 [62.5 , 67.5) 65
El tamaño del intervalo es de 5
 Si por alguna razón no es fácil decidir el
ancho del intervalo y el número de ellos, se
pueden utilizar las siguientes fórmulas:
m = 1 + 3,3 log(n) (Ley de Sturges)
Donde m = número aproximado de clases
n = número de datos.
R = m*c
c = R /m
Donde: Rango (R) = dato mayor - dato menor.
c = amplitud de los intervalos de clase.
Ejemplo

 Para el ejemplo de los datos de los pesos de 25 alumnos,


el valor de m:
m = 1 + 3,3 log (n) = 1 + 3,3 log (25) = 5,6.
Por lo tanto se requieren aproximadamente 6 intervalos.

 Y la amplitud de los intervalos sería:


c = R/m = (66 – 40) / 5,6 = 4,64.
Aproximadamente 5 unidades es la amplitud de los
intervalos.
Tabla de distribución de frecuencias
para datos agrupados
 Se elabora con los intervalos de clase, sus puntos
medios y las frecuencias correspondientes para
cada uno de los intervalos.
xi fi 52 2 Datos agrupados
Datos sin agrupar

40 1 55 2 Intervalo Punto medio fi


42 1 56 2 de clase “xi”
43 1 57 1 38 – 42 40 2
44 2 58 1 4
43 – 47 45
45 1 59 1
48 – 52 50 8
48 1 62 1
53 – 57 55 5
49 1 63 2
58 – 62 60 3
50 2 66 1
63 - 67 65 3
51 2 Total 25
Total 25
 Se agregan las columnas de frecuencia relativa “h”
y frecuencia acumulada F”:
Intervalo Punto f h F
2/25
de clase medio “xi”
4/25
38 – 42 40 2 0.08 2
8/25
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
 Por último se agregan las columnas:
 Frecuencia porcentual, “f %” ó “% f ”,
se obtiene multiplicando la frecuencia
relativa “h” x 100.
 Frecuencia relativa acumulada “H”, se
obtiene sumando las frecuencias relativas
anteriores a un dato dado.
 Frecuencia porcentual acumulada, “H
%”, se obtiene sumando las frecuencias
porcentuales acumuladas a un dato dado.
Tablas de frecuencias absoluta, 0.08 x
relativa y acumulada 100

0.08 x 2/25
100
Intervalo Marca de f h h% F H H%
de clase clase “xi”
38 – 42 40 2 0.08 8 2 0.08 8
43 – 47 45 4 0.16 16 6 0.24 24
48 – 52 50 8 0.32 32 14 0.56 56
53 – 57 55 5 0.20 20 19 0.76 76
58 – 62 60 3 0.12 12 22 0.88 88
63 - 68 65 3 0.12 12 25 1 100
Total 25 1 100
Gráfica de Datos
 Existen dos tipos de gráficas mas
usuales:
 Polígono de Frecuencias
 Histograma
 Otros gráficos:
 Gráfica de barras
 Pictograma
 Gráfico circular o de pastel.
Polígono de frecuencias
 Es la representación mediante un gráfico de
línea. En él se muestra la distribución de
frecuencias y está formado por segmentos de
línea que unen los puntos correspondientes a la
frecuencia de cada una de las clases.
60

 El eje “x” representa el dato “xi” 50

40

y el eje “y” las frecuencias.


30

20

10

0
Ejemplo

Interval Marca de
o de clase “xi” fi
clase
Polígono de Frecuencias
38 – 42 40 2
10
43 – 47 45 4
8
48 – 52 50 8
6
53 – 57 55 5
f 4
58 – 62 60 3
2
63 - 68 65 3
0
Total 25 35 40 45 50 55 60 65 70
xi
 El eje “y” puede ser sustituido por
las frecuencias relativas o
porcentuales.
Polígono de Frecuencia Relativa
0.35

0.3

0.25
h 0.2

0.15

0.1

0.05

0
35 40 45 50 55 60 65 70
xi
Polígono de Frecuencia Porcentual

35

30

25

% f 20

15

10

0
35 40 45 50 55 60 65
xi
Histograma
 Es la representación gráfica de
los datos mediante una
sucesión de rectángulos.
 Está formado por rectángulos
14
cuya anchura representa a 12

cada uno de los intervalos y la 10

altura corresponde a la 6

frecuencia. 4

 En el eje “x” estarán los 0


0.95 2.95 4.95

límites verdaderos, los puntos


medios y en el eje “y” las
frecuencias.
Intervalo de Marca de

Ejemplo
clase clase“xi” fi
38 – 42 40 2

43 – 47 45 4

48 – 52 50 8

53 – 57 55 5

58 – 62 60 3

63 - 68 65 3
Histograma Total 25
9
8
7
6
5
f 4
3
2
1
0
35 40 45 50 55 60 65
xi
 También podemos usar la frecuencia
relativa y la frecuencia porcentual.

Histograma con frecuencias relativas


0.35
0.3
h 0.25
0.2
0.15
0.1
0.05
0
35 40 45 50 55 60 65
xi
Histograma con frecuencias porcentuales
35
30
25

%f 20
15
10
5
0
35 40 45 50 55 60 65
xi
Ojiva
 Es la representación gráfica de las
frecuencias acumuladas mediante un
gráfico de línea. Se muestra la
distribución de frecuencias
acumuladas de los datos.
 En el eje “x” estarán los puntos

medios y en el eje “y” las frecuencias


acumuladas.
Ejemplo
Intervalo de Punto medio fi hi Fi
clase “xi”

38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
Ojiva
30

25 25

22

20
19

fa 15 14

10

6
5
2

00
35 40 45 50 55 60 65

xi
 Usando la frecuencia acumulada y la frecuencia
porcentual.

Intervalo Marca de f h h% F H H%
de clase clase“xi”
38 – 42 40 2 0,08 8 2 0,08 8
43 – 47 45 4 0,16 16 6 0,24 24
48 – 52 50 8 0.32 32 14 0,56 56
53 – 57 55 5 0,20 20 19 0,76 76
58 – 62 60 3 0,12 12 22 0,88 88
63 - 68 65 3 0,12 12 25 1 100
Total 25 1 100
Ojiva con frecuencia relativa acumulada
1
0.9 0.88

0.8
0.76

0.7
0.6
0.56

h 0.5
0.4
0.3
0.24
0.2
0.1 0.08

00
35 40 45 50 55 60

xi
Ojiva con frecuencia porcentual acumulada
100
90 88

80 76
70
60 56

H% 50
40
30
24
20
10 8

00
35 40 45 50 55 60 65

xi
Ejemplo 1
• Súper aleaciones es el nombre colectivo para aleaciones utilizadas
en motores de aviones a chorro y motores de cohetes, que requieren
elevadas temperaturas (típicamente 1800°F  982°C), alta resistencia
y excelente resistencia a la oxidación. Treinta especímenes de
Hastelloy C (acero basado en níquel, modelo de revestimiento)
tuvieron una alta resistencia a la tensión (en 1 000 lbf/pulg2  6,9
MPa), registrados en el orden obtenido y redondeados a valores
enteros,

Ordenando da
Diagrama de tallo y hoja de los datos en el Ejemplo 1

Unidad de la hoja
Histograma
Para grandes conjuntos de datos, los histogramas son
mejores para visualizar la distribución de datos que el
diagrama de tallo y hoja. Las base de los rectángulos son
los intervalos de x 74.5-79.5, 79.5-84.5, 84.5-89.5, 89.5-
94.5, 94.5-99.5, cuyos puntos medios (conocidos como
marca de clase) son x = 77, 82, 87, 92,97, respectivamente.
La altura de un rectángulo con marca clase x es la frecuencia
relativa de la clase frel(x), definida como el número de
valores de datos en el intervalo de clase, dividido en n (= 30
en nuestro caso). De aquí que las área de los rectángulos
son proporcionales a estas frecuencias relativas, 0.10, 0.23,
0.43, 0.17, 0.07, tal que los histogramas dan una buena
impresión de la distribución de los datos.
Histograma de los datos de las súper aleaciones
Algunos métodos para organizar datos
 Matriz de Datos
 Es una forma de sintetizar la información recogida de la realidad para

investigar un problema y tratar de obtener conocimiento científico que intente


explicar dicho problema.
 Composición: Dimensión, Unidades, Valores.
 Distribuciones de Frecuencias: tablas de datos referentes al número de
veces en las que se repite la categoría de una variable que graficado,
refleja la forma de la distribución construida.
 Absolutas: Reflejan el número de observaciones del conjunto de datos que cae
en cada una de las clases.
 Relativas: Permite expresar la frecuencia de cada valor con una fracción o
porcentaje del total del número total de observaciones.
 Proporciones: Son cocientes que indican la relación existente entre una
cantidad y el total de las unidades consideradas.
 Porcentajes: Permite estandarizar en relación con el volumen
calculando el número de objetos que habría en una categoría si el total
de los casos fuese 100.
Medidas de tendencia central
Son números que se localizan cerca del centro o
cerca de donde se encuentran los datos con mayor
frecuencia: media, mediana, moda.

Medidas de dispersión
Son números que indican qué tan separados
están los datos entre sí: rango, desviación
estándar, rango intercuaril.
Medidas de Tendencia Central
Lugar donde se centra el conjunto de datos de una distribución particular en la escala de
valores.
 Media: Es el valor típico o promedio, representativo del conjunto de datos considerados.
 Ventajas: Toma en consideración la realidad de todo el conjunto de datos.
 Desventajas: Puede verse afectada por valores extremos no representativos del resto
de los datos.
 Mediana: Es un valor que divide la distribución de datos en 2 partes iguales, tal que, el
conjunto de datos por encima de este sea igual al número de datos por debajo de la
misma.
 Ventajas: Los valores extremos no afectan a la mediana tan intensamente como a la
media.
 Desventajas: Ciertos procedimientos estadísticos que utilizan la mediana son más
complejos que aquellos que utilizan la media, es por ello que, si deseamos utilizar una
estadística de muestra para estimar un parámetro de población, la media es más
cómoda.
 Moda: Es el valor que más se repite en una distribución de datos.
 Ventajas: No se ve afectada por valores extremos dado que se escoge el valor más
frecuente, puede emplearse aún cuando existan clases de extremo abierto.
 Desventajas: Cuando los datos son multimodales resulta complejo interpretar y
comparar
Media. Desviación estándar. Varianza
Las medianas y cuartiles se obtienen ordenando y
contando, prácticamente sin cálculo. Pero no dan una
información completa de los datos: puede cambiar los
valores de los datos hasta una extensión sin cambiar
la mediana. En forma similar para los cuartiles.
El tamaño promedio de los valores de los datos puede
medirse en un forma más definida por la media.

Media
aritmétic
a
Media

En el caso en que los datos estén agrupados:


Mediana
Se localiza el valor central y se observa el valor que toma

 
= 15,5

El valor que toma la


variable es 42,0 años
unimodal
Medidas de Dispersión
Son aquellas que permiten reflejar la distancia entre los valores de
la variable con respecto al valor central de la distribución.

Medidas de Dispersión Absolutas


Son aquellas no comparables entre diferentes muestras
 Amplitud o Rango: Nos ofrece una visión de donde a donde se
expresan los datos. Es la diferencia entre observaciones extremas.
 Varianza: Es la media de los cuadrados de las diferencias entre
cada valor de la variable y la media aritmética de la distribución.
 Desventajas: Sensibilidad con respecto a los valores extremos,
sus unidades son al cuadrado por ello es difícil de interpretar.
 Desviación Típica: Refleja la distancia de cada valor con
respecto a la media. Es la raíz cuadrada de la varianza.
 Ventajas: Tiene las mismas unidades que la variable, es más
estable que el rango, toma en consideración el valor de cada
dato.
• La dispersión (variabilidad) de los valores
de los datos puede medirse en una forma
más refinada por la desviación estándar (s)
o por su cuadrado, la varianza (s2) .

Varianza

Desviación
estándar
Medidas de Dispersión Relativa
Son aquellas que nos permiten comparar
muestras diferentes.

 Coeficientes de Variación de Pearson (CV):


Nos permite comparar el grado de
dispersión de muestras cuyas unidades son
diferentes o donde las medias son
extremadamente desiguales.
 
𝑠
𝐶𝑉 = ( )
𝑥
´
∗ 100 %
Cuantiles
• Son valores que dividen la distribución en partes iguales,
es decir; en intervalos que comprenden el mismo número
de valores.
• Son las medidas de posición que determinan mediante
operaciones matemáticas la ubicación de los valores, en
la distribución.
 Cuartiles: Son los tres valores que dividen al conjunto de
datos ordenados en cuatro partes porcentualmente iguales.
 Deciles: Son los nueve valores que dividen al conjunto de
datos en diez partes porcentualmente iguales.
 Percentiles: Son las medidas más utilizadas para propósitos
de ubicación o clasificación, dividen la sucesión en cien
partes porcentualmente iguales.
Fig. 8. Histograma de los datos en el
Ejemplo 1 (agrupado como en la Fig. 7)
Esta frecuencia ayuda a resumir en forma
ordenada la información contenida en la
muestra tanto en tablas como en
gráficas.

Tabla de distribución de frecuencias

Diagrama de barras
Si las variables son cuantitativas discretas las
tablas de frecuencias se realizan con la creación
de diferentes clases en base a los datos que
toma la variable.
Si las variables son cuantitativas continuas, las tablas de
frecuencias se realizan con la creación de intervalos numéricos
que formarán las diferentes clases
Podemos completar esta tabla de frecuencias con una
columna que nos de las frecuencias acumuladas ¿qué
uso tienen?

a) ¿Qué frecuencia de individuos tuvieron un tiempo menor a 11431 s?


* 0,167
b) ¿Qué porcentaje de individuos tuvieron un tiempo mayor o igual a 12 631 s?
* 46,7%
c) ¿Qué tiempo máximo es el que al menos el 50% de las personas tuvieron?
*12 031 s
El diagrama de tallo y hojas, nos ayuda a
localizarlos rápidamente.
Los cuartiles Q1 y Q3 son muy útiles
para construir lo que llamamos
diagrama de caja y brazos.
Diagrama de Caja y de brazos. Mediana. Rango intercuartílico
• Un diagrama de caja y de brazos de un conjunto de
datos ilustra el tamaño promedio y la extensión de
los valores, en algunos casos las dos más
importantes cantidades qU caracterizan el conjunto,
como a continuación.
• El tamaño promedio se mide por la mediana, o
cuartil del medio, qM. Si el número de n de los
valores del conjunto es impar, entonces qM es el
mas mediano de los valores cuando se ordena. Si
n es par, entonces qM es el promedio de los dos
valores medianos del conjunto ordenado. Por
ejemplo, tenemos n = 30 y así qM = (x15+x16)/2 =
(87+88)/2 = 87,5 (en general, qM será una fracción si
La extensión de los valores puede medirse por el rango
R = xmáx – xmín, el valor más grande menos el más
pequeño.
Mejor información de la extensión lo da el rango
intercuartílico IQR = qU – qL. Aquí qU es el valor más
mediano (o el promedio de dos valores más medianos)
en los datos anteriores a la mediana; y qL es el valor
más mediano (o el promedio de los dos valores más
medianos) en el dato inferior de la mediana. De aquí
que tenemos: qU = x23 = 89, qL = x8 = 83 y IQR = 89 – 83
= 6.
La caja en la figura se extiende verticalmente desde qL
hasta qU; éste tiene la altura IQR = 6. Las líneas
verticales debajo y encima de la caja se extienden
dedesde xmín = 77 hasta xmáx = 99, así que se muestra R =
Diagrama de caja y brazos
Nos permite ver la distribución de los datos,
el máximo, el mínimo, la localización de los
cuartiles y la dispersión por cuartiles. Nos
permitirá ver si existe un sesgo así como
puntos extremos.
Gráfica de
caja del
conjunto de
datos (1)

Conjunto de datos (1)


Registrando y clasificando
 Los valores muestrales (observaciones
y mediciones) deberían registrarse en
el orden en el cual ocurren.
Clasificando, i.e., ordenando los
valores muestrales por tamaño, se
efectúa como el primer paso de las
propiedades de investigación de la
muestra y graficándolo. La clasificación
es un proceso estándar en la
computadora.
Curtosis, apuntamiento o sesgo

Es una medida que sirve para


analizar el grado de
concentración que presentan los
valores de una variable analizada
alrededor de la zona central de la
distribución de frecuencias, sin
necesidad de generar el gráfico.
En estadística se llama sesgo de
un estimador a la diferencia entre
su esperanza matemática y el
valor numérico del parámetro que
estima. Un estimador
cuyo sesgo es nulo se llama
insesgado o centrado. El no
tener sesgo es una propiedad
deseable de los estimadores.
Asimetría
Medida que indica la simetría de la distribución de
una variable respecto a la media aritmética, sin necesidad de
hacer la representación gráfica. Los coeficientes de asimetría
indican si hay el mismo número de elementos a izquierda y
derecha de la media.
Existen tres tipos de curva de distribución según
su asimetría:
• Asimetría negativa: la cola de la distribución se alarga
para valores inferiores a la media.
• Simétrica: hay el mismo número de elementos a izquierda
y derecha de la media. En este caso, coinciden la media,
la mediana y la moda. La distribución se adapta a la forma
de la campana de Gauss, o distribución normal.
• Asimetría positiva: la cola de la distribución se alarga
para valores superiores a la media.

También podría gustarte