Está en la página 1de 21

Unidad 1.

Estadística descriptiva
1
Definición de estadística
El término estadística lo encontramos frecuentemente en nuestro lenguaje diario. En general, la estadística se refiere a la
disponibilidad de información numérica, se define como la disciplina que se ocupa de recolectar, organizar, presentar, analizar e
interpretar datos para ayudar a una toma de decisiones más efectiva. Las estadísticas pueden presentarse gráficamente o en forma
de enunciado. Por lo general se utiliza una gráfica para capturar la atención del lector y mostrar una gran cantidad de información.

1.1 Población y muestra aleatoria

Población y muestra, parámetros y estadísticos


Una población o universo es una colección o totalidad de posibles individuos, especímenes, objetos o medidas de interés sobre los que se
hace un estudio. Las poblaciones pueden ser finitas o infinitas. Si es finita y pequeña se pueden medir todos los individuos para tener un
conocimiento “exacto” de las características (parámetros) de esa población. Por ejemplo, un parámetro que podría ser de interés es la
proporción p de productos defectuosos, o la media, µ, de alguna variable medida a los productos. Si la población es infinita o grande es
imposible e incosteable medir a todos los individuos, en este caso se tendrá que sacar una muestra representativa de dicha población, y
con base en las características medidas en la muestra (estadísticos) se podrán hacer afirmaciones acerca de los parámetros de la población
(figura 1).

Con frecuencia, las poblaciones de interés son los materiales, los productos terminados, partes o componentes, o algunos de los procesos.
En muchos casos estas poblaciones se pueden suponer infinitas o grandes. Por ejemplo, en empresas con producción en masa no siempre
es posible medir cada pieza de material que llega o las propiedades de cada producto terminado. Incluso, si la producción no es masiva,
conviene imaginar al proceso como una población infinita o muy grande, debido a que el flujo del proceso no se detiene, es decir, no existe
el último artículo producido mientras la empresa siga operando. En estos casos los procesos (poblaciones) se estudian mediante muestras
de artículos extraídas en algún punto del proceso. Un asunto importante será lograr que las muestras sean representativas, en el sentido
de que tengan los aspectos clave que se desean analizar en la población. Una forma de lograr esa representatividad es diseñar de manera
adecuada un muestreo aleatorio (azar), donde la selección no se haga con algún sesgo en una dirección que favorezca la inclusión de ciertos
elementos en particular, sino que todos los elementos de la población tengan las mismas oportunidades de ser incluidos en la muestra.
Existen varios métodos de muestreo aleatorio, por ejemplo: el simple, el estratificado, el muestreo sistemático y por conglomerados; cada
uno de ellos logra muestras representativas en función de los objetivos del estudio y de ciertas circunstancias y características particulares
de la población.

1.2 Obtención de datos estadísticos

Existen muchos métodos mediante los cuales podemos obtener los datos necesarios. Podemos:

• Buscar datos a publicados por fuentes gubernamentales industriales o individuales


• Diseñar un experimento para obtener los datos necesarios
• Concluir un estudio
• Hacer observaciones de comportamiento

Utilización de fuentes de datos publicados

Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos, la organización o individuos que compilan
estos en tablas y diagramas. El recolector de datos es la fuente primaria, mientras que el compilador de los datos es la fuente secundaria.

Apuntes elaborados por MC Judith Mauricio de Anda


Diseño de un experimento 2
Un segundo método para obtener los datos necesarios es la experimentación. En un experimento se ejerce un control estricto sobre el
tratamiento dado a los participantes. Por ejemplo, en un estudio para probar la eficacia de una pasta de dientes, el investigador
determinaría qué participantes del estudio usarían la nueva marca y cuáles no, en lugar de dejarle la elección a los sujetos.

Conducción de una encuesta


Un tercer método para obtener datos es aplicar una encuesta. Simplemente se formulan preguntas respecto a sus opiniones actitudes
comportamiento y otras características. Después, sus respuestas se editan, codifican y tabulan para su análisis.

Realización de un estudio observacional


En un estudio observacional, el investigador observa el comportamiento de interés directamente, por lo común en su entorno natural. Hay
una amplia variedad de formatos, los cuales pretenden recolectar información en un grupo establecido para ayudar en el proceso de toma
de decisiones.

Descripción de datos: datos agrupados y no agrupados

Los datos no agrupados son aquellos que, obtenidos a partir de un estudio, no están todavía organizados por clases. Cuando es un número
manejable de datos, usualmente 20 o menos, y hay pocos datos diferentes, se pueden tratar como no agrupados y extraer información
valiosa de ellos.
Los datos no agrupados provienen tal cual de la encuesta o del estudio realizado para obtenerlos y por ello carecen de procesamiento.
Veamos algunos ejemplos:
 Resultados de un examen de coeficiente intelectual CI realizado a 20 alumnos al azar de una universidad. Los datos obtenidos
fueron los siguientes:
119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124, 112, 112,106
 Edades de 20 empleados de cierta cafetería muy popular:
24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20
 El promedio de notas finales de 10 alumnos de una clase de Matemática:
3,2; 3,1; 2,4; 4,0; 3,5; 3,0; 3,5; 3,8; 4,2; 4,9
Los datos agrupados, cuando la cantidad de posibles respuestas es grande -digamos más de 10- es necesario trabajar la información de una
manera simplificada; para ello, lo que se acostumbra es dividir el espectro de valores posibles en intervalos, llamados clases que luego se
registran en una tabla de frecuencias conocida como distribución de frecuencias agrupadas. Así, en vez de usar cada uno de los valores
individuales como categorías, se trabaja con rangos de valores, de modo que se trabaja con una distribución más compacta, que permitirá
que los comportamientos y tendencias puedan visualizarse mejor.

1.3 Medidas de tendencia central

Las medidas de tendencia central pueden describirse rígidamente como “promedios” en el sentido de que son indicativas del “centro”,
“mitad” o lo “más común” de un conjunto de datos. En realidad, la medida de tendencia central más popular es lo que comúnmente se
llama “promedio” y lo que el estadista denomina media.

 Media aritmética, también llamada valor medio o promedio aritmético.


La media de n números es la suma dividida entre n. El número de valores en una muestra, el tamaño de la muestra, suele
representarse con la letra n. Al elegir la letra x, podemos referirnos a los n valores de una muestra como x1, x2, … , xn.

Media de la muestra ∑𝑛𝑖=1 𝑥𝑖


𝑥̅ =
n define el tamaño de la muestra 𝑛
Media de la población ∑𝑛𝑖=1 𝑥𝑖
𝜇=
N define el tamaño de la población 𝑁

 ̃) de un conjunto de números ordenados en magnitud es el valor central o media de dos valores centrales.
Mediana (𝒙

a) Si el número de datos es impar, la mediana es el número medio obtenido cuando los datos se ponen enorden de
acuerdo con su tamaño.

b) Si el número de datos es par, la mediana es el promedio de las dos mediciones centrales.

Apuntes elaborados por MC Judith Mauricio de Anda


 Moda (𝑥̂), Es el valor que se presenta con mayor frecuencia, es decir la moda es el valor más común. La modaes un
conjunto de datos puede no existir, o no ser un único valor. 3

EJERCICIOS

1.- Las calificaciones de un estudiante en 6 pruebas fueron 84, 91, 72, 68, 87, 78 calcular:

a) Media

84 + 91 + 72 + 68 + 87 + 78
𝑥̅ = = 80
6
b) mediana
68 72 78 84 87 91

78 + 84
𝑥̃ = = 81
2

2.- Los salarios horarios de 5 empleados de una oficina son: $2.52, $3.96, $3.28, $9.20 y $3.75, calcular:

a) Media

2.52 + 3.96 + 3.28 + 9.20 + 3.75


𝑥̅ = = 4.542
5
b) Mediana
2.52 3.96 3.28 9.20 3.75

𝑥̅ = 3.28

3.- Las calificaciones en el curso de cálculo diferencial de 10 estudiantes son los siguientes 100, 92, 86, 60,
92, 88, 34, 10, 70 y 65, calcular:

a) Media

100 + 92 + 86 + 60 + 92 + 88 + 34 + 10 + 70 + 65
𝑥̅ = = 69.7
10

b) Mediana
10 34 60 65 70 86 88 92 92 100

70 + 86
𝑥̃ =
= 78
2
4.- Calcular media, mediana y moda de los siguientes números.
a) 3, 5, 2, 6, 5, 9, 5, 2, 8, 6

3+5+2+6+5+9+5+2+8+6
𝑥̅ = = 5.1
10

2 2 3 5 5 5 6 6 8 9
5+5
𝑥̃ = =5
2

𝑥̂ = 5
b) 48.7, 51.6, 49.5, 48.9, 50.3

48.7 + 51.6 + 49.5 + 48.9 + 50.3


𝑥̅ = = 49.8
5

48.7 48.9 49.5 50.3 51.6


𝑥̃ = 49.5
Apuntes elaborados por MC Judith Mauricio de Anda
No hay moda, el conjunto de datos que no tiene moda también se llama amodal 4

1.4 Medidas de dispersión

Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio se le llama variación o dispersión de los datos.
Note que la curva A de la siguiente figura tiene una mayor extensión o dispersión que la curva B.

Se utilizan distintas medidas de dispersión, las más empleadas son rango, varianza y desviación estándar.

 Rango (R). El rango de un conjunto de números es la diferencia entre el mayor y el menor de los datos.
Ejemplo: el rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es R=12-2=10

 Desviación estándar de los datos intenta dar una idea de cuan espaciados se encuentran éstos con respecto a la media
aritmética.

Desviación estándar de la muestra


∑𝑛 (𝑥𝑖 − 𝑥̅ )2
n define el tamaño de la muestra 𝑠 = √ 𝑖=1
𝑛−1
Desviación estándar de la población
∑𝑁 (𝑥𝑖 − 𝜇)2
N define el tamaño de la población 𝜎 = √ 𝑖=1
𝑁

 Varianza

Varianza muestral 𝑠2
Es el cuadrado de la desviación estándar muestral
Varianza poblacional 𝜎2
Es el cuadrado de la desviación estándar poblacional

1.- Se tienen las siguientes series de datos:


a) 12, 6, 7, 3, 15, 10, 18, 5
b) 9, 3, 8, 8, 9, 8, 9, 1

Calcular:

a) Rango

b) varianza

c) desviación estándar

a) Datos ordenados: b) Datos ordenados:

3, 5, 6, 7, 10, 12, 15, 18 1, 3, 8, 8, 8, 9, 9, 9


𝑅 = 9 − 1, 𝑅=8
𝑅 = 18 − 3, 𝑅 = 15
1+3+8+8+8+9+9+9
𝑥̅ = = 6.88
3 + 5 + 6 + 7 + 10 + 12 + 15 + 18 8
𝑥̅ = = 9.5
8

Apuntes elaborados por MC Judith Mauricio de Anda


𝑥 (𝑥 − 𝑥̅) (𝑥 − 𝑥̅)2 5
𝑥 (𝑥 − 𝑥̅) (𝑥 − 𝑥̅)2
3 -6.5 42.25 1 -5.88 34.57
5 -4.5 20.25 3 -3.88 15.05
6 -3.5 12.25 8 1.12 1.25
7 -2.5 6.25 8 1.12 1.25
10 0.5 0.25 8 1.12 1.25
12 2.5 6.25 9 2.12 4.49
15 5.5 30.25 9 2.12 4.49
18 8.5 72.25 9 2.12 4.49
∑(𝑥 − 𝑥̅)2 = 66.84
∑(𝑥 − 𝑥̅)2 = 190

2.- A partir de los datos: 90, 128, 205, 140, 165, 160 calcular:
a) Rango
b) varianza
c) desviación estándar

a) Datos: 90, 128, 205, 140, 165, 160

𝑅 = 205 − 90, 𝑅 = 115


90 + 128 + 205 + 140 + 165 + 160
𝑥̅ = = 148
6
, 𝑥 (𝑥 − 𝑥̅) (𝑥 − 𝑥̅)2
90 -58 3364
128 -20 400
205 57 3249
140 -8 64
165 17 289
160 12 144
∑(𝑥 − 𝑥̅)2 =7510
7510
𝑠2 = = 1502
5
= ξ1502 =
1.5 Tabla de𝑠distribución de38.76
frecuencias

El método que se utiliza para describir un conjunto de datos es la distribución de frecuencias. La distribución de frecuencias es el
agrupamiento de datos en clases, mutuamente excluyentes que indican el número de observaciones en cada clase.
Las tablas de distribución de frecuencias se utilizan cuando se recolectan datos, con ellas se puede representar los datos de
manera que es más fácil analizarlos.

Se pueden elaborar tablas de distribución de frecuencias para datos no agrupados y para datos agrupados.Estas últimas se utiliza
cuando se tienen muchos datos.
Para elaborar tablas de distribuciones de frecuencia se debe tener en cuenta lo siguiente:
Cuando hay muchos datos se agrupan en clases.
Clase es cada uno de los grupos en que se dividen los datos. Para determinar cuántas clases crear, se puedeutilizar la siguiente fórmula
(fórmula de Sturges)

Número de clases: k = 1 + 3.322 log n donde n es el número total de datos.

Si al aplicar la fórmula se obtiene un número decimal, se aproxima al siguiente entero.

Apuntes elaborados por MC Judith Mauricio de Anda


El rango (R) es la diferencia entre el valor mayor y el valor menor en estudio de una distribución de datos. 6

El intervalo de clase o el ancho de la clase (tamaño de la clase) es el espacio que hay entre el límite superiory el límite inferior de la clase,
los cuales corresponden a los valores extremos de la clase. Para obtener el ancho de clase se utiliza la siguiente fórmula:

Ancho de clase: c=R/k

Si al aplicar la fórmula se obtiene un número decimal, se aproxima al siguiente entero.

La marca de clase es el punto medio de la clase. Se obtiene dividiendo entre dos la suma de los valores extremos de cada clase.

La frecuencia absoluta es el número de veces que se repite cada dato. Cuando se agrupan los datos, es el número de datos que tiene cada
clase. Se simboliza con f i , cabe mencionar que el límite superior de cada clase no pertenece propiamente a esa clase sino a la clase
siguiente, donde aparece como límite inferior.

La frecuencia absoluta acumulada es la frecuencia total hasta el límite superior de cada clase. Se simboliza con F i.

La frecuencia relativa de un dato da información sobre qué parte de la población o de la muestra en estudiocorresponde a la característica
analizada. Se obtiene dividiendo la frecuencia absoluta entre el número totalde datos y se puede expresar como una fracción, como un
decimal o como un porcentaje. Se simboliza con hi.

La frecuencia acumulada relativa es la frecuencia relativa total hasta el límite superior de cada clase. Se simboliza con Hi.

Ejercicios:

1. Suponga que un investigador desea determinar cómo varía el peso de un grupo de estudiantes de primer semestre de una
universidad. Selecciona una muestra de 50 estudiantes y registra sus pesos en kilogramos. Los datos obtenidos fueron los
siguientes

65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62

Ordenando los datos de menor a mayor:

53 55 56 57 57 58 58 59 59 60
60 60 61 61 61 61 62 62 62 62
63 63 63 63 63 64 64 64 64 64
64 65 65 65 65 65 66 66 66 66
67 67 67 68 68 69 69 70 71 72

Determinando el número de clase: k = 1 + 3.322 log (50) = 6.64, por lo tanto, k ≈ 7

Calculando el rango: 𝑅 = 72 − 53, 𝑅 = 19

19
Determinando la amplitud de las clases: 𝑐 = = 2.71; 𝑐 ≅ 3
7

Iniciando la primera clase con el valor menor de la serie de datos e incrementando la amplitud de la clase para determinar el límite
superior de la misma y así sucesivamente.

No. de clases(k) Clases Marca clase Frecuencia Frecuencia absoluta Frecuenciarelativa Frecuencia relativa
(xi) absoluta acumulada (hi) acumulada (Hi)
(fi) (Fi) (%) (%)
1 53 - 56 54.5 2 2 4 4
2 56 - 59 57.5 5 7 10 14
3 59 – 62 60.5 9 16 18 32
4 62 - 65 63.5 15 31 30 62

Apuntes elaborados por MC Judith Mauricio de Anda


5 65 - 68 66.5 12 43 24 86
6 68 - 71 69.5 5 48 10 96 7
7 71 - 74 72.5 2 50 4 100

2. Las calificaciones finales de 50 estudiantes de la clase de Química. Clasificar los datos en una tabla dedistribución de frecuencia.

67 45 95 79 70 82 83 84 71 93
92 93 97 72 60 57 48 86 44 93
98 80 92 84 74 47 60 57 78 79
49 81 78 69 74 90 71 82 73 65
80 72 76 88 83 70 71 91 90 83

Ordenando los datos:

44 45 47 48 49 57 57 60 60 65
67 69 70 70 71 71 71 72 72 73
74 74 76 78 78 79 79 80 80 81
82 82 83 83 83 84 84 86 88 90
90 91 92 92 93 93 93 95 97 98

Determinando el número de clase: k = 1 + 3.322 log (50) = 6.64, por lo tanto, k ≈ 7

Calculando el rango: 𝑅 = 98 − 44, 𝑅 = 54

54
Determinando la amplitud de las clases: 𝑐 = = 7.71; 𝑐 ≅ 8
7

Iniciando la primera clase con el valor menor de la serie de datos e incrementando la amplitud de la clasepara determinar el límite
superior de la misma y así sucesivamente.

No. de Clases Marca clase Frecuencia Frecuencia Frecuenciarelativa Frecuencia


clases(k) (xi) absoluta absoluta (hi) relativa
(fi) acumulada (%) acumulada (Hi)
(Fi) (%)
1 44 – 52 48 5 5 10 10
2 52 – 60 56 2 7 4 14
3 60 – 68 64 4 11 8 22
4 68 – 76 72 11 22 22 44
5 76 – 84 80 13 35 26 70
6 84 – 92 88 7 42 14 84
7 92 - 100 96 8 50 16 100

Parámetros para datos agrupados

 Media aritmética
Media de la muestra ∑𝑘𝑖=1 𝑥𝑖 𝑓𝑖
𝑥̅ =
n define el total de datos en la muestra 𝑛
𝑥𝑖 es la marca de clase de la clase i
𝑓𝑖 es la frecuencia absoluta de la clase i
k es el número de clases
Media de la población ∑𝑘𝑖=1 𝑥𝑖 𝑓𝑖
𝜇=
N define el total de datos en la población 𝑁
𝑥𝑖 es la marca de clase de la clase i
𝑓𝑖 es la frecuencia absoluta de la clase i
k es el número de clases
 Mediana

Apuntes elaborados por MC Judith Mauricio de Anda


𝑛
− ∑ 𝑓𝑖
𝑥̃ = 𝐿1 + [2 ]𝑐 8
𝑓 𝑚𝑒𝑑

Donde:

𝑳𝟏 = Límite inferior de la clase que contiene la mediana.


𝒏 = Frecuencia total (número de datos)
∑ 𝒇𝒊 = Sumatoria de las frecuencias absolutas inferiores a la mediana.
𝒇 𝒎𝒆𝒅 = frecuencia absoluta de la clase que contiene a la mediana.
𝒄 = amplitud de la clase que contiene la mediana.

 Moda

𝐴1
𝑥̂ = 𝐿1 + [ ]𝑐
𝐴1 + 𝐴2

Donde:

𝑳𝟏 = Límite inferior de la clase que contienen la moda.


𝑨𝟏 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que la antecede.
𝑨𝟐 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que le sigue.
𝒄 = Amplitud de la clase que contiene la moda.

EJERCICIOS

1. Utilizar la siguiente distribución de frecuencias para calcular:

Altura (pulg.) Marca de clase Frecuencia absoluta Frecuencia absoluta xi fi


(xi) (fi) Acumulada (Fi)
60-63 61.5 5 5 307.5
63-66 64.5 18 23 1161
66-69 67.5 52 75 3510
69-72 70.5 27 102 1903.5
72-75 73.5 8 110 588
∑ 𝑥𝑖𝑓𝑖 = 7470

a) La altura media de los estudiantes de electrónica


7470
𝑥̅ = = 67.91 𝑝𝑢𝑙𝑔
110
b) La mediana
Primero se localiza la clase mediana, con n/2. Para este caso 110/2=55, este valor se busca en la columna de la frecuencia
absoluta acumulada, buscando cuál clase contiene al 55. Vemos que la frecuencia 75 de la tercera clase contienen a 55, por lo
tanto, esta clase se llama clase mediana y sobre ella se aplica la fórmula.

55 − 23
𝑥̃ = 66 + [ ] 3 = 67.85
52

c) La moda
Primero se busca la clase modal, es aquella que tenga la frecuencia absoluta más alta, vemos que la tercera clase tiene una
frecuencia de 52, que es la más alta, por lo tanto, ella es la clase modal y sobre ella se aplica la fórmula

34
𝑥̂ = 66 + [ ] 3 = 67.73
34 + 25

2. A partir de la siguiente distribución de frecuencias calcular:

Apuntes elaborados por MC Judith Mauricio de Anda


Pesos Marca de la clase Frecuencia absoluta Frecuencia absoluta xi fi
(lbs) (xi) (fi) Acumulada (Fi) 9
118-127 122.5 3 3 367.5
127-136 131.5 5 8 657.5
136-145 140.5 9 17 1264.5
145-154 149.5 12 29 1794
154-163 158.5 5 34 792.5
163-172 167.5 4 38 670
172-181 176.5 2 40 353
∑ 𝑥𝑖𝑓𝑖 = 5899
a) El peso medio de los estudiantes de TIC’s
5899
𝑥̅ = = 147.48 𝑝𝑢𝑙𝑔
40

b) La mediana

Primero se localiza la clase mediana, con n/2. Para este caso 40/2=20, este valor se busca en la columna de la frecuencia absoluta
acumulada, buscando cuál clase contiene al 20. Vemos que la frecuencia 29 de la cuarta clase contienen a 20, por lo tanto, esta
clase se llama clase mediana y sobre ella se aplica la fórmula.

40
− 17
𝑥̃ = 145 + [ 2 ] 9 = 147.25
12

c) La moda
Primero se busca la clase modal, es aquella que tenga la frecuencia absoluta más alta, vemos que la cuarta clase tiene una
frecuencia de 12, que es la más alta, por lo tanto, ella es la clase modal y sobre ella se aplica la fórmula

3
𝑥̂ = 145 + [ ] 9 = 147.7
3+7

3. A partir de la siguiente distribución de frecuencias encontrar:

Pesos Marca de la clase Frecuencia absoluta Frecuencia absoluta xi fi


(lbs) (xi) (fi) Acumulada (F)
5.97 - 6.19 6.08 2 2 12.16
6.19 - 6.41 6.3 5 7 31.5
6.41 - 6.63 6.52 7 14 45.64
6.63 - 6.85 6.74 13 27 87.62
6.85 - 7.07 6.96 7 34 48.72
7.07 - 7.29 7.18 6 40 43.08
∑ 𝑥𝑖𝑓𝑖 = 268.72

a) El peso medio
268.72
𝑥̅ = = 6.72 𝑝𝑢𝑙𝑔
40

b) La mediana
Primero se localiza la clase mediana, con n/2. Para este caso 40/2=20, este valor se busca en la columna de la frecuencia absoluta
acumulada, buscando cuál clase contiene al 20. Vemos que la frecuencia 27 de la cuarta clase contienen a 20, por lo tanto, esta
clase se llama clase mediana y sobre ella se aplica la fórmula.

40 − 14
𝑥̃ = 6.63 + [ ] (0.22) = 6.73
13

Apuntes elaborados por MC Judith Mauricio de Anda


c) La moda
10
Primero se busca la clase modal, es aquella que tenga la frecuencia absoluta más alta, vemos que la cuarta clase tiene una
frecuencia de 13, que es la más alta, por lo tanto, ella es la clase modal y sobre ella se aplica la fórmula

6
𝑥̂ = 6.63 + [ ] (0.22) = 6.74
6+6

 Desviación estándar para datos agrupados

Desviación estándar de la muestra


∑𝑘 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
n define el total de datos en la muestra 𝑠 = √ 𝑖=1
𝑛−1
𝑥̅ media muestral
𝑥𝑖 es la marca de clase de la clase i
𝑓𝑖 es la frecuencia absoluta de la clase i
k es el número de clases
Desviación estándar de la población
∑𝑘 𝑓𝑖 (𝑥𝑖 − 𝜇)2
N define el tamaño de la población 𝜎 = √ 𝑖=1
𝑁
𝜇 media poblacional
𝑥𝑖 es la marca de clase de la clase i
𝑓𝑖 es la frecuencia absoluta de la clase i
k es el número de clases

 Varianza

Varianza muestral 𝑠2
Es el cuadrado de la desviación estándar muestral
Varianza poblacional 𝜎2
Es el cuadrado de la desviación estándar poblacional

1. Las calificaciones finales de estadística de un grupo de 50 estudiantes, se muestran en la siguientedistribución, calcular


la varianza y la desviación estándar (considerar al grupo como una población).

Calificación fi xi fi xi (xi - µ)2 fi (xi - µ)2


44-52 5 48 240 811.11 4055.55
52-60 2 56 112 419.43 838.86
60-68 4 64 256 155.75 623.00
68-76 11 72 792 20.07 220.77
76-84 13 80 1040 12.39 161.07
84-92 7 88 616 132.71 928.97
92-100 8 96 768 381.03 3048.24
Sumas: 50 3824 9876.46

3824
𝜇= = 76.48
50

9876.46
𝜎2 = = 197.53
50

𝜎 = ξ197.53 = 14.05

2. Calcular la varianza y la desviación estándar de las alturas de los estudiantes de la siguiente muestra.

Altura (pulg) xi fi fi xi xi - µ (xi - µ)2 fi (xi - µ)2

Apuntes elaborados por MC Judith Mauricio de Anda


60-63 61.5 5 307.5 -6.45 41.60 208.01
11
63-66 64.5 18 1161 -3.45 11.90 214.25
66-69 67.5 42 2835 -0.45 0.2025 8.51
69-72 70.5 27 1903.5 2.55 6.50 175.57
72-75 73.5 8 588 5.55 30.80 246.42
Sumas: 100 6795 852.75

6795
𝑥̅ = = 67.95 𝑝𝑢𝑙𝑔
100

852.75
𝑠2 = = 8.61
99

𝑠 = ξ8.61 = 2.93

1.6 Cuantiles

Si un conjunto de datos están ordenados por magnitud, el valor central que divide al conjunto por magnitudes iguales, es la mediana.
Extendiendo esta idea, podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Estos valores denotados
por Q1, Q2 y Q3 se llaman primero, segundo y tercer cuartiles. El Q2 coincide con la mediana.

Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles y se denotan por D 1, D2, …, D9 mientras que
los valores que los dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2, … P99. El 5to decil y el 50vo percentil
coinciden con la mediana. Los 25° y 75° percentiles coinciden con el primer cuartil y 3er cuartil respectivamente.

Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.

Ejemplo: Partiendo de la siguiente tabla de distribución de frecuencias, las columnas que se requieren para el cálculo de cualquier
cuantil, son las siguientes:

Altura (pulg.) Marca de clase Frecuencia absoluta Frecuencia absoluta


(xi) (fi) Acumulada (Fi)
60-63 61.5 5 5
63-66 64.5 18 23
66-69 67.5 52 75
69-72 70.5 27 102
72-75 73.5 8 110

La fórmula que se usa es una variación de la fórmula del cálculo de la mediana para datos agrupados:

𝑛
− ∑ 𝑓𝑖
𝑥̃ = 𝐿1 + [2 ]𝑐
𝑓 𝑚𝑒𝑑

Observe el cálculo de los siguientes cuantiles:


a) Q1, Q2, Q3 (cuartil 1, cuartil 2 y cuartil 3)
b) D2, D5, D7 (decil 2, decil 5 y decil 7)
c) P1, P25, P75 (percentil 1, percentil 25 y percentil 75)

Para iniciar debemos ubicarnos en la clase que contenga el cuantil a buscar con

Para cuartiles calculamos 𝑁


∗ # 𝑑𝑒 𝑐𝑢𝑎𝑛𝑡𝑖𝑙
4
Para deciles calculamos 𝑁
∗ # 𝑑𝑒 𝑑𝑒𝑐𝑖𝑙
10
Para percentiles calculamos 𝑁
∗ # 𝑑𝑒 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙
100

Ese valor lo buscamos en la columna de la frecuencia acumulada, hasta llegar a la clase que lo contengan, de la misma forma que
buscamos a la clase mediana y después se sustituyen los datos en la fórmula tomando los datos de la clase que corresponda.
Apuntes elaborados por MC Judith Mauricio de Anda
Solución 12

a) Q1, ubicamos la clase que contenga al cuartil 1, con N=110 (de la suma de todas las frecuencias)

110
∗ 1 = 27.5
4

En la columna Fi, buscamos la clase que contenga a 27.5

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3, Q1 66-69 67.5 52 75 Contiene a 27.5
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 3, aplicamos la fórmula

27.5 − 23
𝑄1 = 66 + [ ] × 3 = 66.26
52

Q2, ubicamos la clase que contenga al cuartil 2, con N=110 (de la suma de todas las frecuencias)

110
∗ 2 = 55
4

En la columna Fi, buscamos la clase que contenga a 55

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3, Q2 66-69 67.5 52 75 Contiene a 55
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 3, aplicamos la fórmula

55 − 23
𝑄2 = 66 + [ ] × 3 = 67.85
52

Verifica que el cuartil 2 y la mediana coincidan

Q3, ubicamos la clase que contenga al cuartil 3, con N=110 (de la suma de todas las frecuencias)

110
∗ 3 = 82.5
4

En la columna Fi, buscamos la clase que contenga a 82.5

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

Apuntes elaborados por MC Judith Mauricio de Anda

Contiene a 82.5
1 60-63 61.5 5 5
2 63-66 64.5 18 23 13
3 66-69 67.5 52 75
4, Q3 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 4, aplicamos la fórmula

82.5 − 75
𝑄3 = 69 + [ ] × 3 = 69.83
27

b) D2, D5, D7 (decil 2, decil 5 y decil 7)

D2, ubicamos la clase que contenga al decil 2, con N=110 (de la suma de todas las frecuencias)

110
∗ 2 = 22
10

En la columna Fi, buscamos la clase que contenga a 22

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2, D2 63-66 64.5 18 23 Contiene a 22
3 66-69 67.5 52 75
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 2, aplicamos la fórmula

22 − 5
𝐷2 = 63 + [ ] × 3 = 65.83
18

D5, ubicamos la clase que contenga al decil 5, con N=110 (de la suma de todas las frecuencias)

110
∗ 5 = 55
10

En la columna Fi, buscamos la clase que contenga a 55

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3, D5 66-69 67.5 52 75 Contiene a 55
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 3, aplicamos la fórmula

55 − 23
𝐷5 = 66 + [ ] × 3 = 67.85
52

Verifica que el cuartil 2, el decil 5 y la mediana coincidan.

D7, ubicamos la clase que contenga al decil 5, con N=110 (de la suma de todas las frecuencias)

Apuntes elaborados por MC Judith Mauricio de Anda


110
∗ 7 = 77 14
10

En la columna Fi, buscamos la clase que contenga a 77

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3 66-69 67.5 52 75
4, D7 69-72 70.5 27 102
Contiene a 77
5 72-75 73.5 8 110

Nos ubicamos en la clase 4, aplicamos la fórmula

77 − 75
𝐷7 = 69 + [ ] × 3 = 69
27
c)
P1, ubicamos la clase que contenga al percentil 1, con N=110 (de la suma de todas las frecuencias)

110
∗ 1 = 1.1
100

En la columna Fi, buscamos la clase que contenga a 1.1

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1, P1 60-63 61.5 5 5 Contiene a 1.1


2 63-66 64.5 18 23
3 66-69 67.5 52 75
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 1, aplicamos la fórmula

1.1 − 0
𝑃1 = 60 + [ ] × 3 = 60.66
5

P25, ubicamos la clase que contenga al percentil 25, con N=110 (de la suma de todas las frecuencias)

110
∗ 25 = 27.5
100

En la columna Fi, buscamos la clase que contenga a 27.5

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3, P25 66-69 67.5 52 75 Contiene a 27.5
4 69-72 70.5 27 102
5 72-75 73.5 8 110

Nos ubicamos en la clase 3, aplicamos la fórmula

Apuntes elaborados por MC Judith Mauricio de Anda


27.5 − 23 15
𝑃25 = 66 + [ ] × 3 = 66.30
52

Verifica que el percetil 25 coincida con el cuartil 1.

P75, ubicamos la clase que contenga al percentil 75, con N=110 (de la suma de todas las frecuencias)

110
∗ 75 = 82.5
100

En la columna Fi, buscamos la clase que contenga a 82.5

Clase Altura (pulg.) Marca de Frecuencia Frecuencia


clase absoluta absoluta
(xi) (fi) Acumulada (Fi)

1 60-63 61.5 5 5
2 63-66 64.5 18 23
3 66-69 67.5 52 75
4, P75 69-72 70.5 27 102
Contiene a 82.5
5 72-75 73.5 8 110

Nos ubicamos en la clase 4, aplicamos la fórmula

82.5 − 75
𝑃75 = 69 + [ ] × 3 = 69.83
27

Verifica que el percetil 75 coincida con el cuartil 3.

1.7 Gráficos

Polígonos de frecuencia, histogramas y ojivas

Las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la mayor información posible. Los gráficos más
utilizados son:

El histograma: Es un conjunto de rectángulos uno para cada clase, que tiene como base la amplitud del intervalo y como altura la
frecuencia absoluta del intervalo correspondiente.

El polígono de frecuencia: Es un conjunto de segmentos lineales que unen a los puntos medios de las tapas o bases superiores de
cada rectángulo del histograma de frecuencia correspondiente. Se traza con los puntosmedios de cada clase, pero se debe de cerrar la
figura, para que forme el polígono.

Apuntes elaborados por MC Judith Mauricio de Anda


16

La ojiva: Es una gráfica de frecuencia acumulada; es la curva que resulta de unir los límites superiores de cadaclase con la frecuencia
acumulada, inicia con el límite inferior de la primera clase y termina con el límite superior de la última clase.

Ejercicio 1. Con los datos de la siguiente tabla de distribución de frecuencias construir:

a) Histograma
b) Polígono de frecuencias
c) Ojiva.

Clases Marca de la Frecuencia Frecuencia Frecuencia relativa Frecuencia relativa


clase (xi) absoluta (fi) absoluta (hi) acumulada (Hi)
acumulada (Fi) (%) (%)
53 - 56 54.5 2 2 4 4
56 - 59 57.5 5 7 10 14
59 – 62 60.5 9 16 18 32
62 - 65 63.5 15 31 30 62
65 – 68 66.5 12 43 24 86
68 – 71 69.5 5 48 10 96
71 – 74 72.5 2 50 4 100

Apuntes elaborados por MC Judith Mauricio de Anda


17

Ejercicio 2. Con los datos de la siguiente tabla de distribución de frecuencias construir:

a) Histograma
b) Polígono de frecuencias
c) Ojiva.

Clases Marca de la Frecuencia Frecuencia Frecuencia Frecuencia


clase (xi) absoluta (fi) absoluta relativa relativa
acumulada (Fi) (hi)(%) acumulada
(Hi)(%)
44 – 52 48 5 5 10 10
52 – 60 56 2 7 4 14
60 – 68 64 4 11 8 22
68 – 76 72 11 22 22 44
76 – 84 80 13 35 26 70
84 – 92 88 7 42 14 84
92 - 100 96 8 50 16 100

Apuntes elaborados por MC Judith Mauricio de Anda


18

1.8 Cajas y alambres

Los diagramas de Caja-Bigotes son una presentación visual que describe varias características importantes, al mismo tiempo, tales como
la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal
o verticalmente.

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo
está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero (recordemos que el segundo cuartil coincide con la mediana).

Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que
sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato o caso que no se
encuentre dentro de este rango es marcado e identificado individualmente.

Ejercicio. Revisa el ejercicio usado en el tema 1.6 y anota el valor mínimo, los 3 cuartiles y el valor máximo

mínimo 44
Q1 66.26
Q2 67.85
Q3 69.83
máximo 100

1. Coloca un eje vertical graduado adecuado para ubicar los datos registrados arriba.
2. A la derecha del eje vertical, deja un espacio y coloca puntos y etiqueta a la altura de cada valor
3. Traza una caja que marque la posición de los 3 cuartiles
4. Traza líneas en los valores mínimo y máximo
5. Une el mínimo y máximo a la caja

1.9 Diagrama de Pareto

Apuntes elaborados por MC Judith Mauricio de Anda


Un diagrama de Pareto es una técnica que permite clasificar gráficamente la información de mayor a menor relevancia, con
el objetivo de reconocer los problemas más importantes en los que deberías enfocarte y solucionarlos. 19

Esta técnica se basa en el principio de Pareto o regla 80/20, la cual establece una relación de correspondencia entre los
grupos 80-20, donde el 80 % de las consecuencias provienen del 20 % de las causas.

El diagrama de Pareto, también conocido como curva de distribución ABC, consiste en una gráfica que clasifica los aspectos
relacionados con una problemática y los ordena de mayor a menor frecuencia, con lo que permite visualizar de forma clara
cuál es la causa principal de una consecuencia.

Muchos negocios no comprenden que la manera de aumentar las ganancias no siempre es aumentando la variedad de los
productos. A veces, nosotros mismos podemos ser el peor enemigo de nuestros productos quitándole ventas para ofrecer
otros.

Entonces, la función del diagrama de Pareto es que las empresas puedan reconocer cuáles son las necesidades más
importantes a las que debería dirigir sus esfuerzos y no malgasten recursos en asuntos poco relevantes, de ahí la importancia
de siempre hacer un análisis de datos.

¿Cómo elaborar un Diagrama de Pareto?

Para elaborar un Diagrama de Pareto debes realizar los siguientes pasos:

1. Investiga cuál es el problema, recolecta los datos y selecciona los que se analizarán.
2. Clasifica la información por orden de prioridad, desde la mayor hasta la menor.
3. Estructura los datos en una tabla de mayor a menor y calcular el porcentaje de cada uno.
4. Traza la gráfica. Primero los ejes verticales y horizontales, posteriormente, traza la línea vertical izquierda para la
frecuencia.
5. Traza una por cada grupo de mayor a menor.
6. Traza la línea derecha que representa el porcentaje acumulado.
7. Traza una curva que una los puntos con el fin de representar el total de cada grupo.
8. Ponle al diagrama los datos correspondientes: título, fecha, período que abarca, la fuente de información, etc.
9. Analiza la gráfica y establece cuáles son los puntos vitales y que necesitan ser atendidos con prioridad.

Elementos que conforman el Diagrama de Pareto

Los elementos que conforman el diagrama de Pareto son:

1. Categorías o elementos: son los elementos que se están analizando y que se agrupan en categorías según su
naturaleza.
2. Frecuencia o magnitud: es la cantidad de veces que se presenta cada categoría o elemento en el proceso o
sistema.
3. Porcentaje acumulado: representa el porcentaje acumulado de la frecuencia de cada categoría o elemento, que
va aumentando de forma progresiva.
4. Línea de Pareto: es una línea curva que representa el porcentaje acumulado de la frecuencia en relación con el
eje vertical derecho. Se utiliza para comparar la contribución relativa de cada categoría o elemento en el proceso
o sistema.
5. Eje vertical izquierdo: representa la frecuencia o magnitud de cada categoría o elemento.
6. Eje horizontal: representa las categorías o elementos que se están analizando.

Ejemplo de diagrama de Pareto

El siguiente ejemplo consiste en una empresa que se dedica a la venta de diferentes marcas de harina. A continuación,
presentamos las ventas por cada una:
Apuntes elaborados por MC Judith Mauricio de Anda
20

El total de las ventas es de un total de 160,651,000.00. Por lo tanto, el porcentaje de cada uno es el siguiente:

El siguiente paso es ordenar de mayor a menor y agregar el porcentaje de frecuencia acumulada.

Ventas por marca de harina


Marca Ventas en miles Porcentaje Porcentaje acumulado
Esfera Azul $72,858.00 45.35% 45.35%
Hércules $34,716.00 21.61% 66.96%
El Rey $22,085.00 13.75% 80.71%
Luna de oro $17,131.00 10.66% 91.37%
La niña $8,370.00 5.21% 96.58%
El Yaqui $4,511.00 2.81% 99.39%
Abuela Josefa $980.00 0.61% 100.00%
Total $160,651.00

Por último, el siguiente proceso es registrar la frecuencia en una gráfica de barras y la frecuencia acumulada con una gráfica
lineal. De lado izquierdo de la gráfica veremos el porcentaje de la primera gráfica y del lado derecho el de la segunda.

Apuntes elaborados por MC Judith Mauricio de Anda


Gráfico de Pareto 21

50.00% 120.00%
45.00%
99.39% 100.00%
100.00%
40.00% 96.58%
91.37%
35.00%
80.71% 80.00%
30.00%
66.96%
25.00% 60.00%
20.00% 45.35%
40.00%
15.00%
10.00%
20.00%
5.00%
0.00% 0.00%
Esfera Azul Hércules El Rey Luna de oro La niña El Yaqui Abuela
Josefa

Porcentaje Porcentaje acumulado

Con este resultado se puede concluir que la mejor decisión es permanecer con las marcas Esfera Azul, Hércules y El Rey, ya
que representan poco más del 80% de las ventas, mientras que las otras representan menos del 20% del total de las ventas.

Apuntes elaborados por MC Judith Mauricio de Anda

También podría gustarte