Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AUTÓNOMO
Asignatura
ESTADÍSTICA
GENERAL
1
Instituto Profesional Diego Portales
AUTÓNOMO
AUTOR
2
Instituto Profesional Diego Portales
AUTÓNOMO
INVITACIÓN AL MÓDULO
Estimado alumno
Esperando para ti todo el éxito posible, te invito a iniciar la tarea del aprendizaje
sistemático, que te conducirá a la obtención de tus objetivos personales y profesionales.
3
Instituto Profesional Diego Portales
AUTÓNOMO
UNIDAD I
ANÁLISIS DE DATOS
INTRODUCCIÓN
Se señalaran los tipos de estadísticas que pueden aplicarse para describir las variables que
intervienen en los procesos de análisis de crecimiento y/o decrecimiento de población y
Muestra.
OBJETIVOS
4
Instituto Profesional Diego Portales
AUTÓNOMO
5
Instituto Profesional Diego Portales
AUTÓNOMO
1.1 LA ESTADÍSTICA.
La estadística está ligada con el método científico y apoya la investigación en las diversas
disciplinas, principalmente en lo referente a la recopilación de datos, organización de los
mismos, presentación y análisis de ellos.
6
Instituto Profesional Diego Portales
AUTÓNOMO
Por ejemplo, si se requiere información sobre la frecuencia de las licencias médicas del
personal del departamento de contabilidad de una empresa, se recogen los datos, se
ordenan, se aplican técnicas estadísticas, para el análisis correspondiente y luego se
describe la situación de ese grupo de personas.
La estadística inferencia! es aquella que a partir del análisis de datos de una muestra de la
Población en estudio, extiende las conclusiones obtenidas a toda la población de la que es
parte.
Paro comprender lo disciplina que estamos estudiando, se hace necesario conocer los
conceptos fundamentales inscritos en ella: población y muestra.
7
Instituto Profesional Diego Portales
AUTÓNOMO
Debemos tener en cuento que uno población puede ser finita o infinita.
Por ejemplo, la población consistente en todos las camisas producidas por una fábrica en
un día determinado, es finita, mientras que, la población formada por todos los posibles
sucesos (Caras, sellos) en tiradas sucesivas de una moneda, es infinita.
Supongamos que se necesita información sobre las edades y el estado civil de cada uno
de los habitantes chilenos; la población en estudio, son todos los habitantes de Chile. En
estecaso la actividad se denomina censo.
Ciertamente, al trabajar con una muestra se corre el riesgo de que los valores observados
difieran con los obtenidos en la población completa, en cuyo caso, estaremos frente a un
problema que en estadística se denomina sesgo estadístico.
Con el fin de reducir al máximo el sesgo estadístico, se debe seleccionar una muestra
Representativa, la cual se obtiene utilizando el método de muestreo aleatorio simple, en el
que cada integrante de la población tiene igual posibilidad de ser seleccionados, para formar
parte de la muestra.
Para hacer la selección de los elementos que constituirán la muestra, se puede usar
e método del sorteo, es decir, a cada integrante de la población se le asigna un
número, luego se ponen en una bolsa o en una urna, fichas o bolitas o papeles con los
números y se van sacando de a una, hasta completar la cantidad correspondiente.
8
Instituto Profesional Diego Portales
AUTÓNOMO
Otra forma de hacerlo, es usando una tabla de números aleatorios que fue
construida especialmente para este efecto. Ella consiste en una serie de dígitos
aleatoriamente (al azar) generados y enumerados en el orden que se generaron.
Puesto que en nuestro sistema numérico usa diez dígitos (0, 1, 2, 3... 9), la
probabilidad de generar aleatoriamente cualquier dígito en particular es igual a la
probabilidad de generar cualquier otro dígito. Esta probabilidad es una entre diez.
Portante si se generara una secuencia de 500 dígitos esperaríamos que
aproximadamente 50 de ellos fueran el dígito 0,50 el dígito 1,
etc.
Para usar una tabla de estas en lugar de una pecera para seleccionar la muestra, primero
es necesario asignar números de código a los miembros individuales de la población. Después
obtenemos nuestra muestra aleatoria leyendo la tabla de números aleatorios y
seleccionando aquellos individuos del marco de población cuyos números de código asignados
concuerden con los dígitos encontrados en la tabla.
En cualquier caso, mientras más grande sea el tamaño de la muestra seleccionada, me-
nores el sesgo estadístico que se produce.
9
Instituto Profesional Diego Portales
AUTÓNOMO
¿Apliquemos lo aprendido?
Se quiere obtener información sobre el promedio de sueldos que ganan los jóvenes chile-
nos recién egresados de la educación media y que ingresan por primera vez a un empleo.
Para este ejemplo, vamos a suponer que el tamaño de la población es de 32.000 personas.
Si se opta por la alternativa del muestreo aleatorio estratificado, de los 32.000 personas
que constituyen la población total, se separan en dos estratos: hombres y mujeres; luego, en
cada grupo se aplica la selección por muestreo aleatorio simple, seleccionando uno de cada
grupo alternadamente, hasta completar las 640 personas.
¡Recuerde que:
La parte de la estadística que trata de las condiciones en que las inferencias son válidas,
se llama estadística inferencia!. Aquella parte que trata, solamente, de describir y analizar
un grupo dado, sin sacar conclusiones o inferencias de un grupo mayor, se llama estadística
descriptiva.
10
Instituto Profesional Diego Portales
AUTÓNOMO
Una variable se puede representar por un símbolo o una letra mayúscula como X, Y, H y
puede tomar un valor cualquiera dentro de un conjunto determinado. Si la variable asume
siempre un mismo valor, se denomina constante.
D = {0,1,2,3,4,5,6,7,8,9,10}
Si nos fijamos en el ejemplo precedente, el número de hijos de una familia puede tomar
cualquiera de los valores del conjunto D, sin embargo, nunca podrá asumir valores
intermedios, como por ejemplo 3,8 hijos, ya que resultaría absurdo y fuera de lógica.
En casos como éste, en que la variable sólo puede tomar valores enteros y positivos,
diremos que se trata de una variable discreta y se expresa sólo con números enteros
positivos.
Existen casos en que la variable tiene siempre la posibilidad de asumir algún valor inter-
medio, como por ejemplo, en el caso de un estudio relacionado con estaturas, con el peso e
incluso con edades; puesto que, si bien la edad se expresa en años, podemos también
precisar los meses, los días y hasta las horas. En este caso, diremos que se trata de una
variable continua y puede tomar siempre algún valor intermedio entre dos valores
cualquiera de la variable, es decir, valores decimales o fraccionarios.
11
Instituto Profesional Diego Portales
AUTÓNOMO
Los datos que vienen definidos por una variable discreta o continua se llaman datos
discretos o datos continuos, respectivamente.
El número de hijos en cada una de 1000 familias es un ejemplo de datos discretos, mien-
tras que las estaturas de 100 universitarios, es un ejemplo de datos continuos.
En general, las medidas dan origen a datos continuos, mientras que las enumeraciones o
conteos, originan datos discretos
TEST AUTOEVALUATIVO 1
2. Determine los valores que asume la variable, en cada uno de los siguientes ejemplos y
señale si es continua o discreta.
12
Instituto Profesional Diego Portales
AUTÓNOMO
e) Países C de Europa.
a) ¿Puede usted decir, qué fue lo que aprendió respecto del concepto estadística?
d) ¿Qué utilidad le presta el manejo de los conceptos; variable, variable discreta y variable
continua?
e) ¿Cómo cree usted que logró aclarar los conceptos de estadísticos en la unidad?
1. a) Discreta;
13
Instituto Profesional Diego Portales
AUTÓNOMO
b) Continua;
c) Continua;
d) Discreta;
e) Continua.
2. a) Cualquier valor, entre cero litros y hasta la capacidad máxima de la máquina. Variable
continua.
b) Desde cero hasta el mayor número de libros que puedan entrar en el estante. Variable
discreta.
c) Los puntos obtenidos en un sólo dado pueden ser 1,2,3,4,5 ó 6. Entonces la suma de
puntos del par de dados podrá ser: 2,3,4,5,6,7,8,9,10,11,12, que son los valores que
puede asumirla variable discreta.
3. a) Aprendí de qué se trata, para qué sirve, en qué se aplica, cuándo se aplica.
b) Una respuesta podría ser: "para conocer el comportamiento general del personal en sus
diferentes acciones, como por ejemplo: el uso de licencias médicas, los atrasos producidos,
etc".
c) Se relaciona con la respuesta anterior, por lo que se puede estudiar la población o una
muestra, en cada caso.
d) Posible respuesta: para ampliar mi vocabulario, para comprender mejor lo expresado por
otras personas en una conversación, para aplicarlo en situaciones de trabajo, etc.
e) Las respuestas aquí, pueden variar mucho, puesto que se refiere a reconocer las formas
de aprender que cada persona tiene.
14
Instituto Profesional Diego Portales
AUTÓNOMO
UNIDAD II
PRESENTACIONES ESTADISTICAS
15
Instituto Profesional Diego Portales
AUTÓNOMO
La idea es agrupar datos que están dispersos y a partir de ese ordenamiento, reconocer
dónde se producen las mayores concentraciones y la dispersión de los mismos. Con esos
elementos se pueden realizar inferencias, conclusiones que son aplicables a la población.
Las distribuciones de frecuencia, siguen sus propias reglas, de tal modo que al seguirlas, el
alumno podrá expresarlas en un cuadro que ordena y orienta la operación de los datos
agrupados. La representación gráfica de los datos, permiten mayor claridad y posibilita un
importante apoyo a la interpretación de la información procesada.
16
Instituto Profesional Diego Portales
AUTÓNOMO
OBJETIVOS
17
Instituto Profesional Diego Portales
AUTÓNOMO
Vamos a conocer acerca de las frecuencias, cómo se distribuyen, pero antes vamos al
Punto siguiente:
La ordenación tabular (en una tabla), de los datos ordenados con sus correspondientes
frecuencias, se conoce como una distribución de frecuencias o tabla de frecuencias.
Una técnica para construir una distribución de frecuencias si solo se conoce la nube de
datos a presentar es la siguiente:
Los datos siguientes representan unidades de cierto producto vendidos en una tienda
durante 7 semanas y han sido ordenados de menos a mayor:
63 68 71 74 76 78 81 84 85 89
66 70 73 75 76 79 82 84 85 90
67 71 73 75 76 79 82 85 86 92
68 71 74 75 77 79 84 85 86 94
R = x max − x min = 94 − 63 = 31
18
Instituto Profesional Diego Portales
AUTÓNOMO
k = 1 + 3.3 log n
k = 1 + 3.3 log 40
k ≈7
R
A=
k
31
A=
6
A = 5.2 ≈ 5
• Se seleccionan los límites de clase que definen los intervalos, de manera que las
clases sean del mismo tamaño.
19
Instituto Profesional Diego Portales
AUTÓNOMO
• Un símbolo que define una clase, tal como 60 - 64 de la tabla anterior, se conoce
como Intervalo de clase. Los números extremos, 60 y 64, son los límites aparentes
(como ya hemos dicho) de la clase
60 + 64
Así, la marca de clase del intervalo 60 - 64 es = 62 . La marca de clase se llama
2
También punto medio de la clase.
2.2.1. HISTOGRAMA.
a) Sus bases sobre un eje horizontal (el eje X) con centros en las marcas de clase y longitud
igual al tamaño de los intervalos de clase.
Si los intervalos de clase tienen igual tamaño, las alturas de los rectángulos son proporcio-
nales a las frecuencias de clase y se acostumbra en tal caso, a tomarlas alturas
numéricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual
tamaño, esas alturas deben ser calculadas.
20
Instituto Profesional Diego Portales
AUTÓNOMO
21
Instituto Profesional Diego Portales
AUTÓNOMO
22
Instituto Profesional Diego Portales
AUTÓNOMO
aproximan el conjunto a una curva, las curvas de este tipo pueden llamarse curvas de
frecuencias o curvas de frecuencias relativas, respectivamente.
23
Instituto Profesional Diego Portales
AUTÓNOMO
3) simétrica.
24
Instituto Profesional Diego Portales
AUTÓNOMO
25
Instituto Profesional Diego Portales
AUTÓNOMO
26
Instituto Profesional Diego Portales
AUTÓNOMO
Ya hemos dicho que una buena lectura de la frecuencia relativa es la porcentual, o sea
nuestra tabla quedaría:
27
Instituto Profesional Diego Portales
AUTÓNOMO
Valores Interpretación
28
Instituto Profesional Diego Portales
AUTÓNOMO
H i (+ ) = 68 Un 68 % obtiene 45 o m
29
Instituto Profesional Diego Portales
AUTÓNOMO
TEST AUTOEVALUATIVO 2
Total 65
30
Instituto Profesional Diego Portales
AUTÓNOMO
j) Porcentaje de empleados con menos de $100 pero con $60 semanales al menos.
c) Los límites de clase, suponiendo los pesos medidos con aproximación de unidad de libra.
3. Construir una distribución de frecuencias acumuladas del tipo “menos que “y “mas
que “, a partir de la distribución de Frecuencias del problema 1 e interprete la
tercera clase.
31
Instituto Profesional Diego Portales
AUTÓNOMO
1.
a) 100;
b) 89,99
99 . 99 + 100
c) Marca de clase de la tercera clase: = 89 . 995 . En la práctica se redondea a
2
75.
90 + 89.99
d) Límite real inferior de la quinta clase: = 89.995 . Límite real superior de la
2
99.99 + 100
quinta clase : = 99.995
2
32
Instituto Profesional Diego Portales
AUTÓNOMO
e) Tamaño del quinto intervalo de clase = límite real de la quinta clase - límite real inferior
de la quinta clase = 99,995 - 89,995= 10. En este caso todos los intervalos de clase tienen
el mismo tamaño, 10.
f) 16;
16
g) = 0.246 = 24.6%
65
i) Número total de empleados con menos de 80 por semana = 16+10+8= 34. Porcentaje
34
pedido = 52.3%
65
j) Número de empleados con menos de 100 pero con 60 al menos = 10+14+16+10= 50.
50
Porcentaje pedido = 76.9%
65
2.
a) Tamaño de intervalo de clase = diferencia común entre las sucesivas marcas de clase
=137 – 128 = 146 - 137= ...... = 9
b) Puesto que todos los intervalos de clase tienen igual tamaño, los límites reales de clase
están en los puntos medios entre las marcas de clase, y así tenemos los valores:
128 + 137 137 + 146 173 + 182
, ............. , es decir: 132.5, 141.5, 150.5,….., 177.5
2 2 2
El límite real inferior de la primera clase es 132.5 - 9 = 123.5 y el límite real superior de
la última clases es 177.5 + 9 = 186.5, puesto que el tamaño común para todos los Intervalos
de clase es 9 libras. Entonces todos los límites reales de clase vienen dados por
33
Instituto Profesional Diego Portales
AUTÓNOMO
c) Puesto que los límites de clase son números enteros, elegimos los más próximos a los
limites reales de clases, o sea : 123 , 124 , 132, 133 , 141 , 142 , ……. Entonces la primera
clase tiene de límites: 124 – 132; la segunda 133 – 141, etc.
3.
Tercera clase:
Valores Interpretación
34
Instituto Profesional Diego Portales
AUTÓNOMO
35
Instituto Profesional Diego Portales
AUTÓNOMO
UNIDAD III
UNIDAD III
INTRODUCCIÓN
En esta unidad aprenderemos a calcular las medidas de tendencia central para datos
agrupados y no agrupados, entre las cuales encontraremos la media aritmética, mediana,
cuarteles deciles y percentiles.
36
Instituto Profesional Diego Portales
AUTÓNOMO
A través de las fórmulas que se presentan, el alumno estará capacitado para obtener un
Sin número de porcentajes de acuerdo a la variable, como por ejemplo, edad, cantidad,
capacidad, valores, etc.
OBJETIVOS
37
Instituto Profesional Diego Portales
AUTÓNOMO
En esta unidad aprenderemos a calcular las medidas de tendencia central para datos no
agrupados y agrupados, entre las cuales encontraremos la media aritmética, moda, mediana,
cuartiles, deciles y percentiles.
Las medidas de tendencia central, son indicadores estadísticos que permiten describir el
com-
portamiento típico de un conjunto de puntajes.
38
Instituto Profesional Diego Portales
AUTÓNOMO
La media aritmética, llamada también Media, es el promedio de los valores que asume la
Variable.
−
La media aritmética de un conjunto cualquiera con N elementos, se representa por x
y se define como la sumatoria (se anota con la letra sigma, se escribe ) de todos los ∑
xi Dividida por el total de datos, N . Es decir:
−
x=
∑x i
Calcular la media aritmética de los números 8 , 3 ,5 ,12 y 10, Para ello aplicamos nuestra
fórmula:
− 8 + 3 + 5 + 12 + 10
x= =
5
38
=
5
7.6
−
x=
∑x i ⋅ fi
N
39
Instituto Profesional Diego Portales
AUTÓNOMO
Tres niños tienen 5 años, dos tienen 8 años, cuatro tienen 6 años y uno tiene 2 años.
Se quiere conocerla edad promedio de los niños, es decir, estadísticamente se requiere
calcular la media aritmética, por lo tanto ordenaremos los datos en una tabla:
xi fi
5 3
8 2
6 4
2 1
N =10
− 5 ⋅ 3 + 8 ⋅ 2 + 6 ⋅ 4 + 2 ⋅1
x= =
10
15 + 16 + 24 + 2
=
10
5.7
En los datos agrupados, el valor de la variable se presenta en intervalos, por lo que para
calcular la media aritmética, será necesario usar la marca de clase y se asignará por xi .
Entonces para calcularla, usaremos la siguiente fórmula:
−
x=
∑x i ⋅ fi
N
40
Instituto Profesional Diego Portales
AUTÓNOMO
¡Apliquemos esto!
En una pequeña empresa, los sueldos de 50 trabajadores se distribuyen entre 100 mil y
599 mil pesos, como lo indica la siguiente tabla. Se requiere conocer el sueldo promedio de
los Trabajadores.
Asi:
−
x=
∑x i ⋅ fi
N
− 18475
x= = 369.5
50
¡Resulto fácil!
3.1.3. MODA.
41
Instituto Profesional Diego Portales
AUTÓNOMO
En una serie de números, la Moda es aquel valor que se presenta con la mayor frecuencia,
es decir, es el valor más común. Puede presentarse el caso de que exista más de una Moda y
también puede ocurrir que la Moda no exista.
⎡ d1 ⎤
Mo = L1 + ⎢ ⎥ ⋅C
⎣ d1 + d 2 ⎦
Donde:
42
Instituto Profesional Diego Portales
AUTÓNOMO
¡Apliquemos esto!
Calcularemos la moda en la siguiente distribución de frecuencias que muestra los puntajes
Obtenidos por un grupo de 400 deportistas, en un test de resistencia:
Puntajes fi
100 - 199 14
200 - 299 46
300 - 399 58
400 - 499 76
500 - 599 68
600 - 699 62
700 - 799 48
800 - 899 22
900 - 1000 6
N = 400
43
Instituto Profesional Diego Portales
AUTÓNOMO
L1 =399,5
d 1 =76-58=18
d 2 = 76 - 68 = 8
C =100
⎡ d1 ⎤
Mo = L1 + ⎢ ⎥ ⋅C
⎣ d1 + d 2 ⎦
⎡ 18 ⎤
= 399.5 + ⎢ ⋅ 100
⎣18 + 8 ⎥⎦
= 468.73
Finalmente, como la moda es 468,5; implica que el puntaje que más se repitió entre los
deportistas, en el test aplicado, es 468,5 puntos.
3.1.4. MEDIANA.
44
Instituto Profesional Diego Portales
AUTÓNOMO
Al igual que la media suele ocurrir que nadie obtiene el valor que asume mediana , lo cual es
totalmente válido.
⎡ N − Fi −1 ⎤
Me = L1 + ⎢ 2 ⎥ ⋅C
⎣ fi ⎦
Donde:
Me = mediana
45
Instituto Profesional Diego Portales
AUTÓNOMO
tabla:
fi Fi(−)
Fronteras
2400 - 2600 7 7
2600 - 2800 20 27
2800 - 3000 33 60
3000 - 3200 25 85
3200 - 3400 11 96
3400 - 3600 4 100
N = 100
Para ello, en la columna de las frecuencias acumuladas se busca el valor igual o mayor al
50% del total de casos; como son 100 casos, deberá ser igual o superior a 50. En la tabla, la
frecuencia acumulada que marca 60, indica el intervalo en que se encuentra la mediana.
Esto quiere decir que el valor de la mediana estará ubicado entre 2.800 y 3.000.
• Ahora, para calcularía aplicamos la fórmula, para lo cual ordenaremos los datos:
L1 = 2.800
N
N = 100 → = 50
2
Fi = 27
f i = 33
C = 200
Así:
46
Instituto Profesional Diego Portales
AUTÓNOMO
⎡ N − Fi −1 ⎤
Me = L1 + ⎢ 2 ⎥ ⋅C
⎣ fi ⎦
⎡ 50 − 27 ⎤
= 288 + ⎢ ⋅ 200
⎣ 33 ⎥⎦
= 2938
• El 50% de los casos, obtiene por hora de trabajo, menos de $2.938 y el otro 50% obtiene
más que esa cantidad.
• De los 100 trabajadores considerados en este caso, 50 de ellos reciben, por hora de
trabajo, entre $2.400 y $ 2.938 y 50 de ellos reciben más que $2.938 con un máximo de
$3.600.
Sabemos que en un conjunto de datos, el valor medio que divide al conjunto en dos partes
iguales, es la mediana. Aprovechando la misma idea, se pueden calcular aquellos valores de la
variable que dividen la distribución en cuatro partes iguales. Estos valores, son los llamados
cuartiles.
Loa cuartiles son los valores que dividen la distribución en cuatro partes iguales
47
Instituto Profesional Diego Portales
AUTÓNOMO
Los cuartiles se designan con la letra Q y cada uno de ellos separa la distribución en 25%.
Así tenemos que:
• Cuartil uno, denominado Q1 es el valor de la variable que marca el límite del primer cuarto
(1/4) de la distribución o lo que es lo mismo, el primer 25% de ella, en consecuencia deja
sobre ella, el 75% restante.
Q2 = Me
• Cuartil tres, denominado Q3 es el valor de la variable que marca el limite de los tres
cuartos (3/4) de la distribución, es decir, es el valor hasta donde se ubica el 75% de la
distribución, en consecuencia deja sobre sí, al 25% restante.
Para calcularlos usaremos la misma fórmula de la mediana, pero con el ajuste correspon-
diente, quedando lo siguiente:
⎡ N − Fi −1 ⎤
Q1 = L1 + ⎢ 4 ⎥ ⋅C
⎣ fi ⎦
⎡ N − Fi −1 ⎤
Q2 = Me = L1 + ⎢ 2 ⎥ ⋅C
⎣ f i ⎦
⎡ 34N − Fi −1 ⎤
Q3 = L1 + ⎢ ⎥ ⋅C
⎣ fi ⎦
Usando el mismo ejemplo que tomamos para calcular la mediana, calcularemos los
Quartiles.
48
Instituto Profesional Diego Portales
AUTÓNOMO
Puntajes fi Fi (−)
(fronteras)
2400 - 2600 7 7
2600 - 2800 20 27
2800 - 3000 33 60
3000 - 3200 25 85
3200 - 3400 11 96
3400 - 3600 4 100
N = 100
Asi:
Luego :
⎡ N − Fi −1 ⎤
Q1 = L1 + ⎢ 4 ⎥ ⋅C
⎣ fi ⎦
⎡ 25 − 7 ⎤
= 2600 + ⎢ ⋅ 200
⎣ 20 ⎥⎦
= 2780
Q1 = 2.780
Como el cuartil uno es 2.780, este valor marca el primer 25% de la distribución, dejando
sobre ella al 75% restante. Esto nos permite dar las siguientes conclusiones:
49
Instituto Profesional Diego Portales
AUTÓNOMO
• El 25% de las personas recibe por hora de trabajo, menos de $2.780 y el 75% de
ellas recibe más de $2.780.
• El estudio revela que un cuarto de las personas consideradas, obtiene por hora de
trabajo entre $2.400 y $2.780, mientras que tos tres cuarto de ellos, reciben más
de $2.780 y hasta $3.600 por hora trabajada.
Como la mediana la calculamos antes, y sabemos que e! cuartil dos es igual a la mediana
entonces, Q2 = 2.938.
Ahora calcularemos Q3, que se ubica en el intervalo donde la frecuencia absoluta acumu-
lada marca 85, ya que ésta debe ser igual o mayor ai 75% del total de casos.
Esto implica que Q3 tomará un valor entre 3.000 y 3.200.
De este modo:
⎡ 3 N − Fi −1 ⎤
Q3 = L1 + ⎢ 4 ⎥ ⋅C
⎣ fi ⎦
⎡ 75 − 60 ⎤
= 3000 + ⎢ ⎥ ⋅ 200
⎣ 25 ⎦
= 3120
Q1 = 2.780
• El 75% de las personas consideradas en el estudio, obtiene entre $2.400 y $3.120, por
hora de trabajo, en tanto que sólo un 25% obtiene más de esa cantidad, pero con tope de
$3.600 por hora.
50
Instituto Profesional Diego Portales
AUTÓNOMO
• El estudio realizado sobre el valor hora de trabajo que perciben 100 personas, revela que
75 de ellas reciben entre $2.400 y $3.120 y 25 restantes reciben más de esa cantidad pero
menos que $3.600.
Resulta muy importante señalar que entre el cuartil uno y el cuartil tres, se encuentra el
50% central de los casos en estudio. Por cierto, si el cuartil uno indica el valor de la variable
que marca el primer 25% de los casos y el cuartil tres es el valor de la variable que señala el
75% de los casos, entonces entre Q1 y Q3 se encuentra el 50% central.
• En el estudio realizado sobre el valor de la hora de trabajo, reveló que los valores más
bajos fluctúan entre $2.400 y $2.780 los cuates son percibidos por el 25% de ellas, en
tanto el 50% de las personas perciben entre $2.780 y $3.120 por la hora de trabajo y sólo
el 25% supera esa cantidad, llegando hasta un valor de $ 3.600.
Análogamente, los valores de la variable que dividen la distribución en diez partes ¡gua-
les se denominan Deciles y se representan por D1 , D2 ……. hasta D9 , mientras que los
valores de la variable que dividen la distribución en cien partes iguales, se denominan
percentiles y se representan por P1 , P2 , ,.........hasta P999 .
D5 = Q2 = Me
51
Instituto Profesional Diego Portales
AUTÓNOMO
P50 = D5 = Q2 = Me
⎡ x⋅ N − Fi −1 ⎤
D x = L1 + ⎢ 10 ⎥ ⋅C
⎣ fi ⎦
• Si calculamos percentiles:
⎡ x⋅ N − Fi −1 ⎤
Px = L1 + ⎢ 100 ⎥ ⋅C
⎣ fi ⎦
Fronteras fi Fi (−)
2400 - 2600 7 7
2600 - 2800 20 27
2800 - 3000 33 60
3000 - 3200 25 85
52
Instituto Profesional Diego Portales
AUTÓNOMO
3200 - 3400 11 96
3400 - 3600 4 100
N = 100
i) Para D3 tenemos que el 30% de 100 es 30, por lo tanto, D3 se ubica en el intervalo cuya
frecuencia acumulada marca 60, por lo tanto, D3 se encuentra entre los valores 2.800 y
3.000;
L1 = 2.800
3N
= 30
10
Fi =60
Fi −1 = 27
f i= 33
C = 200
Asi:
⎡ 3 N − Fi −1 ⎤
D3 = L1 + ⎢ 10 ⎥ ⋅C
⎣ fi ⎦
⎡ 30 − 27 ⎤
= 2800 + ⎢ ⎥ ⋅ 200
⎣ 33 ⎦
= 2818
53
Instituto Profesional Diego Portales
AUTÓNOMO
D3 = 2818
i) Para P42 tenemos que el 42% de 100 es 42, por lo tanto, P42 se ubica en el intervalo cuya
frecuencia acumulada marca 60, por lo tanto, P42 se encuentra entre los valores 2.800 y
3.000;
L1 = 2.800
42 N
= 42
100
Fi =60
Fi −1 = 27
f i= 33
C = 200
Asi:
⎡ 42 N − Fi −1 ⎤
P42 = L1 + ⎢ 100 ⎥ ⋅C
⎣ fi ⎦
⎡ 42 − 27 ⎤
= 2800 + ⎢ ⋅ 200
⎣ 33 ⎥⎦
= 2890
54
Instituto Profesional Diego Portales
AUTÓNOMO
P42 = 2.890
Ejercicio interesante:
Puntajes fi Fi (−)
350 – 399 4 4
400 – 449 6 10
450 – 499 9 19
500 – 549 20 39
550 - 599 31 70
600 – 649 80 150
650 – 699 42 192
700 – 749 10 202
750 – 799 8 210
800 - 849 2 212
212
Interesa determinar que % de alumnos obtuvieron resultados entre 620 y 680 puntos:
Sol:
55
Instituto Profesional Diego Portales
AUTÓNOMO
⎡ 212 ⎤
⎢ x ⋅ 100 − 70 ⎥
Px = 599.5 + ⎢ ⎥ ⋅ 50
⎢ 80 ⎥
⎢⎣ ⎥⎦
⎡ 2.12 x − 70 ⎤
620 = 599.5 + ⎢ ⎥ ⋅ 50
⎣ 80 ⎦
Donde :
x = 48.49 %
⎡ 212 ⎤
⎢ y ⋅ 100 − 150 ⎥
Py = 649.5 + ⎢ ⎥ ⋅ 50
⎢ 42 ⎥
⎢⎣ ⎥⎦
⎡ 2.12 y − 150 ⎤
680 = 649.5 + ⎢ ⎥⎦ ⋅ 50
⎣ 42
Donde :
y = 82.84 %
56
Instituto Profesional Diego Portales
AUTÓNOMO
TEST AUTOEVALUATIVO 3
1. Las calificaciones de un estudiante en seis pruebas fueron 84, 91, 72,68, 87 y 78.
Encuen-
tre la media aritmética de las calificaciones.
2. Los salarios anuales de cuatro hombres fueron $5.000, $6.000, $6.500 y $30.000.
Encuentre la media aritmética de sus salarios.
4. Cuatro grupos de estudiantes, formados por 15, 20,10 y 18 individuos registran los
siguientes pesos: 162,148, 153 y 140 libras, respectivamente. Encuentre el peso medio de
todos los estudiantes.
5. Los puntajes un deportista en seis pruebas fueron 84, 91, 72,68, 87 y 78. Calcule la
mediana de los puntajes.
6. Los honorarios de cinco empleados de una oficina son $2,52; $3,96; $3,28; $9,20 y
$3,75. Encontrar:
(a) 3, 5, 2, 6, 5, 9, 5, 2, 8, 6;
57
Instituto Profesional Diego Portales
AUTÓNOMO
70 – 79.99 16
80 – 80.99 14
90 – 90.99 10
100 - 109.99 5
100 - 109.99 2
Total 65
9. Determinar: el percentil 35, el percentil 60, para la distribución del problema anterior.
10. En la distribución:
Puntajes fi Fi (−)
350 – 399 4 4
400 – 449 6 10
450 – 499 9 19
500 – 549 20 39
550 - 599 31 70
600 – 649 80 150
650 – 699 42 192
700 – 749 10 202
750 – 799 8 210
800 - 849 2 212
212
a) Calcula P5 y P95
b) Determina el percentil al que corresponde el valor 582.4 puntos
c) Que % de alumnos obtuvo entre 400 y 600 puntos
58
Instituto Profesional Diego Portales
AUTÓNOMO
1.
−
X =
∑X i
=
84 + 91 + 72 + 68 + 87 + 78 480
= = 80
N 6 6
2. X =
−
∑X i
=
5000 + 6000 + 6500 + 30000 47500
= = 11875
N 4 4
3.
−
X =
∑f X i i
=
20 ⋅ 4 + 40 ⋅ 5 + 30 ⋅ 6 + 10 ⋅ 7 530
= = 5.30
N 100 100
4.
−
X =
∑fX i i
=
15 ⋅ 162 + 20 ⋅ 148 + 10 ⋅ 153 + 18 ⋅ 140
= 150
∑f i 15 + 20 + 10 + 18
6. a) Puestos en orden los honorarios son 2,52; 3,28; 3,75; 3,96; 9,20. Puesto que hay un
número impar de términos, hay solamente un valor medio 3,75 que será la mediana
pedida.
Nótese que la mediana no viene afectada por el valor extremo 9,20, mientras que la media
sí lo está. En este caso la mediana da una mejor información que la media sobre el salario
horario.
59
Instituto Profesional Diego Portales
AUTÓNOMO
2+ 2+3+5+5+5+ 6+ 6+8+9
Media = = 4.54
10
5+5
Mediana = media aritmética de los valores centrales = =5
2
b) Puestos en orden de magnitud, los números son 48,7; 48,9; 49,5; 50,3; 51,6.
8)
Q1 = 68.25
Q2 = 79.06
Q3 = 90.75
D1 = 58.12
D2 = 59.995
D9 = 101.00
9)
P35 = 72.97
P60 = 83.57
10)
60
Instituto Profesional Diego Portales
AUTÓNOMO
Interesante:
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir
3, 2, 4, que reordenadas son 2, 3 y 4.
Así , tenemos
61
Instituto Profesional Diego Portales
AUTÓNOMO
Los diagramas de Tallos y Hojas además de ser fáciles de elaborar, presentan más
información que los histogramas, como veremos más adelante.
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda
distribución
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.
Teniendo en cuenta que con las representaciones anteriores los datos están ordenados,
podemos aprovechar estas disposiciones para representar los diagramas de Cajas y Bigotes
(boxplots ) .
Estos diagramas se basan en los siguientes parámetros de la distribución: valor mínimo, los
cuartiles Q 1, Q 2 y Q 3 y el valor máximo.
62
Instituto Profesional Diego Portales
AUTÓNOMO
Cuartiles
Cuartil Primero (Q1). Es el valor mayor que el 25% de los valores de la distribución. Para la
misma, como N = 20 resulta que N/4 = 5; la media aritmética de dicho valor y el siguientes
es
(24 + 25) / 2 = 24,5
(39 + 39) / 2 = 39
63
Instituto Profesional Diego Portales
AUTÓNOMO
o
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
o
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el
25% de los más jóvenes están más concentrados que el 25% de los mayores.
o
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está está
comprendido en 14,5 años.
o
Seguro que tú podrás obtener más información (¡Utiliza la mediana!).
Por último, comparamos, mediante los diagramas de Cajas y Bigotes, las dos distribuciones
tratadas.
64
Instituto Profesional Diego Portales
AUTÓNOMO
UNIDAD IV
MEDIDAS DE DISPERSION
65
Instituto Profesional Diego Portales
AUTÓNOMO
UNIDAD IV
INTRODUCCIÓN
En esta unidad se utilizarán fórmulas para calcular las medidas de dispersión de datos
Agrupados, que permiten establecer la desviación media y que darán a conocer un valor
absoluto, a través del conjunto de datos definido como la sumatoria de los cuadrados de las
desviaciones, dividido por el total de casos.
Los ejercicios de aplicación, pondrán al alumno en contacto con su aprendizaje, los que
podrá contrastaren el anexo con las respuestas correctas.
66
Instituto Profesional Diego Portales
AUTÓNOMO
OBJETIVOS
67
Instituto Profesional Diego Portales
AUTÓNOMO
4.1.1. RANGO.
El rango (R) de un conjunto de datos es la diferencia entre el mayor y menor de todos ellos
Ejemplo:
Se entiende por el promedio de las desviaciones (alejamientos) de cada uno de los valores
respecto de un valor referencial (generalmente la media aritmética)
68
Instituto Profesional Diego Portales
AUTÓNOMO
−
∑ xi − x
DM =
N
−
En donde xi − x es el valor absoluto de las desviaciones de las diferentes xi respecto de
−
x . (El
valor absoluto de un número, es el mismo número sin asociarle signo alguno y se indica por
dos barras verticales a ambos lados del número.
Ejemplo:
− 2 + 3 + 6 + 8 + 11
• Calculemos la madia aritmética: x= =6
5
• Ordenemos la información:
xi −
xi − x
2 4
3 3
6 0
8 2
11 5
∑ 14
Así :
69
Instituto Profesional Diego Portales
AUTÓNOMO
−
∑ xi − x
DM =
N
14
= = 2.8
5
−
∑ f i xi − x
DM =
N
Donde: N = ∑f i
4.1.3. VARIANZA.
Asi:
2
⎛ −
⎞
∑ ⎜
⎝
x i − x ⎟
⎠
s =
2
Si el estudio se refiere a una varianza muestral, se representa por s 2 y se divide por n-1 y
si se refiere a la varianza poblacional, se designa por σ 2 y se divide por N.
70
Instituto Profesional Diego Portales
AUTÓNOMO
2
⎛ −
⎞
∑ ⎝ i ⎟⎠
⎜ x − x
s=
N
Cuando los datos vienen dados por una distribución de frecuencias s queda dado por la
Siguiente fórmula:
2
⎛ −
⎞
∑ f i ⎜ xi − x ⎟
⎝ ⎠
s=
N
∑ (x − a)
2
N
puede ser distinto de la media aritmética. De todas las desviaciones típicas, la mínima es
−
aquella para la que a = x , a causa de una propiedad que, suministra una razón de peso para
definir la desviación típica, como se ha definido anteriormente.
− −
a) El 68,27% de los casos están comprendidos entre x − s y x + s . (es decir, el valor de
la desviación típica a ambos lados de la media).
− −
b) El 95,45% de los casos están comprendidos entre x − 2 s y x + 2 s . (es decir, el doble
del valor de la desviación típica a ambos lados de la media).
− −
c) El 99,73% de los casos están comprendidos entre x − 3s y x + 3 s . (es decir, el triple del
71
Instituto Profesional Diego Portales
AUTÓNOMO
N 1 s12 + N 2 s 22
s2 =
N1 + N 2
Esta es una media aritmética ponderada de las varianzas. Este resultado puede genera-
lizarse a 3 ó más series de datos.
Realicemos un ejercicio para calcular Medidas de Dispersión de datos agrupados. Para esto
consideremos nuestra distribución del capítulo anterior:
− − −
− 2
xi − x f i ⋅ xi − x xi − x f i ⋅ xi − x
Salario xi fi xi ⋅ f i
240 - 249.5 7 1746.5 45 315 2025 14175
259
260 - 269.5 20 5390 25 500 625 12500
279
280 - 289.5 33 9553.5 5 165 25 825
299
300 - 309.5 25 7737.5 15 375 225 5625
319
320 - 329.5 11 3624.5 35 385 1225 13475
72
Instituto Profesional Diego Portales
AUTÓNOMO
339
340 - 349.5 4 1398 55 220 3025 12100
359
Totales: 100 29450 1960 58700
−
x=
∑x i ⋅ fi
n
− 29450
x= = 294.5
100
−
• Con el valor anterior, construimos la columna de las desviaciones xi − x
−
• Como se trata de datos agrupados, construimos la columna f i ⋅ xi − x
−
∑f i xi − x
DM =
N
1960
DM =
100
DM = 19.6
− 2
• Construyamos ahora la columna: xi − x
73
Instituto Profesional Diego Portales
AUTÓNOMO
− 2
• Como es una distribución de datos agrupados , fabriquemos la columna f i ⋅ xi − x
2
⎛ −
⎞
∑ f i ⎜ xi − x ⎟
⎝ ⎠
s=
N
58700
s=
100
s = 587
s = 24.228 ≈ 24.23
74
Instituto Profesional Diego Portales
AUTÓNOMO
⎡ N − Fi −1 ⎤
Q1 = L1 + ⎢ 4 ⎥ ⋅C
⎣ fi ⎦
⎡ 25 − 7 ⎤
Q1 = 259.5 + ⎢ ⋅ 20
⎣ 20 ⎥⎦
Q1 = 277.5
⎡ 3 N − Fi −1 ⎤
Q3 = L1 + ⎢ 4 ⎥ ⋅C
⎣ fi ⎦
⎡ 75 − 60 ⎤
Q3 = 299.5 + ⎢ ⋅ 20
⎣ 25 ⎥⎦
Q3 = 311.5
Q3 − Q1
DQ =
2
311.5 − 277.5
DQ =
2
DQ = 17
75
Instituto Profesional Diego Portales
AUTÓNOMO
Q3 + Q1
Q=
2
311.5 + 277.5
Q=
2
Q = 294.5
−
Nota: este valor coincide incluso con x
−
En un conjunto de datos, si la media aritmética es x y la desviación típica s , entonces el
valor tipificado o estandarizado z de un dato x es:
−
x−x
z=
s
−
Es claro que el puntaje z correspondiente a x es 0. Ya que:
76
Instituto Profesional Diego Portales
AUTÓNOMO
− −
x− x 0
z= = =0
s s
Ejemplo:
−
x=
∑ x = 2 + 3.9 + 5 + 5.9 + 6.2 = 4.6
N 5
∑ ⎛⎜⎝ xi − x ⎞⎟⎠
−
s=
N
s = 1.53
Así:
2 − 4.6 −
Para la nota 2 : z= = −1.7 ; la nota 2 se encuentra a 1.7 s (por debajo de x )
1.53
3.9 − 4.6
Para la nota 3.9 : z= = −0.5 ; la nota 3.9 se encuentra a 0.5 s (por debajo de
1.53
−
x )
77
Instituto Profesional Diego Portales
AUTÓNOMO
5 − 4.6 −
Para la nota 5 : z= = 0.3 ; la nota 5 se encuentra a 0.3 s (por encima de x )
1.53
5.9 − 4.6 −
Para la nota 5.9 : z= = 0.8 ; la nota 5.9 se encuentra a 0.8 s (por encima de x
1.53
)
6.2 − 4.6 −
Para la nota 6.2 : z= = 1 ; la nota 6.2 se encuentra a 1 s (por encima de x )
1.53
Solución:
Conclusión: Mejor en Estadística que en Álgebra, aún teniendo nota mas alta en Álgebra.
78
Instituto Profesional Diego Portales
AUTÓNOMO
s
CV = −
x
Este parámetro sirve para relativizar el valor de la desviación típica y así poder comparar la
dispersión de dos poblaciones estadísticas con gamas de valores muy discretas. Por ejemplo,
−
si en una compañía mexicana los salarios de los empleados tienen una media x1 = 7.000
pesos y una desviación típica s1 = 500 pesos y en otra empresa española la media de los
−
salarios es x 2 200.000 pesetas y la desviación típica s 2 = 40.000 pesetas, para comparar la
dispersión de salarios se recurre al coeficiente de variación:
Se aprecia así que en la primera compañía los salarios tienen menor dispersión que en la
segunda.
79
Instituto Profesional Diego Portales
AUTÓNOMO
TEST AUTOEVALUATIVO 4
b) 9, 3, 8, 8, 9, 8, 9, 18.
3. Encuentre la desviación estándar, de cada una de las dos series de números, del problema
Anterior.
80
Instituto Profesional Diego Portales
AUTÓNOMO
6) Sea la distribución:
212 puntajes de un test de habilidades:
Puntajes fi Fi (−)
350 – 399 4 4
400 – 449 6 10
450 – 499 9 19
500 – 549 20 39
550 - 599 31 70
600 – 649 80 150
650 – 699 42 192
700 – 749 10 202
750 – 799 8 210
800 - 849 2 212
212
a) Determine la desviación típica
b) Determine la varianza
1)
a) 15
b) 15
2)
a) DM = 4.25
b) DM = 2.25
3)
a) s = 4.87
b) s = 3.87
81
Instituto Profesional Diego Portales
AUTÓNOMO
4)
a) s2 = 23.75
b) s2 = 15
5)
− −
a) x = 8 , x=8
b) s2 = 18 , s2 = 24
c) Media combinada = 8
d) Varianza combinada = 20.25
6)
a) s = 81.49 Pts.
b) s2 = 6640.6
82
Instituto Profesional Diego Portales
AUTÓNOMO
Bibliografía:
83