Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0 Distribución de frecuencias
Es un método para organizar y resumir datos. Bajo éste, los datos que componen
una serie se clasifican y ordenan, indicándose el número de veces que se repite el
valor.
2.0.1 Atributos
Tabla 1
Movimientos de embarcaciones en los puertos según banderas (enero de 2000)
2.0.2 Variables
2.0.2.2 Variable discreta: cuando sólo se toman valores enteros; por ejemplo: el
número de estudiantes, las materias que cursaré en el semestre, la cantidad de
aulas de la universidad.
Veamos ahora como se elabora una tabla de frecuencias, tanto para la variable
discreta como para la variable continua. Pero antes revisemos la simbología que
se utiliza en la elaboración de estas tablas, necesarias para el cálculo de las
diferentes medidas que se aplican en el análisis de los datos.
N = Tamaño poblacional.
n = Tamaño de muestra.
Xi = Característica cuantitativa (observada en cada unidad investigada).
ni = Frecuencia absoluta (número de veces que se repite cada valor de la
variable).
hi = Frecuencia relativa (se obtiene dividiendo cada frecuencia absoluta por el
tamaño de la muestra o el tamaño poblacional).
Ni = Frecuencia absoluta acumulada.
Hi = Frecuencia Relativa acumulada.
m = Número de valores que toma la variable (número de marcas de clase o
número de intervalos).
Y’i-1 = Variable discreta o marca de clase.
Y’i-1 - Y’i = Los intervalos en los que se divide la variable continua (siendo Y’ i-1 el
límite inferior y Y’i
el límite superior del intervalo).
C = Amplitud del intervalo entre Y’i-1 - Y’i.
Variable Discreta
Tabla 2
Datos originales o no agrupados:
2.0.3 Tabulación
En este proceso se requiere, en primer lugar, determinar los valores que toma la
variable. Con los datos de la tabla 2, correspondiente al número de figuras con
desperfectos por caja examinada, encontramos que los valores de la variable son
0, 1, 2, 3 y 4, tal como puede verse en la tabla 3.
Tabla 3
Para la presentación de un informe hay que tener en cuenta que: a) todo cuadro
requiere ser numerado; b) debe poseer un título completo que indique su
contenido; c) se prescinde de las columnas utilizadas para la tabulación en la
tabla, las cuales son reemplazadas por la frecuencia absoluta, con la posibilidad
de agregar otra columna correspondiente a la frecuencia relativa, la que nos
indicará la distribución porcentual. En el cuadro anterior, por ejemplo, se podrá
leer que el 10% de las cajas no tienen figuras defectuosas, porcentaje que se
obtiene al dividir la frecuencia absoluta (tres) por el tamaño de la muestra (treinta)
y luego se multiplica por cien.
Tabla 4
Tabla de frecuencias
Yi ni hi Ni Hi
Y1 n1 h1 N1 H1
Y2 n2 h2 N2 H2
Y3 n3 h3 N3 H3
Y4 n4 h4 N4 H4
Y5 n5 h5 N5 H5
n 1.00
Tabla 5
Distribución de frecuencia
Yi ni hi Ni Hi
0 3 0.10 3 0.10
1 6 0.20 9 0.30
2 12 0.40 21 0.70
3 7 0.23 28 0.93
4 2 0.07 30 1.00
30 1.00
Se puede observar en la tabla 5 que la frecuencia absoluta nos indica que, de las
30 cajas examinadas, tres de ellas no presentan figuras defectuosas, seis cajas
presentaron una figura defectuosa y así sucesivamente. La frecuencia relativa
indica lo mismo, pero en términos porcentuales; así un 10% de las cajas
examinadas no presentaron figuras defectuosas, el 20% de las cajas tienen una
figura defectuosa, etc. La obtención de las frecuencias absolutas acumuladas se
hace por medio de sumas sucesivas, las que se simbolizan por Ni. La columna de
N no se suma y la última frecuencia absoluta será igual a n.
N1 = n1 = 3
N2 = n1 + n2 = N1 + n2
N2 = 3 + 6 = 9
N3 = n1 + n2 + n3 = N2 + n3
N3 = 3 + 6 + 12 = 9 + 12 = 21
Ejemplo para variable continua:
X (min) = 47 ; X (max) = 92
M o K = 1 + 3.3 log n
Para evitar posibles errores se hace necesario tener en cuenta una regla muy
sencilla para que la aplicación de m o k: tomamos del resultado el primer
decimal; si éste es 0,1,2,3 ó 4 se deja el número entero tal como está, pero si
es 5,6,7,8 ó 9, se aproxima el entero al número siguiente. En el anterior
cálculo que nos dio 5.87; se toma el primer decimal y se aplica la anterior
regla de aproximación, por lo que quedaría en 6.
Al determinar el valor de C, no es necesario que ésta sea igual para todos los
intervalos, tal como acontece en numerosos casos prácticos. Sin embargo, con
fines de simplificación y funcionalidad, se puede considerar el valor de C como
una constante para todos los intervalos. Dicho valor constante se obtiene
aplicando la siguiente formula:
C = (X max - X min) / m
Entonces: C = 8
K = 1 + (3.3)(log n)
n: es la sumatoria de todos los datos que se van a analizar
n = 50
K= 1+3.3(log 50)
K= 6
IC = 205-105/6
IC = 16.66, se aproxima a 17.
Es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y
superior de la clase y dividiendo entre dos (2)
de observaciones (n).
Ventajas
Desventajas
Ejemplo:
X =543
x 1 + x 2 + x 3 +. . .+ xn
x=
n
10867
x= =543 .35≈543
20
Ejemplo:
Primero se calcula el punto medio de cada clase; luego se multiplica cada punto
medio por la frecuencia de la observación de dicha clase. Sumamos todos los
resultados, dividimos esta suma entre el número de observaciones de la muestra.
y=
∑ Y i . ni
n
Ejemplo:
K Yj-1-Yj Yi ni Yini
1351
solución= 48 . 25
28
Obsérvese que se procede a realizar una columna del Z’i, tal como lo indica la
fórmula. A cada valor de Yi se resta el valor del origen del trabajo; éste es un valor
intermedio en la distribución de los valores de Yi. Si el número de valores de Yi es
impar, el origen del trabajo es el valor de Yi que se ubica en la mitad de las
observaciones. Tomemos el ejemplo anterior: Yi: 523, 540, 557, 574, 591; el valor
que queda en la mitad de los valores de Yi es 557; este valor corresponderá al
origen del trabajo (Ot). Pero si los valores de Yi son un número par, siempre se
toma el número que queda por encima del que corresponde a las dos opciones.
Por ejemplo, Yi: 523, 540, 557, 574, 591, 608 (seis valores de Yi), por lo tanto, las
dos opciones serían 557 y 574; pero, como se dijo, se toma siempre el que está
como primera opción de izquierda a derecha, en este caso 557. Pero como
siempre va a estar ubicado en la columna corresponde al que está en la parte
superior de las dos opciones. n
557+ {−272 }
y= =543 . 4
20
z'i
z ''i =
c
3.0.4 La Mediana
Ventajas
Desventajas
Ejemplo:
2 – 4 – 6 – 12 – 16 – 21 - 36
n+1
mediana=
1
n+1
me=
1
7 +1 8
me= = =4
1 2
me = 8 / 2 = 4, lo que corresponde a la cuarta observación; para este ejemplo la
mediana es: 12.
Para realizar éste cálculo, se hace necesario ordenar las observaciones de menor
a mayor.
El primer paso para calcular la mediana a partir de unos datos agrupados consiste
en determinar la clase mediana: aquella en donde está situada la mediana; ésta se
halla al efectuar el cociente n/2. Una vez hallada la clase, determinamos el límite
real inferior del intervalo de clase; a este valor se le adiciona la fracción formada
por n/2 menos la frecuencia acumulada dividida por la frecuencia de clase y
multiplicada por el intervalo.
3.0.5 Moda
Como su nombre lo sugiere, es el valor más común (de mayor frecuencia dentro
de una distribución) que una información puede tener:
• una moda (unimodal);
• dos modas (bimodal);
• varias modas (multimodal).
Sin embargo, también puede ocurrir que la información no posea moda en
absoluto.
Ventajas
Desventajas
Los cuartiles son valores posicionales que dividen la información en cuatro partes
iguales: el primer cuartil deja el 25% de la información por debajo de él y el 75%
por encima; el segundo cuartil, al igual que la mediana, divide la información en
dos partes iguales; por último, el tercer cuartil deja el 75% por debajo de sí y el
25% por encima.
Su fórmula:
n
−n +1
4 j
Q 4 = y ' −1+c
nj
3.0.10 Quintiles
Su fórmula es:
n
−n j−1
5
qi = y ' j−1 +c
nj
3.0.11 Deciles
3.0.12 Centiles
Su fórmula es:
n
−n j+1
100
p= y ' j−1 +c
nj
Conclusión
Poblaciones y muestras
CONTENIDO
4.0 Medidas de Dispersión
4.0.1 Varianza
4.0.2 Desviación standar
4.0.3 Coeficiente de variación
4.0.4 Coeficiente de variación de Pearson
4.0.5 Desviación Media
Unidad 4
Introducción
Justificación
No sólo se hace necesario hallar medidas que de alguna forma representan datos
válidos, sino que hay que asociarlas con otras con el fin de estar seguros que los
resultados obtenidos tengan una mayor credibilidad y confiabilidad; es necesario
hacer notar que estas nuevas medidas dependen de las analizadas en el capítulo
anterior.
Objetivo General
Contribuir al proceso enseñanza-aprendizaje de la estadística a partir de
herramientas que faciliten la deducción y el poder inferir acerca de un problema
planteado de la vida diaria y que sirvan de soporte para la introducción de la
probabilidad.
Evaluación Diagnóstica
4.0.1 Varianza
n
∑ ( x j− Media ( x )) 2
j −1
S 2x=
n
Recorrido
Es la diferencia entre el dato mayor y el dato menor. La traducción de recorrido en
inglés es "range" y por eso también se la conoce como "rango". Ésta medida de
dispersión es comúnmente usada porque es fácil de calcular. Sin embargo, no es
muy confiable, ya que dos grupos de datos pueden tener el mismo recorrido y ser
bien diferentes en cuanto a lo dispersos que están entre sí.
60,000.00
50,000.00
40,000.00 Antioquia
30,000.00
20,000.00 Atlántico
10,000.00
-
enero febrer marzo abril mayo
o
Otra medida que se suele utilizar es el coeficiente de variación (CV). Ésta es una
medida de la dispersión relativa de los datos y se calcula dividiendo la desviación
típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba
en que nos permite comparar la dispersión o variabilidad de dos o más grupos.
Ejemplo:
Si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 kg) cuya media es de 69,6
kg, su desviación típica (s) = 10,44, la tas( tensión arterial) de los mismos (150,
170, 135, 180 y 195 mmhg) cuya media es de 166 mmhg y su desviación típica de
21,3. ¿Qué distribución es más dispersa, el peso o la tensión arterial?
21. 3
=12. 83 %
CV de la variable tas = 166 presión arterial
xi x i−x
•165 • 1.8
•163 •-0.2
•171 • 7.8
•156 •-7.2
•162 •-1.2
•159 •-4.2
•162 •-1.2
•168 • 4.8
•159 •-4.2
•167 • 3.8
Los residuos también nos dan una idea de la dispersión de las observaciones
individuales alrededor del promedio. Si el valor absoluto de los residuos es grande,
es porque los valores están muy dispersos, pero si el valor absoluto de los
residuos es pequeño, significa que las observaciones individuales están muy cerca
del promedio y, por lo tanto, hay poca dispersión.
•165 • 1.8 • 3.24
•163 •-0.2 • 0.04
•171 • 7.8 •60.84
•156 •-7.2 •51.84
•162 •-1.2 • 1.44
•159 •-4.2 •17.64
•162 •-1.2 • 1.44
•168 • 4.8 •23.04
•159 •-4.2 •17.64
•167 • 3.8 •14.44
SumadeCuadrados ∑ ( x −xi )
2
Varianza= =
N N
Peso Desviación
11 40 Kg. 2Kg.
25 50 Kg. 2Kg.
Se define como:
Ejemplo: Para los datos de salarios diarios que se presentan en la tabla 4.4 la
media aritmética es 2949,50
Numero de
Salario Día (X) Trabajadore (X – X) F(x – x)
s (F)
$ 2400 – 2599 2499,50 7 450 3150
$ 2600 – 2799 2699,50 20 250 5000
$ 2800 – 2999 2899,50 33 50 1650
$ 3000 – 3199 3099,50 25 150 3750
$ 3230 – 3399 3299,50 11 350 3850
$ 3400 – 3599 3499,50 4 550 2200
Total 100 19600
55 58 62 63 65 69 71 77 83
-67 -67 -67 -67 -67 -67 -67 -67 -67
-12 -9 -5 -4 -2 +2 +4 +10 +16
12 + 9 + 5 + 4 + 2 + 2 + 4 + 10 + 16 = 69 = 7.11 Frs.
9 9
Debido a ello la clase media, aunque proporciona una visión bastante fiel de la
dispersión, es poco empleada de aquí, la idea de considerar no los valores
absolutos de las diferencias, sino son cuadrados, siempre positivos y cuya suma
consecuentemente, no puede anularse.