Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ángelo Gárate
Departamento de Matemática
Universidad Técnica Federico Santa María
1-1
Recolección de Datos
Organización de la Información
Ejemplo
Se registra la información de los grados de Mercalli de 20 sismos
ocurridos en la ciudad de Santiago.
V V I V I V II V IV IV III II III
II II III IV V V V I II I III
Resumen en la siguiente tabla:
Esc. Mercalli ni fi
I 1 1/20
II 4 4/20
III 4 4/20
IV 3 3/20
V 4 4/20
VI 3 3/20
VII 1 1/20
1-8
Supongamos que estamos trabajando en una escala ordinal, es
decir, las clases C1 , . . . , Ck están ordenadas.
Definición: Se llama frecuencia absoluta acumulada hasta la
clase Cj , al número de individuos que pertenecen a las clases
C1 , C2 , . . . , Cj . Lo denotamos por Nj con j = 1, . . . , k.
Observación
Pj
Nj = i=1 ni ; Nk = n
Ejemplo Anterior
Se registra la información de los grados de Mercalli de 20 sismos
ocurridos en la ciudad de Santiago.
Esc. Mercalli ni fi Nj Fj
I 1 1/20 1 1/20
II 4 4/20 5 5/20
III 4 4/20 9 9/20
IV 3 3/20 12 12/20
V 4 4/20 16 16/20
VI 3 3/20 19 19/20
VII 1 1/20 20 20/20=1
1-10
Ejemplo
Supongamos que se desea estudiar las ventas de un producto de
una tienda. Se toman los datos de las ventas realizadas en 36
meses. Los datos son los siguientes:
490 650 1800 1240 1200 600 870 890 630 600
1200 1210 650 470 1070 1200 680 600 870 1020
880 1090 1050 1250 690 1210 810 810 890 1250
1200 1000 1000 630 690 1270
Observación
Una forma de ordenar los datos es usando un diagrama de tallo
y hoja.
1-13
Tallo Hoja
4 70 90
6 00 00 00 30 30 50 50 80 90 90
8 10 10 70 70 80 90 90
10 00 00 20 50 70 90
12 00 00 00 00 10 10 40 50 50 70
14
16
18 00
1-14
Observación
Definiremos la marca de clase de la clase i-ésima por:
LIi + LSi
mi =
2
1-15
Ventas mi ni fi Ni Fi
[469,5-691,3) 580,4 12 12/36 12 12/36
[691,3-913,1) 802,2 7 7/36 19 19/36
[913,1-1134,9) 1024 6 6/36 25 25/36
[1134,9-1356,7) 1245,8 10 10/36 35 35/36
[1356,7-1578,5) 1467,6 0 0 35 35/36
[1578,5-1800,3) 1684,4 1 1/36 36 1
Observación
Los datos resumidos en una tabla se conocen como datos
agrupados
1-16
Medidas Descriptivas
Tendencia Central
Estas medidas nos entregan información para resumir los datos
y además tienden a ubicarse en el centro del conjunto de datos.
Supongamos que tenemos una muestra de tamaño n dada por
X1 , X2 , . . . , Xn .
1. Promedio o media aritmética: El promedio de un conjunto
es el centro de gravedad de dicho conjunto.
Pn
I Datos a granel: X = n1 i=1 Xi
Pk Pk
I Datos tabulados: X = n1 i=1 ni · mi = i=1 fi · mi
Ejemplo:
I Datos a granel: X = 935
I Datos tabulados: X = 912, 961
1-18
2. Mediana: Se define como el valor que ocupa el lugar central
de los datos, después de ser ordenados de menor a mayor.
I Datos a granel:
X( n+1 ) , n impar
(
2
Me(X) = h i
0, 5 · X( n ) + X( n +1) , n par
2 2
ncmo − ncmo−1
Mo(X) = LIcmo + · acmo
2 · ncmo − ncmo−1 − ncmo+1
Medias de Posición
Estas medidan están basadas en los cuantiles, los cuales son
medidas de un conjunto de datos que se consideran fracciones
acumuladas del conjunto de observaciones, cuando son
ordenados de menor a mayor.
1. Cuartil (Q): Divide el conjunto de datos en 4 sectores del
25% cada uno.
2. Quintil (K): Divide el conjunto de datos en 5 sectores del
20% cada uno.
3. Decil (D): Divide el conjunto de datos en 10 sectores del
10% cada uno.
4. Percentil (P ): Divide el conjunto de datos en 100 sectores
del 1% cada uno.
1-21
Ejemplo:
P25 = Q1 = 635, 85 (Clase percentil C1 )
P75 = Q3 = 1179, 26 (Clase percentil C4 )
1-23
Medidas de Variabilidad
Observación
Rango intercuartil: RIQ = Q3 − Q1
1-24
2. Desviación media:
Pn
I Datos a granel: DM = n1 i=1 |Xi − X|
I Datos tabulados:
Pk Pk
DM = n1 i=1 ni |mi − X| = i=1 fi |mi − X|
Ejemplo:
I Datos a granel: DM = 242, 5
I Datos tabulados: DM = 264, 781
Observación
También se puede definir la desviación mediana y desviación
modal, basta reemplazar el promedio por la mediana y la moda,
respectivamente.
1-25
3. Varianza:
1
Pn
I Datos a granel: S 2 = n−1 i=1 (Xi − X)
2
I Datos tabulados:
Pk Pk
S 2 = n1 i=1 ni (mi − X)2 = i=1 fi (mi − X)2
Observación
I Se puede probar:
P 2
n
• Datos a granel: S 2 = 1
n−1 i=1 Xi2 + nX
Pk 2
• Datos tabulados: S 2 = i=1 fi · m2i − X
I La raíz cuadrada de la varianza se define como la desviación
estándar .
1-26
4. Coeficiente de Variación: Este índice representa la
variabilidad relativa de una población o muestra. Nos
proporciona información sobre la homogeneidad de la
muestra.
S
CV =
|X|
Observación
I El CV nos permite comparar muestras con distintas
unidades de medidas.
I A mayor CV entonces la muestra es menos homogenea.
I Se puede definir el coeficiente de variación robusta:
RIQ
CV R =
Q1 + Q3
1-27
Medidas de Forma
Indicadores de Simetría
Q1 + Q3 − 2Q2
1. Indicador de Yule: Iy =
2Q2
Q1 + Q3 − 2Q2
2. Indicador de Simetría: Is =
RIQ
3(X − M e)
3. Coeficiente de Pearson: As =
S
m3
4. Coeficiente de simetría de Fisher: γ3 = 3
S
donde P
1 n 3 ; granel
n i=1 (Xi − X)
m3 = P k 3 ; tabulados
i=1 fi (mi − X)
1-29
Indicadores de Curtosis
D9 − D1
1. Coeficiente K2 : K2 = −1
1, 9RIQ
m4
2. Coeficiente de Fisher: γ4 = 4 − 3
S
donde P
1 n 4 ; granel
n i=1 (Xi − X)
m4 = P k 4 ; tabulados
i=1 fi (mi − X)
Observación
Si los coeficientes de curtosis son iguales a cero entonces la
variabilidad es mesocurtica.
Si los coeficientes de curtosis son positivos entonces la
variabilidad es leptocurtica.
Si los coeficientes de curtosis son negativos entonces la
variabilidad es platicurtica.
1-32
Box-Plot
Es un gráfico que nos permite visualizar la simetría, la
existencia de outliers (datos atípicos), la dispersión con respecto
a la mediana y el rango de los datos. La construcción del gráfico
es la siguiente:
1-34
Box-Plot
donde LI = Q1 − 1, 5 · RIQ.
El valor del bigote superior se calcula de la siguiente forma:
donde LS = Q3 + 1, 5 · RIQ.
1-35
Muestra estratificada
El objetivo de analizar una muestra estratificada es el de
comparar la media y la varianza entre estratos (grupos).
Supongamos que tenemos m estratos y que se ha extraído una
muestra de tamaño n.
Supongamos que la muestra Pm en cada estrato es de ni , con
i = 1, . . . , m, donde n = i=1 ni .
Se define el peso del estrato i por ωi = nni ∀i = 1, . . . , m.
El promedio de cada estrato se define por:
ni
1 X
Xi = Xi ∀i = 1, . . . , m
ni
i=1
Pm
Por lo tanto el promedio total se define por: X T = i=1 ωi X i
1-36
La varianza de cada estrato se define por
ni
1 X
Si2 = (Xi − X i )2
ni
i=1
Observación
La varianza intra muestra la variabilidad existente dentro de
cada estrato, mientras que la varianza inter muestra la
variabilidad entre los estratos.