Está en la página 1de 10

1

Elementos de estadstica
para historiadores
Jorge Gonzalorena Dll
Universidad de Valparaso
2014
1. Planteamiento del problema
2. Levantamiento de la informacin
3. Ordenamiento, agrupacin y presentacin
de los datos
ETAPAS DE UN PROCESO INVESTIGATIVO
CON ESTADISTICA DESCRIPTIVA
El primer paso, en toda investigacin, es lograr
una definicin clara, precisa, fundada y justificada
del problema que ser abordado.
Cuando dicha investigacin pretende, adems,
apelar a mtodos estadsticos, lo anterior permite
definir de manera igualmente precisa la poblacin.
1. Planteamiento del problema
La fase del levantamiento de los datos plantear
luego nuevas exigencias:
2. Levantamiento de la informacin
determinar las caractersticas de la muestra
definir el mtodo de recoleccin de los datos
recolectar la informacin
Puesto que normalmente los datos requeridos son
numerosos, para poder presentar la informacin
recogida de modo que sta resulte til, se hace
necesario apelar a dos procedimientos:
3. Presentacin de los resultados
a) la tabulacin de los datos
b) la representacin grfica de los resultados
DEFINICIONES
2
Codificar: es asignar valores numricos a las
diversas categoras de una variable cualitativa
Datos sueltos: es la informacin ya recolectada
pero no an ordenada numricamente.
Ordenar: es disponer los datos numricos en
orden creciente o decreciente de magnitud.
Rango o recorrido: es la diferencia entre los
valores mximo y mnimo de una variable.
Clase: Agrupacin de datos sueltos segn algn
criterio de conveniencia para resumir el caudal de
informacin disponible.
Datos agrupados: Son los datos ya ordenados y
reunidos en clases.
Aunque el agrupamiento de los datos hace perder
de vista algunos detalles, permite alcanzar una
visin de conjunto de la informacin disponible.
Lmite inferior: es el valor ms pequeo que pueden
tomar los datos de una clase.
Lmite superior: es el valor ms grande que pueden
tomar los datos de una clase.
Intervalo de clase: es el tramo de valores definido
por los lmites inferior y superior de cada una de las
clases en que se agrupan los datos de una variable
(p.e. la variable ingresos en un tramo de entre
150.001-200.000).
3
Intervalo de clase abierto: es un intervalo que no
cuenta con uno de los lmites (p.e. 600.000- ).
Amplitud o ancho de un intervalo de clase: es la
diferencia entre sus lmites superior e inferior.
Marca o punto medio de clase: es el punto central
de un intervalo de clase, que se obtiene promediando
sus lmites inferior y superior.
DISTRIBUCIN DE FRECUENCIAS
Distribucin de frecuencias: Es una tabla en que se
presentan de manera ordenada y resumida los datos
recogidos.
Especifica los valores (o valores agrupados) de la
variable, con sus respectivas frecuencia absoluta,
relativa, acumulada y relativa acumulada.
Puede ser de dos tipos: simple (datos no agrupados)
o por intervalo (datos agrupados).
Se utiliza una distribucin de frecuencias simple
cuando el nmero posible de valores o categoras que
puede asumir la variable es relativamente reducido.
Se utiliza una distribucin de frecuencias por
intervalos cuando los posibles valores de la variable
son demasiados para ser presentados directamente
de modo que se hace necesario agruparlos en un
nmero ms reducido de clases.
4
Simbologa de uso habitual
n: el tamao de la muestra o nmero de
observaciones
x: la variable o conjunto de valores que se han
observado y que en cada caso especfico se
expresa en la secuencia x
1
, x
2
, x
3
,,x
n
.
f: la frecuencia absoluta o nmero de veces que
se manifiesta la variable x; as, f
1
es el nmero
de veces que se repite la observacin x
1
, f
2
el
nmero de veces que se repite x
2
, etc.
fa: frecuencia acumulada; se obtiene sumando de
manera ordenada, desde el menor al mayor
valor, sus frecuencias absolutas.
fr: frecuencia relativa; es el resultado de dividir
cada una de las frecuencias absolutas por el
tamao de la muestra.
fra: frecuencia relativa acumulada; se obtiene
dividiendo cada frecuencia acumulada por el
tamao de muestra.
Distribucin de Frecuencias Simple
Se tiene el siguiente nmero de respuestas correctas
en un examen:
6, 4, 5, 4, 0, 2, 8, 5, 7, 3, 1, 9, 6, 4, 6, 0, 9, 1, 3, 10
Se pide construir una distribucin de frecuencias
simple.
Primero se procede a ordenar los datos de menor a
mayor:
Datos sin ordenar
6, 4, 5, 4, 0, 2, 8, 5, 7, 3, 1, 9, 6, 4, 6, 0, 9, 1, 3, 10
Datos ordenados
0 , 0, 1, 1, 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 7, 8, 9, 9, 10
Luego se determina el rango de la variable x que,
siendo en este caso reducido, hace posible la
construccin de una distribucin de frecuencias
simple.
5
Las x, o distintos
valores de la variable,
distribuidos a lo largo
de una primera
columna, quedan
entonces as:
x
0
1
2
3
4
5
6
7
8
9
10
x f
0 2
1 2
2 1
3 2
4 3
5 2
6 3
7 1
8 1
9 2
10 1
Total 20
Recordemos que dichos Recordemos que dichos
valores, ya ordenados, son : valores, ya ordenados, son :
00,, 00,, 11,, 11,, 22,, 33,, 33,, 44,, 44,, 44,, 55,, 55,,
66,, 66,, 66,, 77,, 88,, 99,, 99,, 10 10
Luego se genera una segunda
columna en la que se indican
las frecuencias absolutas, es
decir el nmero de veces que
cada uno de los valores de la
variable aparece en la muestra
o poblacin.
x f fa
0 2 2
1 2 (2+2=) 4
2 1 (4+1=) 5
3 2 (5+2=) 7
4 3 (7+3=) 10
5 2 (10+2=) 12
6 3 (12+3=) 15
7 1 (15+1=) 16
8 1 (16+1=) 17
9 2 (17+2=) 19
10 1 (19+1=) 20
Total 20
A continuacin se
deben registrar en
una tercera
columna las
frecuencias
acumuladas,
o suma de las
frecuencias de x
menores o iguales
a cada uno de los
valores ordenados.
Posteriormente se
deben determinar
las frecuencias
relativas, que
corresponden a la
frecuencia de
cada valor de la
variable dividida
por el nmero
total de
observaciones
x f fa fr
0 2 2 (2 / 20 =) 0.10
1 2 4 (2 / 20 =) 0.10
2 1 5 (1 / 20 =) 0.05
3 2 7 (2 / 20 =) 0.10
4 3 10 (3 / 20 =) 0.15
5 2 12 (2 / 20 =) 0.10
6 3 15 (3 / 20 =) 0.15
7 1 16 (1 / 20 =) 0.05
8 1 17 (1 / 20 =) 0.05
9 2 19 (2 / 20 =) 0.10
10 1 20 (1 / 20 =) 0.05
Total 20
Si se multiplica la
frecuencia relativa
por 100, se obtiene
el porcentaje (%) de
ocurrencia de x en
cada caso.
Por ltimo, en una
quinta columna, se
registra la
frecuencia relativa
acumulada.
x f fa fr
0 2 2 0.10
1 2 4 0.10
2 1 5 0.05
3 2 7 0.10
4 3 10 0.15
5 2 12 0.10
6 3 15 0.15
7 1 16 0.05
8 1 17 0.05
9 2 19 0.10
10 1 20 0.05
Total 20
x f fa fr fra
0 2 2 0.10 0.10
1 2 4 0.10 (0.10+0.10 =) 0.20
2 1 5 0.05 (0.20+0.05 =) 0.25
3 2 7 0.10 (0.25+0.10 =) 0.35
4 3 10 0.15 (0.35+0.15 =) 0.50
5 2 12 0.10 (0.50+0.10 =) 0.60
6 3 15 0.15 (0.60+0.15 =) 0.75
7 1 16 0.05 (0.75+0.05 =) 0.80
8 1 17 0.05 (0.80+0.05 =) 0.85
9 2 19 0.10 (0.85+0.10 =) 0.95
10 1 20 0.05 (0.95+0.05 =) 1.00
Total 20
6
La tabla de distribucin de frecuencias simples as
construida exhibe entonces la siguiente disposicin:
x f fa fr fra
0 2 2 0.10 0.10
1 2 4 0.10 0.20
2 1 5 0.05 0.25
3 2 7 0.10 0.35
4 3 10 0.15 0.50
5 2 12 0.10 0.60
6 3 15 0.15 0.75
7 1 16 0.05 0.80
8 1 17 0.05 0.85
9 2 19 0.10 0.95
10 1 20 0.05 1.00
Total 20
Distribucin de Frecuencias Simple
y presentacin de datos cualitativos
La distribucin de frecuencias simple suele ser
utilizada para presentar datos de carcter cualitativo.
En estos casos, x
i
(los distintos valores de x) son las
categoras que asume una variable cualitativa.
Por ejemplo, se puede mostrar a travs de una
distribucin de frecuencias el tipo de establecimiento
educacional al que concurren los alumnos que
rindieron la prueba SIMCE en 2002:
Dependencia de los Alumnos en SIMCE 2002
Dependencia f fa fr fra
Particular Pagada 19.975 19.975 0,07 0,07
Particular subvencionada 107.767 127.742 0,39 0,46
Municipalizada 147.319 275.061 0,54 1,00
Total 275.061
Ejercicio de Distribucin de
Frecuencias Simple
Generar una tabla de distribucin de frecuencias
simple con los siguientes datos:
20, 10, 30, 50, 40, 50, 50, 10, 30, 50, 10, 20, 10, 10,
10, 20, 10, 20, 20, 30, 40, 20, 20, 20, 50, 30, 30
7
Ejercicio de Distribucin de
Frecuencias Simple
x f fa fr fra
10 7 7 0.26 0.26
20 8 15 0.30 0.56
30 5 20 0.19 0.74
40 2 22 0.07 0.81
50 5 27 0.19 1.00
Total 27
Distribucin de Frecuencias
por Intervalo
Procedimiento:
1. Determinar el rango de la variable
2. Dividir el rango entre un nmero apropiado de
intervalos de clase del mismo tamao.
Segn las conveniencias, se puede usar tambin
intervalos de clase de distinto tamao o intervalos
de clase abiertos. Se suelen formar entre 5 y 12
intervalos de clase.
3. Determinar la marca de clase
4. Establecer el nmero de observaciones que
corresponden a cada intervalo de clase, es decir,
hallar las frecuencias de clase.
5. Realizar los dems clculos ya estudiados en la
distribucin de frecuencias simple.
Ejemplo de Distribucin de
Frecuencias por Intervalo
Se tienen los siguientes puntajes en la prueba
SIMCE:
241.0, 211.7, 257.3, 288.3, 286.0, 302.0, 184.5,
243.0, 282.9, 217.4, 229.3, 199.3, 194.6, 220.7,
226.8, 186.5, 233.0, 237.9, 254.0, 239.0, 240.2,
238.9, 290.3, 247.4, 244.4, 234.6, 309.2, 276.0,
321.3, 230.4, 299.8, 201.6, 266.2, 277.1, 307.6,
247.5, 234.3, 270.3, 238.6, 272.7, 206.7, 224.6,
204.4, 239.1, 249.0, 250.8, 240.3, 315.8, 197.7,
227.9
8
Primero se debe ordenar los datos de menor a mayor:
184.5, 186.5, 194.6, 197.7, 199.3, 201.6, 204.4,
206.7, 211.7, 217.4, 220.7, 224.6, 226.8, 227.9,
229.3, 230.4, 233.0, 234.3, 234.6, 237.9, 238.6,
238.9, 239.0, 239.1, 240.2, 240.3, 241.0, 243.0,
244.4, 247.4, 247.5, 249.0, 250.8, 254.0, 257.3,
266.2, 270.3, 272.7, 276.0, 277.1, 282.9, 286.0,
288.3, 290.3, 299.8, 302.0, 307.6, 309.2, 315.8,
321.3
Con los datos ordenados se puede apreciar que el
mximo y el mnimo son, respectivamente, 321.3 y
184.5 por lo que el rango va a ser:
r = 321.3 184.5 = 136.8
Considerando que el nmero total de datos es 50, es
razonable optar por generar 5 intervalos.
Por lo tanto, el ancho de cada intervalo va a
corresponder al rango dividido entre 5:
136.8 / 5 = 27.36
Con este dato, vamos a poder estimar los lmites de
cada intervalo ya que el lmite inferior (Li) es el lmite
superior del intervalo anterior y el lmite superior (Ls)
es el lmite inferior ms el ancho de intervalo.
En consecuencia, los intervalos resultantes van a ser
los siguientes:
Primero: el lmite inferior es el valor mnimo del rango
y el superior es ( Ls = 184.5 + 27.36 = 211.8 )
184.5 211.8
Segundo: el Li es el Ls del intervalo anterior y el Ls es
( Ls = 211.8 + 27.36 = 239.2 )
211.8 239.2
Tercero: el Li es el Ls del intervalo anterior y el Ls es
( 239.2 + 27.36 = 266.6 )
239.2 266.6
Cuarto: el Li es el Ls del intervalo anterior y el Ls es
(266.6 + 27.36 = 293.9 )
266.6 293.9
Quinto: El Li es el Ls del intervalo anterior y ( 293.9 +
27.36 = 321.3 )
293.9 321.3
9
Por lo tanto, en este
ejemplo, los cinco
intervalos de clase
quedan finalmente
comprendidos entre los
siguientes valores:
Li Ls
184.5 211.8
211.8 239.2
239.2 266.6
266.6 293.9
293.9 321.3
Sin embargo, para evitar ambigedades los valores
de cada intervalo deben ser mutuamente excluyentes,
por lo que el lmite superior de cualquiera de ellos no
puede ser idntico al lmite inferior del siguiente.
En consecuencia, se modifica levemente alguno de
los lmites (el superior o inferior) para establecer una
diferencia mnima entre ellos.
En este caso se
optar por elevar
en un decimal el
lmite inferior de
los intervalos
segundo a quinto.
Li Ls
184.5 211.8
211.9 239.2
239.3 266.6
266.7 293.9
294.0 321.3
Para obtener la marca de clase, se debe obtener el
valor central de cada intervalo, lo cual se realiza
aplicando la siguiente frmula:
marca = (lmite inferior + lmite superior) / 2
Li Ls
x
(marcas de clase)
184.5 211.8
211.9 239.2
239.3 266.6
266.7 293.9
294.0 321.3
198.15
225.55
252.95
280.30
307.65
En consecuencia, una vez generadas con tales datos
las dems columnas de la tabla de distribucin de
frecuencias por intervalos, sta exhibe el siguiente
aspecto:
10
Li Ls x f fa fr fra
184.5 211.8
211.9 239.2
239.3 266.6
266.7 293.9
294.0 321.3
Total
198.15
225.55
252.95
280.30
307.65
9
15
12
8
6
50
9
24
36
44
50
0.18
0.30
0.24
0.16
0.12
0.18
0.48
0.72
0.88
1.00

También podría gustarte