Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VARIABLES
Definicin
Se podra conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de informacin,
que es aquella por la cual se identifica y la representa. Ej: para la poblacin de
un pas su unidad ser: persona; de las longitudes ser alguna perteneciente al
sistema mtrico; de igual manera con pesos; volmenes, capacidad, superficie,
etc.; otras concentran muchas variables: razas de ganado (Holando Argentino,
Shorton, Hereford, etc) sern cabezas de ganado; etc.; cosechas (Trigo, maz,
cebada, etc.) sern las bolsas, o quintales o hectreas, etc. Los datos son las
cantidades, las observaciones se hacen respecto de cada unidad.
Clasificacin:
Continua: mediciones
Cuantitativa
Discreta: conteos
Variable
Cualitativa
(atributos)
Policotmica: mas de dos
variables ej: estado civil, razas
de ganado
Media X
Modo o Moda X
Rango R
Varianza V = S = Var.
Se puede escribir X1 X2 X3 X4 X5
Se representar como Xi
Y se leer como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).
Series Simples
Media Aritmtica
es un simple promedio
xi
N
2+3+2+1+7 15
X = =3
5 5
Positiva Negativa
Simtrica Asimtrica
(Normal o de Gauss)
Mediana
Es el parmetro central de posicin que divide a la serie en dos partes
exactamente iguales. Se la puede definir como la medida del valor central o la
semisuma de los dos valores centrales de la serie.
N+1
2
Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media
2 3 2 1 7
orden 1 2 2 3 7
1 2 2 3 7
Propiedades
a) el valor de la mediana no se ve afectada por la
existencia de algunos valores o muy pequeos o muy
altos(aberrantes o espurios). No es el caso de la
media aritmtica que s es sensible a la existencia de
ellos y modifican su valor, perturbando su posicin
central. Es decir, la media se ve afectada y la
mediana no.
b) Por lo tanto, en algunos casos se proceder a elegir
la mediana como medida de tendencia central con la
desventaja de que tendremos que previamente
ordenar los datos.
c) O si elegimos la media, deberemos excluirlos de su
clculo, con la observacin al pie de que datos fueron
incluidos.
Para la mediana:
La posicin ser 3,5. Como es una serie par, el valor se obtendr por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana ser por lo tanto X = 2.5
Para la media:
Como se explic anteriormente ser el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.
Modo o Moda
1 2 2 3 7
X = 3
X = 2
X = 2
(Gauss)
MEDIDAS DE DISPERSIN
Rango
O recorrido; en una serie tanto simple como en los datos agrupados est dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersin y habitualmente no se lo utiliza. No es
demasiado explicativo.
Ser 71 =6
Varianza
1 2 2 3 7
entonces:
(1-3) + (2-3) + (2-3) + (3-3) + (7-3)
4 + 1 + 1 + 16 22
5 5
Varianza = S = Var
V = 4.4
Desvo Estndar:
Es la raz cuadrada de la varianza
4.4 = 2.098
X S = 68.27%
X 2 S = 95.45%
X 3 S = 99.73%
-3 -2 -1 0 1 2 3
- orden.
- observar la magnitud de los valores. Es til obtener en este momento el
rango o recorrido.
- Comenzar con un agrupamiento en clases tentativo. Para lo cual se habr
determinado el intervalo de clase y sus lmites. Uniforme para todas las
clases o no. El agrupamiento correcto ser aquel que al trazar el
Histograma o Polgono de Frecuencias se concrete una forma campanular y
no posea clases vacas (cero).
- Se construye la distribucin de frecuencias contando para cada clase la
cantidad de valores que en ella caen.
30 11 42 8 30 18 25 25
17 30 29 21 23 25 15 35
26 13 21 36
rango
Ancho o amplitud del intervalo =
Nmero de clases tentativas
5 a 11 12 a 18 19 a 25 26 a 32 33 a 39 40 a 46
8 18 25 30 36 42
11 17 25 30 35
15 25 30
13 21 29
23 26
21
Si invertimos esta tabla-arreglo y tomamos las columnas de
nmeros, ya su forma se aproxima a una campana.
Se habrn determinado entonces:
Nmero de Clases: 6
Intervalo de Clase: 7, siendo todas ellas de igual tamao.
No existe ninguna clase desierta.
Si aceptamos entonces, este agrupamiento, podemos construir la distribucin
de frecuencias.
Distribucin de Frecuencias
La mejor forma de analizar los datos masivos es agruparlos en clases.
Las clases son divisiones con amplitudes o intervalos establecidas en forma
conveniente.
En resumen: una distribucin de frecuencias es una tabla de resumen en
la que los datos se agrupan en clases o categoras ordenadas en forma
numrica, establecidas de modo conveniente.
Cuando los datos se agrupan o condensan en tablas de distribucin de
frecuencias, el proceso de anlisis e interpretacin de datos se vuelve mucho
mas manejable y significativo. En esa forma resumida, se logra una
aproximacin muy fcil a las caractersticas de los datos salientes, lo cual
compensa el hecho de que, cuando los datos se agrupan de ese modo, la
informacin inicial perteneciente a observaciones individuales que estaba
previamente disponible, se pierde en el curso del proceso de agrupamiento o
condensacin. Como consecuencia de este ltimo concepto las variables
cuantitativas discretas y cualitativas reciben tratamiento de continuas.
Se perder la identidad de los valores individuales, se los ha condensado
dentro de cada clase para ser representados por la marca de clase o punto
medio.
El punto medio o marca de clase es el valor representativo de los datos de esa
clase. Se determina su valor mediante y dentro de los lmites de las clases por:
Ls - Li
+ Li
2
Frecuen
Clases
cias (fi )
5 11 2
12 18 4
19 25 6
26 32 5
33 - 39 2
40 46 1
N= 20
Donde:
Histograma
Es en su forma un grfico de barras verticales, sin separacin
entre ellas. Al trazarlas, la variable o fenmeno de inters se representa a lo
largo del eje horizontal (x) y en el vertical (y) la cantidad de observaciones.
Con este grfico no se pueden comparar dos o ms conjuntos de
datos agrupados, la superposicin de las barras ocasionara dificultades en la
interpretacin.
La forma de este grfico tratar de asemejarse a una campana
(con intensin de que se acerque a la forma de la curva normal o de Gauss.
Si los intervalos de clases son iguales la base tendr para cada una de las
barras igual longitud sobre el eje horizontal y la altura ser la frecuencia de la
clase.
Si los intervalos de clase no son iguales, la longitud de la base representada en
eje x, ser proporcional al tamao de ellas entre s.
Ya se ha convenido que el conjunto de barras que componen el
histograma es una superficie. Dado que cada barra es un rectngulo, por lo
tanto su superficie ser el resultado de:
Utilizando la distribucin de frecuencias del ejemplo, su histograma ser:
8-
fi
5-
1-
5 12 19 26 33 40 47
clases
Polgono de Frecuencias:
Al igual que en el histograma, al trazar el polgono el
fenmeno de inters se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construccin pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polgono de frecuencias a partir y sobre el histograma de
una nica distribucin de frecuencias.
8-
fi
5-
1-
5 12 19 26 33 40 47
clases
fi xi
Media Aritmtica X N
Xi f i xi
Clases fi
5 11 2 8 16
12 18 4 15 60
19 25 6 22 132
26 32 5 29 145
33 39 2 36 72
40 - 46 1 43 43
20 468
X = 23.4
X = 468/20 = 23.4
Frecuencias acumuladas
Aqu debemos introducir otro concepto que es el de
las frecuencias acumuladas las cuales se pueden confeccionar con valores
absolutos y/o relativos.
Se obtienen sumando acumuladamente las frecuencias de cada fila ms la
anterior.
Clases f fa
5 11 2 2
12 18 4 6
19 25 6 12
26 32 5 17
33 39 2 19
40 46 1 20
20
Reemplazo en la frmula:
20/2 - 6
X = 19 + 7 X = 23,67
6
fa
Clases fi menos fa
que mas
que
5 11 2 2 20
12 18 4 6 18
19 25 6 12 14
26 32 5 17 8
33 39 2 18 3
40 46 1 20 1
20
20 -
fa
10 -
5 12 19 26 33 40 47
clases
Modo X = 1
Li + c
1 + 2
Clases fi
5 11 2
12 18 4
19 25 6
26 32 5
33 39 2
40 - 46 1
20
2
X = 19 + 7 X = 23,67
2 + 1
2 -
12 19 26 33
clases
X = 23.4
X = 23.7
X = 23.7
Relacin til:
X - X = 3(X - X)
Medidas de Dispersin para datos Agrupados
Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la bsqueda de la cantidad de clases para confeccionar una
distribucin de frecuencias considerando segn tamao del intervalo.
Varianza
fi (xi - x)
Var = S = V
N
Donde: fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmtica de la distribucin.
N = cantidad de datos o sumatoria de las frecuencias.
xi xi - x
Clases fi (xi - x) fi(xi - x)
V = 81.34
V x - (x)
xi (xi)
Clases fi fi (xi)
5 11 2 8 64 128
12 18 4 15 225 900
19 25 6 22 484 2904
26 32 5 29 841 4205
33 39 2 36 1296 2592
40 - 46 1 43 1849 1849
20 12578
Desvo Estndar:
Se obtiene como la raz cuadrada de la varianza. O
aplicando la forma:
fi (xi - x)
N
S = 9.02
Es decir nueve unidades y media de corrimiento con respecto al valor central
de la media.
Propiedades
N1 S1 + N2 S2
S =
N1 + N2
X = Q2 = D5 = P50
y
Cuartiles Deciles
qN/4 - faq dN/10 - fad
Li + c Li + c
fq fd
Percentiles
pN/100 - fap
Li + c
fp
Q3 - Q1
Q 2 desviacin cuartlica o rango semiintercuartlico
P90 - P10
Coeficiente de Variacin
V S
x
X - X
z =
S
Sesgo y Curtosis
Sesgo
media - modo X - X
Sesgo = =
desvo S
Q3 - 2Q2 + Q1
Coeficiente de sesgo cuartlico =
Q3 - Q1
P90 - 2P50 P10
Coeficiente de sesgo percentlico 10-90 =
P90 - P10
Curtosis o kurtosis
Q
coeficiente de curtosis percentlico k =
P90 - P10
6 - M Q
1 N 2
fi R
4 -
2 -
Li x U s
12 19 26 33
clases centrales
1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posicin del x dentro del grfico.
4. Se fijan el Li y Us como lmites inferior y superior de la clase modal.
5. 1 y 2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos tringulos semejantes MPR y QPN.
7. Trazo la altura:
EP PF EP = x - Li
MR QN PF = Us - x
1 2
8. x - Li Us - x
1 2
12. (2 + 1 ) x = 1 Us + 2 Li despejando x
1 Us + 2 Li
13. x =
( 2 + 1 )
entonces:
1 (Li + c) + 2 Li
x =
(2 + 1 )
1 Li + 1 c + 2 Li
x = saco factor comn
(2 + 1 )
Li (1 + 2 ) + 1 c
x =
2 + 1
Li (1 + 2 ) + 1 c
x = separo en dos trminos
2 + 1
Li (1 + 2 ) 1 c
x = + simplifico y saco c afuera del segundo trmino
2 + 1 2 + 1
1
x = Li + c
2 + 1