Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Variables unidimensionales.
4. Histogramas.
5. Parmetros de posicin:
Medias
Mediana
Moda
6. Parmetros de dispersin:
Recorrido.
Varianza.
Desviacin Tpica.
Temas:
Estadstica
Introduccin
Qu significa estadstica?
Por qu usted necesita conocer estadstica?
Algunas aplicaciones de la estadstica
Los computadores, la calculadora y la estadstica.
Trminos comnmente usados en estadstica
Estadstica descriptiva e inferencial
Organizacin de datos
Organizacin de datos de acuerdo al tipo
Organizacin de datos de acuerdo a escalas de
medidas
Organizacin de datos mediante tablas
Organizacin de datos mediante representaciones
grficas
Anlisis de datos en tablas de frecuencias no
agrupadas
Medidas de tendencia central o de centralizacin
Medidas de colocacin o de posicin relativa
Medidas de dispersin o de variabilidad
Medidas de formas
Ejercicios (Soluciones Incluidas).-
1.1 Introduccin
1.1.1
Qu significa estadstica?
Por ejemplo, entre los datos numricos que son nominales se incluyen
los nmeros en las camisetas deportivas, los nmeros telefnicos, etc.
Una escala nominal para datos categricos es un agrupamiento no
ordenado de los datos en categoras discretas, donde cada dato puede
incluirse solamente en uno de los grupos.
Por ejemplo, los datos nominales que son cualitativos incluyen el gener,
la raza, el tipo de sangre y la religin.
Datos de nivel ordinal
Los datos medidos en una escala nominal ordenada de alguna manera
se denominan datos ordinales. Una escala ordinal coloca las medidas en
categoras, cada una de las cuales indica un nivel distinto respecto a un
atributo que se est midiendo. La lista de datos ordinales comprende:
1. Clasificaciones por letra: A, B, C y D; estos grados indican categoras
de perfeccionamiento, as como los niveles alcanzados.
2. Rangos acadmicos: Doctor, magster, especialista y licenciado.
3. La evaluacin de un maestro: insuficiente, aceptable, bueno y
excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
No es posible determinar la diferencia o distancia entre los valores
medidos en una escala ordinal. Aun cuando codifiquemos las letras A
como 4, B como 3, C como 2 y D como1, esto no quiere decir que con A,
el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificacin A es mejor o de un
grado superior a la de C, ya que una escala ordinal no admite unidad de
distancia.
Datos de nivel de intervalo.Los datos medidos en una escala ordinal para los cuales pueden
clasificarse las distancias entre valores, se llaman datos de intervalos. La
distancia entre dos valores es importante y los datos de intervalo son
numricos por necesidad; una escala de intervalo no siempre tiene un
punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprende:
10
11
12
Tallo Hoja
53 | 4
Tallo Hoja
13
14
15
Categoras
de la
variable
Frecuencia
s
observada
s
FUENTE:
El ttulo de la tabla debe indicar por lo menos qu informacin se
presenta, dnde fueron registrados los datos y cundo se obtuvo la
informacin.
El nombre de la variable puede utilizarse completo, con sus respectivas
unidades de medida, o bien, alguna sigla previamente definida.
Las categoras que tendr la variable van a depender del tipo de variable
segn nivel de medicin o recorrido. De acuerdo a esto veremos la
construccin de los distintos de tablas.
Tipos de frecuencia:
1.
FRECUENCIA ABSOLUTA o simplemente FRECUENCIA es el nmero
de veces que se presenta un valor o una categora de una variable.
Se acostumbra a denotar por ni, que indica la frecuencia en la clase
o categora i de la variable. En toda tabla, siempre ni n , donde n
es el nmero total de observaciones en los datos.
2.
16
4.
17
o
Masculin
17
o
TOTAL
32
FUENTE: Elaboracin propia.
53,125
100,000
EJEMPLOS.
a) Los siguientes datos corresponden al nmero de das ausentes en
un semestre de los alumnos a la clase de Estadstica:
1-3-2-7-4-0-1-2-0-5-5-4-2-7-0-1-3-2
0 - 1 - 2 - 0 - 4 - 3 - 0- 2 - 3 - 2 - 1 - 1 - 1 - 0 - 1 - 3 - 2 - 2
Construir la tabla de frecuencias.
Solucin:
Como la variable es discreta con un nmero de valores que va
desde 0 hasta 7, cada valor pasa a ser una categora,
quedando la tabla como sigue:
DISTRIBUCION DE LOS ALUMNOS DEL CURSO DE ACUERDO A
SUS AUSENCIAS DURANTE EL SEMESTRE.
DIAS
AUSENTES
Cantidad
de
alumnos
(ni)
0
1
2
3
4
5
6
7
7
8
9
5
3
2
0
2
Cantidad
Acumulad
a
de
alumnos
(Ni)
7
15
24
29
32
34
34
36
Proporci
n de
alumnos
(fi)
0,1944
0,2222
0,2500
0,1389
0,0833
0,0556
0,0000
0,0556
Proporci
n
Acumulad
a de
alumnos
(Fi)
0,1944
0,4167
0,6667
0,8056
0,8889
0,9444
0,9444
1,0000
18
TOTAL
36
1,0000
2.
19
20
21
Si los datos son todos los valores X1, X2,, XN de la poblacin tamao N
N
X
i 1
; si
22
definicin es:
i 1
m n
i 1
n
clase si los datos son de una variable X discreta o continua
EJEMPLO:
La siguiente tabla muestra la distribucin del saldo de 120 cuentas de
crdito, en miles de $, que maneja en sus archivos la empresa XX.
Saldo
Cantidad de cuentas
(miles de $)
0 30
10
30 60
25
60 90
40
90 120
20
120 150
15
150 180
10
Cantidad de cuentas
10
25
40
20
15
10
23
Propiedades de la media.
La media aritmtica tiene la gran desventaja de que se ve muy
influenciada por los valores extremos, pero an as es la medida de
tendencia central que ms se usa, ya que posee las siguientes
propiedades:
1.
5.
6.
En toda distribucin
2.
3.
4.
(x
x) 0 .
i 1
7.
En toda distribucin
(x
a) 2
es mnimo para a = x .
i 1
24
Obtencin de la mediana:
si n es par
x n 1
2
x x
n
n
1
2
2
Me(X)
si n es impar
2
2 N k 1
LI k a k
si los datos estn ordenados en una tabla de frecuencias con intervalos.
nk
2)
3)
25
N de hijos N de familias
0
12
1
18
2
24
3
32
4
22
5
12
6
2
Para obtener la mediana en este caso debemos obtener las
frecuencias acumuladas.
N de hijos
N acumulado de familias
0
12
1
30
2
54
3
86
4
108
5
120
6
122
3)
acumuladas.
Saldo
Cantidad de cuenta Cantidad acumulada
(miles de $)
de cuentas
0 30
10
10
30 60
25
35
60 90
40
75
90 120
20
95
120 150
15
110
150 180
10
120
n
= 60 El intervalo que contiene a la mediana es el tercero.
2
26
Me(x) = 60 + 30
60 35
= 78,75 [m$], esto significa que el 50% de
40
a Mnimo
si a Me .
i 1
27
M=Me=Mo
Si la distribucin es unimodal
y asimtrica positiva (con cola a la
derecha), entonces M>Me>Mo. Grficamente es:
Mo Me M
Si la distribucin es unimodal
y asimtrica negativa (con cola a la
izquierda), entonces M<Me<Mo. Grficamente es:
M
1.4
Me Mo
LAS CUANTILAS.
28
k n
100
Pk
k n
1
100
k n
si
2
100
si los datos slo se han ordenado de menor a mayor (no se han tabulado).
k n
x kn si
100
1
100
kn
N k 1
nk
k n
, el divisor 100 por el nmero de partes en que divide los
100
datos la cuantila.
EJEMPLO:
Los trabajadores de una empresa clasificados segn su rendimiento
mensual, cuantificado en cientos de miles de $, dan origen a la
siguiente distribucin:
Rendimiento
Cantidad de trabajadores
50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190
a)
18
27
20
12
11
9
3
29
b)
a $11.700.000 en
k n
100
Cantidad de trabajadores
50 - 70
70 - 90
90 - 110
110 - 130
130 - 150
150 - 170
170 - 190
Cantidad
18
27
20
12
11
9
3
Acumulada
de
18
45
65
77
88
97
100
k n 20 100
k 65
k 69,2% , es decir el 100-69,2 =30,8% de
12
los trabajadores
$11.700.000.
tiene
un
rendimiento
superior
los
Existen, adems otras medidas de tendencia central pero que son de uso
ms especfico, ellas son la media geomtrica y la media armnica.
1.5 ANEXOS:
DEFINICION:
30
1200
1,0811
550
8,11%.
1.6 ANEXOS :
DEFINICION:
1
M
n
ni
yi
MH
40 60
78,95
40 60
km/hora.
60 100
31
DEFINICION:
i 1
s2
x i x 2
i 1
n 1
2
i
n x 2
i 1
La
ltima
igualdad
n 1
s2
2
i
ni n x 2
i 1
, donde xi
n 1
32
1
k2
100
k2
EJEMPLO:
Ing. Lc. Cs: Alejandro Pieiro Caro
33
Cantidad de cuentas
10
25
40
20
15
10
b)
Usos de la varianza.
La varianza (o la desviacin estndar) se usa como medida de dispersin
cuando se ha usado la media aritmtica como medida de tendencia
central.
Tambin se usa para comparar la dispersin de dos o ms distribuciones,
cuando ellas presentan igual media aritmtica y las observaciones estn
en la misma unidad de medida. Por ejemplo, no se podr usar en la
comparacin de la dispersin del rendimiento de la gasolina de dos
vehculos si uno est medido en Km por litro y el otro en millas por galn.
Cuando las distribuciones tienen distinta media aritmtica o estn en
unidades diferentes, se usa una medida de dispersin relativa, como es el
coeficiente de variacin.
34
d)
DEFINICION:
x
para datos poblacionales y
x
sx
para datos muestrales.
x
41,23
0,4923 Esto
83,75
Zi
xi xi x
35
A
4,8
4,3 1,2
B
4,5
4,1 0,8
En cul de los dos cursos tuvo mejor desempeo el alumno?
Solucin:
ASIMETRIA
DEFINICION:
x Mo 3 x Me
s
s
AS
x
2.
x 3
i 1
AS
i 1
b)
CURTOSIS.
DEFINICION:
36
i 1
b2
i 1
Para una distribucin normal b2=3, para una platicrtica b2<3 y para una
leptocrtica b2>3.
ANEXO: DIAGRAMAS DE CAJA Y BIGOTE.
Es una presentacin visual que describe tanto la tendencia central como la
dispersin, la asimetra y adems los valores atpicos.
El diagrama es una caja alineada en forma vertical u horizontal, el
rectngulo se forma con la amplitud intercuartlica, lo atraviesa una lnea
que corresponde al cuartil dos. De ambas aristas del rectngulo nace una
lnea o bigote que se extiende hasta los valores extremos (mximo y
mnimo) si la distancia con los cuartiles uno y tres respectivamente no
supera 1,5 veces la amplitud intercuartlica. En caso de que esa distancia
est entre 1,5 y 3 veces el rango intercuartlico se dibujan con crculos
llenos los valores, que se denominan atpicos; los puntos que estn ms
all de 3 amplitudes intercuartlicas de los bordes de la caja se dibujan con
crculos vacos y se denominan valores atpicos extremos.
La estructura general es:
Variable
xmn
Q1
Q2
Q3
xmx
37
xT
nh
donde
h 1
h 1
s 2W
2
h
nh
h 1
nh
s 2B
xT 2 nh
h 1
EJEMPLO:
La siguiente informacin corresponde al contenido de folacina (Vitamina
B) para especmenes escogidos al azar de cuatro marcas de t.
Marca
A
B
C
D
Cantidad de especimenes
(nh)
( xh )
7
8,271
5
7,500
6
6,350
6
5,817
Media
Varianza
s 2h
( )
2,139
2,825
1,123
2,406
38
xT
s B2
2
sW
EJERCICIOS:
1.
Das
A
B
C
Lunes
1.200 1.000 1.000
Martes
500 1.200 2.500
Mircoles
1.500 2.000 1.000
Jueves
1.000 1.500 1.200
Viernes
1.400 1.000
800
Sbado
0 1.800
900
Domingo
0
0 2.000
a) Calcular el coeficiente de variacin del consumo de materias primas para cada
seccin.
Solucin:
a.1)
Das
Lunes
Martes
Mircoles
Jueves
Viernes
Sbado
Domingo
n=5
A
A2
1.200 1.440.000
500
250.000
1.500 2.250.000
1.000 1.000.000
1.400 1.960.000
0
0
0
0
5.600 6.900.000
X = 5.600/5 = 1.120
39
b.1)
Das
Lunes
Martes
Mircoles
Jueves
Viernes
Sbado
Domingo
n=6
B
B2
1.000 1.000.000
1.200 1.440.000
2.000 4.000.000
1.500 2.250.000
1.000 1.000.000
1.800 3.240.000
0
0
8.500 12.930.00
0
X = 8500/6 = 1.416,67
Das
Lunes
Martes
Mircoles
Jueves
Viernes
Sbado
Domingo
n=7
C
C2
1.000 1.000.000
2.500 6.250.000
1.000 1.000.000
1.200 1.440.000
800
640.000
900
810.000
2.000 4.000.000
9.400 15.140.000
X = 9400/7 = 1.342,86
(X)2 = (1.342,86)2 = 1.803.265
(X2) = 15.140.000/7= 2.162.857
V(X)= 359.592
S= 599, 66
CVc = 599.66/1.342,86 = 0,44656
c.1)
CVc = 44,656%
Lmite
Marca Frecuencia
superior de Clase absoluta
Frec. Abs.
Acumulada
Frecuencia
Relativa
Frec. Rel.
Acumulada
40
I
II
III
IV
V
CLASE
I
II
III
IV
V
Li
6,0
LS
mi
ni
Ni
fi
Fi
0,09
8
0,47
27
10,0
Lmite
Inferior
Yi-1
Y1
Y2
Y3
Y4
Y6
Lmite
Superior.
Yi
Y2
Y3
Y4
Y5
Y7
7,0
Lmite
Inferior
Yi-1
6,0
6+C
6+2C
6+3C
6+4C
Lmite
Superior.
Yi
6+C
6+2C
6+3C
6+4C
6+5C
Lmite
Inferior
Yi-1
6,0
Lmite
Superior.
Yi
10,0
6 +5C =10
C = 4 / 5 = 0.8
La Amplitud o Longitud de la Clase es constante e igual a 0.8
La marca de Clase es
i + i-1
Yi =
-----------2
Clase I:
Clase II:
Clase III:
Clase IV:
Clase V:
41
Por lo tanto,
n2 = 8 3 = 5
n = n1 + n2+ n3 + n4+ n5 = N5
n4 = 34-(3+5+8+7)
n4 = 11
42
Preguntas:
a) Qu representa la frecuencia relativa acumulada de la tercera
clase?
Establece que 16 trabajadores ganan entre 6 y 8,39 UF. Y
representa el 47% de toda la informacin acumulada.
b) Qu representa la frecuencia relativa de la tercera clase?
Establece que 8 trabajadores ganan entre 7,6 y 8,39 UF. y
representa el 24% de toda la informacin.
c) Cul estima Ud. es el intervalo que acumula el 50% de la
informacin?
El cuarto intervalo.
d) Qu porcentaje de la informacin se ubica en el cuarto intervalo?
Un 32.4% de la informacin.
e) Qu porcentaje de la informacin se acumula hasta el segundo
intervalo?
Un 24% de la informacin.
43
I
II
III
IV
V
Lmite
Clas
Inferio
e
r
Yi-1
I
Y0
II Y0 + C
III Y0 +2
C
IV Y0 +3
C
V Y0 +4
C
5,0
10,0
15,0
20,0
25,0
Lmite
Superio
r
Yi
Y0 + C
Y0 +2 C
Y0 +3 C
2,0
4,0
0,30
0,30
0,85
Marca Frec.
Frec. Abs. Frecuencia Frec. Rel.
de
absolut
Acumulada. Relativa Acumulada
clase
a
yi
ni
Ni
fi
Fi
5,0
2,0
2,0
10,0
4,0
6
0,30
15,0
0,30
Y0 +4 C 20,0
0,85
Y0 +5 C 25,0
Marca de Clase:
Clase I: ((Y0 )+ (Y0 + C)) / 2 = 5
Clase I I:
C)) = 10
((Y0 + C )+ (Y0 +2
Y0 + Y0 +C = 10
Y0 + C+ Y0
+2C = 20
2Y0 + C = 10
2Y 0 +
3 C = 20
C = 5,0
Y0 = 2.5
f3 = n3 / n
0.30 = n3 / 20
n3 = 6
44
r
Yi-1
I
II
III
IV
V
Y0
Y0 + C
Y0 +2 C
Y0 +3 C
Y0 +4 C
r
Yi
Y0 + C
Y0 +2 C
Y0 +3 C
Y0 +4 C
Y0 +5 C
clase
yi
5,0
10,0
15,0
20,0
25,0
a
ni
2,0
4,0
6
5
3
F4= N4 / n
Ni
2,0
6
12
17
20
fi
Fi
0,30
0,30
0,85
N4 = N3 + n4
0.85 = N4 / 20
N4 = 17
17= 12 + n4
n4= 5
F4 = 0.62
45
r
Yi-1
I
II
III
IV
V
VI
VII
Clas
e
I
II
III
IV
V
VI
VII
Lmite
Inferior
Yi-1
Y0
Y0 + C
Y0 +2 C
Y0 +3 C
Y0 +4 C
Y0 +5 C
Y0 +6 C
r
Yi
clase
yi
4.000
a
ni
12
Ni
12
fi
Fi
24
7.000
0,62
24
12
Lmite
Superior
Yi
Y0 + C
Y0 +2 C
Y0 +3 C
Y0 +4 C
Y0 + 5 C
Y0 + 6 C
Y0 +7 C
0,08
1,00
marca de
clase
mi
4.000
7.000
Y0 + Y0 + C) / 2 = 4.000
2Y0 + C = 8.000
C = 1.000
150
Y0
= 3.500
46
F4 = N4 /n
0.62 = N4 /150
N4 = 93
N7 n7 = N6
150 12 = N6
N6= 138
12 + 21 + 24 + n4 + 24 + 21 + 12 = 150
n4 = 36
47
Ejemplo 6:
Sean los siguientes datos
3 53 5 7 6
6 22 1 1 3
Marca de
clase
Frecuencia
absoluta
mi
ni
18
N=12
mi *
ni
=
45
mi * ni
X = ---------- = 45 / 12 = 3,75
n
48
Ejemplo 7 :
Clases o
intervalos
Marca de
clase
Frecuencia
absoluta
( i-1- i (
mi
ni
(133-143(
138
414
(143-153(
148
296
(153-163(
158
316
(163-173(
168
18
3.024
(173-183(
178
16
2.848
(183-193(
188
1.504
n=55
=8.402
mi
* ni
m i * ni
X = ---------- = 8.402 / 55 = 152,76
n
Ejemplo 8:
Sean las siguientes notas del curso de estadsticas:
5, 3, 2, 5, 7, 6,3
xi
X = ---------- = 5+3+2+5+7+6+3 / 7 = 4,43
8 15 8
49
2
8
3
9
4 5 6 6 6
9 10 11 15
N = 15, Me = 7
Ejemplo 11: Calculo de la Mediana Datos Tabulados.Contiene la tabla 55 datos, esto implica que (55) / 2 = 27.5
Se encuentran 27,5 datos acumulados en la 4 clase y corresponde al
intervalo mediano
Clas
e
Clases o
intervalos
Marca de
clase
Frecuencia
absoluta
Frec. Abs.
Acumulada
(i-1- i(
Yi
ni
Ni
(133-143(
138
II
(143-153(
148
III
(153-163(
158
13
IV
(163-173(
168
18
31
(173-183(
178
16
47
VI
(183-193(
188
55
Intervalo Mediano
n=55
( ( n / 2 ) N3) a4
Me = L1 + -------------n4
( ( 55 / 2 ) 13) 10
Me = 163 + --------------------Me = 171.06
18
50
2
8
3
9
4 5 6 6 6 7 8
9 10 11 15 15 18 20
Mo = 6
Yi
ni
Ni
(133143(
138
II
(143153(
148
III
(153163(
158
13
IV
(163173(
168
18
31
(173183(
178
16
47
VI
(183193(
188
55
n=55
D1
Mo = LI + ----------D1 + D2
10
*ai
16
Mo = 158 + --------8 + 16
Mo = 164
51
Nota:
Si existe ms de una frecuencia absoluta que contiene el nmero mayor
de datos se deben sacar igual nmero de modas.
Ejemplo
14:
Percentiles.-
Clculo
de
Cuarteles,
Quintiles,
Deciles,
n / 4 + 0.5
8 11 12 13 14 16
n=8
8 11 12 13 14 16
52
Q1 = (8 + 8) / 2 = 8
El Cuartil nmero uno es 8
Q2 = 2 * 8/4 + 0.5 = 4.5
8 11 12 13 14 16
53
Ejemplo de percentiles
5 8 8 11 12 13 14 16
Q2 = (8 + 11) / 2 = 9,5
54