Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica y Probabilidades
UNIDAD I
ESTADSTICA
1.
INTRODUCCIN
El uso de los mtodos estadsticos para analizar datos se ha convertido en una
prctica comn en todas las disciplinas cientficas. Este material de ayuda
pretende introducir mtodos que utilizan los estudiantes en sus carreras de
formacin tecnolgica.
La exposicin matemtica es relativamente modesta. El uso sustancial del
clculo se hace slo en el captulo de probabilidades. No se utiliza lgebra
matricial en absoluto. Por lo tanto, casi toda la exposicin deber ser accesible
para aquellos estudiantes cuyo conocimiento en matemtica es bsico.
La unidad 1 se inicia con algunos conceptos y terminologa bsicos (poblacin,
muestra, estadstica descriptiva e inferencial, variables y tipos) y contina con la
elaboracin de tablas de frecuencia para variables cualitativas y cuantitativas y
grficos importantes. La unidad 2 corresponde a las medidas resumen de
posicin y de dispersin. La unidad 3 se estudia el anlisis de dos variables:
cualitativas vs cualitativas, cualitativas vs cuantitativas y cuantitativas vs
cuantitativas, adems de grficos importantes. En la unidad 4 se ofrece el
desarrollo un tanto tradicional de la probabilidad, la probabilidad condicional, la
probabilidad total y el teorema de Bayes.
1.1 POBLACIN Y MUESTRA
A fin de entender cmo se puede aplicar los mtodos estadsticos, se debe
distinguir entre poblacin y muestra. Una poblacin o universo es cualquier
coleccin finita o infinita de individuos o elementos, para cada uno de los
cuales se tiene que contar o medir una o varias caractersticas. Los
elementos son los objetos que poseen la informacin que busca el
investigador y acerca del cual deben hacerse las inferencias. Entre posibles
elementos se tiene: una sustancia, un compuesto, un mineral, etc.
Aunque existe la libertad de llamar poblacin a un grupo cualquiera de
elementos definidos en el tiempo y el espacio, en la prctica depende del
contexto en el cual se observarn los elementos. Suponga, por ejemplo, el
nmero de total de compuestos que pueden elaborarse con 5 sustancias,
puede considerarse como una poblacin.
Una muestra es un subconjunto de elementos de la poblacin que puede
servir de base para generalizaciones vlidas En trabajos qumicos, se
toman muestras de un material, se ensayan y se hacen deducciones para
la totalidad de dicho material, a partir de los resultados obtenidos. La
muestra no es exactamente la poblacin, sino que se supone que la
Estadstica y Probabilidades
TECSUP - PFR
TECSUP - PFR
Estadstica y Probabilidades
Figura 1
Ciclo metodolgico de un trabajo estadstico
Estadstica y Probabilidades
TECSUP - PFR
1.4 VARIABLES
Se dice que algo vara si puede tomar por lo menos dos valores, grados o
formas o, incluso, cuando una caracterstica puede estar presente o
ausente en una situacin especfica.
Dicho esto, podramos estar de acuerdo en que nociones como sexo,
nmero de hijos por familia, color de automvil, nmero de huelgas
anuales, nivel de estudios, etc., son variables, ya que son caractersticas
que admiten por lo menos dos valores, grados o formas dentro de un
universo determinado.
No obstante, al empezar a familiarizarse con este tema, se suele confundir
la caracterstica que admite variaciones con el universo o con los elementos
del mismo. Comprese la lista del prrafo anterior con esta otra: persona,
vivienda, lmpara, automvil. Estos trminos se refieren a objetos y no a
caractersticas de objetos; por lo tanto, no son variables. Variables seran
las caractersticas que quisiramos indagar de esos objetos. Por ejemplo,
de un universo formado por personas podramos conocer su edad, lugar de
nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas
peculiaridades son variables. Tambin son variables, de un universo
formado por automviles, su marca, modelo, color, potencia, etc., ya que
son caractersticas que van cambiando de auto en auto.
Otra confusin frecuente se da con los datos estadsticos. Consideremos
estos ejemplos: "nmero de huelgas" y "produccin de azcar". Si decimos
que el nmero de huelgas en una regin y en un periodo determinados es
A, estamos aportando informacin global del fenmeno, que es un dato
estadstico, no una variable. El nmero de huelgas se convierte en variable
si se estudia, digamos, en un periodo determinado y en diferentes
regiones, o en una sola regin y en diferentes periodos (anualmente,
sexenalmente, etc.). Lo mismo pasa si afirmamos que la produccin de
azcar en el ingenio X es B toneladas: se trata de un dato estadstico, no
de una variable. La produccin de azcar se convertir en variable cuando
se indague en diferentes fbricas y en un mismo momento o en una misma
fbrica y en distintos momentos.
Ahora bien, toda variable tiene dos niveles: uno conceptual o terico y otro
operacional o de medicin. Si nos preguntaran qu se entiende por
alcoholismo, por ejemplo, podramos decir que se trata de una enfermedad
progresiva y mortal, exclusiva de los seres humanos, que consiste en la
ingestin de bebidas alcohlicas. De ser ms o menos correcta esta
definicin, estaramos en el nivel estrictamente conceptual o terico, que
no permite efectuar ninguna medicin. Si, en cambio, a partir de este
concepto definimos al alcoholismo como el grado de dependencia de los
seres humanos respecto a la ingestin de bebidas alcohlicas, habremos
pasado del nivel conceptual a otro donde es posible medir, pues en una
poblacin dada encontraramos desde el que no ha bebido jams una gota
de alcohol, el abstemio, hasta el que no puede dejar de beber.
TECSUP - PFR
Estadstica y Probabilidades
Estadstica y Probabilidades
TECSUP - PFR
representar
una
relacin
de
TECSUP - PFR
Estadstica y Probabilidades
ESCALAS DE MEDICIN
La medicin de una variable consiste en asignar un valor a la caracterstica o
propiedad observada. Por ejemplo, si la caracterstica observada es el gnero
de las personas, al clasificar a una persona como de sexo femenino le
estamos asignando un valor, estamos haciendo una medicin de la
caracterstica.
El proceso de medicin utiliza diversas escalas: Nominal, Ordinal, Intervalo y
Razn.
Escala Nominal: Slo permite asignar un nombre, etiqueta o valor al
elemento sometido a medicin. Los nmeros que se puedan asignar a las
propiedades observadas en los elementos se utilizan slo como etiquetas con
la finalidad de clasificarlos. Con esta escala no tiene sentido realizar
operaciones aritmticas.
Por ejemplo:
Gnero (femenino, masculino), nacionalidad (peruano, colombiano, etc.),
marcas de gaseosa preferida (fanta, coca cola, pepsi etc.).
Escala Ordinal: Adems de asignar un nombre, etiqueta o valor, esta escala
permite establecer un orden entre los elementos sometidos a medicin. Con
esta escala solo se puede establecer una relacin de orden. Los nmeros que
se asignen a las propiedades deben respetar el orden de la caracterstica que se
mide.
Cada categora puede ser comparada con otra en relacin de mayor que o
menor que.
Por ejemplo:
Grado de satisfaccin (alto, medio, bajo), estado de salud (bueno, regular,
malo), grado de instruccin (primaria, secundaria, superior).
Escala de Intervalo: Adems de asignar un nombre o etiqueta y establecer
un orden entre los elementos, esta escala permite calcular diferencias entre los
nmeros asignados a las mediciones (el intervalo entre observaciones que se
expresa en trminos de una unidad fija de medida).
Los datos de intervalo siempre son numricos.
En esta escala el cero es relativo, es decir, no indica la ausencia de la
caracterstica medida.
Por ejemplo:
Temperatura (se puede medir en grado Celsius o grado Fahrenheit), ao
calendario (el ao puede referirse al calendario gregoriano o calendario chino),
en el caso de la escala de intervalos podemos asignar el cero a cualquier valor
posible (el cero es arbitrario).
Estadstica y Probabilidades
TECSUP - PFR
Escala de Razn: Una variable est medida en escala de razn si los datos
tienen todas las propiedades de los datos de intervalo y el cociente de los dos
valores es significativa. La escala de medicin de razn tiene las propiedades de
la escala de intervalo con la propiedad adicional de tener un punto de partida
natural o cero (cero absoluto), que indica que ausencia de la variable (no existe
nada para una variable).
Para esta escala de medicin, es posible establecer una relacin de
proporcionalidad entre sus distintos valores, es decir el cociente de los valores
es significativo.
Por ejemplo:
Costo de un automvil, nmero de aprobados, nmero de artculos
defectuosos.
2.
ESTADSTICA DESCRIPTIVA
La estadstica descriptiva se ocupa de la recopilacin, clasificacin, presentacin y
descripcin de los datos.
2.1 RECOPILACIN
Los datos pueden recopilarse de dos maneras fundamentales:
a) Si se consideran todos los elementos de la poblacin y se registran
sus caractersticas se denomina censo.
b) Si se seleccionan algunos elementos de la poblacin, pero no todos,
se denomina muestra y la informacin obtenida por este
procedimiento se llama por muestreo; si la recopilacin de los
elementos muestrales se efecta al azar se dice que el muestreo es
aleatorio y la muestra se denomina muestra aleatoria.
Un ejemplo de una recopilacin completa o censo es el Censo Poblacional
del Per realizado en el ao 1993.
2.2 CLASIFICACIN
Los datos obtenidos por observacin o medicin suelen ser registrados en
el orden en que se recopilan. Para facilitar su interpretacin y el anlisis
correspondiente deben ser clasificados y esto equivale a que los datos
deben ser organizados de alguna manera sistemtica o particionado en
clases bien definidas y una manera sencilla de hacerlo es ordenar los
datos segn su magnitud o agruparlos de acuerdo a sus caractersticas.
TECSUP - PFR
Estadstica y Probabilidades
3.
Estadstica y Probabilidades
TECSUP - PFR
Tabla N 1
Tabla N 2
4.
10
TECSUP - PFR
Estadstica y Probabilidades
Opinin
Deficiente
Bueno
Excelente
Otros
Total
Frecuencia
20
35
65
40
160
Frecuencia relativa
20/160 = 0.1250
35/160 = 0.2188
0.4063
0.2500
1
Porcentaje
0.125*100 = 12.50 %
21.88 %
40.63 %
25.00 %
5.
11
Estadstica y Probabilidades
TECSUP - PFR
6.
DIAGRAMA DE BARRAS
Un diagrama de barras es una grfica para representar un conjunto de
datos cualitativos que se han resumido en una distribucin de frecuencias
absolutas, relativas o porcentuales. En uno de los ejes de la grfica, por lo
general el eje horizontal, se colocan las categoras de la variable y en el
otro eje de la grfica (por lo general el eje vertical) se pueden usar las
frecuencias absolutas, relativas o porcentuales. Luego, se construye una
barra de ancho fijo en cada categora y cuya altura corresponda a la
frecuencia utilizada en el grfico. Las barras deben estar separadas para
enfatizar el hecho que las categoras no se superponen.
Ejemplo:
6.2
DIAGRAMA CIRCULAR
El diagrama circular, tambin llamado diagrama de pie, es otra forma de
representar la distribucin de frecuencias relativas o porcentuales. Para su
12
TECSUP - PFR
Estadstica y Probabilidades
6.3
2
3
0
4
3
5
9
8
5
12
0
11
1
10
1
0
0
4
3
1
8
3
13
3
1
0
1
8
2
10
3
0
0
3
4
6
A 0; 13
I i Li , Li 1 , i=1, 2, ...,k
Los intervalos semi-abiertos por la derecha Ii se denominan intervalos
de clase.
13
Estadstica y Probabilidades
TECSUP - PFR
k 1 3,3logn
Donde n es el nmero total de datos disponibles.
La frmula es un poco conservadora y nos da un nmero de intervalos
un poco menor del que se utiliza en la prctica. Cuando el nmero de
datos es menor que 100, el nmero de intervalos se debe tomar menor
que 10. Para un nmero de datos bastante grande, el nmero de
intervalos es mayor que 10, la prctica aconseja los siguientes lmites:
5 k 15 .
En el ejemplo:
k = 1 + 3,3 log(40) = 6,286
Luego k podr tomar valores enteros: 5, 6 o 7
Tomemos:
k=7.
Wi l ( I i ) Li 1 Li
Para conseguir anchos de clase iguales (W ), como es deseable; se usa
la siguiente relacin:
l ( A)
, donde l ( A) es la longitud del alcance.
k
En el ejemplo:
W
13
1,857
7
tomamos W = 2
14
TECSUP - PFR
Estadstica y Probabilidades
Cabezas de ganado
Tabulacin
N de familias por
clases
Intervalos de clase o
clases: Ii
[0; 2>
Frecuencias Absolutas:
[2; 4>
[4; 6>
[6; 8>
[8; 10>
[10; 12>
[12; 14>
TOTAL
40
En el ejemplo: n = 40
ni
14
,k=7
Se verifica que:
i
14
1
k
ni n1 n2 n3 n4 n5 n6 n7 14 9 7 1 4 3 2 40 n
i 1
15
Estadstica y Probabilidades
TECSUP - PFR
Tabla N 5
Cabezas
de ganado
N de
familias
Marcas
de clase
Frecuencias
relativas
Frecuencias
relativas
acumuladas
Frecuencias
absolutas
acumuladas
Frecuencias
relativas
porcentuales
Frecuencias
relativas
acumuladas
porcentuales
Clases
ni
xi
hi
Hi
Ni
100hi%
100Hi%
[0; 2>
14
0,350
0,35
14
35
35
[2; 4>
0,225
0,575
23
22,5
57,5
[4; 6>
0,175
0,750
30
17,5
75
[6; 8>
0,025
0,775
31
2,5
77,5
[8; 10>
0,100
0,875
35
10
87,5
[10; 12>
11
0,075
0,950
38
7,5
95
[12; 14>
13
0,050
40
100
TOTALES
40
100
xi
Li Li 1
2
i = 1, 2, ....., k
L L2 0 2
x1 1
1
2
2
L L3 2 4
x2 2
3
2
2
......
; .....
Se verifica que:
0 hi 1
k
hi h1 h2 h3 h4 h5 h6 h7 0,350 0,225 0,175 0,025 0,100 0,075 0,050 1
i 1
16
TECSUP - PFR
Estadstica y Probabilidades
i = 1, 2, ....., k
En el ejemplo:
N1 n1 14
N2 n1 n2 14 9 23
N3 30,.... N7 40
Se verifica:
0 Ni 40
Nk N7 40
H i h1 h2 ... hi
Hi
H1 h1 0,350
H2 h1 h2 0,575
H3 0,750,..... H7 1
Se verifica:
0 Hi 1
17
Ni
; i 1, 2, ... , k
n
Estadstica y Probabilidades
TECSUP - PFR
Hk H7 1
Ii
vs. ni
Ii
vs. hi
b) Polgonos de frecuencias
(Fig. 3)
,n
,h
i
i
i
i
Son polgonos construidos uniendo los puntos
mediante segmentos de recta, o uniendo los puntos medios de los
techos de los rectngulos del histograma. (Fig. N 3)
ni
ni
Histograma
15
15
Figura 3
10
10
10
12
14
Polgono de Frecuencias
Ii
18
Figura 4
10
12
14
Ii
TECSUP - PFR
Estadstica y Probabilidades
Ii
vs. Ni
Ii
vs. H i
(Fig. 5)
d) Ojivas
Son poligonales asociadas a distribuciones de frecuencias absolutas o
relativas acumuladas construidas como aparece en la Figura 5.
Ojiva
Ni
Funcin Escalonada
Ni
40
40
30
30
20
20
10
10
10
12
14
Ii
Figura 5
Figura 6
19
10
12
14
Ii
Estadstica y Probabilidades
7.
TECSUP - PFR
PROBLEMAS PROPUESTOS
1.
36
71
93
136
263
39
74
96
139
289
44
76
99
141
322
47
78
101
148
388
5
7
10
15
51
14
61
84
105
168
a.
b.
c.
d.
20
65
85
112
184
23
67
89
118
206
11
59
81
105
161
2.
3.
Ojos: 5
Piernas: 1
Los siguientes datos constituyen las vidas tiles en horas de una muestra
aleatoria de 60 bombillas de luz de 100 watts:
807
660
881
811
753
872
620
1050
869
650
918
841
815
850
863
20
725
876
842
743
1027
851
703
889
837
844
878
822
907
890
811
TECSUP - PFR
Estadstica y Probabilidades
766
1056
832
5.
787
1076
863
923
958
852
792
970
788
799
765
968
816
740
678
758
891
865
817
1075
759
753
1074
923
a)
b)
c)
a)
937
896
817
Frecuencias
32
47
75
89
126
38
10
417
21
Estadstica y Probabilidades
TECSUP - PFR
862
873
700
790
909
851
926
885
753
784
912
864
857
910
882
922
800
844
847
859
791
931
907
784
903
825
722
917
936
925
935
774
786
706
704
895
903
820
758
792
758
925
930
887
888
890
763
892
914
889
925
805
893
794
791
895
796
915
931
782
768
759
890
701
713
869
916
888
772
724
892
853
865
935
868
895
789
909
887
842
912
943
931
880
892
850
712
710
933
905
920
764
798
905
792
a)
8.
b)
11,1% de agricultores,
10,6% de patronos,
16,5% de ejecutivos,
16,7% de empleados,
38,6% de obreros,
6,5% de personal de servicios y otras categoras.
22
TECSUP - PFR
Estadstica y Probabilidades
Toallas desechables: 85
Otros: 12 productos
a)
b)
c)
11. Los siguientes datos son las velocidades (en km/h) de 80 carros que pasaron
por un punto de control de velocidad:
60
40
49
102
70
25
120
60
30
54
49
60
60
70
45
70
31
38
85
80
31
108
39
100
60
35
83
35
65
26
83
55
45
27
30
28
34
24
65
50
20
45
40
60
73
27
72
63
34
40
46
82
68
40
46
64
29
55
105
72
81
75
62
65
35
45
29
63
65
43
43
61
20
60
38
36
80
85
63
69
23
Estadstica y Probabilidades
TECSUP - PFR
360
120
1000
2200
3400
4000
SUELDO
Cunto de impuesto mensual paga una persona que gana s/.1500? Cunto
gana una persona que paga mensualmente s/.300 de impuesto?
13. La siguiente tabla de frecuencias muestra los haberes mensuales de 200
obreros de cierta fbrica, en nuevos soles (ao2000)
Haberes mensuales
Nmero de obreros
Menores a 500
500 , 700
700 , 900
900 , 1100
1100 ,1300
1300 ,1500
1500 ,1700
60
40
48
24
14
8
ms de 1700
TOTAL
200
24
TECSUP - PFR
Estadstica y Probabilidades
b)
c)
d)
25
Estadstica y Probabilidades
TECSUP - PFR
ANOTACIONES:
26