Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESCUELA DE POSTGRADO
MAESTRIA EN ADMINISTRACION
ESTADISTICA APLICADA
INTRODUCCIÓN
Este gran problema se hace continuo por la falta capacitación y formación constante en
el área y además por no existir un sistema estadístico de información gerencial que facilite el
análisis y uso de la información.
OBJETIVOS
CAPITULO I
2. Definición de la población.
Se debe definir el grupo del cual se extraerá la información y al cual se generalizarán
las conclusiones que se obtengan en la investigación.
3. Diseño de la muestra.
La teoría de Muestreo o de diseño y Análisis de experimentos pueden garantizarnos que
la información obtenida de la muestra generalizarlo a la población de interés.
las unidades de medida es crucial ya que una equivocación puede conducir a un exceso
de información o en una pérdida irreparable de ella.
CAPITULO II
ESTADÍSTICA.
Es el arte y la ciencia que nos proporciona un conjunto métodos y técnicas para recolectar,
organizar, presentar, analizar e interpretar datos con el fin de propiciar la toma de
decisiones más eficaz; es decir, brinda el soporte para saber qué datos obtener, cómo,
cuándo, dónde obtenerlos, y una vez obtenidos proporciona métodos y procedimientos
para organizarlos con diferentes propósitos.
DIVISION DE LA ESTADISTICA.
Los administradores aplican alguna técnica estadística a prácticamente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos, por
lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial.
Estadística descriptiva.
Es la estadística que sólo se ocupa de describir y analizar un grupo de datos, sin sacar
conclusiones sobre un grupo mayor.
Ejemplo: Al analizar a sus compañeros de clase, tal vez encuentre que 38% de ellos usan
Celular Marca Nokia. Si así fuera, “38%”es un estadístico descriptivo
Estadística inferencial.
La estadística inferencial, es un conjunto de procedimientos que nos permiten efectuar
generalizaciones de la muestra a la población. Se utiliza para probar hipótesis y estimar
parámetros, se basa en el concepto de distribución muestral.
Ejemplo: La Cámara de comercio encontró que las 50 empresas que encuestó practican el
trueque o intercambio. Con los datos de la muestra se puede inferir con bastante certeza
que casi todas, si no es que todas, las empresas de la Cámara de Comercio siguen estas
prácticas.
POBLACIÓN.
Es el conjunto de unidades de observación o elementos de la misma especie que se
pretende estudiar en una investigación científica y de la cual se obtiene una muestra.
PARÁMETRO.
Es una medida de resumen que nos describe alguna característica de la población. Para
calcular dicho valor es necesario utilizar todo los valores de la población completa.
Algunos parámetros conocidos y que usaremos en este curso son:
La media poblacional denotado por
La varianza poblacional denotado por 2
La proporción poblacional denotado por P
El coeficiente de correlación poblacional denotado por
MUESTRA.
Es un subconjunto de la población sobre quienes se va estudiar, la cual debe haberse
elegido al azar (aleatorio) y ser representativa de la población a la cual pertenece, esto
quiere decir sin sesgos. En general la muestra es toda parte representativa y adecuada de
la población. A partir del análisis de la muestra obtenida correctamente y al azar , se
puede hallar conclusiones que sean extrapolables a la población de origen. Para elegir la
muestra debe apelarse a un determinado método de muestreo.
ESTADÍSTICO.
Es una medida de resumen que nos describe algunas características de interés y cuyo
valor es calculado usando sólo los valores de los elementos o unidades de una muestra.
Algunos estadísticos conocidos y mas usados son:
La media muestral denotado por X
La varianza muestral denotado por S2
La proporción muestral denotado por p
El coeficiente de correlación muestral denotado por r
VARIABLE.
Es una característica o propiedad determinada de las unidades de análisis, sea medible o
no. Esta propiedad hace que las unidades de análisis de un grupo pueden diferir de las de
otro grupo en la muestra o población de estudio.
CLASIFICACIÓN DE VARIABLES.
1.- POR SU NATURALEZA. Se dividen.
Variable
Cualidad Cantidad
Cualitativa O Cuantitativa o
Atributo número
Ejemplos:
Unidad de estudio Variable
• Estudiante Peso, talla, edad, ci, número de hermanos, raza,
color de ojos, tipo de sangre, etc.
• Empresa Ganancia, costos, producción, número de
trabajadores, numero de computadoras, etc.
• PYME Número de trabajadores, años de funcionamiento,
ganancias, etc.
ESCALAS DE MEDICION
Una vez definida la variable y obtenidos los datos, los análisis que se aplique son afectados
por la manera en que las variables fijadas se clasifiquen. Dicha clasificación obedece a las
Ejemplo 1.- Temperatura, Presión de vapor, Brix, Acidez, Grado Alcholico, Las
calificaciones de un test o de un examen de conocimientos. Estas tienen un cero elegido
arbitrariamente, por ejemplo si un alumno obtuvo un calificativo de “cero” en un
examen de matemáticas I, esto significa que no sabe nada de la materia pues con otra
prueba más fácil podría tener otra calificación.
Ejemplo 1: Peso, talla, número de alumnos; en las que el cero representa la nulidad o
ausencia de lo que se estudia. Se dice que un peso de 50 libras es el doble que uno de
25 libras, o que uno de 100 libras es 4 veces mayor que uno de 25 libras.
PRÁCTICA PRESENCIAL Nº 01
CAPITULO III
2.1. Tablas estadísticas. Las tablas estadísticas presentan ordenadamente los datos
estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio
específico. En las tablas metodológicamente, conviene distinguir las " tablas de frecuencia
o de distribución" y los "cuadros estadísticos o de análisis".
C1 f1 h1 P1
C2 f2 h2 P2
. . . .
. . . .
. . .
CK fK hk Pk
A D A E D A E B E B
B A B B B E A E B A
C C B A E B E A D B
B B D E A E B B A A
D E B E B A A B B E
A D A B D B B B B B
C A B D B B B A A E
B B B A A A E B E B
Frecuencia Frecuencia
CAUSA DE FALLO Absoluta Relativa Porcentaje
Color (B) 37 0.4625 46,25
Viscosidad (A) 21 0.2625 26,25
Contaminación (E) 14 0.1750 17,50
Hermeticidad (D) 5 0.625 6,25
Peso por galón(C) 3 0.375 3,75
Total 80 100,00
GRAFICO DE BARRAS
GRAFICO Nº 1: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS
ENCUESTADOS
NACIONALIDAD fi hi
BOLIVIANOS 3 0.15
COLOMBIANOS 4 0.20
ECUATORIANOS 2 0.10
PERUANOS 8 0.40
VENEZOLANOS 3 0.15
C=5 n = 20 1.00
X2 f2 F2 h2 H2 h2 %
. . . . . .
. . . . . .
. . . . . .
XK fK FK = n hk Hk = 1 hk %
k k k
fi = n hi = 1 hi% = 100
Total i =1 i =1 i =1
Para construir una tabla de frecuencias de una variable discreta, también se puede construir
con intervalos siempre y cuando el rango de la variable sea muy amplio y se construyen los
intervalos tan igual que para la variable continua que se detalla en la siguiente parte con la
única diferencia de que se trabaja con los intervalos cerrados.
Ejemplo: En una población formada por 100 lotes de 50 artículos cada uno, se consideró la
variable cuantitativa discreta X= “Número de artículos defectuosos en cada lote”. Los
resultados fueron:
1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2
4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2
7 4 6 5 2 8 3 3 6 4 2 4 3 4 8 1 5 3 7 3
7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3
4 3 5 2 3 4 3 1 4 5 4 4 7 4 6 2 6 2 4 5
fi N° Familia h
26
24
22
20
18
16 - -
14 - -
12 - -
10 - -
8- -
6- -
4- -
0 1 2 3 4 5 6 7 X : Artículos Defectuoso
Cada intervalo o clase Ii, lo tomamos cerrado por la izquierda y abierto por la derecha esto
es: Ii=[Li,Ui[, siendo Li el límite o extremo inferior y U i el límite o extremo superior del
intervalo. El último intervalo se tomará como extremos cerrados, esto es, Ik= [Ik, Uk
Para construir la distribución de frecuencia de intervalos hay varios procedimientos.
De manera que KA R; Los intervalos se forman de la siguiente manera:
I1 = [Xmin, Xmin + A[
I2 = [Xmin, Xmin + 2A[
I3 = [Xmin, Xmin + 3A[
.
Ik = [Xmin, Xmin + KA]
Marca de Clase.- Es el punto medio del intervalo de clase. Se obtiene sumando los límites
inferior y superior de cada clase y dividiéndolo entre dos. Así la marca de clase del intervalo
50-54 será (50 + 54)/2 = 52. La marca es, en definitiva, el valor que representa a la
información contenida en el intervalo de clase.
Ejemplo. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa CAMPOSOL
Trujillo en el año 2003 fueron los siguientes
440 560 335 587 613 400 424 466 565 393 574 480
453 650 407 376 470 560 320 500 528 526 500 625
570 475 618 537 409 600 550 432 591 428 462 507
440 340 558 460 560 607 382 669 512 492 380 645
450 530 501 471 660 470 364 634 580 450 518 382
Construir una tabla de distribución de frecuencias.
1.-Rango: R= Xmax - Xmin = 669 - 320 = 349
2.- Número de Intervalos: K = 1+ 3.3 Log(60) = 6.9; K = 7 intervalos
669 − 320 349
3.- Amplitud. A = = = 49.9 50
7 7
CUADRO N°5 DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL SEGÚN
INGRESO (EN DOLARES) EN EL AÑO DE 2003
Frecuencia Frecuencia Frecuencia
Valores que caen Conteo Frecuencia Absoluta Relativa Relativa
dentro del Intervalo Absoluta Acumulad Simple Acumulada
fi a Fi hi Hi
320- 320, 335, 340, 364 //// 4 4 0.07 0.07
370
376, 380, 382, 382,
370- 393, 400, 407, 409 //// 8 12 0.13 0.20
420 ///
424, 428, 432, 440,
420- 440, 450, 450, 453, //// 11 23 0.18 0.38
470 460, 462, 466 //// /
12 fi
11
10
9
8
7
6
5
4
3
2
1
12 fi
11 Polígono
10
9
8
7
6
5
4
3
2
1
Frecuencia Frecuencia
Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi
320- 370 4 4 60
370- 420 8 12 56
420- 470 11 23 48
470- 520 12 35 37
520- 570 10 45 25
570– 620 9 54 15
620- 670 6 60 6
Total Total
60 f
55 i Ojiva Menor f Ojiva Mayor
60
50 55 i
45 50
40 45
35 40
30 35
25 30
20 25
20
15
15
10 10
5 5
320 370 420 470 520 570 620 670 320 370 420 470 520 570 620 670
Observación:
a) Si la diferencia es un número par, se reparte equitativamente entre el primero
y último dato.
Ejercicios
2.1 Durante una semana, se ha medido diariamente el contenido de humedad correspondiente
a 24 paquetes de un determinado producto alimenticio, tomados al azar a la salida de una
línea de envasado. Los resultados obtenidos son:
Lunes 8.20 8.05 8.53 8.48 8.15 8.79 Jueves 8.97 9.21 8.86 8.76 9.55 9.38
8.36 8.76 8.64 8.34 8.15 8.91 9.02 9.53 8.75 9.21 9.50 9.58
8.37 8.51 8.83 8.51 8.68 8.32 9.61 9.28 9.64 8.76 9.48 9.09
8.52 8.18 8.35 8.08 8.79 8.49 9.15 9.28 9.05 9.40 9.58 9.46
Martes 8.61 9.30 8.59 8.32 9.08 8.43 Viernes 8.46 8.17 8.97 8.64 8.40 8.17
9.14 8.58 8.66 8.33 9.13 8.66 8.00 8.60 8.20 8.81 8.60 8.11
8.52 8.81 8.70 8.41 8.69 9.17 8.32 8.48 8.33 8.73 8.47 8.05
9.20 8.68 9.08 9.07 8.46 8.56 8.91 8.65 8.26 8.73 8.10 8.89
Miércol 9.43 9.28 9.59 8.86 9.19 9.22
8.85 9.14 9.15 9.28 9.12 8.85
8.66 9.41 8.75 8.50 9.20 8.56
8.89 9.34 9.18 9.19 8.80 9.46
Tallo Hoja
6 8
7 1 7 9
8 3
Tallo Hojas
4 7 5 5 25
5 7 4 8 111938411
6 4 2 7 94297
7 2 4 8 8
8 3
1.- Los diagramas de tallos y hojas conservan los datos originales, por lo que es fácil identificar
algún dato particular si lo quisiéramos.
2.- Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalles en el
resto de los datos.
3.- Permiten percibir características de los datos que a veces los intervalos cubren.
4.- No necesita algún gráfico adicional para percibir la forma de la distribución.
DESVENTAJAS.
No es una representación práctica para volúmenes grandes de datos.
Ejercicio: Elabore un gráfico de Hojas y Tallos con los siguientes datos de las medidas de
tubos de cemento que a continuación se presentan.
68 72 50 70 65 83 77 78 80 93
71 74 60 84 72 84 73 81 84 92
77 57 70 59 85 74 78 79 91 102
83 67 66 75 79 82 93 90 101 80
79 69 76 94 71 97 95 83 86 69
CAPITULO IV
MEDIDAS DE POSICION.
xi
X= i =1
n
Donde n es el tamaño de la muestra o número de elementos del conjunto de
observaciones.
xi
X= = 250 + 300 + 350 + 250 + 280
i =1
n 5
Interpretación: El peso promedio de los 5 magos es de 286 gramos .
xi 25 + 28 + 30 + 31 + 29
X= i =1 = = 143/5 = 28.6
n 5
Interpretación: La edad promedio de los 5 estudiantes de titulación es de 29 años.
63 89 36 49 56 64 59 35 78
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60
xi 63 + 89 + ... + 63 + 60 2682
X= i =1 = = = 59.6
n 45 45
Interpretación: El ingreso promedio de los 45 obreros de la Empresa Pirámide
encuestados es de $ 59.6
Nº de
Artíc.Defec fi Xi * fi
Xi
1 5 5
2 14 28
3 18 54
4 25 100
5 20 100
6 10 60
7 5 35
8 3 24
Total 100 406
yi fi fi*yi
320 - 370 345 4 1380
370 - 420 395 8 3160
420 - 470 445 11 4895
470 - 520 495 12 5940
520 - 570 545 10 5450
570 - 620 595 9 5355
620 - 670 645 6 3870
Total 60 30050
II.- MODA(MO). Es el valor que con mayor frecuencia se presenta o se repite en un conjunto
de datos. La moda no siempre existe y no siempre es única.
Para calcular la moda se tiene en cuenta dos casos:
b) Para Datos Agrupados. Para calcular la moda en datos agrupados se calcula con la
siguiente fórmula
f j +1
M0= Lj+ A
f j −1 + f j +1
yi fi
J=1 320 - 370 345 4
J=2 370 - 420 395 8
J=3 420 - 470 445 11fj-1 Mo
J=4 470 - 520 495 12 fj
J=5 520 - 570 545 10 fj+1
J=6 570 - 620 595 9
J=7 620 - 670 645 6
Total 60
Calculo de la Moda:
f j +1 10 10
M0= Lj+ A = 470 + 50 = 470 + 50 = 494
f j −1 + f j +1 11 + 10 21
Mo = 494
Solución:
Ordenando estos valores de acuerdo a su magnitud se:
1ero 2do. 3ero 4to 5to 6to 7mo
24 , 37 , 41 52 , 63 , 68, 82 .
50 % 50 %
mediana
Como n = 7 entonces.
Ejemplo:
Considere las observaciones muestrales.
24 , 41 , 63 , 24 , 68 , 82, 37
Ordenando estos valores en orden creciente tenemos.
1er 2do 3ero 4to 5to 6to
24 , 37, 41 , 63 , 68, 82
n n
valores ordenados que ocupan las posiciones y + 1 , esto es:
2 2
n n
= 6/2 = 3ero y + 1 = ( 6/2 + 1) = 4to.
2 2
La mediana en este caso es el valor entre 41 y 63 , el cual es
X n / 2 + X (n / 2 + 1) 41 + 63
Me = = = 52
2 2
Interpretación: El 50% de las observaciones muestrales son menores que 52 y el
50% restantes son mayores que 52.
yi fi Fi
J=1 320 - 370 345 4 4
J=2 370 - 420 395 8 12
J=3 420 - 470 445 11 23 Fj-1
J=4 470 - 520 495 12 fj 35 Fj Me
J=5 520 - 570 545 10 45 Fj+1
J=6 570 - 620 595 9 54
J=7 620 - 670 645 6 60
Total 60
n 60
2 − F j −1 2 − 23 7
Me = Lj + A = 470 + 50 = 470 + 50 12 = 470 + 29.17
f j 12
Me = 499.17.
Interpretación: El 50% de los empleados de la Empresa CAMPOSOL de Trujillo
tienen sueldos menores que 499.17 y el 50% restante de los empleados tienen
sueldos mayores que 499.17 soles
PERCENTILES.
Los percentiles se encargan de dividir a una distribución de frecuencias en 100 partes iguales y
cada punto determina el1% del total de datos. Su notación es “P”.
1% 2% 3% 4% 5% … .. . .... 99%
P1 P2 P3 P4 P5 ... ......... P99
n(k / 100) − F j −1
Pk = Lj + A
fi
OTRAS MEDIAS.
n
XG = X 1xX 2 x... Xn
CAPITULO V
4
(X i − X )2
i =1 (1 − 4) 2 +(3 − 4) 2 +(5 − 4) 2 +(7 − 4) 2
S2 = = = S2= 5
4 4
Solución por el método corto.
4
x 2i
V(X)= S2 =
i =n
4
( )
− X 2=
1 2
4
(1) +(3)2 +(5)2 +(7)2 −(4)2 =
S2 = 1/4(84) - 16 = 21 - 16 = 5
S2 = 5
2
(345 − 500.83) 2 (4) + (395 − 500.83) 2 (8) + .... + (645 − 500.83) 2 (6) 445458.33
S = = = 7424.31
60 60
yi fi yi*fi yi2 * fi
320 - 370 345 4 1380 476100
370 - 420 395 8 3160 1248200
420 - 470 445 11 4895 2178275
470 - 520 495 12 5940 2940300
520 - 570 545 10 5450 2970250
570 - 620 595 9 5355 3186225
620 - 670 645 6 3870 2496150
Total 60 30050 15495500
Para calcular la varianza mediante el método corto se sigue los siguiente pasos:
1.- Calculo la media aritmética.
k 6
f i yi fi yi
Y = i =1 = i =1 = 30050 / 60 = 500.83
n 60
2.- Calculo de la varianza.
k
yi2 f i
V(X) = S2 =
i =1
n
− y () =
15495500
60
− (500.83) 2 =
S2 = 258258.33-250830.69 = 7427.64
n
(X i− X )2
i =1 (1 − 4) 2 +(3 − 4) 2 +(5 − 4) 2 +(7 − 4) 2
S= = =
n 4
S= 5 = 2.2360
Interpretación: La variabilidad de las edades de los niños atendidos en el Hospital
de Belén de Lambayeque es de 2.24 años.
B) Datos Agrupados
(y i − y )2 f i
k k
y 2i f i
S= S2 =
i =1
n
ó V(X) = S2 = i =1
n
()
−y2
S= 7427.64 = 86.16
Interpretación: La variabilidad de los sueldos con respecto a la media de los
empleados de la Empresa CAMPOSOL de Trujillo es de 86.16 dólares.
3(Yˆ − Me)
Asimetria: As =
S
Si AS = 0: La distribución es simétrica (Fig. A)
Si As > 0: La distribución es Asimétrica Positiva (Fig. B)
Si As < 0: La distribución es Asimétrica Negativa (Fig. C)
X = Me = Mo Mo Me X
X MeMo
FIG: A FIG: B FIG. C
Q3 − Q1
K=
2( P90 − P10 )
Si K tiende a 0.25. la distribución es normal. ( Mesocurtica)
Si K tiende a 0.5, la distribución es (leptocurtica)
Si K tiende a 0 la distribución es (platicurtica)
Este tipo de gráfico es una representación simple de la información obtenida que nos permite
conocer:
➢ La localización del centro de los datos( con la mediana).
➢ La dispersión. ( con el rango intercuartil P75- P25).
➢ La Simetría ( Observando la posición de la mediana)
➢ La extensión de los extremos( Con los segmentos que parten de los lados laterales.
➢ La existencia de los valores aberrantes ( datos outliers en el idioma ingles que puede ser
dato incorrecto introducido al computador, puede ser una observación diferente de la
población de la cual viene el resto de las observaciones etc.)
La caja se construye graficando un rectángulo cuyos límites son los cuartiles inferior (percentil
25) y superior ( percentil 75), marcando la mediana con una línea horizontal. Desde la caja se
dibujan los bigotes cuyos extremos son los límites inferior y superior. Por fuera de los límites
se dibujan los puntos que representan a los valores aberrantes, fuera del contexto o “outliers”.
L Q1 Me= Q2 Q3 U
Donde:
Q1= P25, Q2=P50, Q3= P50, son los cuartiles o percentiles respectivamente. En el rectángulo
se indica la mediana, con un segmento vertical resaltado. De los datos que representan a los
percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L=P25 – 1.5d, en
donde d es el rango intercuartil y un segmento hasta el valor U=P75+1.5d.
0 20
Ejemplo: Se obtuvieron los siguientes datos del nivel de glucosa en sangre medidos a 50
pacientes diabéticos. Los datos están en milimoles por litro.
2.6 2.5 1.3 2.4 2.0 3.0 2.4 2.3 2.6 3.0
3.2 4.4 3.6 4.3 3.7 4.3 3.7 5.0 3.8 4.4
3.7 5.0 3.8 4.4 4.4 4.5 5.0 6.2 6.3 6.2
7.0 8.0 9.5 7.9 9.0 10.2 11.1 8.7 12.5 15.0
14.9 10.0 10.2 17.5 6.0 8.8 12.5 12.5 14.0 6.3
CAPITULO VI
PROBALIDADES
Como es de nuestro conocimiento, la estadística es arte y ciencia que se rige por leyes y
métodos para la toma de decisiones frente a la incertidumbre y como tal, se basa en la teoría
de probabilidad.
Ejemplo:
1) Lanzar un dado y observar su resultado.
2) Contar objetos defectuosos producidos diariamente por ciertos procesos.
3) Aplicar una encuesta para obtener opiniones.
4) Resultado del examen final en el curso de administración por parte de un estudiante.
Ejemplo:
1) Lanzar un dado y observar el resultado que aparece en la cara superior.
1 = 1, 2, 3, 4, 5, 6
Puntos
muestrales
3era prueba
2da prueba c ccc
ccs
1era Prueba c s
c csc
c
s css
s
c scc
c
s s scs
c ssc
Dr. Alfonso Tesén Arroyo s alfonsotesen@hotmail.com 40
s sss
Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.
3) El experimento aleatorio consiste en lanzar una moneda y un dado a la vez, y observar los
resultados.
El espacio muestral es:
3= 1c, 2c, 3c, 4c, 5c, 6c, 1s, 2s, 3s, 4s, 5s, 6s,
4) Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
4= c, sc, ssc, sssc,… , etc
5) Si el experimento aleatorio es medir la vida útil (en heras) de una marca de artefactos
electrónicos, su espacio muestral es el conjunto.
Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
5 = t = R/t 0 R=#s reales
1.- DISCRETOS FINITOS. Consisten de un número finito de elementos, por ejemplo: los
espacios. 1, 2 y 3.
2.- DISCRETOS INFINITOS. Consiste de un número infinito numerable de elementos,
ejemplo el espacio 4.
3.- CONTINUOS. Consiste de un número infinito no numerable de elementos, ejemplo: el
espacio 5.
SUCESOS O EVENTOS.- Se llama suceso o evento a todo conjunto del espacio muestral. A los
sucesos se les denota con las primeras letras mayúsculas del alfabeto A, B ,C.
Ejemplo:
Sea el experimento aleatorio:”selección de un alumno de acuerdo a su rendimiento
académico”. El espacio muestral es:
= {Sobresaliente, Bueno, Regular, Malo}.
Ejemplo:
Sea el experimento lanzar un dado y observar el número que aparece en la cara superior.
= {1, 2, 3, 4, 5, 6}.
Los eventos pueden ser:
i) Observar un número impar: A = {1, 3,5}
CLASES DE EVENTOS:
PROBABILIDAD DE UN EVENTO.
Sea un espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier
evento A de , es el numero real P(A) que satisface los siguientes axiomas.
P(A)= n( A)
n()
Ejemplo:
En una sección del curso de estadística asisten 20 alumnos con chompa y 30 sin chompa, se
selecciona por sorteo un alumno de dicha sección, halle la probabilidad de que dicho alumno
está con chompa.
Solución:
El espacio muestral tiene 50 elementos, por tanto n() =50.
Sea el suceso:
A = Seleccione un alumno con chompa n(A)=20
Luego, la probabilidad del suceso A es:
n( A) 20 2
P(A) = = = P(A) =0.40: 40%
n() 50 5
Ejemplo:
Se lanza una moneda tres veces, determinar la probabilidad de que se obtengan:
a) Exactamente dos caras.
b) Por lo menos dos caras
Solución:
El espacio muestral es: = {ccc, ccs, csc, scc, css, scs, ssc, sss}
Por lo tanto el numero de resultados posibles del experimento es: n() =8
a) Sea el suceso:
A={se obtuvo exactamente dos caras}
A={ccs, csc, scc}
Por lo tanto, el número de resultados favorables al suceso A es:
n( A) 3
P(A) = = P(A) =0.375
n ( ) 8
la probabilidad de obtener exactamente dos caras en 3 lanzamientos de una moneda
es 0.375.
b) Sea el suceso:
B= se obtuvo por lo menos dos caras .
B={ccs, csc, scc, ccc}
Por lo tanto, el número de resultados favorables al suceso B es: n(B) =4
La probabilidad del suceso B:
n( B ) 4
P(B) = = =0.5
n () 8
La probabilidad de obtener por lo menos dos caras en tres lanzamientos de una
moneda es 0.5.
Ejemplo:
Se lanza un dado y se observa el número obtenido. Calcular la probabilidad de obtener:
a) 3 puntos
b) al menos 3 puntos.
Solución:
a) Si A es el evento de obtener ”3 puntos”,
A = {3} y la probabilidad de A es el numero
n( A) 1
P(A) = =
n ( ) 6
b) Si B es el evento de “obtener por lo menos 3 puntos
n( B ) 4
B= {3, 4, 5, 6} y la probabilidad B es el numero: P(B)= =
n ( ) 6
Ejemplo:
Un dado se lanza dos veces consecutivas. Calcular la probabilidad de obtener:
a. 7 puntos
b. 6 puntos solo en la segunda tirada
c. la suma sale 7 puntos o 6 puntos solo en la segunda tirada.
d. La suma sale 7 puntos y 6 puntos solo en la segunda tirada.
Solución:
= {(i,j) / i,j=1, 2, 3, 4, 5, 6}: este espacio tiene 36 eventos elementales probables}.
= {(1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2.6) (3,1)....(6,6)}
X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,1) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Ejemplo:
De los niños examinados por una nutricionista, se encontró que 80 padecían de desnutrición
leve, 50 padecían de desnutrición crónica, 70 normales. Si de los niños examinados se
selecciona uno al azar ¿Cuál es la probabilidad de que padezca de desnutrición leve o
desnutrición crónica?
Solución:
Sean los eventos
A= {Niños con desnutrición leve=80}
B= {Niños con desnutrición crónica=50}
C= {Niños con desnutrición normal=70}
80 50 130
P(AUB)= P(A) + P(B)= + + = 0.65
200 20 200
Ejemplo:
De 100 pacientes examinados, 20 padecían de artritis, 32 padecían de gastritis y 8 tenían
ambos males. Hallar la probabilidad de seleccionar un pacientes de artritis o gastritis.
Solución:
Sean los eventos
A={Número de pacientes que sufren de artritis =20}
B={Número de pacientes que sufren de Gastrits =32}
A B={Número de pacientes que sufren de artritis y gastritis =8}
Ejemplo:
La probabilidad de que llueva en Huancayo el 12 de octubre es 0.10; de que truene es 0.5 y
de que llueva y truene es 0.03 ¿Cuál es la probabilidad de que llueva y truene en ese día ?
Solución:
Sean los eventos
A={Llueve en Huancayo el 12 de octrubre}
B={Truene el 12 de octubre}
C={Llueve o truene}
P(A)= 0.10, P(B)=0.05, P(AB)=0.03
P(C)=P(AB)=P(A) + P(B) – P(AB)=0.10 + 0.05 – 0.03 = P(AB)=0.12
Ejemplo:
La probabilidad de que un estudiante apruebe matemática I es 2 y la probabilidad de que
3
apruebe métodos cuantitativos es 4 . Si la probabilidad de aprobar almenos una de estas
9
materias es
4 , ¿Cuál es la probabilidad de que apruebe ambos cursos?
5
Solución:
Sean los eventos:
A= El estudiante apruebe el curso de matemática I
B= El estudiante apruebe el curso de Métodos Cuantitativos
C= La probabilidad de aprobar ambos cursos
2 4 4 14
P(A B) = P(A) + P(B) - P(A B) = + - = = 0.3111
3 9 5 45
La probabilidad de que el estudiante apruebe ambos cursos es de 0.311
P( A B)
P(B/A)= ; Si P(A)>0
P( A)
Ejemplo:
Un club consiste de ciento cincuenta miembros, clasificados según la siguiente tabla.
SOLUCION:
n( H P ) 60
1) P(H/P)= = = 0.6
n( P ) 100
Probabilidad condicional:
p( H P) 60 / 150
P(H/P)= = =0.6
p( P) 100 / 150
n( N M ) 20 1
2) P(N/M)= = = ó
P( M ) 60 3
n( N M ) 20 / 150 1
P(N/M)= = =
n( M ) 60 / 150 3
Ejemplo:
Uno de los clubes universitarios femeninos está compuesto por las siguientes asociadas: 15
rubias de ojos azules, 8 rubias de ojos castaños, 9 morenas de ojos azules, 12 morenas de
ojos castaños, 4 pelirrojas de ojos azules y 2 pelirrojas de ojos castaños. Supongamos que
usted ha conseguido una cita con una de las chicas sin conocerla, y esta lloviendo cuando se
encuentra usted con ella. Su cabello esta completamente cubierto, pero sin embargo sus
chispeantes ojos azules le dan la bienvenida. ¿Cuál es la probabilidad de que sea rubia?
p ( H P) 15 15
P(A/B)= = = =0.536
P( B) 50 28
28
50
EVENTOS INDEPENDIENTES.
Si la probabilidad del evento A no depende de la realización del evento B. Formalmente se
dice que los eventos A y B son independientes si: P(A/B)=P(A) ó P(AB)= P(A).P(B).
En general si los n eventos A1, A2, A3,....An, son independientes entonces:
P(A1A2 ....An) =P(A1) P(A2) .... P(An).
Ejemplo:
1
La probabilidad de que un hombre viva 10 años más es y la probabilidad de que su esposa
4
viva 10 años más es 1 . Hallar la probabilidad de que “Ambos vivan 10 años más”
3
Solución:
A: El hombre vive 10 años más
B: La esposa viva 10 años más
Los eventos A y B son independientes, pues los años que viva el hombre no dependen de lo
que viva su esposa:
1 1 1
P(AB)=P(A)P(B)= . =
4 3 12
Entonces la probabilidad de que ambos vivan 10 años más es 1/12
EVENTOS DEPENDIENTES
Si los eventos Ay B son dependientes, entonces la ocurrencia simultanea de los eventos es:
P(AB) = P(A) P(B/A).
En general:
Si A1, A2,...An, P(A1,A2 ... An)=P(A1) P(A2/A1) P(A3/A1A2) P(An/A1A2A3 …An-1)
Siempre que P(A1A2A3…An-1)
Solución:
P(A): Probabilidad de que el primer obrero seleccionado este en contra del nuevo
8
reglamento de seguridad P(A)=
20
P(B/A): Probabilidad de que el Segundo obrero seleccionado este en contra del Nuevo
7
reglamento de seguridad, concediendo que el primero esta en contra, es:P(B/A)=
19
8 7 14
P(BA)= . =
20 19 95
Ejemplo 2. Un alumno debe recoger entre tomar un curso de matemáticas o llevar un curso
1
de letras. Si escoge el de matemáticas la probabilidad de que lo apruebe es , muestra que si
3
3
escoge el de letras, la probabilidad de que lo apruebe es . Para decidir que curso llevar,
4
acuerda lanzar una moneda equilibrada.
Solución
Sean los eventos:
A={“Llevara el curso de matemáticas”}
M={“Aprobar matemáticas”}
L={“Llevar el curso de letras”}
B={“Aprobar el curso de letras”}
Ejercicio:
En un estudio se encontró que la probabilidad que se incremente el empleo en el asentamiento
humano “x”, es de 35%; de que se incremente el consumo de artículos de primera necesidad,
es de 5%; y de que incremente el consumo de artículos de primera necesidad dado el
incremento de empleo, es de 10% ¿Cuál es la probabilidad de que se incremente el empleo y
el consumo de artículos de primera necesidad?
Solución
EVENTOS PROBABILIDADES
A= Incremento del empleo
PROBABILIDAD TOTAL
Si los eventos A1 , A2 , . . . AK, forman una partición del espacio muestral , tal que
P(A i ) 0 para cada i=1,2,. . . ,K. Entonces para cualquier evento B en se tiene que :
DEMOSTRACIÓN :
A1 A2 A3 ... AK
B B AK
B A1 B A2 B A3 . . .
= A1 A2 A3 . . . An
B = B
B = B (A1 A2 A3 . . . An )
B = (B A1) (B A2 ) (B A3 ) . . . (B An )
P(B A i ) = P B P ( A ) + P B
1
A P ( A 2 ) + . . . P B A P ( A n )
A1 2 n
Ejemplo:
Supóngase que en la Escuela Profesional del Ingeniería Química de la U.N.P.R.G hay 40
alumnos; 20 están en 1er ciclo; 15 en 2do Ciclo y 5 en 3er ciclo; se sabe que 10 del 1er Ciclo, 5
del 2do Ciclo y 1 del 3er Ciclo son “hinchas” del Alianza Lima. Se elige un alumno al azar ¿Cuál
es la probabilidad de que sea del Alianza Lima?
Solución:
B
B A1 B A2 B A3
10 5 1
P(B) = P B P ( A ) + P B
A1
1
( )
A P ( A 2 ) + P B A3 P ( A 3 )
2
10 5 1 16 2
P(B) = + + = =
40 40 40 40 5
Entonces la probabilidad de que un alumno seleccionado sea hincha del Alianza Lima es 0.4.
TEOREMA DE BAYES:
Previamente hagamos un breve comentario sobre este teorema, utilizando el ejemplo anterior
correspondiente al cálculo de la probabilidad de que un alumno sea hincha del Alianza Lima.
Supongamos ahora que conocemos que B ocurre, que su probabilidad de ocurrencia también
es conocida y que estamos interesados en hallar la probabilidad de ocurrencia de uno de los
sucesos de la partición digamos Aj, esto lo denotamos por P(Aj/B) luego por definición de
probabilidad condicional.
A P( Aj B)
P j =
B P( B)
P ( A j ) P B
P Aj = Ai
P( Ai) P(B Ai )
B n
i =1
Ejemplo :
Utilizando el ejemplo anterior; supongamos que el alumno seleccionado es hincha del alianza
lima, es decir sabiendo que es hincha de alianza lima, calcular la probabilidad de que el alumno
sea del 1er Ciclo, entonces:
P(A1 ) P B
20 10
x
P(A1 B) = A1
= 40 20 = 10 = 5
n 16 16 8
P(Ai ) P B Ai 40
i =1
Análogamente; la probabilidad de que el alumno sea del 2do Ciclo, dado que es hincha del
Alianza Lima es:
P
A2 = P ( A 2 B) = 5
B
P( B) 16
y la probabilidad que sea de 3er Ciclo, sabiendo que es hincha de Alianza Lima es :
P
A3 = P( A3 B) = 1
B
P( B) 6
Ejemplo:
En una fábrica, la máquina A produce el 30% de su rendimiento total, la máquina B, el 25% y
C el 45% restante; el 1% de la producción total de la máquina A es defectuosa asimismo el
1.2% y el 2% de la máquina B y C respectivamente; en un día las tres máquinas producen
10,000 artículos.
Un artículo es seleccionado al azar en un día.
¿Cuál es la probabilidad que sea producido por A ?; ¿Por B? Y ¿Por C?
Solución:
A B C
A B C
PA ( D)= (0.300.)015
(0.01)
= 0.2 , es la probabilidad que sea producido por A
( D)= (0.250).015
PB
(0.012)
= 0.2 , es la probabilidad que sea producido por B
( D)= (0.450.)015
PA
(0.02)
= 0.6 , es la probabilidad que sea producido por C
CAPITULO VIII
INTRODUCCION.
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de
la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su
propia velocidad. Habiendo hecho rápidamente todas estas estimaciones, usted decide si
espera, camina o corre.
Los administradores también deben hacer estimaciones rápidas. El resultado de estas
estimaciones puede afectar sus organizaciones de manera tan seria como el resultado de su
decisión de cruzar la calle. Los jefes de departamento de una universidad hacen estimaciones
acerca de las inscripciones para el semestre siguiente en las materias. Los directores de
crédito estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen
estimaciones concernientes al comportamiento de las tasas de interés de los préstamos
hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de si son científicas o
no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el
resultado.
Los administradores utilizan estimaciones porque, hasta en los asuntos más triviales, deben
tomar decisiones racionales sin contar con la información pertinente completa y con una gran
incertidumbre de lo que el futuro pueda deparar. Como ciudadanos instruidos y profesionales,
podremos hacer estimaciones más útiles si aplicamos las técnicas descritas en este capítulo y
los que le siguen. El material sobre teoría de probabilidad que se presentó en los capítulos
anteriores constituye la base de la inferencia estadística, rama de la estadística que se ocupa
del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de
decisiones. La inferencia estadística está basada en la estimación, concepto que se introduce
en este capítulo, y en las pruebas de hipótesis, que es el tema de los capítulos posteriores.
Tanto en la estimación como en las pruebas de hipótesis, haremos inferencias acerca de las
características de las poblaciones a partir de la información proporcionada por las muestras.
¿De qué manera los administradores utilizan estadísticas para estimar parámetros de una
población? El jefe de departamento de alguna universidad intenta estimar el número de
inscripciones que tendrá el siguiente semestre a partir de las inscripciones actuales en los
mismos cursos. El director de un departamento de crédito intentará estimar el valor crediticio
de los futuros clientes a partir de una muestra de sus hábitos de pago. El comprador de una
casa intenta estimar el curso futuro de las tasas de interés mediante la observación de su
comportamiento actual. En cada caso, alguien trata de inferir algo acerca de una población a
partir de la información adquirida de una muestra.
En este capítulo introducimos métodos que nos permiten estimar con precisión razonable la
proporción de la población (la fracción de la población que posee una característica dada) y la
media de la población. Calcular la proporción exacta o la media exacta sería una meta
imposible. Pero, a pesar de ello, seremos capaces de hacer una estimación, establecer una
afirmación respecto al error que tal vez acompañará a esta estimación, y poner en marcha
algunos controles para evitar dicho error en la medida de lo posible. Como tomadores de
decisiones, nos veremos forzados, en ocasiones, a confiar en nuestros presentimientos. Sin
embargo, en otras situaciones, en las que dispongamos de información y podamos aplicar los
conceptos de estadística, tendremos mejores resultados.
TIPOS DE ESTIMACIONES
Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo. Una estimación puntual es un solo número que
se utiliza para estimar un parámetro de población desconocido. Si mientras observa el primer
integrante de un equipo de fútbol americano salir al campo de juego, se dice: “¡Caramba!
Apuesto a que el peso promedio de los jugadores defensivos es de 125 kilogramos”, usted ha
hecho una estimación puntual. El jefe de departamento de una universidad estaría haciendo
una estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia
tendremos 350 estudiantes el siguiente semestre”.
A menudo, una estimación puntual es insuficiente debido a que sólo tienen dos opciones: es
correcta o está equivocada. Si le dicen solamente que la afirmación sobre la inscripción está
equivocada, no sabe qué tanto está mal y no puede tener la certeza de que la estimación es
confiable. Si se entera de que sólo está errada por 10 estudiantes, podría aceptar a 350
estudiantes como una buena estimación de la inscripción futura. Pero si está equivocada en 90
estudiantes, la rechazaría como estimación de la inscripción futura. Entonces, una estimación
puntual es mucho más útil si viene acompañada por una estimación del error que podría estar
implicado.
ESTIMACION DE PARAMETROS
Los Métodos de Inferencia Estadística consisten en seleccionar una muestra aleatoria de la
Población, de manera que a partir de la información que se obtenga de la muestra.
1) Determinar el valor del parámetro desconocido , ó
2) Decidir si , ó alguna función de , es igual a algún valor preconcebido 0 de
ESTIMACION PUNTUAL.
Ejemplo
Suponga que la variable aleatoria X tiene un distribución normal con media desconocida . La
media muestral es un estimador puntual de la media poblacional desconocida .
Es decir ̂ = X ,después de seleccionar la muestra, el valor numérico es la estimación
puntual de
25 + 30 + 29 + 31
x= = 28.5
4
De igual manera se puede encontrar el estimador puntual de la varianza etc.
Estimado
Ejemplo.
El promedio de las longitudes de cierto artículo es de 12 0.2m ([1.2 - 0.2, 1.2+0.2]) o que el
candidato obtendrá el 64 3%(0.64 0.003) de las preferencias del electorado
El intervalo de confianza cuando n30, se calcula de la siguiente manera :
X − ( z1− / 2 ) n , X + ( z1− / 2 ) n
Tabla de valores de Z
Coeficiente de confianza (1- Z/2
)
0.90 0.1 1.645
0.95 0.05 1.96
0.99 0.01 2.58
Ejemplo.
Una máquina de empaquetar bolsas de café, esta calibrada para embalar bolsas cuyos pesos
se distribuyen normalmente con media 500g y desviación estándar de 10g.
La maquina sufrió un desperfecto y se desea calibrarla, para lo cual se desea saber el nuevo
promedio .Se toma una muestra aleatoria de 36 paquetes arrojando una media de 485g.
Hallar un intervalo de confianza de 95% de confianza para .
x = 485g = 10 g = 1 - = 0.95
= 0.05 = 0.025
2
El valor de z/2 que deja a su derecha un área que representa una probabilidad igual a 0.025 es
de z/2 =1.96
Por lo tanto el intervalo de confianza para con coeficiente de confianza es de =95% es
2.5%
10 10
I = 485 - 1.96 , 485 + 1.96
36 36
I = 481.73, 488.26
X − t1− 2 n , X + t1− 2 n
S
Ejemplo
A continuación se dan los pesos (g) de un pdto lácteo instantáneo:
42.7 42.78 42.76 43.39 41.60
n = 15 x = 42.88 = 0.01
El valor de s es :
1 15
s= ( xi − x) 2 = 0.5406
14 i =1
El valor de t1-/2, corresponde al cuartil en la distribución estándar con 15-1 grados de libertad
para lo cual
P− t1− / 2 t t1− / 2 = 1 − = 0.99
s
= 42.46 , 43.29
s
x − t1− / 2 , x + t1− / 2
n n
PRUEBA DE HIPOTESIS.
INTRODUCCION
Esta es otra parte de la estadística inductiva o inferencial, llamada prueba de hipótesis,
significancia o procedimientos de toma de decisiones. La prueba de hipótesis, es otra manera
de abordar el problema de hacer una afirmación acerca de un parámetro desconocido asociado
con una distribución de probabilidades, basándose en una muestra aleatoria en lugar de hallar
un estimador para el parámetro a menudo es conveniente formular una hipótesis sobre el valor
del parámetro y luego usar la información de la muestra para confirmar o rechazar el valor de
la hipótesis con un nivel particular de confianza o seguridad.
El objetivo es brindar algunos métodos que se usan para tomar decisiones sobre
poblaciones, a partir de los resultados de una muestra aleatoria escogida de esa población.
Para llegar a tomar decisiones estadísticas se debe partir de afirmaciones o conjeturas con
respecto a la población en el que estamos interesados. Tales suposiciones, pueden ser
verdaderas o no. Una conjetura hecha sobre una población o sobre sus parámetros deberá ser
sometida a comprobación experimental con el propósito de saber si los resultados de una
muestra aleatoria extraída de esa población, contradicen o no tal conjetura
Hipótesis estadísticas
Es cualquier afirmación o conjetura que se hace acerca de la distribución de una o más
poblaciones.
La afirmación o conjetura puede referirse bien a la forma o tipo de distribución de probabilidad
de la población o bien al valor o valores de uno o más parámetros de la distribución de la
población.
En este caso las hipótesis estadísticas consiste en suponer que los parámetros que definen a la
Población toman determinados valores numéricos.
Ejemplos:
1. El promedio poblacional de la altura de los Peruanos es 1.6m. esto es:
= 1.60
2. La varianza poblacional de los salarios de los obreros de la Industria Textil es:
Hipótesis alternativa ( H1 )
Es la suposición contraria a la hipótesis nula, se representa por H 1 y se acepta en el caso que
la hipótesis nula sea rechazada.
2. H 0: 0 y H1: > 0
3. H 0: 0 y H1: < 0
La experiencia indica que al tomar una decisión se puede cometer dos tipos de errores:
H0 ES H0 ES FALSA
DECISIÓN VERDADERA
Rechazar Ho Error de tipo I Decisión correcta
Error de tipo I
Es el error que se comete al rechazar una Hipótesis nula H 0 cuando ésta es verdadera.
La Probabilidad de cometer un error de Tipo I se denota por :
=P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]
Error de tipo II
Es el error que se comete al aceptar una hipótesis nula H0 cuando en realidad es falsa.
La probabilidad de cometer un error tipo II se denota por entonces:
Cuando la hipótesis Nula( Ho) se rechaza con =0.05, diremos que el resultado es
Significativo.
Cuando la hipótesis Nula( Ho) se rechaza con =0.01, afirmaremos que el resultado es
Significativo.
Z= X −
n
Ejemplo Nº1.
Un determinado proceso de empaquetar un producto está controlado, si el peso medio del
producto empaquetado es de 400 gramos. Si en una muestra de 100 paquetes del producto
se ha encontrado que el peso medio es de 395 gramos, ¿Se podría concluir que el proceso
está fuera de control a un nivel de significación del 5%?. Suponga que el peso de los
productos empaquetados se distribuye normalmente con desviación estándar de 20 gramos.
Solución
X − −5
Z= = 395 − 400 = = −2.5
n 20 2
100
Ejemplo Nº2
Una máquina para enlatar conservas de pescado ha sido regulada para que el contenido de
cada lata sea de 16 onzas. Usando = 0.05, ¿ diría Ud. que la máquina ha sido
adecuadamente regulada, si una muestra de 36 latas dio un peso medio de 16.05 onzas y
una desviación típica de 1.5 onzas?
Ejemplo Nº3
De la experiencia de muchos exámenes de admisión a la Universidad Nacional Pedro Ruíz
Gallo, se obtiene una calificación media de 64 puntos, con una desviación estándar de 8
puntos. De una muestra de 81 estudiantes que rindieron el último examen. Se obtuvo una
calificación media de 68 puntos. Utilizando = 0.01, ¿ puede asegurarse que los
estudiantes han elevado su rendimiento?
Solución
4. Región Crítica: Para = 0.01 y una prueba unilateral con cola a la derecha , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.01 = 2.33
0.99
Ejemplo Nº4.
El gerente de la Empresa empresa de transportes E&S desconfía de la afirmación de que la
vida útil promedio de ciertos neumáticos es de almenos 28 000 millas. Para verificar ese
argumento, la empresa instala 40 de esos neumáticos en sus camiones y obtiene un ciclo
de vida medio de 27463 millas con una desviación estándar de 1348 millas. ¿ Qué puede
concluir el gerente de ese dato, si la probabilidad de un error I se fija en cuando más 0.05?
Solución:
1.- Formulación de las Hipótesis
H0 : 28 000 millas
H1 : 28 000 millas
4. Región Crítica: Para = 0.05 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.05 = -1.645
Ejemplo Nº5.
Solución
Z= X −
n
4.- Región Crítica: Para = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96
0.95
-1.96 1.96
Z= X − = 32.1 − 32 = 10
n 0.06
36
A) Población no normal.
Si la población no tiene distribución normal, pero si el tamaño de la muestra es grande
( n 30 ), se suele utilizar la estadística Z= X −
n
Donde la desviación estándar se estima puntualmente por S.
Ejemplo.
En la investigación de varias denuncias respecto al aviso "Peso Neto 300gr"que aparece
en los frascos de café molido" El Morenito", el comité de Defensa del Consumidor
seleccionó una muestra de 36 frascos, la muestra arrojó un peso neto medio de 298 g y
una desviación estándar de 7.5 gr. Utilizando un nivel de significancia de 0.01, ¿ Qué
conclusión debe sacar el comité de Defensa acerca de la operación de la compañía
envasadora de café?
Solución.
1.- Formulación de las Hipótesis
H0: =300 gr
H1: 300 gr
4. Región Crítica: Para = 0.01 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.05 = -2.33
∞=1% 0.99
-2.33
6.- Decisión: Como -1,60 -2.33; no se rechaza H0 ( se acepta H0), luego se puede
concluir que la compañía envasadora está cumpliendo con el peso neto enunciado.
B) Población normal.
Sean X y S2 la media y la varianza de una muestra aleatoria de tamaño n,
seleccionada de una población con distribución normal N ( ,2), donde y 2 son
desconocidas. Entonces, la estadística. t = X − , tiene distribución t-Student con n-1
S
n
grados de libertad: Donde: t0 = t(1-) (n-1)
Ejemplo 1.
Las cajas de un cereal producidas en una fábrica, deben tener un contenido de 16
onzas. Un inspector tomó una muestra que arrojó los siguientes pesos en onzas:
15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9, 15.8, 15.6.
Indicar si es razonable que el inspector, usando un nivel de significación del 5%, ordene
se multe al fabricante.
Solución.
3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
X −
t= , tiene distribución t-Student con 9 grados de libertad.
s n
4.- Región Crítica: Para = 0.05 y una prueba de una cola a la izquierda, en la
tabla de probabilidades t-Student se encuentra t0= t() (n-1) = t(0.05)(9) = -1.833.
Observación.
Si la cola estuviera hacia la derecha, entonces el valor de t se toma de la siguiente
manera: t(1-) (n-1) = t(0.95)(n-1)
-1.83
tc = X − = 15.9 − 16 = -1.368
S 0.231
n 10
Ejemplo 2.
Se sabe que los ingresos quincenales de un gran número de individuos se distribuyen
normalmente con una media de S/ 152. En un estudio estadístico reciente una muestra
aleatoria de 9 individuos de esa población ha dado los siguientes ingresos quincenales ( en
soles):
158; 154; 152; 156; 151; 150; 153; 155; 157.
A nivel de significancia del 5% ¿Ha cambiado el ingreso medio quincenal de tal población?.
Solución.
3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
t = X − , tiene distribución t-Student con 8 grados de libertad.
s n
4.- Región Crítica: Para = 0.05 y una prueba bilateral con dos colas, en la tabla
de probabilidades t-Student se encuentra t0 = t(1-/2) (n-1) = t(0.975,8) = 2.306.
Zona de aceptación
Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 67
Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.
2 2
N(1, 2 - 1 + 2 ) . Luego, la estadística.
n1 n2
X − Y - ( 1 - 2)
Z=
12 / n1 + 22 / n 2
Ejemplo1: Dos grupos de trabajadores de una empresa Agroindustrial, han sido sometidos
a un entrenamiento por dos métodos diferentes, que llamaremos A y B. Una vez terminada
la instrucción, para verificar la eficacia de los métodos, se aplicó un examen arrojando los
siguientes resultados:
Método A Método B
x = 73.4 y = 70.3
S1 = 8 S2 = 10
n1 = 50 n2 = 50
Utilizando un nivel de significancia de 0.05 ¿puede asegurarse que las medias de ambos
métodos no son iguales?
Solución.
Como n1 30 y n2 30 entonces los datos se aproximan a una distribución normal y por
lo tanto se puede aproximar a S1 1 y S2 2
1. - Formula de hipótesis.
H0: 1 = 2 , (1 -2= 0)
H1: 2
2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.05,
entonces:
P(Z z0 ) = 0.975
F(z0 ) = 0.975
z0 = 1.96
0.95
Solución.
1.- Formula de hipótesis.
2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.01, pero
como es una prueba de dos colas se tiene /2=0.005 entonces:
P(Z z0 ) = 0.995
F(z0 ) = 0.995
z0 = -2.58
3.- Estadística.
Z= x− y
=
122
+ 2
n1 n2
0.99
12 − 12.2
Z= = −0.9950
(3 / 100) + (3.12 / 300)
Las pruebas de hipótesis con respecto a una proporción poblacional "p" son básicamente
iguales que las medidas.
Consideremos el problema de probar la hipótesis de que la proporción de éxito en un
experimento binomial es igual a un valor dado. El estadístico de prueba es la siguiente:
Z=
pˆ − p
pq
n
Ejemplo.
Un gobernante afirma que en su país existe el 40% de desocupados. Con el fin de evaluar
esta afirmación se tomó una muestra de 500 personas resultando que 300 son
desocupadas. Sobre la base de esta información obtenida. ¿ qué se puede decir acerca de
la afirmación del gobernante? Usar =0.05
Solución:
3.- Estadística
pˆ − p
Z= =
pq
n
0.95
5.- Cálculo del estadístico "Z" por la fórmula: Población normal con varianza conocida,
la estadística apropiada es.
pˆ − p 0.6 − 0.40
Z= = = 9.128
pq 0.40 * 0.60
n 500
6.- Toma de decisión: Como 9.128 es mayor que 1.64, se rechaza H0, luego se puede
concluir con un riesgo del 5% que el desempleo es mayor que el que anuncia el
gobernante.
Ejercicio Nº1
El consumidor de cierto producto acuso al fabricante, diciendo que más de 20% de las
unidades que fabrican son defectuosas. Para confirmar su acusación, el consumidor usó una
muestra aleatoria de tamaño 50, donde el 27% de las unidades eran defectuosas ¿Qué
conclusión puede extraer Ud.? use = 0.05
Las pruebas de independencia y de homogeneidad están entre las más comúnmente usadas en
los procedimientos estadísticos.
Estos test están basados en una técnica introducida por Karl Pearson en 1900, quién ha sido
llamado el "fundador de la ciencia estadística".
x− μ y− μy x − μx 2 y− μy 2
Entonces: z + z =
Si ahora consideramos: z = σ y z =
2 2
2 σx + σy
y
1 2 σy 1
2 2
se dice que: z + z tiene distribución chi-cuadrado con 2 grados de libertad.
1 2
En general: Z1 + Z 2 + ... + Z n ( n)
2 2 2 2
Ejemplo: Contrastar al nivel de 5% si hay alguna relación entre las notas que obtuvieron en
pre grado y el salario que perciben los 150 empleados de la Universidad de Lima.
S Notas del Pre Grado
A Alta Media Baja Total
L Alto 18 17 5 40
A Medio 26 38 16 80
R Bajo 6 15 9 30
I Total 50 70 30 150
o
Solución:
i) Hipótesis: Ho: Notas del Pre Grado y el salario son independientes.
H1: Existe alguna relación entre notas del Pre Grado y el salario.
En nuestro caso, bajo la hipótesis Ho anterior, las frecuencias esperadas son calculadas
mediante la expresión
Así tenemos:
II) Conclusión: No se rechaza Ho, pues X2=6.1107 < 9.488 y concluimos de que no hay
relación entre las notas del Pre Grado y el salario, es decir, las dos características son
independientes.
Ejercicio: En la siguiente tabla se dan los resultados obtenidos por 435 estudiantes en
Estadística I y Matemática I. Contraste la hipótesis de que los resultados obtenidos en
Estadística I son independientes de los resultados obtenidos en Matemática I; al nivel de
2.5%.
Estadística I
0≤nota<10 10≤nota<14 14≤nota≤20 Total
MA 0≤nota<10 70 40 15 125
TE 10≤nota<14 30 130 25 185
MA 14≤nota≤20 15 60 50 125
TICA I Total 115 230 90 435
Ejemplo:
2.764 residentes del gran Santiago fueron clasificados de acuerdo a sus ingresos y el
tiempo transcurrido desde que ellos consultaron por última vez a un médico.
Ingresos Tiempo
TOTAL
(en miles) <6 meses 7 – 12 meses >12 meses
<200 186 38 35 259
200 – 300 227 54 45 326
301 – 500 219 78 78 375
501 – 800 355 112 140 607
>801 653 285 259 1.197
TOTAL 1.604 567 557 2.764
¿Proporcionan estos datos evidencia suficiente para indicar que existe una asociación entre
el ingreso y el tiempo transcurrido desde la última consulta al médico?
Si no existe asociación entre las dos variables se dice que son independientes.
Dos variables son independientes cuando la distribución de una de ellas no depende de
la distribución de la otra.
Por ejemplo, dos variables son independientes si al conocer el valor de una de ellas
para un sujeto no ayuda para determinar el valor de la otra variable para el mismo
sujeto.
Es de interés docimar:
H0 : los dos criterios de clasificación son independientes.
H1 : los dos criterios de clasificación no son independientes.
Para docimar H0 se comparan las celdas de frecuencias observadas con las celdas de
frecuencias esperadas y se usa la estadística:
2
−
f c ij O E
ij
x2 = Donde: x x (f − 1)(c − 1) y la decisión es rechazar H0 a un
2 2
i=l j=1 E
ij
nivel de significación si el valor calculado de la estadística X2 excede el valor de tabla:
x12− (f − 1)(c − 1)
En el ejemplo:
H0: el ingreso y el tiempo transcurrido desde la última visita al médico son independientes.
H1: las dos variables no son independientes.
celdas
=
(186 − 153.68)
2
++
(259 − 241.22)
2
= 47.9 y x2 x 2 (5 − 1)(3 − 1) = x 2 (8)
153.68 241.22
De la tabla
2 (8) = 15.507 luego se rechaza H0 .
X0.95
Ejercicio: Un estudio de mercado de la Empresa E&S, proporciona los datos que siguen,
donde la muestra de 800 consumidores de un producto específico opinan acerca de las tres
formas de presentación de las tres marcas que aparecen en el mercado.
a)Si el estudio culmina afirmativo, al nivel de significación 0.05, que el consumidor solo tiene
en cuenta marca del producto pero no la presentación. ¿ Esta Ud de acuerdo con la afirmación?
Si no está de acuerdo ¿Cómo mide el nivel de independencia entre estas dos variables
cualitativas? ¿Es significativa la independencia?
Ejemplo:
Para determinar la conciencia pública y preocupación por la polución atmosférica, se
entrevistó a una muestra de 40 residentes en cada una de 3 áreas del gran Santiago. La
pregunta fue :
¿Es la polución atmosférica un problema en su vecindario?
Solución
H0: las tres poblaciones de residentes son homogéneas con respecto al conocimiento de los
problemas de la polución.
H1: las tres poblaciones no son homogéneas.
2
O − E
2 3 4 ij
ij (5 - 8,67)2 (2 − 3)
2
X = = ++ = 10,391 Ya que: X 2 (16) = 12,592
i=1 j=1 E
ij 8,67 3 0.95
no hay evidencia para rechazar H0 a un nivel = 0.05 .
Las pruebas de bondad de ajuste son herramientas útiles para evaluar lo bien que se
aproxima un modelo de una situación real a un diseño descrito previamente (modelo
teórico).
H0: la muestra ha sido seleccionado de una población que tiene una distribución
específica.
H1: la muestra no ha sido seleccionada de una población que tiene la distribución
específica.
Nota:
La hipótesis alternativa no indica como la verdadera distribución difiere de la hipotética.
Cuando H0 es verdadera, los ejemplos se obtienen por: Ej= n · pi
2
O − E
Luego:
ij ij
y rechazar H 0 si X 2 X12-α (r - 1)
E
ij
Donde: r = nº de categorías.
Consejero Elegido Ei Oi
Hombre negro 6 13
Hombre nórdico 6 6
Hombre blanco 6 0
Mujer nórdica 6 3
Mujer negra 6 11
Mujer blanca 6 3
Total 6 36
CAPITULO IX
Y
Y
En esta unidad trataremos de la parte básica del tema de la regresión lineal simple
determinado por la función lineal : Y = b0 + b1 X
Es una técnica estadística que analiza si los valores de una variable dependiente e
independiente puede predecirse mediante un modelo lineal.
Las variables implicadas en el modelo deben ser cuantitativas y continuas.
Para ajustar una línea recta de Regresión, se considera la ecuación de la recta:
Y Yˆ = b0 + b1x i
b1
Unidad de X
b0
X
Una tarea principal en el análisis de regresión lineal, es estimar los parámetros “b 0” y “b1”,
cuyos valores se determinan a partir de los datos bidimensionales. El método de los mínimos
cuadrados consiste en hacer mínima la suma de los cuadrados de la diferencia entre los
valores observados (yi), y los valores estimados ( Yˆ ) es decir:
SCD = ( Yi – Yˆ )2 = sea mínima.
El cálculo de los estimadores de los coeficientes de regresión a partir de los datos muestrales,
viene dado por la siguiente expresión.
n XY − ( Xi)( Yi) ; b0 = Y − b1 ( X )
b1 =
n( X i2 ) − ( Xi) 2
Ejemplo de Aplicación.
En un estudio de la relación entre la publicidad por radio y las ventas de un producto durante
10 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana
(X) y el número de artículos vendidos (Y), resultando
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad (X) 20 30 30 40 50 60 60 60 70 80
Ventas (Y) 50 73 69 87 108 128 135 132 148 170
2 2
X Y xy x Y
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Donde :
n n n
n = 10 ;
Xi = 500 , yi = 1100 , xi.yi = 61800
i =1 i =1 i =1
n n 500 1100
xi2 = 28400 yi2 = 134660 , x=
10
= 50 , y=
10
= 110
i =1 i =1
Estimando el parámetro b1:
10(61800) − (500)(1100)
b1 = n XY − ( Xi)( Yi ) = =2
10(28400) − (500) 2
n( X i2 ) − ( Xi) 2
Estimando el parámetro b0 :
b0 = y − b ( x ) = 110 - ( 2 )(50 ) = b0 = 10
ŷ 9 = 10 + 2 ( 70 ) = 150 artículos
Ejercicio propuesto.
CORRELACIÓN LÍNEAL
Es una parte de la Estadística Descriptiva que tiene por objetivo investigar la relación que hay
entre dos o más variables estadísticas, determinar el sentido de relación y cuantificar el grado
de nivel de correlación entre las variables con respecto a sus coeficientes.
Coeficiente de correlación
Es el valor numérico que da a conocer el grado de relación que existe entre dos o más
variables. Se representa por la letra r. r = n xy − ( x)( y )
n 2 − ( n 2 −
2 2
x x) y ( y )
Propiedades
−1 r 1
a) Si r > 0 Correlación Directa
b) Si r < 0 Se trata de una Correlación Inverso Negativo.
c) Si r2 = 1 los datos forman una línea recta.
d) Si r = +1 hay una correlación perfecta (+)
e) Si r = -1 hay una correlación perfecta (-)
f) Si r = 0 Los datos son incorrelacionados
Ejemplo: Calcular el coeficiente de correlación con los datos del ejemplo anterior para lo cual
se requiere realizar los siguientes cálculos que se tienen a continuación.
X Y xy X2 Y 2
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
Interpretación: Existe un alto grado de asociación entre los minutos de publicidad empleados
en la radio y el número de artículos vendidos, por lo tanto estas dos variables se pueden
relacionar mediante una función lineal y poder realizar pronósticos confiables, ya que los datos
se ajustan muy bien a la recta estimada.
(Y − Y ) 2
Error de Estimación (Se).- Es una medida de la cantidad media en que las observaciones
reales Y varían en torno a la recta de regresión. Ŷ (regresión de Y/X ) viene dada por :
(Y − Yˆ ) 2
Se = S Y/X =
n−2
EJERCICIO
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.
Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos
Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
a) Calcular la ecuación de Regresión de las ventas con la publicidad, y las ventas con el
precio.
b) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar
Calcule el intervalo predictivo para la media y un valor individual a un nivel de confianza del
95%
REGRESIÓN MULTIPLE
problema se convierte en uno para el análisis de regresión múltiple. Los conceptos básicos
siguen siendo los mismos, sólo se utiliza mas de una variable independiente para pronosticar
la variable dependiente.
Y = nb + b X +b X
0 2 2 3 3
X 2Y = b X 2 +b X 22 + b X 2 X 3
0 2 3
X 3Y = b X 3 + b X 2 X 3 + b X 32
0 2 3
Ejemplo:
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.
R2 = 1- (Y − Yˆ ) 2
= 1- 15.9/233.6= 1.0.068 =0.93 :
(Y − Y )
2
Error Estándar de Estimación. Mide la cantidad estándar en que los valores reales (Y)
difiere de los valores estimados ( Yˆ ). Es una medida de la cantidad media en que varían las
observaciones reales alrededor del plano de regresión y se calcula de la siguiente manera.
Sy..x2 x3 =
(Y − Yˆ ) 2
= Sy..x2 x3 =
15.901493
= 2.27 = 1.51
n−k 10 − 3
Interpretación. La cantidad típica en que el valor real de volumen de leche vendido difiere de
lo pronosticado mediante la ecuación de regresión múltiple es de 1.510 galones.
MATRIZ DE RECOLECCION.
que para las variables 2 y 1 (r 21).De ahí que solo sea necesaria la mitad de la matriz. Además,
la diagonal principal siempre contendrá unos, ya que siempre relaciona una variable consigo
misma ( r 11, r 22 r33).
MATRIZ DE CORRELACIÓN
Variables
VARIABLES 1 2 3
1 r11 r12 r13
2 r21 r22 r23
3 r31 r32 r33
Ejemplo El dpto. de personal de la empresa P&C esta interesado en estudiar la relación que
tiene el salario, el tamaño de la familia y la antigüedad en el trabajo con los gastos. Para este
estudio, el especialista en la materia, escogió una muestra al azar de 10 miembros de todo el
personal de la empresa y registró los datos en la tabla que sigue, para las siguientes variables.
Y X1 X2 X3
20 25 3 5
25 28 5 8
30 35 4 6
32 35 5 2
37 40 5 7
40 45 5 4
40 50 5 5
45 45 6 4
55 70 6 5
60 80 5 3
CAPITULO XI
MUESTREO
El muestreo es una herramienta de la investigación científica, que consiste en seguir un
método, un procedimiento en el que se escoge un grupo pequeño de una población con el cual
podemos tener un grado de probabilidad de que efectivamente ese pequeño grupo posee las
características de la población o universo que estamos estudiando.
En la investigación científica es habitual que se empleen muestras como medio de acercarse al
conocimiento de la realidad. Sin embargo, para que esto sea posible, y que a través de las
muestras reproducir el universo con la precisión que se requiera en cada caso, si es necesario
que el diseño muestral se atenga a los principios recogidos en las técnicas de muestreo.
El Objeto del muestreo es obtener una muestra que permita, a través del estudio de su
constitución estimar cómo es la constitución de la población a la que pertenece la muestra;
población que no puede ser conocida directamente por ser muy grande o compleja.
A las medidas que se obtienen de las muestras, por ejemplo X y otras que después
veremos, se denomina estadísticas, mientras que a las correspondientes medidas de la
población, por ejemplo ., se denominan parámetros.
Un muestreo bien realizado dá una muestra que puede proporcionar medidas que estiman
a las medidas correspondientes de la población de donde proviene la muestra, esto a un costo
y tiempo mínimo con relación al censo.
En estadística estos fines se cumplen, pero no en forma absoluta, es decir con 100% de
seguridad, pues siempre queda una pequeña probabilidad en contra; por ejemplo, de que
TECNICA DE MUESTREO.
La técnica del muestreo, establece la relación entre las poblaciones y las muestras, con el
objeto de estimar los parámetros de las poblaciones a través de las medidas estadísticas de
las muestras, tales como el promedio, la varianza, etc. La técnica del muestreo permite
determinar si hay diferencia entre parámetros equivalentes de dos a más poblaciones; tal por
ejemplo, si el efecto de un suero es mejor que otro para el tratamiento de una enfermedad, si
un producto procesado con un procedimiento es mejor o, peor que el producta procesado con
otra procedimiento etc. Esta conduce a tomar una decisión sobre bases estadísticas de
acuerdo a las inferencias que se estimen de las poblaciones con una probabilidad dada. A fin
de que las inferencias sean válidas, las muestras deben ser extraídas en forma que sean
representativas de las respectivas poblaciones de donde se extraen, para lo cual es importante
que la población haya sido perfectamente definida.
2º.-Si se necesitan datos a intervalos regulares de tiempo y es importante medir cambios muy
pequeños entre un período y el siguiente, pueden requerirse muestras muy grandes.
3º.-Si los Costos generales de una encuesta por muestra son elevados debido al trabajo de
selección de la muestra, control, etc, el muestreo puede resultar poco práctico. Por
ejemplo, en una provincia con muy pocas escuelas es posible que resulte más económico
enumerar todas las escuelas en la provincia que enumerar de una muestra de escuelas en
la provincia sin embargo, para el trabajo de oficina, es decir el procesamiento de los datos,
puede usarse una muestra de las escuelas enumeradas y reducir en esa forma el trabajo y
los costos de producción de las tabulaciones.
MARCO DE MUESTREO
Es la concreción individualizada de las unidades del Universo, es el punto de partida y el
fundamento necesario para realizar la selección de la muestra.
La base de muestreo o marco de muestreo puede consistir en un Censo, un registro, una
lista de personas, un fichero, un catálogo, un mapa, un plano, una guía de nombres.
La base de la muestra no siempre existe en la realidad. Hay muchos universos que no
están censados o catalogados y que es prácticamente imposible catalogarlos. Por ejemplo, no
lo están el público que circula por las calles, ni los asistentes a un cine o a un estadio. La
solución que se adopta entonces es practicar la elección de la muestra por algún procedimiento
aleatorio imperfecto. Así por ejemplo encuestar uno de cada cinco personas que se encuentran
por la calle. También se puede dar el caso que se conozca la composición en categorías de la
población, pero que no exista registro de ellos. Entonces se puede recurrir al procedimiento,
igualmente imperfecto estadísticamente, de asignar a cada agente una serie de encuestas de
cada categoría a realizar, proporcional en su conjunto a la magnitud de los estratos en la
población, dejando a su arbitrio la elección de los individuos concretos a encuestar.
Recapitulando diremos que el Marco de Muestreo es la totalidad de las Unidades de
muestreo de donde se extraerá la muestra.
UNIDAD DE MUESTREO
La unidad de muestreo es una unidad seleccionada del Marco de muestreo.
La Unidad de muestreo es cada uno de los elementos en que se subdivide la base de la
muestra o marco muestral y figuran individualizados en ello. No sólo puede ser simple, sino
también colectiva, como cuando está constituido por familias, grupos, ciudades, pueblos, etc.
Puede ser la Unidad de Análisis, aún cuando no es necesario. Por ejemplo para poder
obtener información acerca de las personas podríamos usar una lista completa de un censo, o
un registro de personas y seleccionar directamente una muestra de personas. Sin embargo,
también podríamos seleccionar una muestra de familias e incluir en la encuesta todas las
personas de las familias seleccionadas. En forma similar podríamos seleccionar edificios
completos, e incluir todas las personas que viven en las edificaciones seleccionadas.
UNIDAD DE ANALISIS
La Unidad de análisis, es la Unidad para la que deseamos obtener información estadística. En
las encuestas de tipo usual, pueden ser personas, hogares, escuelas, casas o firmas
comerciales. Podrían ser también tarjetas perforadas o productos surgidos de algún proceso
mecánico para algunos otros tipos de análisis.
La Unidad de análisis es denominada frecuentemente como elemento de población.
En una misma encuesta puede existir más de un elemento, por ejemplo familias y
personas, o número de casas y hectáreas cultivadas o escuelas y alumnos.
PROBABILIDAD DE SELECCIÓN
La probabilidad de selección es la que tiene cada unidad en la población de ser incluida
en la muestra. La probabilidad es un valor que oscila entre cero y uno.
FRACCION DE MUESTREO
Es el porcentaje que representa la muestra respecto al universo comprendido en la base
de la muestra. Así tenemos:
f = fracción de muestreo
n = muestra
N = Población
METODOS DE MUESTREO
Para reproducir la población a través de una muestra con la precisión que se requiera, es
necesario que el diseño muestral se atenga a los principios recogidos en las técnicas de
muestreo.
La preocupación central es asegurar de que los miembros de la muestra sean lo
suficientemente representativos de la población entera como para permitir hacer
generalizaciones precisas acerca de ello.
Para realizar tales inferencias el investigador escoge un método de muestreo apropiado
para ver si todos y cada uno de los miembros de la muestra tienen igual oportunidad de ser
integrados en ella. Si a cada miembro de la población se le da igual oportunidad de ser
escogido para la muestra, se está utilizando un método aleatorio de no ser así el otro método
será el no aleatorio. Entonces señalamos que existen dos métodos de muestras o tipos de
muestreos: un método aleatorio (probabilístico) y otro no aleatorio (no probabilístico).
• Aleatorio Simple
• Aleatorio Sistemático
• Estratificado
• Polietápico
Muestreo
• Accidental o Casual
• de Bola de Nieve
MUESTRAS NO ALEATORIAS
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso
y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya
que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios procurando que la
muestra sea representativa, ya que estos métodos están basados en algún elemento de juicio
o criterio humano para decidir cuáles unidades de la población son las que deben forma las
muestras. Algunos de estos métodos se describen a continuación.
Individuos Ingresos
A S/ 1300
B 4300
C 3100
D 2000
E 3600
F 2200
G 1800
H 2500
I 1500
J 900
K 2800
L 1900
Ingreso Total 27 900
Ingreso Promedio 2 325
Este tipo de selección puede hacerse de dos formas: Puede sacarse una ficha reemplazada
en el recipiente y extraer la segunda. En este caso la segunda ficha podría ser igual a la pri-
mera. Este procedimiento se denomina Muestreo con reposición.
Por otra parte se podría extraer la segunda ficha al mismo tiempo que la primera o se lo
podría seleccionar sin reponer la primera; en uno u otro caso las fichas serían diferentes,
este es el Muestreo sin reposición.
Cuando se extraen muestras de una población finita, la práctica usual es aplicar el muestreo
sin reposición.
Existen otras formas de seleccionar dos personas al azar.
En el muestreo sin reposición, se consideran todos los pares posibles de individuos AB, AC,
AD, ... BC, BD, ... CD, CE, etc. podríamos escribir un par de letras, por cada uno de los 66
pares, en cada ficha y seleccionar una ficha única
Las muestras de selección posibles son iguales que las del caso anterior.
En la práctica no se usan fichas para seleccionar unidades individualmente o en pares. El
método común es usar una tabla de números al azar y elegir en la misma, dos números
comprendidos entre 1 y 12.
Los dos números representan a dos individuos. El uso de las tablas de números al azar tiene
el mismo efecto que el uso de fichas.
Debemos precisar que cualquiera de estas formas satisfacen los criterios para una muestra
aceptable.
5ta. columna
1089 8719
9385 7902
6934 8660
0052 1007
5736 9249
1901 5988
5372 6212
Dentro de los límites de los números que figuran en los ejemplos siguientes,
seleccionaremos en la tabla anterior números al azar usando cada número seleccionado
una sola vez
Ejemplo 1 .
- Seleccionar tres números al azar entre 1 y 10.
- Elegimos primero una columna arbitrariamente decidiendo que 0 representa a 10.
- Supongamos que hemos elegido la quinta columna.
- El primer número de esa columna es 8, el segundo 7, el tercero 8 nuevamente.
- Como este número ya ha sido seleccionado, lo pasamos por alto y tomamos el número
siguiente que es1.
Los tres números seleccionados son por lo tanto 8, 7 Y 1.
Ejemplo 2
Seleccionar cinco números al azar entre 1 y 80. Supongamos que tomamos las dos
Ventajas:
- Fácil de aplicar.
- No siempre es necesario tener un listado de toda la población.
- Cuando la población esta ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos.
Desventajas:
- Si la constante de muestreo esta asociada con el fenómeno de interés, se pueden hallar
estimaciones sesgadas.
C. Muestreo estratificado.
Ventajas:
- Tiende a asegurar que la muestra represente adecuadamente a la población en función de
unas variables seleccionadas.
- Se obtienen estimaciones más precisas.
Desventajas:
- Se ha de conocer la distribución en la población de las variables utilizadas para la
estratificación.
- Los análisis son complicados, en muchos casos las mezclas tiene que ponderarse (asignar
pesos a cada elemento).
Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en
este caso parece más razonable utilizar una afijación proporcional pues hay bastante
diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone
cada de los estratos respecto de la población para poder reflejarlo en la muestra.
Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa
proporción para el tamaño muestral.
Ventajas:
Es muy eficiente cuando la población es muy grande y dispersa. Reduce costos.
No es preciso tener un listado de toda la población, solo de las unidades primarias de
muestreo.
Desventajas:
El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
El cálculo del error estándar es complejo.
Para finalizar con los métodos de muestreo probabilísticos es necesario comentar que ante
lo complejo que puede llegar a ser la situación real de muestreo con la que nos enfrentemos
es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo
se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método
de muestreo probabilístico más adecuado.
E. Muestreo polietápico
Muestreo en el que se procede por etapas se obtiene una muestra de unidades primarias,
más amplias que las siguientes; de cada unidad primaria se toman, para una submuestra,
unidades secundarias, y así sucesivamente hasta llegar a las unidades últimas o más
elementales. Se le puede considerar como una modificación del muestreo por
conglomerados cuando no forman parte de la muestra elementos o unidades de todos los
conglomerados, sino que, una vez seleccionados estos, se efectúan submuestras dentro de
cada uno de ellos.
Cuando la población es superior a 100 000 hay que utilizar la fórmula para poblaciones
infinitas que es la siguiente:
Z2 x p x q Z 2 2
n= 2 n=
E E2
Donde
n = es el número de elementos de la muestra a determinar
Z2 = es el nivel de confianza elegido
p = es el tanto por ciento estimado de la característica investigada
q = 1- p
E = es el error de estimación admitido
Z2 / 2 * s 2
no =
E2
Ejemplo: Se desea estimar, con el 95% de confianza, el tiempo promedio para efectuar cierta
intervención quirúrgica. En un estudio piloto se encontró una media de 3.5 horas y una
desviación estándar de 2.2 horas. El investigador asume una precisión de 0.35 horas. Calcular
el tamaño de la muestra.
Solución
Datos
Z = 1.96
S = 2.2
E= 0.35 horas
1.962 * (2.2) 2
n= = 152
(0.35) 2
El tamaño de la muestra para estimar el tiempo promedio para efectuar una intervención
quirúrgica es de 152 pacientes.
Z 2P *Q
no =
Donde: E2
P : es la proporción poblacional que puede estimarse de las tres maneras siguientes:
➢ Revisión bibliográfica
➢ Estudio piloto
➢ Asumiendo P = 0.5 y Q = 0.5
Z 2P *Q
no =
E2
I ) FORMA
245.9
n= = 219
245.9
1+
2000
II ) FORMA
Z2 x p x q
Apliquemos la fórmula: n=
Z2
N= 650,000 Población
n = ? muestra no se conoce
Z= 99% = 2.57
E= 4% error admitido
p = En cuanto a p como no se indican las proporciones que guardan dentro de la población
las características a estudiar, es preciso suponer el caso más desfavorable, de p igual a
50, luego q también será igual a 50.
2.57 2 x 50 x 50
Reemplazando los valores en la fórmula n = = 1032
42
tenemos:
El resultado obtenido significa que el tamaño de la muestra debe ser por lo menos 1032 para
estar seguros con una probabilidad de 99 por 100 de que los resultados de la muestra son váli-
dos dentro de los márgenes del error admitido para el universo.
Cuando el universo es inferior a 100000 hay que utilizar la fórmula para universos finitos
que es la siguiente:
Z2 x p x q x N Z 2 2 x N
n= n=
2 2
E (N - 1) + Z x p x q o E (N - 1) + Z2 x S2
2
Ejemplo: Queremos estudiar las condiciones socio económicas de los estudiantes de una
provincia cuya población alcanzan a 6800 alumnos, hallar el tamaño de la muestra con un
nivel de confianza del 95% y con margen de error permitido del 6%
Aplicamos la fórmula
Z2 x p x q x N
n=
E 2 (N - 1) + Z 2 x p x q
65307200 65307200
n= n=
244764 + 9604 =254368
n = 257 alumnos
Respuesta: El tamaño de la muestra de una población de 6800 alumnos será de 257
alumnos, con un nivel de confianza del 95% y un margen de error del 6%
Procedimiento
Z2 X p X q x N
n =
E2 (N-1) +Z2 x p x q
3.- Reemplazamos valores:
4 x 50 x 50 x 12,000
n=
16 x 11999 + 4 x 50 x 50
n = 594
5. - Luego pasemos a la obtención del número de elementos de cada estrato dentro de la muestra.