Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA APLICADA A LA
INVESTIGACION
40
30
Porcentaje
20
10
0
Bajo Intermedio Alto
Hábito de estudio
cleto.delatorre@unsaac.edu.pe
2020
~2~
CAPITULO I
INTRODUCCION A INVESTIGACION CIENTIFICA
PROBLEMA DE INVESTIGACION.
Para la presentación del POI, es necesario considerar cuatro momentos: el
diagnóstico, el pronóstico, el control del pronóstico y la formulación de la pregunta
o preguntas o la redacción de un texto a manera de pregunta.
El diagnóstico es la descripción de los síntomas o problemas.
El pronóstico es la serie consecuencias de los problemas.
El control del pronóstico es la serie de acciones para superar las
consecuencias de los problemas.
Formulación del problema
~5~
Situación problemática
Espacio
Esta referido al lugar en el que ocurre el hecho o situación problemática.
Puede ser geográfico o administrativo. ¿Dónde?; Perú, Ciudad del Cusco,
Zona Franca, Aceros Arequipa, etc.
Tiempo
Está referido al momento en que ocurre el hecho o situación problemática.
¿Cuándo?
Ejemplo 2:
ALCANCE CORRELACIONAL
Orientada a descubrir la correlacion o correspondencia entre los valores de dos
hechos o situaciones problemáticas.
Ejemplo 4:
Correlación entre hábitos de estudio y aprendizaje en los estudiantes de la
Universidad de Nacional San Antonio Abad del Cusco, 2011.
CAPITULO II
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
2.1 INTRODUCCION
La Estadística es la ciencia que se ocupa de los métodos y procedimientos de
colección, clasificación, organización, análisis, síntesis e interpretación de datos;
siendo su característica que la distingue, la de hacer generalizaciones o inferencias
en base a una muestra.
~ 14 ~
DIVISION DE LA ESTADISTICA
La estadística se divide en dos partes íntimamente relacionadas:
Estadística Descriptiva: Esta es la parte de la estadística que se dedica a la
organización, síntesis y descripción de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar
(hacer inferencias) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara,
simplificada o reducida.
Estadística Inferencial: Esta rama de la estadística trata el problema de inferir
la naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
CONCEPTOS BASICOS
Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre
los cuales interesa observar una o más características. Esta puede ser finita o
infinita. El tamaño de la población es el número de individuos que esta tiene.
Muestra. Una muestra es un conjunto de individuos de la población que refleja
las características de ésta lo mejor posible. Si las características quedan bien
reflejadas, se dice que la muestra es representativa. El tamaño de una muestra
es el número de individuos que tiene, lo denotamos por n.
Unidad de estudio. Es cada elemento que va a ser estudiado, normalmente
se trate de individuos, pero no tiene por qué ser así.
Data. Es cualquier medida resultado de haber observado una variable en una
unidad de alguna población.
Parámetro. Es una propiedad descriptiva de una población. Ejemplo media y
varianza poblacional
Estadístico. Es una propiedad descriptiva de una muestra. Ejemplo media y
varianza muestral.
~ 15 ~
f
i =1
i = f 1 + f 2 + ...... + fk = n
~ 16 ~
h =1
f
hi = i , se cumple
i
n i =1
Fi = f 1 + f 2 + ...... + fi
Hi = h1 + h2 + ...... + hi ,
Fi
Hi =
n
La tabla de frecuencias tiene la siguiente estructura:
Categoría de X fi hi pi Fi Hi
C1 f1 h1 p1 F1 H1
C2 f2 h2 pi F2 H2
…. … … … … …
Ck fk hk pk Fk=n Hk=1
Total n 1.00 100
➢ Diagrama de Pareto.
Se ordenan las categorías de mayor a menor importancia y se dibujan los
rectángulos correspondientes.
Este grafico se recomienda para jerarquizar los factores considerados en el
estudio.
➢ Diagrama de sectores.
Es el más usual en variables cualitativas. Se representan mediante círculos.
A cada valor de la variable se le asocia el sector circular proporcional a su
frecuencia.
Para hallar el ángulo usamos la siguiente proporción: al tener una
circunferencia 360º, el cociente entre la frecuencia absoluta (o relativa) total y
la frecuencia absoluta (o relativa) que queramos representar será igual al
cociente entre los 360º de la circunferencia y el ángulo a determinar, así:
n 360º 1 360º
= =
fi hi
➢ Pictogramas.
Expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el área
de cada uno de ellos sea proporcional a la frecuencia de la modalidad que
representa.
~ 19 ~
Valores de X fi hi pi Fi Hi
x1 f1 h1 p1 F1 H1
x2 f2 h2 pi F2 H2
…. … … … … …
xk fk hk pk Fk=n Hk=1
Total n 1.00 100
atípicos), es decir, de valores que se alejan de una manera poco usual del
resto de los datos. Presenta los tres cuartiles, (y los valores mínimos y
máximos) alineados sobre una caja vertical u horizontalmente. El
procedimiento Para el diagrama de cajas y bigotes es:
1. Si los datos son de dos dígitos, a la izquierda (en el tallo) aparece la cifra
de las decenas, a la derecha separada por una línea aparecen las hojas y
se escriben ordenadas y todas seguidas.
2. Si hay tres dígitos el tallo está formado por los dos primeros. Las hojas
son las unidades.
R = xmax − xmin
➢ Determinar la amplitud de las clases.
A= R/k
I 2 = xmin + A, xmin + 2 A = LI 2 , LS 2
LI i + LSi
mi =
2
Donde LI : Limite inferior
LS : Limite superior.
Ii mi fi hi hi pi Fi Hi
I1 m1 f1 h1 h1 p1 F1 H1
I2 m2 f2 h2 h2 pi F2 H2
…. … … … … … … …
Ik mk fk hk hk pk Fk=n Hk=1
Total n 1.00 1.00 100
➢ Histograma de frecuencias
Un histograma es la representación más frecuente con datos agrupados, se
construye a partir de la tabla estadística, representando sobre cada intervalo,
un rectángulo que tiene a este segmento como base. El criterio para calcular
la altura de cada rectángulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
➢ Polígono de frecuencias
El polígono se construye fácilmente si tenemos representado previamente el
histograma, ya que consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase. Para representar el
polígono de frecuencias en el primer y último intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia
nula, y se unen por una línea recta los puntos del histograma que
corresponden a sus marcas de clase.
➢ Curva de frecuencias.
Resulta de suavizar el polígono de frecuencias, en sus puntos angulosos.
➢ Ojivas
~ 23 ~
Es una poligonal construida uniendo los puntos cuyas abscisas son los límites
superiores de clases y las ordenadas son las frecuencias absolutas
acumuladas
Resumen de gráficos.
Variable Tipo Gráfico
Cualitativa Nominal Sectores circulares,
Ordinal barras, pictogramas,
pareto.
Cuantitativa Discreta Bastones, barras, box
plots, tallos y hojas
Continua Histogramas, polígonos
de frecuencia, Ojivas,
Grafico de cajas, Box-
plots, tallos y hojas.
EJERCICIOS DESARROLLADOS
Método fi hi pi
~ 24 ~
Clásico 20
6 0.2
Nuevo Enfoque 53.33
16 0.5333
Ambos métodos 26.67
8 0.2667
Total n=30 1.00 100.00
16
12
frequency
0
Ambos metodos Clasico Nuevo enfoque
Pie Chart of C1
Category
Ambos metodos
Clasico
Nuevo enfoque
{[}
{\}
{]}
{^}
{_}
{`}
~ 25 ~
40
30
Porcentaje
20
10
0
Bajo Intermedio Alto
Hábito de estudio
Conocimiento
Frecuencia Porcentaje
Deficiente 26 63.4
Regular 8 19.5
Bueno 7 17.1
Total 41 100.0
Solución:
60,0%
Porcentaje
40,0%
20,0%
0,0%
Deficiente Regular Bueno
Conocimiento
Solución.
a) Construiremos la tabla de frecuencias.
❖ Número de clases.
Usando la relación de sturges se tiene:
Clase Intervalo mi fi hi pi Pi
1 [1255,0 - 1783,57 ) 1519,29 1 0,0400 4% 4%
Total 50 1 100%
~ 29 ~
80
Ojiva
60
Histograma
40
20
0
0 1 2 3 4 5
(X 1000,0)
Calorias
Histograma
20
Polígono de
Frecuencia Porcentual
12
0
0 1 2 3 4 5
(X 1000,0)
Calorias
~ 30 ~
CAPITULO III
MEDIDAS DESCRIPTIVAS DE UNA DISTRIBUCIÓN DE DATOS.
3.1 INTRODUCCION.
Las técnicas estudiadas anteriormente permiten una descripción visual de la
distribución de una variable. En muchos casos, el resumen puede hacerse
eficazmente de una forma más sencilla y precisa, utilizando valores numéricos
que den idea de la ubicación o del centro de los datos (medidas de posición).
Usando cantidades que informen de la concentración de las observaciones
alrededor de dicho centro (medidas de dispersión) y mediante números que
reflejen la forma (asimetría y apuntamiento) de la distribución (medidas de
forma). La conjunción de técnicas numéricas y gráficas permite una buena
descripción de la variable.
Podemos distinguir 4 aspectos o características principales que pueden
resumirse en una distribución. (Ver cuadro siguiente)
Media
Centralización Mediana Nos dan un centro de la
Moda distribución de frecuencias
Percentiles
Posición Cuartiles Son valores de la distribución
Deciles que dividen en partes iguales
Medidas Varianza Las medidas de dispersión
descriptivas Dispersión Desviación típica cuantifican la separación, la
Coeficiente de variación dispersión, la variabilidad de los
Rango valores de la distribución
Recorrido Intercuartilico respecto al valor central
Coeficiente de Asimetría
Media ( x )
x + x + ..... + xn x i
x= 1 2 = i =1
n n
Media para datos agrupados
f1 x1 + f 2 x2 + ..... + f k xk k
x= = xi hi
n i =1
~ 32 ~
Si los datos están agrupados por intervalos, para hallar la media tomamos la
marca de las clases,
f1m1 + f 2 m2 + ..... + f k mk k
x= = hi mi
n i =1
Mediana (Me)
Se calcula para variables cuantitativas; es el valor de la serie de datos que se
sitúa justamente en el centro de la muestra una vez se ha ordenado ésta,
corresponde a un 50% de valores son inferiores y otro 50% son superiores.
Me = x n +1 , para n impar
2
x n + x n
+1
Me = 2 2
, Si n es par.
2
n
− F i −1 0.5 − H i −1
Me = LI + 2 A = LI + A
f i hi
La mediana sólo tiene en cuenta la posición de los valores en la muestra y por
lo tanto tiene mejor comportamiento que la media cuando hay observaciones
anómalas.
Moda (Mo)
Es el valor con mayor frecuencia. Si hay más de una moda, la variable se dice
multimodal y puede calcularse para cualquier tipo de variable (Cuantitativas o
cualitativas).
Si los datos están agrupados hablamos de clase modal y será aquella para la
que la frecuencia absoluta sea mayor.
1 fi − fi −1
Mo = LI + A = LI + A
1 + 2 ( f −
i i −1f ) + ( f i − f )
i +1
Donde:
1 = fi − fi −1
2 = f i − f i +1
x = Me = Mo
x Me Mo
Mo Me x
i.n
4 − Fk −1
Qi = LI i + A
fk
- Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que
él y al menos el 75% de los datos son mayores o iguales que él.
- Q2, segundo cuartil, es la mediana, Q2 = Me.
- Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que
él y al menos el 25% de los datos son mayores o iguales que él.
Percentiles
Dividen la muestra ordenada en 100 partes iguales.
~ 36 ~
i.n
100 − Fk −1
Pi = LI i + A
f k
Deciles
Dividen el conjunto de datos en 10 partes iguales y se denota con D i , i=1,…9
i.n
10 − Fk −1
Di = LI i + A
fk
Varianza.
Sólo tienen sentido para variables cuantitativas y se define:
n n
( x − x ) x
2 2
i i
S2 = i =1
= i =1
− x2 , Para datos no tabulados.
n n
n n
( x − x ) fx
2 2
i fi i i
S2 = i =1
= i =1
− x2 , Para datos tabulados de
n n
variable
discreta
n n
(m − x ) fm
2 2
i fi i i
S2 = i =1
= i =1
− x2, Para datos tabulados por
n n
intervalos,
para variables continuas.
✓ Las unidades de la varianza son los cuadrados de las unidades de los datos
y en muchas ocasiones no son fáciles de interpretar.
✓ Puede sufrir un cambio desproporcionado por la existencia de valores
extremos en el conjunto.
✓ Si la muestra es pequeño, se recomienda utilizar en el denominador de la
ecuación de la varianza n-1 en reemplazo de n.
s = s2
La desviación típica poblacional suele denotarse por .
Variables tipificadas
Los distintos conjuntos de datos están asociados por lo general a diferentes
medias, ya sea porque son de naturaleza diferente (escalas de medidas
diferentes). Con el propósito de reducir los datos a un mismo punto de
referencia y a una escala común, se realiza entre ellos una transformación
llamada tipificación.
Se conoce por tipificación de una variable “x” a efectuar el cambio de origen y
de escala de la variable:
~ 39 ~
x−x
z= para muestras
s
x-
z= para población
Esta nueva variable (z), carece de unidades de medida y permite comparar
dos o más cantidades que en un principio no son comparables porque aluden
a conceptos diferentes. También es aplicable a casos en que se quieran
comparar individuos semejantes de poblaciones diferentes.
x = 76 x = 82
s = 10 s = 16
x = 84 x = 90
84 − 76 90 − 82
z= = 0,8 z= = 0,5
10 16
S
CV = *100%
|X|
~ 40 ~
Recorrido o rango
Es la diferencia entre el mayor y menor valor de una muestra.
R = x( max ) − x( min )
x − Mo
Ap =
S
Este coeficiente puede ser:
Curtosis
El Coeficiente de Curtosis mide el grado de concentración que presentan los
valores alrededor de la zona central de la distribución.
P75 − P25
K= − 0.5
P90 − P10
Se definen 3 tipos de distribuciones según su grado de curtosis:
EJERCICIOS DESARROLLADOS
fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2
Calcule:
a) El C.I. medio de los niños.
b) Su desviación típica.
c) Si una madre afirma que exactamente la mitad de los niños del colegio tienen
un C.I. superior al de su hijo, ¿qué C.I. tiene el niño?
~ 43 ~
a) Media
b) Varianza y desviación.
n n
( x − x ) fx
2 2
i fi i i
4473216
S2 = = − x2 = − ( 95.96 ) = 110.88
i =1 i =1 2
n n 480
s = 110.88 = 10.52
c) Mediana.
n=480 ( Par)
x n + x n x 480 + x 480
+1
+1 x( 240) + x( 241) 94 + 94
Me = 2 2
= 2 2
= = = 94
2 2 2 2
d) Percentil 85
P85 = 106
e) Percentil 25
P25 = 90
Solución:
XA XB XA2 xB2
57 80 3249 6400
55 40 3025 1600
54 62 2916 3844
52 72 2704 5184
62 46 3844 2116
55 80 3025 6400
59 40 3481 1600
394 420 22244 27144
a) Estadísticos de A.
n
x1 + x 2 + ..... + xn x i
394
xA = = i =1
= = 56.28
n n 7
MeA = x n +1
, para n impar n=7
2
MeA = x n +1 = x 7 +1 = x( 4) = 55
2 2
MoA = 55
Estadísticos de B.
~ 46 ~
x1 + x 2 + ..... + xn x i
420
xB = = i =1
= = 60
n n 7
MeB = x n +1
, para n impar n=7
2
MeB = x n +1 = x 7 +1 = x( 4) = 62
2 2
MoB1 = 40
MoB 2 = 80
b) Calcular la varianza
n n
( x − x ) x
2 2
i i
22244
S =
2
A
i =1
= i =1
− xA2 = − (56.28)2 = 10.27
n n 7
S 10.27
CVA = = = 0.057
| X A | 56.28
n n
( x − x ) x
2 2
− ( 602 ) = 277.7
i i
27144
S B2 = i =1
= i =1
− xB2 =
n n 7
S 277.7
CVB = = = 0.277
| XB | 60
80
70
Puntaje
60
50
40
A B
Postulante
Calificaciones Alumnos
[0, 1> 2
[1, 2> 2
[2, 3> 3
[3, 4> 6
[4, 5> 7
[5, 6> 1
[6, 7> 1
[7, 8> 1
[8, 9> 1
~ 48 ~
Solución:
I fi mi mifi mi2fi Fi
[0, 1> 2 0.5 1 0.5 2
[1, 2> 2 1.5 3 4.5 4
[2, 3> 3 2.5 7.5 18.75 7
[3, 4> 6 3.5 21 73.5 13
[4, 5> 7 4.5 31.5 141.75 20
[5, 6> 1 5.5 5.5 30.25 21
[6, 7> 1 6.5 6.5 42.25 22
[7, 8> 1 7.5 7.5 56.25 23
8, 9 1 8.5 8.5 72.25 24
Total 24 40.5 92 440
fm i i
92
x= = = 3.83
n 24
Varianza.
m 2
f
i i
440
S2 = − x2 = − ( 3.83) = 3.66
n 24
Desviación.
s = 3.66 = 1.91
~ 49 ~
Coeficiente de Variación.
S 1.91
CV = = = 0.498
| X | 3.83
Mediana
12 − 7
Me = 3 + *1 = 3.833
6
Moda
1
Mo = Li + A
1 + 2
1 = 7 − 6 = 1
2 = 7 − 1 = 6
1
Mo = 4 + *1 = 4.14
1+ 6
4. En una institución educativa, se ha medido el nivel de depresión que
presentan los adolescentes en una escala de 0- 20, obteniendo los
siguientes resultado.
Nivel de Nro de
depresión adolescentes.
[ 0-5 > 10
[ 5-10 > 15
[ 10-13 > 25
[13-18 > 8
[ 18-20 2
a) Media y varianza
Media.
fm i i
587
x= = = 9.78
n 60
Varianza.
m 2
f
− ( 9.782 ) = 18.63
i i
6856.5
S =
2
− x2 =
n 60
Desviación.
s = 18.63 = 4.31
b) Mediana y moda
Mediana
~ 51 ~
n
− F k −1
Me = Li + 2 A
f K
n 60
Determinamos = = 30
2 2
n
2 − F k −1
30 − 25
Me = Li + A = 10 + 3 = 10.6
f K 25
Moda
1
Mo = Li + A
1 + 2
1 = 25 −15 = 10
2 = 25 − 8 = 17
1 10
Mo = Li + A = 10 + 3 = 11.11
1 + 2 10 + 17
i.n
− F k −1
Qi = Li + 4 A
fK
Cuartil 1
1.n
4 − F k −1 15 − 10
Q1 = Li + A = 5+ 5 = 6.67
fK 15
El 25% de los adolescentes presentan niveles de depresión menores a
6.67
Cuartil 3
3.n
4 − F k −1 45 − 25
Q3 = Li + A = 10 + 3 = 12.4
f K 25
El nivel de depresión máximo del 75% de los adolescentes es de 12.4.
i.n
100 − F k −1
Pi = Li + A
fK
Percentil 10
~ 53 ~
10.n
− F
k −1
6−0
P10 = Li + 100 A = 0 + 5 = 3
f K 10
El 10% de los adolescentes tienen niveles de depresión entre 0 a 3
Percentil 90
90.n
− F
k −1
54 − 50
P90 = Li + 100 A = 13 + 5 = 15.5
fK 8
d) Coeficiente de Asimetría.
x − M o 9.78 − 11.11
Ap = = = -0.308
s 4.31
Q3 − Q1 12.4 − 6.67
K= − 0.5 = − 0.5 = -0.0416
P90 − P10 15.5 − 3
CAPITULO IV
INTRODUCCION AL MUESTREO
4.1 INTRODUCCION.
El objetivo de la estadística es hacer inferencias acerca de una población con
base a la información contenida en una muestra. Este mismo objetivo motiva
el estudio del problema de muestreo.
En lo referente al muestreo, la inferencia consiste en la estimación de un
parámetro de población, tal como una media, proporción con un margen de
error de estimación (precisión).
Para un buen entendimiento del problema de muestreo, introduciremos
enseguida, ciertos aspectos técnicos de muestreo.
ˆ .
Error de Muestreo: Este error se debe a que una muestra no produce
información completa sobre una población. Puede ser controlado por un
diseño cuidadoso de la muestra y es estimado en gran parte por el factor E.
Por esta razón, algunos autores denominan al factor E, error de muestreo.
4.3 ENCUESTA.
La función de la encuesta es la medición del comportamiento, actitudes o
características del encuestado, que es un individuo de la población en estudio
seleccionado para la muestra.
Diseño de la encuesta
Pasos a seguir, para diseñar una encuesta:
Definir los objetivos
Determinar el marco
Diseñar el procedimiento de muestreo
Diseñar el cuestionario
Diseñar y realizar el trabajo de campo
~ 56 ~
Diseño de la muestra
El diseño de la muestra incluye:
❖ La elección del procedimiento de muestreo
❖ La determinación del tamaño de la muestra
Existen varios procedimientos de muestreo, entre las principales se tiene
muestreo: aleatorio simple, estratificado y sistemático.
Procedimiento de selección.
El procedimiento de selección de una Muestra Aleatoria Simple (M.A.S.)
consiste en:
i) Enumerar las unidades de la población, desde 1 hasta N.
ii) Usando la tabla de números aleatorios seleccionar la primera unidad
para la muestra.
iii) Continuar la selección excluyendo las unidades repetidas (si es sin
reposición) o incluyendo las unidades repetidas (si es con reposición)
Tamaño de la muestra
~ 57 ~
Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
- El nivel de confianza con el cual se quiere generalizar los datos desde la
muestra hacia la población total.
- El error que se pretende aceptar al momento de hacer la estimación.
- La varianza
Z (12 − / 2) * N 2
n=
Z (12 − / 2) * 2 + ( N − 1) ( )
2 Población finita.
Z (12 − / 2) * 2
n=
( )
2 , Población infinita.
Donde
2 Es la varianza poblacional
~ 58 ~
Z (12 − / 2) * N * p(1 − p)
n=
Z (12 − / 2) * p(1 − p) + ( N − 1) ( )
2 , Población finita.
Si N → :
Z (12 − / 2) * p(1 − p)
n=
( )
2 , Población infinita.
N = N1 + N2 + ... + Nk
N1 N2 … NK
N
ni = n * i = n * wi , i = 1,..., k
N
uno de los estratos, ni, los elige quien hace el muestreo, Así en un estrato
dado, se tiende a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna (varianza).
4.6 MUESTREO SISTEMATICO
Definición.- Una muestra obtenida al seleccionar aleatoriamente un elemento
N
ii) Determinar el intervalo de selección k= (k exactamente un número
n
entero)
Solución:
Consideremos que no se tiene ningún estudio de este tipo, por tanto p = 0.5
, del problema:
n=
(1.96 ) *25000*0.5(1 − 0.5)
2
= 378.361 379
(1.96 ) *0.5(1 − 0.5) + (25000 −1) ( 0.05)
2 2
Solución:
~ 62 ~
Z (12 − / 2) * P (1 − P )
n=
( )
2
3. Un investigador, desea hacer una estimación del egreso medio que tienen los
padres de familia de una I.E, con 99% de confianza, suponiendo que el
máximo error permitido es de 1 sol, además de una muestra piloto se obtuvo
una varianza de 25. También se sabe que la institución educativa tiene 2500
padres de familia. ¿Que tamaño de muestra necesitara para tal estudio?
Solución
N = 2500, = 1,
Z (12 − / 2) * N 2
n=
Z (12 − / 2) * 2 + ( N − 1) ( )
2
2.582 * 2500* 25
n= = 156.08 157
2.58 * 25 + (2500 − 1) (1)
2 2
~ 63 ~
Solución:
En este ejemplo, las regiones forman los estratos:
Región Ni wi
A 2000 =2000/8200=0.24
B 1200 =1200/8200=0.15
C 5000 =5000/8200=0.61
Total N=8200 1
n=245.
Usando la relación:
N
ni = n * i = n * wi , i = 1,..., k ,
N Se determina el tamaño de
N
nA = n * A = n * wA = 245 * 0.24 = 59.76 60
N
~ 64 ~
N
nB = n * B = n * wB = 245 * 0.15 = 35.85 36
N
N
nC = n * C = n * wC = 245 * 0.61 = 149.39 149
N
CAPITULO V
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPOTESIS
PUNTUAL
ESTIMACIÓN
POR INTERVALOS
INFERENCIA ESTADÍSTICA
PRUEBAS DE HIPÓTESIS
Definición
Un intervalo de confianza (IC) al 100(1 - )% para un parámetro poblacional
X −
Z= N (0, 1)
/ n y vienen dado por
X − z1− X + z1−
2 n 2 n
1−
/2 /2
−Z(1−/2) Z(1−/2)
Donde:
~ 67 ~
x : Estimador
: Error típico del estimador
n
En términos generales un intervalo de confianza se puede expresar como
(ESTIMADOR) (FACTOR (
DE CONFIABILIDAD ) ERROR TÍPICO DEL ESTIMADOR )
X −
T= t (n -1)
S/ n
y vienen dado por :
S S
X − t(1− ,n−1) X + t(1− ,n−1) ,
2 n 2 n
1−
/2 /2
−t(1−/2) t(1−/2)
~ 68 ~
Donde:
( xi − x )
2
S2 = i =1
n −1
( n − 1) S 2 (2n −1)
2 y vienen dado por :
( n − 1) S 2 2 ( n − 1) S 2
(12 − ,n−1) (2 ,n−1)
2 2
~ 69 ~
1−
/2 /2
2(/2) 2(1−/2)
( xi − x )
2
S = i =1
2
n −1
S12 / 12
F= 2 2 F ( n1 − 1, n2 − 1)
S2 / 2
y vienen dado por
~ 70 ~
2 2 2
S1 1 S1
2
f( / 2, n −1, n −1) 2
2
f(1− / 2, n −1, n −1)
S2 2 1 2 S2 2 1
Donde
f ( / 2, n2 −1, n1 −1) y
f (1− / 2,n2 −1, n1 −1) denotan a los valores
2 2
en la distribución F. S1 y S 2 y son las varianzas de dos muestras aleatorias
independientes de tamaños n1 y n2
X 1 − X 2 − ( 1 − 2 )
z=
12 22
+
n1 n2
12 22 12 22
( X1 − X 2 ) − z(1− / 2) * + 1 − 2 ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2
Intervalo de confianza para la proporción
p− p
Z = N (0, 1)
p (1− p )
n
~ 71 ~
p (1− p ) p (1− p )
p − z1− n p p + z1− n
2 2
( p1 − p2 ) − ( p − p )
Z= 1 2
N (0, 1)
p1 (1− p1 ) p2 (1− p2 )
n1 + n2
p1 (1− p1 ) p2 (1− p2 )
( p1 − p2 ) − z *
(1− ) n1 + n2 ( p1 − p2 ) ( p1 − p2 )
2
p1 (1− p1 ) p2 (1− p2 )
+ z(1− ) * n1 + n2
2
La Media
X − z(1− ) X + z(1− )
-Si se asume 2 conocido 2 n 2 n
-Nota: Si la población no es
S S
normal pero n 30 X − z(1− ) X + z(1− )
2 n 2 n
La Media
S S
Si se asume que 2 es X − t(1− , n −1) X + t(1− , n −1) ,
2 2
n n
desconocido
La diferencias de Medias
12 22 12 22
12 y 22 Conocidos
( X1 − X 2 ) − z(1− / 2) * + ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2
S12 S22
--Nota: Si las poblaciones no ( X1 − X 2 ) − z(1− / 2) * +
son normales pero n1 30 y n1 n2 S12 S22
( X1 − X 2 ) + z(1− / 2) * +
n2 30
n1 n2
La diferencia de Medias
1 1 1 1
Asumiendo que: 12 = 22 y
( X 1 − X 2 ) − t0 * S p + ( X 1 − X 2 ) + t0 * S p +
n1 n2 n1 n2
desconocidos
La diferencia de Medias
~ 73 ~
Asumiendo que: 2 2 2 2
S1 S2 S1 S2
12 22 y desconocidos ( X1 − X 2 ) − t(1− / 2,v ) * + ( X1 − X 2 ) + t(1− / 2,v ) * +
n1 n2 n1 n2
S2 S2
( n1 + n1 )2
v = 2
1
( S1 / n1 ) 2
1
( S 22 / n2 )2
n1−1
+ n −1
2
La varianza
( n − 1) S 2 ( n − 1) S 2
12− ( n − 1) 2 ( n − 1)
2 2
La razón de varianzas. 2
S1 S12
f ( /2,n f
2 (1− /2,n −1, n −1)
2 −1,n1−1)
2
S2 S2 2 1
La proporción
p (1− p ) p (1− p )
p − z(1− ) n
p + z(1− ) n
2 2
La diferencia de
p1 (1− p1 ) p2 (1− p2 ) p1 (1− p1 ) p2 (1− p2 )
proporciones. ( p1 − p2 ) − z(1− ) * n1 + n2 ( p1 − p2 ) + z(1− ) * n1 + n2
2 2
~ 74 ~
EJERCICIOS DESARROLLADOS
1.- En una muestra de 250 padres de familia de una I.E rural, se obtuvo un ingreso
medio anual de 5900 soles y una desviación típica de 94 soles. Obtener un
intervalo de confianza al 95% para el ingreso medio poblacional.
Solución:
n = 250, X = 5900,
= 94, z(1− ) = 1.96
2
Reemplazando en la relación
X − z(1− ) X + z(1− )
2 n 2 n
1−
/2 /2
−Z(1−/2) Z(1−/2)
94 94
5900 − 1.96 5900 + 1.96
250 250
5888.34 5911.65
El 95% de los padres de familia tienen ingresos anuales que fluctúan entre
5888.34 y 5911.65 soles.
~ 75 ~
Solución:
p=
140
= 0.7 , z(1− ) = 1.96 , n=200
200 2
p (1− p ) p (1− p )
p − z(1− ) n p p + z(1− ) n
2 2
Solución:
Provincia A
75
p1 = = 0.3 , n1 = 250
250
Provincia B
80
p2 = = 0.4 , n1 = 200
200
z1− = 1.96
2
~ 76 ~
p1 (1− p1 ) p2 (1− p2 )
( p1 − p2 ) − z(1− ) * n1 + n2 ( p1 − p2 )
2
p1 (1− p1 ) p2 (1− p2 )
( p1 − p2 ) + z(1− ) * n1 + n2
2
0.3(1−0.3) 0.4(1−0.4 )
(0.3 − 0.4) − 1.96 * 250 + 200 ( p1 − p2 ) (0.3 − 0.4)
0.3(1−0.3) 0.4(1−0.4 )
+ 1.96 * 250 + 200
-0.18 ( p1 − p2 ) -0.011
El intervalo contiene solo valores negativos, entonces.
( p1 − p2 ) 0 p1 p2
Solución:
Terapia A
x1 = 13, 1 = 3, n1 = 50
Terapia B
x2 = 15, 2 = 4, n2 = 40
~ 77 ~
z(1− ) = 1.96
2
1 2 1 2
2 2 2 2
( X1 − X 2 ) − z(1− / 2) * + 1 − 2 ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2
9 16 9 16
(13 − 15) − 1.96* + 1 − 2 (13 − 15) + 1.96* +
50 40 50 40
−3.49 1 − 2 −0.50
Como 1 − 2 0 , entonces 1 2 .
Se concluye que la seccion B presenta mejores resultados que la seccion
A.
Solución:
X : Tiempo de respuesta
X N ( , 2 ) 2 desconocida
1 − = 0,99 t0 = 2,7969
n = 25 , x = 160 , s = 5
s s
x − t0 x + t0
n n
~ 78 ~
5 5
160 − 2,7969 160 + 2,7969
25 25
157,2031 162,7969
Hipótesis nula (denotada como H0). Esta hipótesis nula es la que se somete
a comprobación, y es la que se acepta o rechaza, como la conclusión final de
un contraste.
nula. Esta hipótesis puede ser simple o compuesta. Podemos cometer dos
tipos de error: rechazar la hipótesis nula siendo ésta cierta (error de tipo I) y
aceptar la hipótesis nula cuando esta es falsa (error de tipo II).
Aceptar Ho Rechazar Ho
1. Formulación de hipótesis.
Los supuestos planteados en la investigación nos llevan a formular
hipótesis estadísticas, las mimas que presentan las siguientes formas.
H 0 : = 0 vs H a : 0
H 0 : = 0 vs H a : 0
H 0 : = 0 vs H a : 0
2. Elegir el nivel de significación, .
3. Estadístico de prueba
4. Determinar la región crítica. La forma de la región crítica depende de la
hipótesis alterna.
Para Ha : 0
1−
/2 /2
−Z(1−/2) Z(1−/2)
R.R. H0 R.A. H0 R.R. H0
~ 81 ~
Para Ha : 0
1−
Z(1−)
R.A. H0 R.R. H0
Para Ha : 0
1−
Z(1−)
R.R. H0 R.A. H0
~ 82 ~
X − 0 Z c z(1− )
Prueba de Medias
Ha: 0
H0: = 0 vs: Zc = / n
2
Ha: > 0
si conocido
2
Ha: < 0 Zc z(1− )
X − 0
- Si la población no Zc =
es normal pero n s/ n Z c − z(1− )
30
Prueba de Medias
Ha: 0 X − 0 Tc t(1− ,n −1)
H0: = 0 vs
Ha: > 0
Tc = S/ n
2
Si se asume que :
Ha: < 0 Tc t(1− ,n −1)
2
es desconocido
Tc −t(1− ,n −1)
~ 83 ~
Ha: 1 2 X1 − X 2 Z c z(1− )
Prueba de
diferencias de
Ha: 1 > 2
Zc = 12 22
2
Medias +
Ha: 1 < 2 Zc
n1 n2
H0: 1 = 2 vs: z(1− )
X1 − X 2
Asumiendo
Zc = s12 s22 Z c − z(1− )
12 y 22 +
n1 n2
Conocidos
--Si las poblaciones
no son normales
pero n1 30 y n2
30
Prueba de
Ha: 1 2 X1 − X 2 Tc t(1− ,n + n
diferencia de
Ha: 1 > 2
Tc =S 1+1
2 1 2
− 2)
Medias p n1 n2
Ha: 1 < 2
H0: 1 = 2 vs
Tc t(1− ,n + n
Asumiendo que: 1 2 − 2)
( n1 −1) S12 +( n2 −1) S22
12 = 22 y Sp = n1 + n2 − 2
Tc −t(1− ,n + n
Desconocidos 1 2 − 2)
X1 − X 2 Tc t(1− ,v )
Prueba de
Ha: 1 2
diferencia de Tc = S12 S22
2
Ha: 1 > 2 +n
Medias n1 2
Ha: 1 < 2
H0: 1 = 2 vs
Tc t(1− ,v )
Asumiendo que:
~ 84 ~
12 22 y S12 S12 2
(n +n ) Tc −t(1− ,v )
desconocidos v= 2
1
( S1 / n1 ) 2
1
( S22 / n2 )2
n1−1
+ n2 −1
c2 (2 ,n−1)
Prueba de
Ha: 2 02 ó
varianzas ( n −1) S 2
c2 =
2
Ha: 2 02
H0: 2 = 02 vs 02
c2 (12 − ,n−1)
Ha: 2 02 2
c2 (12 − ,n−1)
c2 (2 ,n−1)
Prueba de razón de
Ha: 12 22 2 Fc F( ,nmax −1,n ó
varianzas. Fc = Smax
2
Smin
2 min −1)
Ha: 12 22 Fc F(1− ,nmax −1,n
2 min −1)
H0: 12 = 22 vs Ha: 12 22
Fc F(1− ,nmax −1,n
min −1)
p − p0
Z c z(1− )
Prueba de
H a: p p 0
proporciones Zc = p (1− p ) / n
H a: p > p 0 2
H0: p =p0 Vs
H a: p < p 0 Z c z(1− )
Z c − z(1− )
~ 85 ~
p1 − p2
Z c z(1− )
Prueba de
diferencia de
H a: p 1 p 2 Zc = pc (1− pc ) pc (1− pc ) 2
Ha: p1 > p2 +
n1 n2
Z c z(1− )
proporciones
H a: p 1 < p 2
n1 p1 + n2 p2
pc =
H0: p1 = p2 Vs n1 + n2 Z c − z(1− )
~ 86 ~
EJERCICIOS DESARROLLADOS
Solución:
Formulación de hipótesis.
H0: = 355
Ha: > 355
Nivel de significancia, = 5%
Estadística de prueba.
X − 0
Zc = / n
Zc = 580 − 355
180 / 60
= 9.68
Región critica
~ 87 ~
=5%
Z0=1.645 Zc =9.68
Región Región
Aceptación Crítica
Conclusión.
Como Zc Zo
Se rechaza la hipótesis nula.
Antes 25 25 27 44 30 67 53 53 52
Después 27 29 37 56 46 82 57 80 61
Diferencia 2 4 10 12 16 15 4 27 9
Solución:
Formulación de hipótesis.
H0: d = 0
Ha: d 0
Nivel de significancía, = 5%
Estadística de prueba.
X − 0
Tc = S/ n
s = 7.76 ,
t(1− / 2, n −1) = 2.262
n = 9, x1 = 11
11 − 0
Tc = = 4.25
7.76 / 9
Región critica
Conclusión.
Se rechaza la hipótesis nula.
~ 89 ~
Solución:
Formulación de hipótesis.
H0: p1 =p2
Ha: p1 p2
Nivel de significancia, = 5%
Estadística de prueba.
p1 − p2
Zc = pc (1− pc ) pc (1− pc )
+
n1 n2
Tratamiento A.
p1 = 0.2 , n1 = 600
Tratamiento B.
p2 = 0.15 , n2 = 600
n1 p1 + n2 p2 600*0.2 + 600*0.15
pc = = = 0.175
n1 + n2 600 + 600
~ 90 ~
p1 − p2
Zc = pc (1− pc ) pc (1− pc )
= 0.20 −0.15
0.175(1−0.175) 0.175(1−0.175)
= 2.279
+ +
n1 n2 600 600
Región critica
=5%
Z0=1.96 Zc =2.279
Región Región
Aceptación Crítica
Conclusión.
Zc = 180 − 200
50 / 100
= −4
Como Z c 1.645
~ 91 ~
Se rechaza la hipótesis nula, por tanto la resistencia física de los alumnos del
mencionado colegio es menor que el parámetro estándar.
5. El ministerio de educación, esta implementado un nuevo método de
enseñanza, para analizar si este método es más adecuado que el método
tradicional, se ha experimentado en 14 alumnos, 7 para cada método,
registrándose las siguientes calificaciones.
Método Tradicional 11 13 09 12 10 9 13
Nuevo Método 14 13 16 17 11 12 15
¿En base a la información cual es su conclusión?
Solución.
H0: 1 = 2
H1: 1 2
Supongamos que las varianzas poblacionales son iguales, entonces el
estadístico de prueba es:
X1 − X 2
Tc = Sp 1 + 1 t (n1 + n2 -2)
n1 n2
De la información se tiene:
Método Tradicional
x1 = 11, s12 = 3, s1 = 1.73
Nuevo Método
x2 = 14, s22 = 4.67 , s2 = 2.16
X1 − X 2 11 − 14
Tc = = = −2.65
2.11* 7 + 7
Sp 1+ 1
n1 n2 1 1
CAPITULO VI
PRUEBA DE CHI-CUADRADO
c:
Fila r O r1 O r2 ... 0 rc n r.
Total n .1 n .2 ... n. c n..
Hipótesis:
Sea:
Ho:
ij = i. . j para todo i = 1, ... r, j = 1, ... c.
Ha: Al menos una igualdad no se cumple.
r c (oij − eij ) ni . n. j
x =2
c x 2 (r − 1)(c − 1) e =
donde ij
j =1 j =1 eij n..
Regla de decisión:
Se adopta la siguiente regla de decisión:
~ 94 ~
EJERCICIOS DESARROLLADOS
Solución:
H0: El clima organizacional no influye la gestión educativa.
Ha: El clima organizacional influye la gestión educativa..
~ 95 ~
2 =
c + +
106.67 106.67 106.67
(130 − 93.33) (100 − 93.33) ( 50 − 93.33)
2 2 2
+ + +
93.33 93.33 93.33
c2 = 65.625
De la tabla de chi-cuadrado , 0 = 5.991
2
1−
o2=5.99 o2=65.625
R.A. H0 R.R. H0
Solución:
( oij − eij )
2
r c
X c2 = → X (2r −1)( c −1) gl
i =1 j =1 eij
Previamente calculamos los valores esperados.
ni.n. j
eij =
n..
~ 97 ~
Reemplazando en el estadístico
( oij − eij )
2
r c
X c2 =
i =1 j =1 eij
Solución
( ad − bc ) (36 *13 − 7 * 2 )
2 2
.n * 58
2= c = = 24.39
r1 r2 c1 c2 43*15*38*20
se tiene: x0 2 = 3.84
Como c 2 02 , se rechaza Ho, por lo tanto se concluye que la
2 24.39
C= = = 0,544
n + 2 58 + 24.39
Tablas de contingencia.
-Cálculo de riesgos.
-Pruebas de chi-cuadrado:
independencia
-Grafico de barras de doble
V. Ind: Cualitativa
entrada.
Asociación -Pruebas de Kendall, de
CORRELACIONAL
entre variables Spearman.
con V.Dep:
-Análisis de regreion
Cualitativa
Analisis de correlacion de
Pearson