Está en la página 1de 79

INFERENCIA ESTADISTICA

DISTRIBUCION DE PROBABILIDAD
ESTIMACION
PRUEBA DE HIPOTESIS

Mg. Fredy Ayala


Estadística Inferencial

• Distribución de Probabilidad Normal


• Distribución Normal
• Distribución Normal Estándar
• Cálculo de Probabilidades con la Distribución Normal Estándar
• Estimación Puntual
• Teorema del Límite Central
• Distribuciones t
• Estimación por Intervalos (Intervalos de Confianza)
• Prueba de Hipótesis
• Hipótesis para un promedio
• Hipótesis para una proporción
• Hipótesis para dos promedios
• Hipótesis para dos proporciones
• Hipótesis para dos promedios muestras pareadas
• Prueba Chi-Cuadrado
• Análisis de Variancia

1
Distribución de Probabilidad Normal
Ejemplo: Distribución de Frecuencias de las Edades de 50 personas

Estadístico Edad
Promedio: 34,52
Desv.Est.: 8,20

10
9 9

6 6

3 3
2 2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

  34.52
2
Distribución de Probabilidad Normal
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio
nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la
que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica
tiene forma de campana.
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie:
tallas, pesos, envergaduras, diámetros, perímetros,...
Caracteres fisiológicos : efecto de una misma dosis de un fármaco, o de una misma
cantidad de abono.
Caracteres sociológicos : consumo de cierto producto por un mismo grupo de individuos,
puntuaciones de examen.
Caracteres psicológicos : cociente intelectual, grado de adaptación a un medio,...
Errores cometidos al medir ciertas magnitudes.
Valores estadísticos muestrales: la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales,
 media
x2  desv.est.
Función de Densidad 1   pi 31415...
de la Distribución f (x)  e 2 2
 2
e base log nat. 2.7182
Normal
Distribución de Probabilidad Normal

Características de la Distribución Normal

 1 
 ,
  2  Punto Máximo

Puntos de Inflexión

    

Eje de Simetría

4
Distribución Normal Estándar

(x  )
z

Cualquier variable, si se transforma en otra variable restando a todas sus
observaciones la media aritmética y dividiendo por la desviación estándar, eso
produce una nueva variable cuyo promedio es 0 y su desviación estándar es 1
x z ( 2 4)
2 -1,0 2  1
4 0,0
6 1,0 ( 6 4 )
1
Promedio: 4,00 0,00 2
Desv. Est.: 2,00 1,00

5
Distribución Normal Estándar
10
Ejemplo: Distribución de Frecuencias 9 9

de las Edades de 50 personas


6 6

3 3
2 2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

10
9 9

6 6

3 3
2 2

-2,25--1,75 -1,75--1,25 -1,25--0,75 -0,75--0,25 -0,25-0,25 0,25-0,75 0,75-1,25 1,25-1,75 1,75-2,25


 0 6
Distribución Normal Estándar

1  z22
Función de Densidad
f (z)  e x
de la Distribución
Normal Estándar 2 z

 1 
0,   0,0.399... Punto Máximo
 2 

Puntos de Inflexión

z  0
1 0 1 z  1

Eje de Simetría = Eje Y 7


Probabilidades con la Distribución Normal Estándar
  34.3
Ejemplo: En la Distribución de Frecuencias de las Edades de   7.7
50 personas, al promedio le restamos 2 desviaciones 2  (2)(7.7)  15.5
estándar y también le sumamos dos desviaciones estándar:   2  34.3 15 5  18.8
  2  34.3 15 5  49.8

95%
10
2.5% 9 9 2.5%

6 6

Apróx. 1 Persona Apróx. 1 Persona


3 3
2 2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

188. 49.8
Cerca de 2 personas: aproximadamente el 5% de las personas es menor a 18.8 años o mayor a 49.8
8
Cálculo de Probabilidades con la Distribución Normal Estándar

95%
2.5% 2.5%

 2  2  196. 2  2  196.

99%
05%
. 05%
.

 2.33 2.33
9
Cálculo de Probabilidades con la Distribución Normal Estándar
Cálculo en Excel

975%
. 2.5%
.
1.96

=DISTR.NORM.ESTAND.INV(0,975)

1% 99%

 2.33

10
Cálculo de Probabilidades con la Distribución Normal Estándar

Cálculo en Minitab

97,5% 2.5%

Inverse Cumulative Distribution Function

Normal with mean = 0 and standard deviation = 1,0

P( X <= x ) x
0,9750 1,9600
11
Estimación Puntual

Si extraemos las 12 posibles muestras


(todas las posibles muestras), podemos
Una Población está compuesta de calcular el promedio de cada muestra:
4 valores: 1,2,3,4. El Promedio de Número de Elementos en cada Promedio de
esta Población es 2,5 y la la Muestra Muestra cada Muestra
Desviación Estándar es 1,12 1 1 2 X1  1,5
Elementos de la Población
2 2 1 X 2  1,5
3 1 3 2,0
1 4 3 1 2,0
2 3 4 5 1 4 2,5
Promedio de la Población:   2,50 6
7
4
2
1
3
2,5
2,5
Desviación Estándar de la  1,12 8 3 2 2,5
9 2 4 3,0
10 4 2 3,0
11 4 3 3,5
12 3 4 X12  3,5

Como se obtienen 12 muestras, podemos


Promedio de las 12 Muestras: X  2,50

calcular 12 promedios y también podemos


calcular el promedio de esos 12 promedios, y
Desviación Estándar de las 12
Muestras:  X  0,645
la desviación estándar de esas 12 muestras:
Estimación Puntual
Desviación Estándar de la  1,12

Nn 2
Observemos que el Promedio de los Promedios
de las 12 muestras es igual al Promedio de la N  1 3
Población: 2,5.
Nn
Sin embargo la Desviación Estándar de las 12  0,667
N1
muestras no es igual a la Desviación Estándar
de la Población ( 0,645 y 1,12).
Nn
Observemos que si utilizamos la Desviación 2  0,816
Dstándar de la Población, mediante una N1
fórmula que involucra el tamaño de Población y
el tamaño de las muestras (2 de 4), si 2
n  1,414
obtenemos la Desviación Estándar de las 12
muestras:

X   2
n
 0,791

 Nn
 Nn 
2 0,645
2
n N1
X  2
2
N1 Desviación Estándar de las 12
n Muestras: X 140,645
Estimación Puntual
Características de un buen estimador

Insesgado: si el promedio del estimador es igual al parámetro que se va a


estimar.
Eficiente: si hay dos o más estimadores para el mismo parámetro, el más
eficiente es el que tiene menor variancia.
Consistente: si se calcula el estimador para dos o más muestras, conforme el
tamaño de la muestra se incrementa, la aproximación es mejor.
Suficiente: si hay más de un estimador, suficiente es el que utiliza la mayor
cantidad de datos de la muestra.

15
Estimación Puntual
Un estimador puntual es un número que se utiliza para aproximar el valor de la
población. Los Estimadores Puntuales para variables cuantitativas son:

n
 xi
 x
i1

n
n

 (x i  x)2
  s
i1
n1

Estos son estimadores insesgados, eficientes, consistentes y suficientes


Estimación Puntual

Los Estimadores Puntuales para Proporciones (en variables cualitativas ) son:


x
P p
n
En dónde x son los elementos de la muestra de tamaño n que cumplen con la
característica de estudio. Por ejemplo, x=20 mujeres de n=50 personas en una
muestra p=0.4 ( o 40% )

 s pq
n x
Aquí: q  1 p 
n

En la Población la Proporción y su Desviación Estándar se calculan:


P X
n
  PQ
N X
Q  1 P 
N
Estimación por Intervalo: Nivel de Confianza

Nivel de Confianza (1- Alfa)

 1 
2 2

Nivel de Confianza (95%)

 1 0.95 
 0.025  0.025
2 2

  0.05 18
Estimación por Intervalo: Nivel de Confianza
Nivel de Confianza (1- )

 1  0.975
 0.025 2
2
z 0.025  1.96 Z 0.975 1.96

19
Intervalos de Confianza
Distribución t (t-student)

La distribución t-student tiene


promedio 0 y su desviación estándar
depende del tamaño de la muestra
pero conforme aumenta n la
desviación estándar se acerca a 1.
n
De igual forma al aumentar , la
distribución t-student tiende a ser
similar a la distribución normal
estándar.
Para cada valor de n (tamaño de
muestra), existe una distribución t-
student conocida como distribución
t con n -1 grados de libertad.
La Distribución t-student (o
simplemente t) es muy utilizada en
estadística inferencial.

20
Distribución t
Cálculo en Excel

2.5% 95% 2.5%


 1. 98 1. 98

= DISTR.T.INV( 0,05 ; 100 )

Probabilidad (2 colas)
Grados de Libertad
Distribución t
Cálculo en Minitab

97,5% 2.5%

Inverse Cumulative Distribution Function

Student's t distribution with 100 DF

P( X <= x ) x
0,9750 1,9840 22
Teorema del Límite Central

n
Si es la media de una muestra aleatoria de tamaño extraída de una población que tiene
media  y varianza  2 , entonces:

_
x
z
 N n
n N 1

Es el valor de una variable aleatoria cuya distribución de probabilidad se aproxima a la


n
distribución normal estándar cuando tiende a infinito:

Este teorema nos permite utilizar la distribución normal estándar en cualquier caso
siempre y cuando el tamaño de muestra sea “suficientemente grande”. En muchos textos
se considera que si el tamaño de muestra es superior a 30, se puede aplicar la distribución
normal estándar.
Teorema Distribución t
Si x es la media de una muestra aleatoria de tamaño n extraída de una población
normal que tiene media  y variancia  2 , entonces:
_
X
t(n1) 
s N n
n N 1

Es el valor de una variable aleatoria cuya distribución de probabilidad es la


distribución t-student con parámetro n - 1 (grados de libertad)

Este resultado nos permite utilizar la distribución t cuando no se conoce el valor 


(varianza de la población), y se utiliza s como su estimación puntual. Es válido siempre y
cuando la distribución de la variable original sea aproximadamente normal.
Para muestras grandes (n≥30) debido a que la distribución t y la distribución normal son
muy cercanas, el requisito de normalidad no es necesario para utilizar la distribución t.
Intervalos de Confianza
Intervalo de confianza para al (1-)100%

_ s N n _
s N n
xtn1;1 2    xtn1;1 2
n N 1 n N 1
_
s N n
x tn1;1 2
n N 1

Intervalo de confianza para P al (1-)100%

pq N n pq N n
p  z
2 n N 1  P  p z1 2 n N 1

pq N n
p  z1 N 1
2 n
25
Intervalos de Confianza

Intervalo de confianza para  al (1-)100%

Como se afecta el Intervalo al variar la Desviación Estándar, la Confianza


y el Tamaños de Muestra

Si la Desviación Estándar s s Nn 


“aumenta” el intervalo se hace s   t   ] [
más “ancho” n 1
2
n N1

s Nn 
Si la confianza “aumenta” el 1   t    t  ] [
intervalo se hace más “ancho” 1
2
1

2 n N1

Si el tamaño de muestra s s Nn 


“aumenta” el intervalo se hace n   t  
más “angosto” n 1
2
n N1 ] [

26
Intervalos de Confianza

Intervalo de confianza para  al (1-)100%

Como se afecta el Intervalo al variar la Desviación Estándar


Muestra
Muestra
Tamaño n=
_
50 _ s N n Tamaño n= 50
x tn1;1
_
Promedio x = 12 2
Desviación Estándar s= 4 n N 1 Promedio x = 12
Desviación Estándar s= 8
Confianza 1- = 0,900
Confianza 1- = 0,900

Población
Población
Tamaño N= 1000 Tamaño N= 1000
4,000 950 8,000 950
12,000 ± 1,677 * ———— * ———— 12,000 ± 1,677 * ———— * ————
50 999 50 999

4,000 8,000
12,000 ± 1,677 * ———— * 0,951 12,000 ± 1,677 * ———— * 0,951
7,071068 7,071068

12,000 ± 1,677 * 0,566 * 0,975 12,000 ± 1,677 * 1,131 * 0,975

12,000 ± 0,925 12,000 ± 1,850

10,15    13,85
11,08    12,92

9,9 10,0 10,1 10,2 10,3 10,4 10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 1 2,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5 13,6 13,7 13,8 13,9 14,0
27
Si la Desviación Estándar “aumenta” el intervalo se hace más “ancho”
Intervalos de Confianza

Intervalo de confianza para  al (1-)100%

Como se afecta el Intervalo al variar la Confianza


Muestra Muestra
Tamaño n= 50
Tamaño n= 50
N n
_
_ _ s Promedio x = 12
Promedio x = 12 x tn1;1 2
N 1 Desviación Estándar s= 4
Desviación Estándar s= 4 n
Confianza 1- = 0,990
Confianza 1- = 0,900

Población Población
Tamaño N= 1000
Tamaño N= 1000
4,000 950
4,000 950
± *  * 
12,000 ± 1,677 *  *  12,000 2,680
50 999
50 999

4,000
4,000
12,000 ± 2,680 *  * 0,951
12,000 ± 1,677 *  * 0,951
7,071068
7,071068

12,000 ± 2,680 * 0,566 * 0,975


12,000 ± 1,677 * 0,566 * 0,975
12,000 ± 1,478
12,000 ± 0,925

11,08    12,92 10,52    13,48

Si la Confianza “aumenta” el intervalo se hace más “ancho”

10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5
28
Intervalos de Confianza
Intervalo de confianza para  al (1-)100%

Como se afecta el Intervalo al variar el Tamaño de Muestra

Muestra Muestra
Tamaño n=
_ 50 _ s N n Tamaño n= 200
x tn1;1
_
Promedio x = 12 2
Desviación Estándar s= 4 n N 1 Promedio x = 12
Desviación Estándar s= 4
Confianza 1- = 0,900
Confianza 1- = 0,990

Población Población
Tamaño N= 1000 Tamaño N= 1000
4,000 950 4,000 800
12,000 ± 1,677 *  *  12,000 ± 2,576 *  * 
50 999 200 999

4,000 4,000
12,000 ± 1,677 *  * 0,951 12,000 ± 2,576 *  * 0,801
7,071068 14,14214

12,000 ± 1,677 * 0,566 * 0,975 12,000 ± 2,576 * 0,283 * 0,895

12,000 ± 0,925 12,000 ± 0,652

11,08    12,92 11,35    12,65

11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0

29
Si el Tamaño de Muestra “aumenta” el intervalo se hace más “angosto”
Intervalos de Confianza
Ejemplo
Cálculo en Excel

Distribución Normal

Promedio 316 =+PROMEDIO(B$4:B$43)


Desviación Estándar 243,91 =+DESVEST(B$4:B$43)
Muestra 40 =+CONTAR(B$4:B$43)
404 87 703 968 Nivel de Confianza 95% 0,95
74 234 125 712 Alfa 5% =(1-E7)
234 68 350 503 E 75,59 =INTERVALO.CONFIANZA(E8;E5;E6)
149 489 440 498 Límite Inferior 240,41 =+E4-E9
279 57 37 327 Límite Superior 391,59 =+E4+E9
215 185 252 608
123 141 27 358
55 758 521 425 Distribución t
43 72 302 303 Promedio 316 =+PROMEDIO(B$4:B$43)
321 863 127 203 Desviación Estándar 243,91 =+DESVEST(B$4:B$43)
Muestra 40 =+CONTAR(B$4:B$43)
Nivel de Confianza 95% 0,95
Alfa 5% =(1-H7)
Grados Libertad 39 =+H6-1
t 2,023 =DISTR.T.INV(H8;H9)
E 78,0 =+(H5/RAIZ(H6))*H10
Límite Inferior 237,99 =+H4-H11
Límite Superior 394,01 =+H4+H12
30
Intervalos de Confianza
Ejemplo

Cálculo en Minitab
Stat / Basic Statistics / 1-Sample t

One-Sample T: Saldos

Variable N Mean StDev SE Mean 95,0% CI


Saldos 40 316,0 243,9 38,6 ( 238,0. 394,0)
31
Error de Estimación (E)
El error de estimación es la diferencia x  para un promedio
entre el promedio de la muestra y el pP para una proporción
verdadero promedio de la población:

El error de estimación no se puede conocer porque precisamente se está tratando de


estimar μ o P. Sin embargo es posible limitar su valor por medio de las probabilidades.
Para calcular el límite máximo del error de estimación para un promedio μ o una
proporción P, con un nivel de confianza 1- α establecido, utilizamos:

s N n
Para un Promedio μ : E t(1 ,n1) N 1
2 n
pq N n
Para una Proporción P : E  z1 N 1
2 n

En dónde s es la desviación estándar de la muestra, p la proporción de la muestra (q=1-p),


n el tamaño de la muestra, N el tamaño de la población, 1- α el nivel de confianza.
E se conoce como el Error Máximo de Estimación con una confianza de 1- α 32
Tamaño de Muestra
Para una proporción

Si se desea estimar el tamaño de muestra para estimar una proporción P, se utiliza:


2
 z1 
n  PQ 2 
 E 
Donde:  
E es el límite máximo para el error permitido. 1-α es la probabilidad de que el error no
supere E. P es una aproximación la proporción de la población.

Si no se tiene idea del valor de P, se puede utilizar P=0.5, este valor genera el tamaño de
muestra más grande:

2
 z1 
n  (0.5)(0.5) 2
 E 
 

33
Tamaño de Muestra
Para un promedio
2
 z1 
n 2  2
 E 
 

Donde:
E es el límite máximo para el error permitido.
1-alfa es la probabilidad de que el error no supere E.
s es una aproximación la variancia de la población.
Prueba de Hipótesis
• Hipótesis estadística y tipos de hipótesis
• Nivel de significancia
• Tipos de errores
• Estadísticos para las pruebas
• Reglas de decisión
• Planteo de la hipótesis
• Pasos para realizar la prueba de hipótesis

36
Prueba de Hipótesis

Un Parámetro es un valor que se calcula utilizando todos los valores de la Población


Por lo general se denotan con letras griegas o mayúsculas

Los Parámetros en muchas ocasiones son valores desconocidos ya que no tenemos


todos los componentes de la población
37
Prueba de Hipótesis

Como los parámetros son valores desconocidos, podemos plantear hipótesis


sobre su valor real, y mediante un mecanismo científico, realizar una
comprobación de esta hipótesis (demostrar si es verdadera o falsa)

Ejemplos de hipótesis:
-La proporción de personas contagiadas de alguna enfermedad es 8%.

El ingreso mensual promedio de las familias de un barrio marginal es 850


Soles.
El tiempo promedio de capacitación de un software es de 18 horas.

38
Prueba de Hipótesis

Dado que los valores completos de la población son desconocidos (y el valor del parámetro
también es desconocido), la forma de realizar una prueba y verificar la validez o no de una
hipótesis, es tomando una muestra y calculando el estadístico correspondiente
(estadístico: medición que se calcula con los valores de la muestra).
Si el valor de la muestra es suficientemente cercano al valor hipotético en la población
decimos que la hipótesis es cierta.
De lo contrario, si el valor de la muestra es suficientemente lejano al valor supuesto en la
población decimos que la hipótesis es falsa.
39
Prueba de Hipótesis

Hipótesis simple
Es una hipótesis en la que el parámetro queda especificado por completo, o sea solo
puede tomar un único valor.

• El promedio de edad de un grupo de estudiantes universitarios es 25 años: μ= 25.


• La proporción de trabajadores de una empresa que sufren de estrés es 35%: P = 0.35

Hipótesis compuesta
Es una hipótesis en la que el parámetro puede tomar más de un valor .
• El promedio de gastos mensuales en medicamentos por familia en Arequipa es superior a
850 Soles: μ > 850.
• La proporción de adultos que votaran en las próximas elecciones es superior al 70%:
P > 0.7
• La proporción de personas que llaman a la sección de servicio al cliente de una empresa
vendedora de computadoras es inferior al 6%: P < 0.06
40
Prueba de Hipótesis
Hipótesis Nula
Es una hipótesis que se plantea para ser rechazada o no. A la hipótesis nula se le
considera cierta hasta tanto no encontremos evidencia para rechazarla.
La hipótesis nula siempre es una hipótesis simple.

H0 :  30
H0 : P  0.7

Ejemplo
El fabricante de un software asegura que con un nuevo manual no más del 10% de los
compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción
es 10%).

H0 :P  0.1
P es la proporción de todos los compradores que llaman a solicitar servicio (La afirmación
se aplica a todos los compradores: la población completa)
Prueba de Hipótesis
Hipótesis alternativa
Siempre se formula un hipótesis nula y una hipótesis alternativa apropiada; ésta última es
la que aceptamos como cierta cuando la hipótesis nula es rechazada.
La hipótesis alternativa siempre es una hipótesis compuesta (unilateral o bilateral).

H1 : 30 H1 :P  0.7

Ejemplo
El fabricante de un software asegura que con un nuevo manual no más del 10% de los
compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción
es 10%).

H1:P 0.1

42
Prueba de Hipótesis

Cuando la hipótesis alternativa es una hipótesis unilateral se dice que es de una cola.
Si es bilateral se dice que es de dos colas.

Prueba de
Hipótesis de
DOS COLAS

Prueba de
Hipótesis de
UNA COLA

43
Prueba de Hipótesis
Posibles errores al tomar la decisión

H0 Procedimiento
de Prueba
Se Acepta Se Rechaza

Decisión Error
Verdadera
Correcta Tipo I
Realidad H0
Error Decisión
Falsa
Tipo II Correcta

Si el procedimiento de prueba lleva al Rechazo de H0 pero en la Realidad la hipótesis es


verdadera, se comete un error, este error se llama Error Tipo I

Si mediante el procedimiento de prueba se Acepta H0 pero en la Realidad la hipótesis es


falsa, se comete un error, este error se llama Error Tipo II
Prueba de Hipótesis
Ejemplo

Un fabricante de software afirma que la proporción de personas que llamará solicitando


servicio se su producto no supera el 10%. Pero un distribuidor mayorista del software
sospecha que esta proporción es mayor a lo que el fabricante afirma.

El distribuidor quiere determinar si la afirmación del fabricante es incorrecta (se quiere


demostrar que la afirmación del distribuidor es la correcta)

H0 : P  0.1
H1 : P  0.1
Prueba de Hipótesis
Ejemplo
Para verificar si la afirmación del fabricante es cierta, se toman los primeros 100
compradores del software y se controla si llaman solicitando servicio durante el siguiente
mes luego de la compra.
La proporción de personas llamaron en esa muestra es de 13%, o sea p=0.13.

¿Podríamos considerar que 0.13 es muy cercano a 0.10 y que la diferencia se debe al
azar? Entonces: ¿Podemos concluir que la afirmación del fabricante es cierta?
O sea, no rechazamos H0

¿O podemos considerar que 0.13 y 0.10 son muy lejanos y que hay “suficiente evidencia”
para concluir que la proporción de llamadas es superior al 10%? Entonces: Podemos
rechazar H0

46
Prueba de Hipótesis
Nivel de Significancia
Cuando consideramos que la diferencia entre el parámetro y el valor en la muestra es
mayor que lo que puede atribuirse al azar, decimos que la diferencia es significativa.
Cuando la diferencia es significativa rechazamos la hipótesis nula y aceptamos como
válida la hipótesis alternativa. De lo contrario se mantiene como cierta la hipótesis nula.

El nivel de significancia es la probabilidad de cometer el error tipo I () . Como es una


probabilidad se le dan valores porcentuales entre 0 y 100.
Los valores más comunes son 0.01 (1%) , 0.05 (5%) y 0.1 (10%).

Un nivel de significancia del 1%, (= 0.01) indica que existe un 1% de probabilidad de
cometer el error de rechazar H0 cuando es realmente cierta (Error Tipo I).

En otras palabras, si se realizara 100 veces el proceso, cometeríamos UNA vez el error de
rechazar la hipótesis nula cuando realmente es cierta.

47
Prueba de Hipótesis
¿Como se determina ?
Si se esta probando un nuevo medicamento contra una enfermedad.
Y suponemos que las normas dicen que el medicamento se comercializa si por lo menos el
60% de las personas que lo prueban sanan. La hipótesis es:

H0 : P = 0.6
H1 : P < 0.6

¿ Utilizamos:  = 0.1 o  = 0.01 ?

Con  =0.1, la probabilidad de rechazar H0 cuando es cierta es 10% O sea, que si se


extrajeran 100 muestra, en 10 de éstas podríamos concluir que el porcentaje de personas
que sanan es menor al 60% cuando en realidad es el 60% (o más)

Al usar  = 0.1, podríamos rechazar la comercialización del producto cuando este


realmente funciona un 10% de las veces.

48
Prueba de Hipótesis
Si usamos =0.01, la probabilidad de rechazar H0 cuando es cierta es de un 1% O sea, que
en 1 de cada 100 muestras posibles podríamos concluir que el porcentaje de personas que
sanan es menor al 60% cuando en realidad es el 60% (o más)

Al usar =0.01, rechazaríamos la comercialización del producto cuando realmente


funciona solamente en 1% de las veces.

En este caso es mejor utilizar  =0.01 en lugar de =0.1, ya que el rechazo de


comercialización de un medicamento que cumple las normas es un error serio, por ello la
probabilidad de cometer el error tipo I debe ser pequeña.

En algunos casos el alfa, puede ser superior (10%, 15%, e incluso más del 15%).

49
Prueba de Hipótesis
Estadístico para realizar la prueba de hipótesis

Para determinar si la diferencia entre el estimador y el parámetro es significativa se utiliza


un estadístico zc o tc. Este se compara con un valor en la distribución normal o la
distribución t-student de acuerdo con el nivel de significancia establecido.

H0 :   0

Estadístico de prueba

 conocido _
x 0
zc 
 Nn
n N 1
50
Prueba de Hipótesis

H0 :  0
H1 :  0
Prueba de cola izquierda
Regla de Decisión

Rechazar Ho si

Método

Tradicional Software

zc  z Valor P < 

51
Prueba de Hipótesis
H0 :  0
H1 :  0

Prueba de cola derecha


Regla de Decisión

Rechazar Ho si

Método

Tradicional Software

zc  z1 Valor P < 

52
Prueba de Hipótesis

H0 :  0
H1 :  0
Prueba de dos colas
Regla de Decisión

Rechazar Ho si

Método

Tradicional Software

zc  z1 Valor P < 


2

o si :
z c  z
2
53
Prueba de Hipótesis
Datos H0 : 310
404 87 703 968 Hipótesis:
74
234
234
68
125
350
712
503
H1: 310
149
279
489
57
440
37
498
327
Nivel de Significancia: 1- = 0.95 →  = 0.05 → 1-/2 = 0.025
215 185 252 608
123 141 27 358
55 758 521 425 Regla de Decisión: i) Rechazar H0 si zc>1,96 o si zc<1,96
43 72 302 303 ii) Rechazar H0 si Valor P < 0,05
321 863 127 203

Cálculo en Excel
Cálculo en Minitab
One-Sample Z: Var1

Test of mu = 310 vs mu not = 310


The assumed sigma = 243,9
No se rechaza H0 ya que:
Variable N Mean StDev SE Valor P > 0,05
Mean
Var1 40 316,0 243,9 38,6

Variable 95,0% CI Z P En Excel cuando la prueba de hipótesis es


Var1 ( 240,4. 391,6) 0,16 0,876 de dos colas, el valor de la fórmula se debe
multiplicar por 2 (Excel calcula siempre la
prueba de una cola 54
Prueba de Hipótesis

Cálculo tradicional

Dado que
zc = 0,156 < 1,96 , y
zc = 0,156 > -1,96

Entonces no se rechaza H0

55
Prueba de Hipótesis
¿Cómo plantear una hipótesis?

Cuando se desea probar una afirmación, la negación de la afirmación se debe


tomar como hipótesis nula (siempre una hipótesis simple =). Entonces, la
afirmación es la hipótesis alternativa (siempre una hipótesis compuesta > < ≠)

Ejemplos:

Un tratamiento tradicional contra una enfermedad tiene una efectividad del 35%.
Se desarrolló un nuevo tratamiento que se asegura es más efectivo que el anterior (efectivo
en el 45% de los casos). Se afirma que el nuevo tratamiento es mejor que el tradicional.

Sea P: Proporción de personas que sanan de la enfermedad con el nuevo tratamiento.

H0 :P  0.35

H1 :P  0.35

56
Prueba de Hipótesis
Ejemplos:

En un gimnasio se sigue una rutina de ejercicios que junto a una dieta produce un
descenso de 20 libras en 5 semanas. La rutina de ejercicios será sustituida por otra que se
afirma disminuye 25 libras (o más). Se quiere demostrar que la nueva rutina de ejercicios
es mejor que la anterior.
Seaμ : promedio de disminución de peso en libras luego de 5 semanas de ejercicios junto
con la dieta
H0 :  20

H1 :  20

En cierto país se sabe que la proporción de mujeres jóvenes que ingresan a los hospitales
embarazadas sin saberlo es de 7%. Un nuevo hospital se construye para dar servicio a una
zona con índices de pobreza altos. Se sospecha que en esta zona la proporción de mujeres
jóvenes que ingresen embarazadas sin saberlo será mayor que en el resto de los
hospitales.
Sea P : proporción de mujeres jóvenes que ingresan embarazadas al nuevo hospital sin
saberlo.
H0 :P  0.7

H1 :P  0.7 57
Prueba de Hipótesis
Pasos para hacer una prueba de hipótesis

Método tradicional

1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1


2. Fijar el nivel de significancia ()
3. Se determina el estadístico apropiado y se construye una regla de decisión.
4. Cálculo del estadístico
5. Decisión

Por Software

1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1


2. Fijar el nivel de significancia ()
3. Determinar en el software la Prueba Apropiada (o fórmulas apropiadas).
4. Cálculo en el Software
5. Decisión

58
Prueba de Hipótesis para Un Promedio

H0 :  0
H1 :  0

Estadístico de Prueba
 conocida

_
x 0
zc 
 Nn
n N 1

59
Prueba de Hipótesis para Un Promedio

H0 :  0
H1 :  0

Estadístico de Prueba
 desconocida

_
x0
tc 
s N n
n N 1
60
Prueba de Hipótesis para Un Promedio

Ejemplo

La Carolina Tobacco Company afirma que sus cigarrillos sin filtro más vendidos
tienen como máximo 40 mg de nicotina. Se examinaron, de forma aleatoria, 10
cigarrillos de esta compañía. Usando un nivel de significancia del 1%, probar si
la afirmación de la compañía es incorrecta.

Nicotina
H0 :  40
47,3 Hipótesis: 
39,3 H1 :  40
40,3
38,3
46,3 Nivel de significancia:  = 0,01
43,3
42,3
49,3 Regla de Decisión:
40,3 Rechazar H0 si:
46,3
Valor P < 0,01

61
Prueba de Hipótesis para un Promedio
Ejemplo
Calculo en Minitab

Stat / Basic Statistics / 1-Sample t

One-Sample T: Nicotina

Test of mu = 40 vs mu > 40
Variable N Mean StDev SE Mean
Nicotina 10 43,30 3,80 1,20

Variable 95,0% Lower Bound T P


Nicotina 41,10 2,75 0,011

Dado que Valor P = 0,011 y es mayor que = 0,01, entonces NO se rechaza H0

→μ=40 62
Prueba de Hipótesis para Dos Promedios

H0 :1  2  1 2 0


 
H1:1  2 1 2  0

H0 :1 2  k


Estadístico de Prueba
1 y 2 desconocidas

_ _
(x1 x2)  (1  2) n1n2(n1  n2  2)
tcn1n21 
(n1 1)s1 2  (n2 1)s2 2 n1  n2
63
Prueba de Hipótesis para Dos Promedios

Ejemplo
Con Filtro Sin Filtro Contenido de alquitrán en miligramos en cigarrillos con filtro y sin filtro. Se
16 23
23 quiere probar con un 5% de nivel de significancia si los cigarrillos con filtro
15
16 24 tienen menor contenido medio de alquitrán que los sin filtro.
14 26
16 25
1 26
16 21
18 24
H0 :S  C

10
14 Hipótesis:
12 H1 :S  C
11
14
13
13 Nivel de significancia:  = 0,01
13
16
16 Regla de Decisión: Rechazar H0 si:
8
16
11 Valor P < 0,01

64
Prueba de Hipótesis para Dos Proporciones
Ejemplo

Calculo en Minitab

Stat / Basic Statistics / 2-Sample t

Two-Sample T-Test and CI: Sin Filtro. Con Filtro

Two-sample T for Sin Filtro vs Con Filtro

N Mean StDev SE Mean


Sin Filt 8 24,00 1,69 0,60
Con Filt 21 13,29 3,74 0,82

Difference = mu Sin Filtro - mu Con Filtro


Estimate for difference: 10,71
95% lower bound for difference: 8,99
T-Test of difference = 0 (vs >): T-Value = 10,59 P-Value = 0,000 DF = 25

Dado que Valor P = 0,00 y es menor que =0,01, entonces SI se rechaza H0

→μS>μC
65
Prueba de Hipótesis para Dos Proporciones

Ejemplo

Calculo en Excel

Valor P 2,57E-08

66
Prueba de Hipótesis para una Proporción

H0 :P  P 0

Estadístico de Prueba

67
Prueba de Hipótesis para una Proporción

Ejemplo
Los datos corresponden a 25 fumadores que siguieron una terapia para dejar de
Individuo Resultado
1 0 fumar con parches de nicotina, después de un año se verifica cuales dejaron de
2 0 fumar (1) y cuales continúan fumando (0). Se desea demostrar que no hay
3 1
0
diferencia en la proporción de fumadores que dejaron de fumar y los que no,
4
5 1 luego de la terapia de parches de nicotina.
6 1
7 0
8 0
9
10
0
1 H0 :P 0,5
11 0
Hipótesis: 
H1:P  0,5
12 1
13 1
14 1
15 1
16
17
0
0 Nivel de significancia:  = 0,05
18 1
19 0
20 1
21 0 Regla de Decisión: Rechazar H0 si:
22 1
23 0
24
25
0
0
Valor P < 0,05

68
Prueba de Hipótesis para Dos Proporciones
Ejemplo
Calculo en Minitab

Stat / Basic Statistics / 1 Proportion

Test and CI for One Proportion: Resutlado

Test of p = 0,5 vs p not = 0,5

Success = 1

Exact
Variable X N Sample p 95,0% CI P-Value
Resutlado 11 25 0,440000 (0,244024. 0,650718) 0,690

Dado que Valor P = 0,69 y es mucho mayor que =0,05, entonces NO se rechaza H0
→ P=50%
69
Prueba de Hipótesis para dos Proporciones

H0 :P 1  P 2  P 1 P 2  0

H1 :P 1  P 2  P 1 P 2  0
Prueba de Hipótesis para Dos Proporciones

Ejemplo
Individuo Sexo Respuesta Individuo Sexo Respuesta Los datos corresponden a 20 mujeres y 30 hombres
A1 Mujer 0 B1 Hombres 0
A2 Mujer 0 B2 Hombres 0 a los que en una encuesta se les pidió que dijeran si
A3 Mujer 1 B3 Hombres 0 estaban de acuerdo (1) o en desacuerdo (0) con la
A4 Mujer 0 B4 Hombres 1
A5 Mujer 0 B5 Hombres 1 afirmación: Definitivamente quiero estar casado (a).
A6 Mujer 0 B6 Hombres 0 Se desea poner a prueba la hipótesis de que la
A7 Mujer 0 B7 Hombres 0
A8 Mujer 1 B8 Hombres 0
proporción de hombres que contestó
A9 Mujer 0 B9 Hombres 1 afirmativamente es igual a la proporción de mujeres
A10 Mujer 0 B10 Hombres 0 que también contestó afirmativamente
A11 Mujer 0 B11 Hombres 0
A12 Mujer 1 B12 Hombres 1

A13 Mujer 1 B13 Hombres 0


A14
A15
Mujer
Mujer
0
0
B14
B15
Hombres
Hombres
1
0 H0 :P H  P M
A16 Mujer 0 B16 Hombres 0
Hipótesis: 
H1 :P H  P M
A17 Mujer 0 B17 Hombres 1
A18 Mujer 1 B18 Hombres 0
A19 Mujer 0 B19 Hombres 0
A20 Mujer 0 B20 Hombres 0
B21
B22
Hombres
Hombres
0
1 Nivel de significancia:  = 0,05
B23 Hombres 0
B24 Hombres 0
B25 Hombres 0
B26 Hombres 1 Regla de Decisión: Rechazar H0 si:
B27 Hombres 0
B28 Hombres 0
B29 Hombres 1 Valor P < 0,05
B30 Hombres 0

71
Prueba de Hipótesis para Dos Proporciones
Ejemplo

En Minitab los datos se organizan en una sola


columna y se diferencian por la Variable Sexo

Calculo en Minitab
Stat / Basic Statistics / 2 Proportions

Test and CI for Two Proportions: Respuesta. Sexo

Success = 1
Sexo X N Sample p
Hombres 9 30 0,300000
Mujer 5 20 0,250000

Estimate for p(Hombres) - p(Mujer): 0,05


95% CI for p(Hombres) - p(Mujer): (-0,200806. 0,300806)
Test for p(Hombres) - p(Mujer) = 0 (vs not = 0):
Z = 0,39 P-Value = 0,696

Dado que Valor P = 0,696 y es mucho mayor que =0,05,


entonces NO se rechaza H0 → PH=PM 72
Prueba de Hipótesis para Dos Muestras Pareadas
Prueba de Hipótesis para Dos Muestras Pareadas

H0 :1  2  1 2  0  D  0


 
H1:1  2 1 2  0  D  0

H0 :1 2  k  D  k


Estadístico de Prueba
_
D D
tc(n1) 
SD
n
74
Prueba de Hipótesis para Dos Muestras Pareadas
Ejemplo

75
Prueba de Hipótesis para Dos Muestras Pareadas
Ejemplo

Calculo
en Excel

Valor de P 0,0190

Calculo en Minitab
Stat / Basic Statistics / Paired t

Valor P = 0,019
Paired T for Antes - Después
1- = 0,05
N Mean StDev SE Mean
Antes 8 8,713 2,177 0,770 Se rechaza H0
Después 8 5,588 2,608 0,922

→μA≠μD
Difference 8 3,13 2,91 1,03

95% CI for mean difference: (0,69. 5,56)


T-Test of mean difference = 0 (vs not = 0):
T-Value = 3,04 P-Value = 0,019 76
GRACIAS

Mg. Fredy Ayala

También podría gustarte