Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística
Ing. Eduardo Hernández MSc.
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
DECISIONES ESTADÍSTICAS
La toma de decisiones es el proceso más básico dentro de una organización. La
agilidad de los procesos, el dinamismo del trabajo, obliga constantemente a
contrastar opiniones y juicios sobre qué alternativa es mejor en función de qué.
Desde la elección del logo de la empresa hasta la elección del mejor proveedor, o
del candidato mejor calificado para un puesto de trabajo. Para estas situaciones,
existe la estadística, la cual aporta a través de cálculos, datos precisos que
permiten ponderar criterios y establecer la mejor opción a elegir.
Se aplica la estadística de contraste de hipótesis al proceso de toma de decisiones
sobre un caso en particular.
DECISIONES ESTADÍSTICAS
Las decisiones estadísticas, basadas sobre la evidencia observada en muestras,
implican siempre la posibilidad de error. En la estadística no se tratan con
decisiones fundamentadas en la certeza, sino que, simplemente, estiman la
probabilidad o improbabilidad de ocurrencia de los hechos.
¿Mido?
¿Cuántas veces mido? Conjunto de mediciones
¿Comparo?
DECISIONES ESTADÍSTICAS
¿Mido?
¿Cuántas veces mido?
¿Comparo?
Duración en km de 4 bandas de
la distribución distintas.
20 000 80 000
40 000
TAMAÑO DE LA MUESTRA
DECISIONES ESTADÍSTICAS
¿Mido?
¿Cuántas veces mido?
¿Comparo?
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
HIPÓTESIS ESTADÍSTICAS
El proceso que corrobora si la información de una muestra sostiene o refuta el
reclamo se llama prueba de hipótesis.
Hipótesis Estadística: Una hipótesis estadística es un reclamo hecho sobre la
naturaleza de una población.
Por ejemplo, la premisa formulada por un productor de baterías para autos de
que su batería dura en promedio 48 meses, es una hipótesis estadística porque el
manufacturero no inspecciona la vida de cada batería que él produce. Si surgieran
quejas de parte de los clientes, entonces se pone a prueba el reclamo del
manufacturero.
La hipótesis estadística sometida a prueba se llama la hipótesis nula, y se denota
como 𝐻0
HIPÓTESIS ESTADÍSTICAS
Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es falsa.
Por ejemplo, para el productor de baterías
𝐻0 : µ ≥ 48 y
𝐻1 : µ < 48
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se
calcula la información, como el promedio, la proporción, etc. Esta información
muestral se llama estadística de prueba.
Estadística de Prueba: Una estadística de prueba se basa en la información de
la muestra como la media o la proporción.
HIPÓTESIS ESTADÍSTICAS
HIPÓTESIS ESTADÍSTICAS
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
14
10
Número de casos 9
frecuencia
σ𝑛𝑖=1𝑥𝑖 − 𝑥ҧ 2 6 𝑦 =𝑚·𝑥+𝑏
s =
𝑛−1 4
2 3
1 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Valores
medidas=c(10,10.5,10.5,11,11,11,11,11,11,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,
12,12,12,12,12,12,12,12,12,12,12,12,12,12,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,13,13,
13,13,13.5,13.5,13.5,14)
mu=mean(medidas) x = seq(8,16,by=0.1)
sigma=sd(medidas) y = dnorm(x,mu, sigma)
plot(x,y)
28%
probabilidades
Densidad de 18%
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 12%
s =
𝑛−1 8%
4% 6%
2% 2%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Valores
pnorm(14,mu,sigma) # 0.9923606
qnorm(0.99,mu,sigma) # 13.91726 𝑃 𝑋 ≤ 13,9 = 0,99
qnorm(0.99,mu,sigma,lower.tail=F) # 10.04274 𝑃 𝑋 ≥ 10,04 = 0,99
DISTRIBUCIÓN NORMAL
Los minutos que tardan en llegar a la universidad un grupo de estudiante se
distribuyen de forma normal. Con media de 40 minutos y una deviación estándar
de 11 minutos ¿Qué porcentaje de alumnos se demora en legar a) menos de 25
minutos b) entre 30 y 50 minutos y c) más de 35 minutos
x = seq(1:80,by=0.5)
y = dnorm(x,40,11)
plot(x,y)
ENSAYOS DE HIPÓTESIS
Paramétrica
▪ Permite contrastar hipótesis referidas a algún parámetro
▪ Exigen el cumplimiento de determinados supuestos sobre las
poblaciones originales, de las que se extraen los datos (generalmente
normalidad y homocedasticidad).
▪ Analizan datos obtenidos con una escala de medida de intervalo o razón.
Cuál ?
•Para una muestra
•Para dos muestra
•Para n muestras
No paramétrica
▪ Analiza datos de variables cualitativas o categóricas
▪ No requiere o no cumple con los supuestos de distribución normal
▪ Distribución libre
NORMALIDAD DE LOS DATOS
Una primera tarea consiste en estudiar la normalidad de los datos, para ello y sin
profundizar se puede hacer lo siguiente:
1. Analizar si el histograma se ajusta a una distribución normal, para lo que
podemos superponerle la curva normal.
2. Estudiar si en el gráfico qqnorm() los puntos se ajustan a la recta qqline() o
se separan de ella.
3. Comprobar si se obtienen p-valores altos en el test de Shapiro-Wilk, con la
función shapiro.test(), o en las pruebas de normalidad disponibles en el
paquete nortest: test de Anderson-Darling, de Cramer von Mises,
Kolmogorov-Smirnov, de Pearson (ji-cuadrado) y de Shapiro-Francia.
Para muestras pequeñas (n ≤ 50) se recomienda utilizar el test de Shapiro-Wilk y
para muestra grandes (n > 5000) el test de Lilliefors con la función lillie.test().
NORMALIDAD DE LOS DATOS
Ejemplo: Evaluar la normalidad de los datos:
datos=c(4.01, 3.87, 4.68, 2.83, 3.88, 4.92, 4.46, 5.64, 4.91, 2.35, 4.12, 1.11)
shapiro.test(datos) # W = 0.92307, p-value = 0.3124
library(nortest)
lillie.test(datos)
datos
14
13
12
11
10
-2 -1 0 1 2
DISTRIBUCIÓN DE MUESTREO
PARÁMETRO es una propiedad descriptiva de la población.
ESTADÍSTICO
Es una propiedad descriptiva de la muestra.
Es una función de las observaciones muestrales.
Una Distribución de muestreo es una función de probabilidad de un
estadístico.
PARÁMETRO ESTADÍSTICO
Media
𝜇 𝑥ҧ
Varianza
𝜎2 𝑠2
Desviación
𝜎 𝑠
Estándar
𝑃 𝑝
Proporción
SIGNIFICANCIA
Es la probabilidad () de rechazar 𝐻0 cuando 𝐻0 es cierto se llama nivel de
significancia.
Comentario: Para mantener la probabilidad de cometer el error tipo 1 baja,
debemos escoger un valor pequeño de .
Región Crítica o de Rechazo: Usando un valor preasignado de se construye una
región de rechazo o región crítica con la curva normal estándar, con la curva t, etc,
que indica si debemos rechazar 𝐻0 .
La región puede ser de una cola o de dos dependiendo de la hipótesis alterna
SIGNIFICANCIA
Para 𝐻1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada por:
(2-colas, z ó t)
two.sided
PROCEDIMIENTO GENERAL
A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.
Se considera que el paciente está enfermo, a pesar de que en realidad está sano;
hipótesis nula: El paciente está sano.
A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.
Tamaño de
Población s conocida s desconocida
Muestra
𝑥ҧ − 𝜇0 ഥ−𝝁
𝒙
Con Grande(n30) 𝑍 = 𝒕 =
𝜎/ 𝑛 𝒔/ 𝒏
Distribución
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Normal Pequeña(n<30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Sin Grande(n30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
Distribución
Normal Se usaría pruebas no
Pequeña(n<30)
paramétricas
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Test de normalidad: Si
shapiro-wilk
a=rnorm(10000,12,0.8)
# Min. 1st Qu. Median Mean 3rd Qu. Max. n <= 5000
shapiro.test(a)
# sample size must be between 3 and 5000
library(nortest)
lillie.test(a) # D = 0.0084978, p-value = 0.0818 > 0,05
# Se acepta Ho y se concluye que la variable x se distribuye normalmente.
b=rnorm(5000,12,0.8)
⋮
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
De la base de datos notas.txt de las asignaturas de Geometría y Física del curso
de ajuste básico de una Universidad, se necesita saber si la media de las notas es de 7
puntos sobre 10 en cada asignatura.
Density
0.15
attach(notas)
summary(geometria)
0.00
# Min. 1st Qu. Median Mean 3rd Qu. Max. 2 4 6 8 10
# 2.440 6.508 7.495 7.531 8.662 9.990
geometria
hist(geometria,main="",freq = F)
curve(dnorm(x,mean(geometria),sd(geometria)),add=T,col="red")
length(geometria) # n = 88 < 5000
shapiro.test(geometria) # W = 0.97218, p-value = 0.05504 > 0.05
# Se acepta Ho y se concluye que la variable geometría se distribuye normalmente.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
4. Decisión: Puesto que p-valor = 0.001144 < 0.05 se rechaza la hipótesis nula, en otras
palabras existe suficiente evidencia para aseverar que la media de las notas de
Geometría es diferente de 7 puntos sobre 10, con un nivel de confianza del 95%.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
0.20
attach(notas)
summary(fisica)
0.10
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.850 5.660 7.130 6.816 8.160 9.960
0.00
hist(fisica,ylab="",main="",freq = F) 0 2 4 6 8 10
curve(dnorm(x,mean(fisica),sd(fisica)),add=T,col="red")
fisica
length(fisica) # n = 88 < 5000
shapiro.test(fisica) # W = 0.96707, p-value = 0.02447 < 0.05
# Se rechaza Ho y se concluye que la variable física no se distribuye normalmente.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Test de Wilcoxon para muestras independientes:
0.20
0.10
0.00
0 2 4 6 8 10
two.sided less greater
fisica
Frequency
15
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 3375073 3570948 3713786 3684545 3774125 3851333
hist(x)
0 5
3400000 3600000 3800000
x
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
length(x) # n = 76
shapiro.test(x) # W = 0.93083, p-value = 0.0004643 < 0,05
# Se rechaza Ho y se concluye que la variable x no se distribuye normalmente.
qqnorm(x, xlab = "", ylab = "", main = "", col = "firebrick")
qqline(x)
3700000
Se rechaza Ho Se acepta Ho
3400000
-2 -1 0 1 2
wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,
exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf)
# Ho: mediana = 3588655.70; H1: mediana ≠ 3588655.70
wilcox.test(x,3588655.70,conf.level=0.99, alternative = "two.sided") W = 56, p-value = 0.4302 > 0,01
# Se acepta la Ho y se concluye que no existe suficiente evidencia para aseverar que la mediana de
la muestra x es diferente a 3588655.70
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Muestras independientes pareadas
Para realizar inferencia de dos poblaciones con muestras independientes, se debe
cumplir los siguientes supuestos :
Normalidad. Las dos poblaciones deben tener una distribución normal. Se recomienda
que por lo menos n = 30.
Homogeneidad de varianzas. Las varianzas de las poblaciones son iguales.
La variable es cuantitativa.
𝑥ҧ1 − 𝑥ҧ2
El valor Estadístico de prueba (Distribución t student): 𝑡=
𝑠𝑐2 𝑠𝑐2
+
𝑛1 𝑛2
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑍=
𝜎12 𝜎22 𝑛 − 1 𝑠 2
+ 𝑛 − 1 𝑠 2
+ 1 1 2 2
𝑛1 𝑛2 𝑠𝑐2 =
𝑛1 + 𝑛2 − 2
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Intervalo de confianza
El valor t puede encontrarse en tablas tabuladas o mediante programas informáticos, en
R el valor t para un determinado intervalo de confianza y grados de libertad se puede
obtener con la función:
t = qt(p = confianza del intervalo + (1-confianza intervalo)/2, df= , lower.tail = TRUE)
antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
Probar si el programa de seguridad es efectivo con el 95% de confianza.
0.020
antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
0.010
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
0.010
#2.- Estadística descriptiva de las muestras
summary(antes)
0.000
0.000
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 17.00 33.25 45.50 53.80 69.00 124.00 0 40 80 120 0 20 60 100
0.012
# 11.00 30.50 40.00 48.60 57.75 119.00
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))
0.008
hist(antes,main="",ylab="",freq = F)
0.004
curve(dnorm(x,mean(antes),sd(antes)),add=T)
hist(despues,main="",ylab="",freq = F)
0.000
curve(dnorm(x,mean(despues),sd(despues)),add=T)
0 50 100
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
qqnorm(antes,main="",ylab="",xlab="Antes");qqline(antes)
qqnorm(despues,main="",ylab="",xlab="Después");qqline(despues)
100
n = m = 10
100
shapiro.test(antes)
60
# W = 0.90667, p-value = 0.2589 > 0.05
60
# Los datos se distribuyen normalmente
20
shapiro.test(despues)
20
# W = 0.90021, p-value = 0.2203 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
# Los datos se distribuyen normalmente
Antes Después
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (D>=A) Se incrementó las h/h perdidas después de implementar el programa de seguridad
#H1: (D<A) Se redujo las h/h perdidas después de implementar el programa de seguridad
120
#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05
100
#7.- Test de comprobación (boxplot):
par(mfrow = c(1, 1))
80
boxplot(antes,despues,names=c("Antes","Después"),notch = T)
Siempre se coloca primero la muestra a contrastar
60
length(antes)
length(despues) Y luego la muestra de control
40
# Ho: D>=A
t.test(despues,antes,paired = T,alternative = "less")
20
# t = -4.0333, df = 9, p-value = 0.001479
0 1 2 3 4 5 6 7
4
length(disi) # m = 50
3
2
1
0
a. Inserto c. Disipador
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes
8.8
4.15
shapiro.test(inser)
8.6
# W = 0.94768, p-value = 0.02742 < 0,05
4.05
3.95
8.4
shapiro.test(disi)
# W = 0.98043, p-value = 0.5701 > 0,05 -2 -1 0 1 2 -2 -1 0 1 2
a. Inserto b. Disipador
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes
# Ho: disi = inser; Las medida de vibraciones tomadas sobre el disipador de calor
son similares a las tomadas sobre un inserto.
# H1: disi ≠ inser; Las medida de vibraciones tomadas sobre el disipador de calor
son diferentes a las tomadas sobre un inserto.
wilcox.test(disi,inser,paired=T,alternative="two.sided",conf.level=0.99)
# V = 0, p-value = 7.79e-10< 0,01
# Se rechaza la Ho y se concluye que existe suficiente evidencia para aseverar que
las medidas de vibraciones tomadas sobre el disipador de calor son diferentes a
las tomadas sobre un inserto con un 99% de confianza.
Teorema de límite central
Si se cumple el teorema de limite central, a continuación se exponen algunos
definiciones de diferentes autores
Se cumple, cuando independientemente de la población de origen, la
distribución de la medias aleatorias se aproxima a una distribución normal a
medida que el tamaño de la muestra crece ( Bencardino,321:2.000).
Al hacerse lo bastante grande el tamaño de la muestra la distribución de
muestreo de la media puede aproximarse mediante la distribución normal. Esto
es cierto no importa la forma de la distribución de los valores individuales de la
población.
Para la mayoría de distribuciones de la población, sin importar la forma , la
distribución de muestreo de la media tendrá una distribución aproximadamente
normal si se seleccionan muestras de al menos 30 observaciones (Berenson y
Levine: 1996:329).
Teorema de límite central
Sea cual sea la forma de la
distribución de la población
(sea normal o no ), las
medias de todas las
muestras seleccionadas de
la población tendrán una
distribución normal.
#1.- Muestras:
a= c(1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930)
b= c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)
0.0015
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))
0.0008
hist(a,main="",ylab="",freq = F)
curve(dnorm(x,mean(a),sd(a)),add=T)
0.0000
0.0000
hist(b,main="",ylab="",freq = F)
curve(dnorm(x,mean(b),sd(b)),add=T) 0 500 1000 1500 2000 800 1200 1600
a b
qqnorm(a,main="",ylab="",xlab="Ventas de A");qqline(a)
qqnorm(b,main="",ylab="",xlab="Ventas de B");qqline(b)
500
lillie.test(a)
# D = 0.19874, p-value = 0.2604 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
# Los datos se distribuyen normalmente
Ventas de A Ventas de B
lillie.test(b)
# D = 0.19357, p-value = 0.358 > 0.05
# Los datos se distribuyen normalmente
ANÁLISIS DE LA VARIANZA
2000
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (A=B) No existe diferencia entre las ventas de A y B
#H1: (A???B) Existe diferencia entre las ventas de A y B
1500
#5.- Nivel de significancia alpha=0.05
1000
#7.- Test de comprobación (boxplot):
500
par(mfrow = c(1, 1))
boxplot(a,b,names=c("Ventas de A","Ventas de B"),notch = T)
length(a)
length(b) Ventas de A Ventas de B
GRACIAS!
Ing. Eduardo Hernández Mgs.
0962141562 - edhernandez@espoch.edu.ec