03 Estadistica - Test

Ing. Eduardo Hernández Mgs.
▪ Ex jefe del Taller Mecánico de Plasticaucho Industrial S.A.

▪ Ex Sub director de Mantenimiento de Bioalimentar Cía. Ltda.
▪ Ex coordinador de la comisión de Investigación de la Carrera de Ing. de Mantenimiento.
▪ Ex coordinador de la comisión de Rediseño Curricular de la Carrera de Ing. de
Mantenimiento.
▪ Docente en la Facultad de Mecánica de la ESPOCH de Diagnóstico técnico de máquinas y
Gestión del mantenimiento.
▪ Miembro de la comisión de carrera de Mantenimiento Industrial.
▪ Miembro de la comisión de investigación y vinculación de la Facultad de Mecánica.
▪ Coordinador del convenio y proyecto de vinculación “Monitoreo de la condición de los
equipos e instalaciones de las Unidades Médicas Públicas de la Provincia de Chimborazo”.
▪ Coordinador del grupo de investigación de la ESPOCH “Ciencia del Mantenimiento”
CIMANT.
▪ Coordinador de proyectos de investigación para el desarrollo de nuevos métodos para la
alineación de ejes.
▪ Autor de varios artículos científicos indexados en Latindex, Scielo y Scimago.
▪ Consultor empresarial en el área del mantenimiento industrial.
Escuela Superior Politécnica de Chimborazo
Facultad de Mecánica
Estadística
Ing. Eduardo Hernández MSc.
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
CAPÍTULO III
DECISIONES ESTADÍSTICAS
La toma de decisiones es el proceso más básico dentro de una organización. La
agilidad de los procesos, el dinamismo del trabajo, obliga constantemente a
contrastar opiniones y juicios sobre qué alternativa es mejor en función de qué.
Desde la elección del logo de la empresa hasta la elección del mejor proveedor, o
del candidato mejor calificado para un puesto de trabajo. Para estas situaciones,
existe la estadística, la cual aporta a través de cálculos, datos precisos que
permiten ponderar criterios y establecer la mejor opción a elegir.
Se aplica la estadística de contraste de hipótesis al proceso de toma de decisiones
sobre un caso en particular.
Las decisiones estadísticas, basadas sobre la evidencia observada en muestras,
implican siempre la posibilidad de error. En la estadística no se tratan con
decisiones fundamentadas en la certeza, sino que, simplemente, estiman la
probabilidad o improbabilidad de ocurrencia de los hechos.
¿Mido?
¿Cuántas veces mido? Conjunto de mediciones
¿Comparo?
¿Mido?
¿Cuántas veces mido?
¿Comparo?
Duración en km de 4 bandas de
la distribución distintas.
20 000 80 000
MARCAS DURACIÓN [km]

A 20 000
B 80 000
C 40 000
D 40 000
40 000
TAMAÑO DE LA MUESTRA
¿Mido?
¿Cuántas veces mido?
¿Comparo?
CAPÍTULO III
HIPÓTESIS ESTADÍSTICAS
El proceso que corrobora si la información de una muestra sostiene o refuta el
reclamo se llama prueba de hipótesis.
Hipótesis Estadística: Una hipótesis estadística es un reclamo hecho sobre la
naturaleza de una población.
Por ejemplo, la premisa formulada por un productor de baterías para autos de
que su batería dura en promedio 48 meses, es una hipótesis estadística porque el
manufacturero no inspecciona la vida de cada batería que él produce. Si surgieran
quejas de parte de los clientes, entonces se pone a prueba el reclamo del
manufacturero.
La hipótesis estadística sometida a prueba se llama la hipótesis nula, y se denota
como 𝐻0
Hipótesis Nula (𝐻0 ): premisa, reclamo, o conjetura que se pronuncia sobre la

naturaleza de una o varias poblaciones.
Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor
de baterías debemos probar la hipótesis estadística de que µ ≥ 48. Por lo tanto,
la hipótesis nula es:
𝐻0 : µ ≥ 48
Luego se procede a tomar una muestra aleatoria de baterías y medir su vida
media. Si la información obtenida de la muestra no apoya el reclamo en la
hipótesis nula (𝐻0 ), entonces otra cosa es cierta.
La premisa alterna a la hipótesis nula se llama hipótesis alterna y se representa
por 𝑯𝟏
Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es falsa.
Por ejemplo, para el productor de baterías
𝐻0 : µ ≥ 48 y
𝐻1 : µ < 48
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se
calcula la información, como el promedio, la proporción, etc. Esta información
muestral se llama estadística de prueba.
Estadística de Prueba: Una estadística de prueba se basa en la información de
la muestra como la media o la proporción.
CAPÍTULO III
14
10
Número de casos 9
frecuencia
σ𝑛𝑖=1𝑥𝑖 − 𝑥ҧ 2 6 𝑦 =𝑚·𝑥+𝑏
s =
𝑛−1 4
2 3
1 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Valores
medidas=c(10,10.5,10.5,11,11,11,11,11,11,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,
12,12,12,12,12,12,12,12,12,12,12,12,12,12,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,13,13,
13,13,13.5,13.5,13.5,14)
mu=mean(medidas) x = seq(8,16,by=0.1)
sigma=sd(medidas) y = dnorm(x,mu, sigma)
plot(x,y)
28%
Frecuencia relativa 20%
probabilidades
Densidad de 18%
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 12%
s =
𝑛−1 8%
4% 6%
2% 2%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Valores
hist(datos,xlab = “Medidas", prob = TRUE)

lines(x, dnorm(x), col = "red", lwd = 2)
pnorm(14,mu,sigma) # 0.9923606
qnorm(0.99,mu,sigma) # 13.91726 𝑃 𝑋 ≤ 13,9 = 0,99
qnorm(0.99,mu,sigma,lower.tail=F) # 10.04274 𝑃 𝑋 ≥ 10,04 = 0,99
DISTRIBUCIÓN NORMAL
Los minutos que tardan en llegar a la universidad un grupo de estudiante se
distribuyen de forma normal. Con media de 40 minutos y una deviación estándar
de 11 minutos ¿Qué porcentaje de alumnos se demora en legar a) menos de 25
minutos b) entre 30 y 50 minutos y c) más de 35 minutos
a. menos de 25 minutos P(Z < 25)

pnorm(25,40,11)
b. entre 30 y 50 minutos P(30 < Z < 50)

pnorm(50,40,11) - pnorm(30,40,11)
c. más de 35 minutos P(Z > 35) = 1 - P(Z < 35)

1 - pnorm(35,40,11)
x = seq(1:80,by=0.5)
y = dnorm(x,40,11)
plot(x,y)
ENSAYOS DE HIPÓTESIS
Paramétrica
▪ Permite contrastar hipótesis referidas a algún parámetro
▪ Exigen el cumplimiento de determinados supuestos sobre las
poblaciones originales, de las que se extraen los datos (generalmente
normalidad y homocedasticidad).
▪ Analizan datos obtenidos con una escala de medida de intervalo o razón.
Cuál ?
•Para una muestra
•Para dos muestra
•Para n muestras
No paramétrica
▪ Analiza datos de variables cualitativas o categóricas
▪ No requiere o no cumple con los supuestos de distribución normal
▪ Distribución libre
NORMALIDAD DE LOS DATOS
Una primera tarea consiste en estudiar la normalidad de los datos, para ello y sin
profundizar se puede hacer lo siguiente:
1. Analizar si el histograma se ajusta a una distribución normal, para lo que
podemos superponerle la curva normal.
2. Estudiar si en el gráfico qqnorm() los puntos se ajustan a la recta qqline() o
se separan de ella.
3. Comprobar si se obtienen p-valores altos en el test de Shapiro-Wilk, con la
función shapiro.test(), o en las pruebas de normalidad disponibles en el
paquete nortest: test de Anderson-Darling, de Cramer von Mises,
Kolmogorov-Smirnov, de Pearson (ji-cuadrado) y de Shapiro-Francia.
Para muestras pequeñas (n ≤ 50) se recomienda utilizar el test de Shapiro-Wilk y
para muestra grandes (n > 5000) el test de Lilliefors con la función lillie.test().
Ejemplo: Evaluar la normalidad de los datos:
datos=c(4.01, 3.87, 4.68, 2.83, 3.88, 4.92, 4.46, 5.64, 4.91, 2.35, 4.12, 1.11)
shapiro.test(datos) # W = 0.92307, p-value = 0.3124
library(nortest)
lillie.test(datos)
No se ajusta a una Se ajusta a una

distribución normal distribución normal
Conclusión: Si el p-valor es mayor que 0.05 entonces la muestra datos se ajusta a

una distribución normal con un nivel de confianza del 95%.
Conclusión: Si el p-valor es menor que 0.05 entonces la muestra datos no se ajusta
a una distribución normal con un nivel de confianza del 95%.
qqnorm(datos, xlab = "", ylab = "", main = "datos", col = "firebrick")
qqline(datos, col=“blue”)
datos
14
13
12
11
10
-2 -1 0 1 2
DISTRIBUCIÓN DE MUESTREO
PARÁMETRO es una propiedad descriptiva de la población.
ESTADÍSTICO
Es una propiedad descriptiva de la muestra.
Es una función de las observaciones muestrales.
Una Distribución de muestreo es una función de probabilidad de un
estadístico.
PARÁMETRO ESTADÍSTICO
Media
𝜇 𝑥ҧ
Varianza
𝜎2 𝑠2
Desviación
𝜎 𝑠
Estándar
𝑃 𝑝
Proporción
SIGNIFICANCIA
Es la probabilidad () de rechazar 𝐻0 cuando 𝐻0 es cierto se llama nivel de
significancia.
Comentario: Para mantener la probabilidad de cometer el error tipo 1 baja,
debemos escoger un valor pequeño de .
Región Crítica o de Rechazo: Usando un valor preasignado de  se construye una
región de rechazo o región crítica con la curva normal estándar, con la curva t, etc,
que indica si debemos rechazar 𝐻0 .
La región puede ser de una cola o de dos dependiendo de la hipótesis alterna
SIGNIFICANCIA
Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:

(cola derecha, z ó t)
greater
Para 𝐻1 : µ < valor aceptado, la región de rechazo está dada por:

(cola izquierda, z ó t)
less
Para 𝐻1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada por:
(2-colas, z ó t)
two.sided
PROCEDIMIENTO GENERAL
Formule una hipótesis nula y una hipótesis alternativa.
Especifique el nivel de significancia α
Con base en la distribución muestral de un estadístico adecuado, se construye

un criterio para poner a prueba la hipótesis nula contra la hipótesis alternativa
dada.
A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.
Decida si hay que rechazar la hipótesis nula o fallar en rechazarla

CAPÍTULO III
ERRORES DE TIPO I Y II
A base de la información de
una muestra se puede
cometer dos tipos de errores
en nuestra decisión.
Error Tipo 1: Cuando
rechazamos una Hipótesis
Nula que es cierta
cometemos error tipo 1.
Llamada también error tipo
𝛼 o falso positivo. Se
relaciona con el nivel de
significancia estadística.
Algunos ejemplos para el error tipo I serían:
Se considera que el paciente está enfermo, a pesar de que en realidad está sano;
hipótesis nula: El paciente está sano.
Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis

nula: El acusado es inocente.
No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar;

hipótesis nula: La persona tiene derecho a ingresar.
Error Tipo 2: Cuando aceptamos una
Hipótesis Nula que es falsa se
comete un error tipo 2. Llamada
también error tipo 𝛽 o falso
negativo.
El error tipo II depende del parámetro
μ. Cuanto más cerca se encuentre
este del valor supuesto bajo la
hipótesis nula, mayor es la
probabilidad de ocurrencia del error
tipo II. Debido a que el verdadero
valor de μ es desconocido al hacer la
presunción de la hipótesis alternativa.
, la probabilidad del error tipo II,
no se puede calcular.
Error Tipo 2: Cuando aceptamos una Hipótesis Nula que es falsa se comete un error
tipo 2. Llamada también error tipo 𝛽 o falso negativo.
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de
tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas
como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir
la probabilidad del error de tipo I (α), conduce a incrementar la probabilidad del
error de tipo II (β).
Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el

5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar
condiciones más relajadas o más estrictas. El recurso para disminuir la
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la
práctica conlleva un incremento de los costes del estudio que se quiere realizar.
CAPÍTULO III
PROCEDIMIENTO GENERAL
Formule una hipótesis nula y una hipótesis alternativa.
Especifique el nivel de significancia α
Con base en la distribución muestral de un estadístico adecuado, se construye

un criterio para poner a prueba la hipótesis nula contra la hipótesis alternativa
dada.
A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.
Decida si hay que rechazar la hipótesis nula o fallar en rechazarla

PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Método alternativo (Pag.
363): En algunos libros se
indica que se puede
sustituir la desviación Triola, M. (2009). Pg. 354.
estándar muestral s por
s siempre que n > 30.
Tamaño de
Población s conocida s desconocida
Muestra
𝑥ҧ − 𝜇0 ഥ−𝝁
𝒙
Con Grande(n30) 𝑍 = 𝒕 =
𝜎/ 𝑛 𝒔/ 𝒏
Distribución
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Normal Pequeña(n<30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Sin Grande(n30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
Distribución
Normal Se usaría pruebas no
Pequeña(n<30)
paramétricas
Test de normalidad: Si
shapiro-wilk
a=rnorm(10000,12,0.8)
# Min. 1st Qu. Median Mean 3rd Qu. Max. n <= 5000
# 8.816 11.358 11.881 11.893 12.428 14.967

kolmogorov-
length(a) # n = 10000 smirnov
No
hist(a)
shapiro.test(a)
# sample size must be between 3 and 5000
library(nortest)
lillie.test(a) # D = 0.0084978, p-value = 0.0818 > 0,05
# Se acepta Ho y se concluye que la variable x se distribuye normalmente.
b=rnorm(5000,12,0.8)
⋮
De la base de datos notas.txt de las asignaturas de Geometría y Física del curso
de ajuste básico de una Universidad, se necesita saber si la media de las notas es de 7
puntos sobre 10 en cada asignatura.
No se ajusta a una Se ajusta a una

distribución normal distribución normal
Solución:
# Importar la base de datos
# Contraste de normalidad de la variable geometría
Shapiro.test(notas$geometria)
Conclusión: Como el p-valor es ____________ que 0.05 entonces la variable Geometría
____ se ajusta a una distribución normal con un nivel de confianza del 95%.
Confianza: 95% (0,95) 99% (0,99)
Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:

(cola derecha, z ó t) 0,95 greater
o  = 0,05  = 0,01
0,99 Z = 1,64 Z = 2,33
Para 𝐻1 : µ < valor aceptado, la región de rechazo está dada por:
less
(cola izquierda, z ó t) 0,95
o  = 0,05  = 0,01
0,99 Z = -1,64 Z = -2,33
Para 𝐻1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada
por: 0,95 two.sided
(2-colas, z ó t) o  = 0,025  = 0,005
0,99 Z = ±1,96 Z = ± 2,58
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
2. Nivel de significancia α=0,05
3. Criterio: Rechazar la Ho (hipótesis nula) si Z < - 1.96 o Z > 1.96, donde el estadístico
ҧ 0
𝑥−𝜇 α = 0,05
𝑍 = qnorm(0.975,lower.tail=T) # 1.959964 α = 0,01
𝜎/ 𝑛 qnorm(0.975) # 1.959964
3,36
ҧ
𝑥−𝜇 qnorm(0.975,lower.tail=F) # -1.959964 (1-0,95)/2 2,58
𝑡 = qnorm(0.025) # -1.959964
𝑠/ 𝑛 0,025 - 1.96 0,95 1.96 0,025
7,530909−7 0,005 0,99 0,005
4. Cálculos: 𝑍 = = 3,364176
1,480413/ 88 0,95+(1-0,95)/2 = 0,975 0,995
5. Decisión: Puesto que Z= 3,364176 cae fuera del intervalo de – 1.96 a 1.96, la
hipótesis nula se rechaza, en otras palabras la media de las notas de Geometría
es diferente de 7 puntos sobre 10, con nivel de confianza de 95%.
Z=-1.959964 o Z=1.959964
3. Criterio: Rechazar la Ho (hipótesis nula) si t< - 1.98 o t> 1.98, donde el estadístico
ҧ
𝑥−𝜇 α = 0,05
𝑡 = qt(0.95,87,lower.tail=T) # 1.987608 α = 0,01
𝑠/ 𝑛 qt(0.95,87) # 1.987608 3,36
ҧ 0
𝑥−𝜇 qt(0.95,87,lower.tail=F) # -1.987608 (1-0,95)/2 2,58
𝑍 = qt(0.05,87) #-1.987608
𝜎/ 𝑛 0,025 - 1.98 0,95 1.98 0,025
7,530909−7 0,005 -1.96 0,99 1.96 0,005
4. Cálculos: 𝑡 = = 3,364176
1,480413/ 88 0,95+(1-0,95)/2 = 0,975 0,995
5. Decisión: Puesto que t= 3,364176 cae fuera del intervalo de – 1.98 a 1.98, la
hipótesis nula se rechaza, en otras palabras la media de las notas de Geometría
es diferente de 7 puntos sobre 10, con nivel de confianza de 95%.
3. Criterio: Rechazar la Ho (hipótesis nula) si p-valor < 0,05
4. Estadístico de prueba:
Density
0.15
attach(notas)
summary(geometria)
0.00
# Min. 1st Qu. Median Mean 3rd Qu. Max. 2 4 6 8 10
# 2.440 6.508 7.495 7.531 8.662 9.990
geometria
hist(geometria,main="",freq = F)
curve(dnorm(x,mean(geometria),sd(geometria)),add=T,col="red")
length(geometria) # n = 88 < 5000
shapiro.test(geometria) # W = 0.97218, p-value = 0.05504 > 0.05
# Se acepta Ho y se concluye que la variable geometría se distribuye normalmente.
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
two.sided less greater
t.test(geometria,mu=7,alternative = "two.sided") # t = 3.3642, df = 87, p-value = 0.001144 < 0,05
4. Decisión: Puesto que p-valor = 0.001144 < 0.05 se rechaza la hipótesis nula, en otras
palabras existe suficiente evidencia para aseverar que la media de las notas de
Geometría es diferente de 7 puntos sobre 10, con un nivel de confianza del 95%.
# Ho: µ=7; H1: µ≠7

t.test(geometria, alternative = "two.sided", mu = 7) # p-value = 0.001144 < 0.05
# Se rechaza la Ho y se concluye que:
existe suficiente evidencia para aseverar que la media de la muestra geometría es diferente a 7
# Ho: µ >=7; H1: µ <7

t.test(geometria, alternative = "less", mu = 7) # p-value = 0.9994 > 0.05
# Se acepta la Ho y se concluye que:
no existe suficiente evidencia para aseverar que la media de la muestra geometría es menor que 7.
# Ho: µ <=7; H1: µ >7

t.test(geometria, alternative = "greater", mu = 7) # p-value = 0.0005718 < 0.05
# Se rechaza la Ho y se concluye que:
existe suficiente evidencia para aseverar que la media de la muestra geometría es mayor que 7.
Ho: μ=7 (La media del rendimiento de Física es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Física no es de 7 puntos)
3. Criterio: Rechazar la Ho (hipótesis nula) si p-valor < 0,05
4. Estadístico de prueba:
0.20
attach(notas)
summary(fisica)
0.10
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.850 5.660 7.130 6.816 8.160 9.960
0.00
hist(fisica,ylab="",main="",freq = F) 0 2 4 6 8 10
curve(dnorm(x,mean(fisica),sd(fisica)),add=T,col="red")
fisica
length(fisica) # n = 88 < 5000
shapiro.test(fisica) # W = 0.96707, p-value = 0.02447 < 0.05
# Se rechaza Ho y se concluye que la variable física no se distribuye normalmente.
Test de Wilcoxon para muestras independientes:
0.20
0.10
0.00
0 2 4 6 8 10
fisica
wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,

exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf)
# Ho: mediana=7; H1: mediana≠7

wilcox.test(fisica,7,alternative = "two.sided") # W = 45.5, p-value = 0.9689 > 0,05
# Se acepta la Ho y se concluye que:
no existe suficiente evidencia para aseverar que la mediana de la muestra física es diferente a 7
x=c(3809010.99,3851333.33,3555076.92,3375073.03,3555076.92,3466200.00,3521538.46,3777269.23,
3767608.70,3785498.58,3682745.43,3570947.80,3555076.92,3555076.92,3375073.03,3555076.92,
3732830.77,3773076.92,3777269.23,3767608.70,3785498.58, 3682745.43,3809010.99,3555076.92,
3555076.92,3712580.33,3555076.92,3599515.38, 3647307.69,3777269.23,3767608.70,3785498.58,
3682745.43,3570947.80,3555076.92, 3555076.92,3543826.68,3555076.92,3599515.38,3521538.46,
3777269.23,3671003.34, 3620911.68,3682745.43,3677755.53,3596027.63,3800347.38,3724309.40,
3677755.53,3677755.53,3713785.71,3851333.33,3755050.00,3729455.70,3658766.67,3812820.00,
3760500.00,3755050.00,3767608.70,3744351.85,3830055.25,3812820.00,3719098.71, 3713785.71,
3851333.33,3755050.00,3510075.95,3658766.67,3812820.00,3760500.00, 3755050.00,3767608.70,
3637370.37,3830055.25,3812820.00,3719098.71) Histogram of x
summary(x)
Frequency
15
# 3375073 3570948 3713786 3684545 3774125 3851333
hist(x)
0 5
3400000 3600000 3800000
x
length(x) # n = 76
shapiro.test(x) # W = 0.93083, p-value = 0.0004643 < 0,05
# Se rechaza Ho y se concluye que la variable x no se distribuye normalmente.
qqnorm(x, xlab = "", ylab = "", main = "", col = "firebrick")
qqline(x)
3700000
Se rechaza Ho Se acepta Ho
3400000
-2 -1 0 1 2
# Ho: mediana = 3588655.70; H1: mediana ≠ 3588655.70
wilcox.test(x,3588655.70,conf.level=0.99, alternative = "two.sided") W = 56, p-value = 0.4302 > 0,01
# Se acepta la Ho y se concluye que no existe suficiente evidencia para aseverar que la mediana de
la muestra x es diferente a 3588655.70
CAPÍTULO III
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Muestras independientes pareadas
Para realizar inferencia de dos poblaciones con muestras independientes, se debe
cumplir los siguientes supuestos :
Normalidad. Las dos poblaciones deben tener una distribución normal. Se recomienda
que por lo menos n = 30.
Homogeneidad de varianzas. Las varianzas de las poblaciones son iguales.
La variable es cuantitativa.
𝑥ҧ1 − 𝑥ҧ2
El valor Estadístico de prueba (Distribución t student): 𝑡=
𝑠𝑐2 𝑠𝑐2
+
𝑛1 𝑛2
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑍=
𝜎12 𝜎22 𝑛 − 1 𝑠 2
+ 𝑛 − 1 𝑠 2
+ 1 1 2 2
𝑛1 𝑛2 𝑠𝑐2 =
𝑛1 + 𝑛2 − 2
Intervalo de confianza
El valor t puede encontrarse en tablas tabuladas o mediante programas informáticos, en
R el valor t para un determinado intervalo de confianza y grados de libertad se puede
obtener con la función:
t = qt(p = confianza del intervalo + (1-confianza intervalo)/2, df= , lower.tail = TRUE)
Valor t para un intervalo de

confianza del 95% en una
distribución t-student con 15
grados de libertad:
qt(p = 0.95 + 0.05/2, df = 15,
lower.tail = TRUE)
# 2.13145
Las pérdidas semanales promedio de horas-hombre debidas
a accidentes en 10 plantas industriales, antes y después de
poner en operación cierto programa de seguridad:
antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
Probar si el programa de seguridad es efectivo con el 95% de confianza.
shapiro.test(antes) t.test(x, y = NULL,

alternative = c("two.sided", "less", "greater"),
shapiro.test(despues) mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
t.test(despues, antes, paired = TRUE, alternative = "less")

boxplot(antes,despues,notch=TRUE)
######################################################
# Dos muestras pareadas (n=m mismo tamaño) #
######################################################
#1.- Muestras:
0.020
antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
0.010
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
0.010
#2.- Estadística descriptiva de las muestras
summary(antes)
0.000
0.000
# 17.00 33.25 45.50 53.80 69.00 124.00 0 40 80 120 0 20 60 100
summary(despues) antes despues

0.012
# 11.00 30.50 40.00 48.60 57.75 119.00
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))
0.008
hist(antes,main="",ylab="",freq = F)
0.004
curve(dnorm(x,mean(antes),sd(antes)),add=T)
hist(despues,main="",ylab="",freq = F)
0.000
curve(dnorm(x,mean(despues),sd(despues)),add=T)
0 50 100
qqnorm(antes,main="",ylab="",xlab="Antes");qqline(antes)
qqnorm(despues,main="",ylab="",xlab="Después");qqline(despues)
#3.- test de normalidad
100
n = m = 10
100
shapiro.test(antes)
60
# W = 0.90667, p-value = 0.2589 > 0.05
60
# Los datos se distribuyen normalmente
20
shapiro.test(despues)
20
# W = 0.90021, p-value = 0.2203 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
Antes Después
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (D>=A) Se incrementó las h/h perdidas después de implementar el programa de seguridad
#H1: (D<A) Se redujo las h/h perdidas después de implementar el programa de seguridad

#5.- Nivel de significancia alpha=0.05
120
#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05
100
#7.- Test de comprobación (boxplot):
par(mfrow = c(1, 1))
80
boxplot(antes,despues,names=c("Antes","Después"),notch = T)
Siempre se coloca primero la muestra a contrastar
60
length(antes)
length(despues) Y luego la muestra de control
40
# Ho: D>=A
t.test(despues,antes,paired = T,alternative = "less")
20
# t = -4.0333, df = 9, p-value = 0.001479
#8.- Conclusión: (p-valor > 0.05 se acepta la Ho) Antes Después

# como p-valor = 0.001479 < 0.05, se rechaza Ho y se acepta H1; por lo tanto se concluye que:
# existe suficiente evidencia para aseverar que se redujo las h/h perdidas después de
implementar el programa de seguridad
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes
De acuerdo a recomendaciones de expertos no
se debe tomar medidas de vibraciones colocando
el sensor sobre el disipador de calor de un motor
eléctrico y en su lugar se debe colocar el sensor
sobre un inserto.
inser=c(8.502,8.595,8.493,8.547,8.564,8.529,8.637,8.519,8.546,8.447,8.466,8.66
1,8.673,8.66,8.671,8.815,8.626,8.77,8.734,8.641,8.533,8.652,8.528,8.477,8.508,8
.446,8.568,8.543,8.471,8.373,8.539,8.441,8.426,8.405,8.415,8.485,8.477,8.509,8.
452,8.347,8.469,8.48,8.565,8.451,8.44,8.459,8.446,8.493,8.512,8.565)
disi=c(4.082,4.058,4.074,4.152,4.199,4.037,4.145,4.166,4.131,4.067,4.015,4.13,4.
056,4.098,4.159,4.202,4.119,4.186,4.01,4.073,4.113,4.12,4.145,3.932,4.037,4.09
1,3.935,3.972,4.145,3.951,4.012,4.031,3.999,4.031,4.062,3.976,4.051,3.971,3.92
6,4.085,3.992,4.098,4.076,4.072,4.061,4.051,4.151,4.066,4.157,4.217)
par(mfrow=c(1,2),mar=c(4.5,3.5,1,1))
hist(inser, freq=FALSE,main="",ylab="",xlab="a. Inserto")
curve(dnorm(x,mean(inser),sd(inser)),add=TRUE)
hist(disi, freq=FALSE,main="",ylab="",xlab="b. Disipador")
curve(dnorm(x,mean(disi),sd(disi)),add=TRUE)
length(inser) # n = 50
0 1 2 3 4 5 6 7
4
length(disi) # m = 50
3
2
1
0
8.3 8.5 8.7 3.90 4.00 4.10 4.20
a. Inserto c. Disipador
qqnorm(inser,main="",ylab="",xlab="a. Inserto"); qqline(inser)

qqnorm(disi,main="",ylab="",xlab="b. Disipador"); qqline(disi)
8.8
4.15
shapiro.test(inser)
8.6
# W = 0.94768, p-value = 0.02742 < 0,05
4.05
3.95
8.4
shapiro.test(disi)
# W = 0.98043, p-value = 0.5701 > 0,05 -2 -1 0 1 2 -2 -1 0 1 2
a. Inserto b. Disipador
# Ho: disi = inser; Las medida de vibraciones tomadas sobre el disipador de calor
son similares a las tomadas sobre un inserto.
# H1: disi ≠ inser; Las medida de vibraciones tomadas sobre el disipador de calor
son diferentes a las tomadas sobre un inserto.

wilcox.test(disi,inser,paired=T,alternative="two.sided",conf.level=0.99)
# V = 0, p-value = 7.79e-10< 0,01
# Se rechaza la Ho y se concluye que existe suficiente evidencia para aseverar que
las medidas de vibraciones tomadas sobre el disipador de calor son diferentes a
las tomadas sobre un inserto con un 99% de confianza.
Teorema de límite central
Si se cumple el teorema de limite central, a continuación se exponen algunos
definiciones de diferentes autores
Se cumple, cuando independientemente de la población de origen, la
distribución de la medias aleatorias se aproxima a una distribución normal a
medida que el tamaño de la muestra crece ( Bencardino,321:2.000).
Al hacerse lo bastante grande el tamaño de la muestra la distribución de
muestreo de la media puede aproximarse mediante la distribución normal. Esto
es cierto no importa la forma de la distribución de los valores individuales de la
población.
Para la mayoría de distribuciones de la población, sin importar la forma , la
distribución de muestreo de la media tendrá una distribución aproximadamente
normal si se seleccionan muestras de al menos 30 observaciones (Berenson y
Levine: 1996:329).
Sea cual sea la forma de la
distribución de la población
(sea normal o no ), las
medias de todas las
muestras seleccionadas de
la población tendrán una
distribución normal.
La claves del éxito para

aplicar el teorema es que el
tamaño de la muestra sea
mayor que treinta (n> 30).
curva=c(4.543,5.157,4.879,4.966,5.434,5.059,4.515,4.45,4.689,4.523,5.13,5.35,5.
021,5.385,4.426,4.276,5.308,5.291,5.375,5.286,5.236,5.36,3.79,4.192,3.031,5.519
,4.63,7.021,5.571,4.334,4.363,4.589,3.714,4.593,4.968,5.564,5.042,4.393,5.314,4.
085,3.444,4.691,5.007,5.004,4.012,5.053,5.416,5.342,5.082,5.215)
bootstrap = replicate(n=10000,sample(curva,replace = T))
medias = apply(bootstrap,MARGIN = 2,FUN = mean)
hist(medias)
library(nortest)
lillie.test(medias)
mean(curva)
mean(medias)
CAPÍTULO III
ANÁLISIS DE LA VARIANZA
Muestras independientes no pareadas
Se quiere saber si existen diferencias significativas en la facturación de dos
tiendas de joyería de la misma cadena. Para ello se eligieron al azar 11 días
en los que se contabilizaron las ventas en la joyería A y otros 10 días en la
joyería B. Tomando en cuenta que las varianzas poblacionales de ambos
establecimientos son diferentes.
A: 1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930
B: 1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210
library(nortest)
var.test(a,b)
lillie.test(A)
lillie.test(B)
t.test(A, B, var.equal=F)
##################################################
# MUESTRAS NO PAREADAS #
##################################################
#1.- Muestras:
a= c(1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930)
b= c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)
#2.- Estadística descriptiva de las muestras

summary(a);sd(a)
# 110 1175 1290 1285 1498 1930
# sd = 488.8916
summary(b);sd(b)
#Min. 1st Qu. Median Mean 3rd Qu. Max.
#985 1120 1205 1246 1298 1705
# sd = 199.9833
0.0015
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))
0.0008
hist(a,main="",ylab="",freq = F)
curve(dnorm(x,mean(a),sd(a)),add=T)
0.0000
0.0000
hist(b,main="",ylab="",freq = F)
curve(dnorm(x,mean(b),sd(b)),add=T) 0 500 1000 1500 2000 800 1200 1600
a b
qqnorm(a,main="",ylab="",xlab="Ventas de A");qqline(a)
qqnorm(b,main="",ylab="",xlab="Ventas de B");qqline(b)
#3.- test de normalidad
1000 1300 1600

1500
library(nortest)
500
lillie.test(a)
# D = 0.19874, p-value = 0.2604 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
Ventas de A Ventas de B
lillie.test(b)
# D = 0.19357, p-value = 0.358 > 0.05
2000
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (A=B) No existe diferencia entre las ventas de A y B
#H1: (A???B) Existe diferencia entre las ventas de A y B
1500
#5.- Nivel de significancia alpha=0.05
#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05
1000
#7.- Test de comprobación (boxplot):
500
boxplot(a,b,names=c("Ventas de A","Ventas de B"),notch = T)
length(a)
length(b) Ventas de A Ventas de B
var.test(a,b) # se empleas de los tamaños de las muestras son diferentes

# F = 5.9764, num df = 10, denom df = 9, p-value = 0.01286 < 0.05
# Las varianzas son diferentes
t.test(a,b,paired = F,alternative = "two.sided",var.equal = F,conf.level = 0.95)

# t = 0.24314, df = 13.511, p-value = 0.8115
#8.- Conclusión: (p-valor>0.05 se acepta la Ho)

# como p-valor = 0.8115 > 0.05, se acepta Ho y se concluye que:
# no existe suficiente evidencia para aseverar que las ventas entre A y B son diferencia.
library(openintro)
library(tidyverse)
data(births)
head(births, 4)
smoker <- births %>% filter(smoke == "smoker") %>% pull(weight)
nonsmoker <- births %>% filter(smoke == "nonsmoker") %>% pull(weight)
mean(nonsmoker) - mean(smoker)
ggplot(births,aes(x = weight)) +
geom_histogram(aes(y = ..density.., colour = smoke)) +
facet_grid(.~ smoke) +
theme_bw() + theme(legend.position = "none")
par(mar = c(2, 2, 2, 2))
qqnorm(nonsmoker, xlab = "", ylab = "",
main = "nonsmoker", col = "firebrick")
qqline(nonsmoker)
qqnorm(smoker, xlab = "", ylab = "",
main = "smoker", col = "springgreen4")
qqline(smoker)
shapiro.test(smoker)
shapiro.test(nonsmoker)
ggplot(data = births) +
geom_boxplot(aes(x = smoke, y = weight, colour = smoke)) +
theme_bw() + theme(legend.position = "none")
require(car)
fligner.test(weight ~ smoke, data = births) # test no paramétrico basado en la mediana
leveneTest(weight ~ smoke, data = births, center = "median") # test no paramétrico basado
en la mediana
t.test(x=smoker,y=nonsmoker,alternative="two.sided",mu=0,var.equal=TRUE,conf.level=0.9
5)
CARRERA DE INGENIERÍA AUTOMOTRIZ
GRACIAS!
Ing. Eduardo Hernández Mgs.
0962141562 - edhernandez@espoch.edu.ec
“El mundo está construido por aquellos que en lugar de

dormir, se dedica a planificar su próximo sueño”

03 Estadistica - Test

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

03 Estadistica - Test

Cargado por

Copyright:

Formatos disponibles

Ing. Eduardo Hernández Mgs.

▪ Ex jefe del Taller Mecánico de Plasticaucho Industrial S.A.

MARCAS DURACIÓN [km]

Hipótesis Nula (𝐻0 ): premisa, reclamo, o conjetura que se pronuncia sobre la

Frecuencia relativa 20%

hist(datos,xlab = “Medidas", prob = TRUE)

a. menos de 25 minutos P(Z < 25)

b. entre 30 y 50 minutos P(30 < Z < 50)

c. más de 35 minutos P(Z > 35) = 1 - P(Z < 35)

No se ajusta a una Se ajusta a una

Conclusión: Si el p-valor es mayor que 0.05 entonces la muestra datos se ajusta a

Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:

Para 𝐻1 : µ < valor aceptado, la región de rechazo está dada por:

Formule una hipótesis nula y una hipótesis alternativa.

Especifique el nivel de significancia α

Con base en la distribución muestral de un estadístico adecuado, se construye

Decida si hay que rechazar la hipótesis nula o fallar en rechazarla

Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis

No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar;

Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el

Formule una hipótesis nula y una hipótesis alternativa.

Especifique el nivel de significancia α

Con base en la distribución muestral de un estadístico adecuado, se construye

Decida si hay que rechazar la hipótesis nula o fallar en rechazarla

# 8.816 11.358 11.881 11.893 12.428 14.967

No se ajusta a una Se ajusta a una

Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:

two.sided less greater

t.test(geometria,mu=7,alternative = "two.sided") # t = 3.3642, df = 87, p-value = 0.001144 < 0,05

two.sided less greater

# Ho: µ=7; H1: µ≠7

# Ho: µ >=7; H1: µ <7

# Ho: µ <=7; H1: µ >7

wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,

# Ho: mediana=7; H1: mediana≠7

Valor t para un intervalo de

shapiro.test(antes) t.test(x, y = NULL,

t.test(despues, antes, paired = TRUE, alternative = "less")

summary(despues) antes despues

#3.- test de normalidad

two.sided less greater

#8.- Conclusión: (p-valor > 0.05 se acepta la Ho) Antes Después

8.3 8.5 8.7 3.90 4.00 4.10 4.20

qqnorm(inser,main="",ylab="",xlab="a. Inserto"); qqline(inser)

wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,

La claves del éxito para

#2.- Estadística descriptiva de las muestras

#3.- test de normalidad

1000 1300 1600

#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05

var.test(a,b) # se empleas de los tamaños de las muestras son diferentes

t.test(a,b,paired = F,alternative = "two.sided",var.equal = F,conf.level = 0.95)

#8.- Conclusión: (p-valor>0.05 se acepta la Ho)

“El mundo está construido por aquellos que en lugar de

También podría gustarte