Está en la página 1de 75

Ing. Eduardo Hernández Mgs.

▪ Ex jefe del Taller Mecánico de Plasticaucho Industrial S.A.


▪ Ex Sub director de Mantenimiento de Bioalimentar Cía. Ltda.
▪ Ex coordinador de la comisión de Investigación de la Carrera de Ing. de Mantenimiento.
▪ Ex coordinador de la comisión de Rediseño Curricular de la Carrera de Ing. de
Mantenimiento.
▪ Docente en la Facultad de Mecánica de la ESPOCH de Diagnóstico técnico de máquinas y
Gestión del mantenimiento.
▪ Miembro de la comisión de carrera de Mantenimiento Industrial.
▪ Miembro de la comisión de investigación y vinculación de la Facultad de Mecánica.
▪ Coordinador del convenio y proyecto de vinculación “Monitoreo de la condición de los
equipos e instalaciones de las Unidades Médicas Públicas de la Provincia de Chimborazo”.
▪ Coordinador del grupo de investigación de la ESPOCH “Ciencia del Mantenimiento”
CIMANT.
▪ Coordinador de proyectos de investigación para el desarrollo de nuevos métodos para la
alineación de ejes.
▪ Autor de varios artículos científicos indexados en Latindex, Scielo y Scimago.
▪ Consultor empresarial en el área del mantenimiento industrial.
Escuela Superior Politécnica de Chimborazo
Facultad de Mecánica

Estadística
Ing. Eduardo Hernández MSc.
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
DECISIONES ESTADÍSTICAS
La toma de decisiones es el proceso más básico dentro de una organización. La
agilidad de los procesos, el dinamismo del trabajo, obliga constantemente a
contrastar opiniones y juicios sobre qué alternativa es mejor en función de qué.
Desde la elección del logo de la empresa hasta la elección del mejor proveedor, o
del candidato mejor calificado para un puesto de trabajo. Para estas situaciones,
existe la estadística, la cual aporta a través de cálculos, datos precisos que
permiten ponderar criterios y establecer la mejor opción a elegir.
Se aplica la estadística de contraste de hipótesis al proceso de toma de decisiones
sobre un caso en particular.
DECISIONES ESTADÍSTICAS
Las decisiones estadísticas, basadas sobre la evidencia observada en muestras,
implican siempre la posibilidad de error. En la estadística no se tratan con
decisiones fundamentadas en la certeza, sino que, simplemente, estiman la
probabilidad o improbabilidad de ocurrencia de los hechos.
¿Mido?
¿Cuántas veces mido? Conjunto de mediciones
¿Comparo?
DECISIONES ESTADÍSTICAS
¿Mido?
¿Cuántas veces mido?
¿Comparo?

Duración en km de 4 bandas de
la distribución distintas.
20 000 80 000

MARCAS DURACIÓN [km]


A 20 000
B 80 000
C 40 000
D 40 000

40 000
TAMAÑO DE LA MUESTRA
DECISIONES ESTADÍSTICAS
¿Mido?
¿Cuántas veces mido?
¿Comparo?
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
HIPÓTESIS ESTADÍSTICAS
El proceso que corrobora si la información de una muestra sostiene o refuta el
reclamo se llama prueba de hipótesis.
Hipótesis Estadística: Una hipótesis estadística es un reclamo hecho sobre la
naturaleza de una población.
Por ejemplo, la premisa formulada por un productor de baterías para autos de
que su batería dura en promedio 48 meses, es una hipótesis estadística porque el
manufacturero no inspecciona la vida de cada batería que él produce. Si surgieran
quejas de parte de los clientes, entonces se pone a prueba el reclamo del
manufacturero.
La hipótesis estadística sometida a prueba se llama la hipótesis nula, y se denota
como 𝐻0
HIPÓTESIS ESTADÍSTICAS

Hipótesis Nula (𝐻0 ): premisa, reclamo, o conjetura que se pronuncia sobre la


naturaleza de una o varias poblaciones.
Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor
de baterías debemos probar la hipótesis estadística de que µ ≥ 48. Por lo tanto,
la hipótesis nula es:
𝐻0 : µ ≥ 48
Luego se procede a tomar una muestra aleatoria de baterías y medir su vida
media. Si la información obtenida de la muestra no apoya el reclamo en la
hipótesis nula (𝐻0 ), entonces otra cosa es cierta.
La premisa alterna a la hipótesis nula se llama hipótesis alterna y se representa
por 𝑯𝟏
HIPÓTESIS ESTADÍSTICAS

Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es falsa.
Por ejemplo, para el productor de baterías
𝐻0 : µ ≥ 48 y
𝐻1 : µ < 48
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se
calcula la información, como el promedio, la proporción, etc. Esta información
muestral se llama estadística de prueba.
Estadística de Prueba: Una estadística de prueba se basa en la información de
la muestra como la media o la proporción.
HIPÓTESIS ESTADÍSTICAS
HIPÓTESIS ESTADÍSTICAS
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
14
10
Número de casos 9
frecuencia
σ𝑛𝑖=1𝑥𝑖 − 𝑥ҧ 2 6 𝑦 =𝑚·𝑥+𝑏
s =
𝑛−1 4
2 3
1 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Valores
medidas=c(10,10.5,10.5,11,11,11,11,11,11,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,11.5,
12,12,12,12,12,12,12,12,12,12,12,12,12,12,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,12.5,13,13,
13,13,13.5,13.5,13.5,14)
mu=mean(medidas) x = seq(8,16,by=0.1)
sigma=sd(medidas) y = dnorm(x,mu, sigma)
plot(x,y)
28%

Frecuencia relativa 20%

probabilidades
Densidad de 18%
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 12%
s =
𝑛−1 8%
4% 6%
2% 2%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Valores

hist(datos,xlab = “Medidas", prob = TRUE)


lines(x, dnorm(x), col = "red", lwd = 2)

pnorm(14,mu,sigma) # 0.9923606
qnorm(0.99,mu,sigma) # 13.91726 𝑃 𝑋 ≤ 13,9 = 0,99
qnorm(0.99,mu,sigma,lower.tail=F) # 10.04274 𝑃 𝑋 ≥ 10,04 = 0,99
DISTRIBUCIÓN NORMAL
Los minutos que tardan en llegar a la universidad un grupo de estudiante se
distribuyen de forma normal. Con media de 40 minutos y una deviación estándar
de 11 minutos ¿Qué porcentaje de alumnos se demora en legar a) menos de 25
minutos b) entre 30 y 50 minutos y c) más de 35 minutos

a. menos de 25 minutos P(Z < 25)


pnorm(25,40,11)

b. entre 30 y 50 minutos P(30 < Z < 50)


pnorm(50,40,11) - pnorm(30,40,11)

c. más de 35 minutos P(Z > 35) = 1 - P(Z < 35)


1 - pnorm(35,40,11)

x = seq(1:80,by=0.5)
y = dnorm(x,40,11)
plot(x,y)
ENSAYOS DE HIPÓTESIS
Paramétrica
▪ Permite contrastar hipótesis referidas a algún parámetro
▪ Exigen el cumplimiento de determinados supuestos sobre las
poblaciones originales, de las que se extraen los datos (generalmente
normalidad y homocedasticidad).
▪ Analizan datos obtenidos con una escala de medida de intervalo o razón.

Cuál ?
•Para una muestra
•Para dos muestra
•Para n muestras

No paramétrica
▪ Analiza datos de variables cualitativas o categóricas
▪ No requiere o no cumple con los supuestos de distribución normal
▪ Distribución libre
NORMALIDAD DE LOS DATOS
Una primera tarea consiste en estudiar la normalidad de los datos, para ello y sin
profundizar se puede hacer lo siguiente:
1. Analizar si el histograma se ajusta a una distribución normal, para lo que
podemos superponerle la curva normal.
2. Estudiar si en el gráfico qqnorm() los puntos se ajustan a la recta qqline() o
se separan de ella.
3. Comprobar si se obtienen p-valores altos en el test de Shapiro-Wilk, con la
función shapiro.test(), o en las pruebas de normalidad disponibles en el
paquete nortest: test de Anderson-Darling, de Cramer von Mises,
Kolmogorov-Smirnov, de Pearson (ji-cuadrado) y de Shapiro-Francia.
Para muestras pequeñas (n ≤ 50) se recomienda utilizar el test de Shapiro-Wilk y
para muestra grandes (n > 5000) el test de Lilliefors con la función lillie.test().
NORMALIDAD DE LOS DATOS
Ejemplo: Evaluar la normalidad de los datos:
datos=c(4.01, 3.87, 4.68, 2.83, 3.88, 4.92, 4.46, 5.64, 4.91, 2.35, 4.12, 1.11)
shapiro.test(datos) # W = 0.92307, p-value = 0.3124
library(nortest)
lillie.test(datos)

No se ajusta a una Se ajusta a una


distribución normal distribución normal

Conclusión: Si el p-valor es mayor que 0.05 entonces la muestra datos se ajusta a


una distribución normal con un nivel de confianza del 95%.
Conclusión: Si el p-valor es menor que 0.05 entonces la muestra datos no se ajusta
a una distribución normal con un nivel de confianza del 95%.
NORMALIDAD DE LOS DATOS
qqnorm(datos, xlab = "", ylab = "", main = "datos", col = "firebrick")
qqline(datos, col=“blue”)

datos

14
13
12
11
10

-2 -1 0 1 2
DISTRIBUCIÓN DE MUESTREO
PARÁMETRO es una propiedad descriptiva de la población.

ESTADÍSTICO
Es una propiedad descriptiva de la muestra.
Es una función de las observaciones muestrales.
Una Distribución de muestreo es una función de probabilidad de un
estadístico.

PARÁMETRO ESTADÍSTICO

Media
𝜇 𝑥ҧ
Varianza
𝜎2 𝑠2
Desviación
𝜎 𝑠
Estándar
𝑃 𝑝
Proporción
SIGNIFICANCIA
Es la probabilidad () de rechazar 𝐻0 cuando 𝐻0 es cierto se llama nivel de
significancia.
Comentario: Para mantener la probabilidad de cometer el error tipo 1 baja,
debemos escoger un valor pequeño de .
Región Crítica o de Rechazo: Usando un valor preasignado de  se construye una
región de rechazo o región crítica con la curva normal estándar, con la curva t, etc,
que indica si debemos rechazar 𝐻0 .
La región puede ser de una cola o de dos dependiendo de la hipótesis alterna
SIGNIFICANCIA

Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:


(cola derecha, z ó t)
greater

Para 𝐻1 : µ < valor aceptado, la región de rechazo está dada por:


(cola izquierda, z ó t)
less

Para 𝐻1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada por:
(2-colas, z ó t)
two.sided
PROCEDIMIENTO GENERAL

Formule una hipótesis nula y una hipótesis alternativa.

Especifique el nivel de significancia α

Con base en la distribución muestral de un estadístico adecuado, se construye


un criterio para poner a prueba la hipótesis nula contra la hipótesis alternativa
dada.

A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.

Decida si hay que rechazar la hipótesis nula o fallar en rechazarla


CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
ERRORES DE TIPO I Y II
A base de la información de
una muestra se puede
cometer dos tipos de errores
en nuestra decisión.
Error Tipo 1: Cuando
rechazamos una Hipótesis
Nula que es cierta
cometemos error tipo 1.
Llamada también error tipo
𝛼 o falso positivo. Se
relaciona con el nivel de
significancia estadística.
ERRORES DE TIPO I Y II
Algunos ejemplos para el error tipo I serían:

Se considera que el paciente está enfermo, a pesar de que en realidad está sano;
hipótesis nula: El paciente está sano.

Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis


nula: El acusado es inocente.

No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar;


hipótesis nula: La persona tiene derecho a ingresar.
ERRORES DE TIPO I Y II
Error Tipo 2: Cuando aceptamos una
Hipótesis Nula que es falsa se
comete un error tipo 2. Llamada
también error tipo 𝛽 o falso
negativo.
El error tipo II depende del parámetro
μ. Cuanto más cerca se encuentre
este del valor supuesto bajo la
hipótesis nula, mayor es la
probabilidad de ocurrencia del error
tipo II. Debido a que el verdadero
valor de μ es desconocido al hacer la
presunción de la hipótesis alternativa.
, la probabilidad del error tipo II,
no se puede calcular.
ERRORES DE TIPO I Y II
Error Tipo 2: Cuando aceptamos una Hipótesis Nula que es falsa se comete un error
tipo 2. Llamada también error tipo 𝛽 o falso negativo.
ERRORES DE TIPO I Y II
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de
tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas
como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir
la probabilidad del error de tipo I (α), conduce a incrementar la probabilidad del
error de tipo II (β).

Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el


5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar
condiciones más relajadas o más estrictas. El recurso para disminuir la
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la
práctica conlleva un incremento de los costes del estudio que se quiere realizar.
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
PROCEDIMIENTO GENERAL

Formule una hipótesis nula y una hipótesis alternativa.

Especifique el nivel de significancia α

Con base en la distribución muestral de un estadístico adecuado, se construye


un criterio para poner a prueba la hipótesis nula contra la hipótesis alternativa
dada.

A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.

Decida si hay que rechazar la hipótesis nula o fallar en rechazarla


PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Método alternativo (Pag.
363): En algunos libros se
indica que se puede
sustituir la desviación Triola, M. (2009). Pg. 354.
estándar muestral s por
s siempre que n > 30.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA

Tamaño de
Población s conocida s desconocida
Muestra
𝑥ҧ − 𝜇0 ഥ−𝝁
𝒙
Con Grande(n30) 𝑍 = 𝒕 =
𝜎/ 𝑛 𝒔/ 𝒏
Distribución
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Normal Pequeña(n<30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇
Sin Grande(n30) 𝑍 = 𝑡 =
𝜎/ 𝑛 𝑠/ 𝑛
Distribución
Normal Se usaría pruebas no
Pequeña(n<30)
paramétricas
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Test de normalidad: Si
shapiro-wilk

a=rnorm(10000,12,0.8)
# Min. 1st Qu. Median Mean 3rd Qu. Max. n <= 5000

# 8.816 11.358 11.881 11.893 12.428 14.967


kolmogorov-
length(a) # n = 10000 smirnov
No
hist(a)

shapiro.test(a)
# sample size must be between 3 and 5000
library(nortest)
lillie.test(a) # D = 0.0084978, p-value = 0.0818 > 0,05
# Se acepta Ho y se concluye que la variable x se distribuye normalmente.

b=rnorm(5000,12,0.8)

PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
De la base de datos notas.txt de las asignaturas de Geometría y Física del curso
de ajuste básico de una Universidad, se necesita saber si la media de las notas es de 7
puntos sobre 10 en cada asignatura.

No se ajusta a una Se ajusta a una


distribución normal distribución normal
Solución:
# Importar la base de datos
# Contraste de normalidad de la variable geometría
Shapiro.test(notas$geometria)
Conclusión: Como el p-valor es ____________ que 0.05 entonces la variable Geometría
____ se ajusta a una distribución normal con un nivel de confianza del 95%.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Confianza: 95% (0,95) 99% (0,99)

Para 𝐻1 : µ > valor aceptado, la región de rechazo está dada por:


(cola derecha, z ó t) 0,95 greater
o  = 0,05  = 0,01
0,99 Z = 1,64 Z = 2,33
Para 𝐻1 : µ < valor aceptado, la región de rechazo está dada por:
less
(cola izquierda, z ó t) 0,95
o  = 0,05  = 0,01
0,99 Z = -1,64 Z = -2,33
Para 𝐻1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada
por: 0,95 two.sided
(2-colas, z ó t) o  = 0,025  = 0,005
0,99 Z = ±1,96 Z = ± 2,58
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
2. Nivel de significancia α=0,05
3. Criterio: Rechazar la Ho (hipótesis nula) si Z < - 1.96 o Z > 1.96, donde el estadístico
ҧ 0
𝑥−𝜇 α = 0,05
𝑍 = qnorm(0.975,lower.tail=T) # 1.959964 α = 0,01
𝜎/ 𝑛 qnorm(0.975) # 1.959964
3,36
ҧ
𝑥−𝜇 qnorm(0.975,lower.tail=F) # -1.959964 (1-0,95)/2 2,58
𝑡 = qnorm(0.025) # -1.959964
𝑠/ 𝑛 0,025 - 1.96 0,95 1.96 0,025
7,530909−7 0,005 0,99 0,005
4. Cálculos: 𝑍 = = 3,364176
1,480413/ 88 0,95+(1-0,95)/2 = 0,975 0,995
5. Decisión: Puesto que Z= 3,364176 cae fuera del intervalo de – 1.96 a 1.96, la
hipótesis nula se rechaza, en otras palabras la media de las notas de Geometría
es diferente de 7 puntos sobre 10, con nivel de confianza de 95%.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
2. Nivel de significancia α=0,05
Z=-1.959964 o Z=1.959964
3. Criterio: Rechazar la Ho (hipótesis nula) si t< - 1.98 o t> 1.98, donde el estadístico
ҧ
𝑥−𝜇 α = 0,05
𝑡 = qt(0.95,87,lower.tail=T) # 1.987608 α = 0,01
𝑠/ 𝑛 qt(0.95,87) # 1.987608 3,36
ҧ 0
𝑥−𝜇 qt(0.95,87,lower.tail=F) # -1.987608 (1-0,95)/2 2,58
𝑍 = qt(0.05,87) #-1.987608
𝜎/ 𝑛 0,025 - 1.98 0,95 1.98 0,025
7,530909−7 0,005 -1.96 0,99 1.96 0,005
4. Cálculos: 𝑡 = = 3,364176
1,480413/ 88 0,95+(1-0,95)/2 = 0,975 0,995
5. Decisión: Puesto que t= 3,364176 cae fuera del intervalo de – 1.98 a 1.98, la
hipótesis nula se rechaza, en otras palabras la media de las notas de Geometría
es diferente de 7 puntos sobre 10, con nivel de confianza de 95%.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
2. Nivel de significancia α=0,05
3. Criterio: Rechazar la Ho (hipótesis nula) si p-valor < 0,05
4. Estadístico de prueba:

Density

0.15
attach(notas)
summary(geometria)

0.00
# Min. 1st Qu. Median Mean 3rd Qu. Max. 2 4 6 8 10
# 2.440 6.508 7.495 7.531 8.662 9.990
geometria
hist(geometria,main="",freq = F)
curve(dnorm(x,mean(geometria),sd(geometria)),add=T,col="red")
length(geometria) # n = 88 < 5000
shapiro.test(geometria) # W = 0.97218, p-value = 0.05504 > 0.05
# Se acepta Ho y se concluye que la variable geometría se distribuye normalmente.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Geometría es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Geometría no es de 7 puntos)
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)

two.sided less greater

t.test(geometria,mu=7,alternative = "two.sided") # t = 3.3642, df = 87, p-value = 0.001144 < 0,05

4. Decisión: Puesto que p-valor = 0.001144 < 0.05 se rechaza la hipótesis nula, en otras
palabras existe suficiente evidencia para aseverar que la media de las notas de
Geometría es diferente de 7 puntos sobre 10, con un nivel de confianza del 95%.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA

two.sided less greater

# Ho: µ=7; H1: µ≠7


t.test(geometria, alternative = "two.sided", mu = 7) # p-value = 0.001144 < 0.05
# Se rechaza la Ho y se concluye que:
existe suficiente evidencia para aseverar que la media de la muestra geometría es diferente a 7

# Ho: µ >=7; H1: µ <7


t.test(geometria, alternative = "less", mu = 7) # p-value = 0.9994 > 0.05
# Se acepta la Ho y se concluye que:
no existe suficiente evidencia para aseverar que la media de la muestra geometría es menor que 7.

# Ho: µ <=7; H1: µ >7


t.test(geometria, alternative = "greater", mu = 7) # p-value = 0.0005718 < 0.05
# Se rechaza la Ho y se concluye que:
existe suficiente evidencia para aseverar que la media de la muestra geometría es mayor que 7.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
1. Hipótesis nula e hipótesis alternativa.
Ho: μ=7 (La media del rendimiento de Física es de 7 puntos)
H1: μ≠7 (La media del rendimiento de Física no es de 7 puntos)
2. Nivel de significancia α=0,05
3. Criterio: Rechazar la Ho (hipótesis nula) si p-valor < 0,05
4. Estadístico de prueba:

0.20
attach(notas)
summary(fisica)

0.10
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.850 5.660 7.130 6.816 8.160 9.960

0.00
hist(fisica,ylab="",main="",freq = F) 0 2 4 6 8 10
curve(dnorm(x,mean(fisica),sd(fisica)),add=T,col="red")
fisica
length(fisica) # n = 88 < 5000
shapiro.test(fisica) # W = 0.96707, p-value = 0.02447 < 0.05
# Se rechaza Ho y se concluye que la variable física no se distribuye normalmente.
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
Test de Wilcoxon para muestras independientes:

0.20
0.10
0.00
0 2 4 6 8 10
two.sided less greater
fisica

wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,


exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf)

# Ho: mediana=7; H1: mediana≠7


wilcox.test(fisica,7,alternative = "two.sided") # W = 45.5, p-value = 0.9689 > 0,05
# Se acepta la Ho y se concluye que:
no existe suficiente evidencia para aseverar que la mediana de la muestra física es diferente a 7
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
x=c(3809010.99,3851333.33,3555076.92,3375073.03,3555076.92,3466200.00,3521538.46,3777269.23,
3767608.70,3785498.58,3682745.43,3570947.80,3555076.92,3555076.92,3375073.03,3555076.92,
3732830.77,3773076.92,3777269.23,3767608.70,3785498.58, 3682745.43,3809010.99,3555076.92,
3555076.92,3712580.33,3555076.92,3599515.38, 3647307.69,3777269.23,3767608.70,3785498.58,
3682745.43,3570947.80,3555076.92, 3555076.92,3543826.68,3555076.92,3599515.38,3521538.46,
3777269.23,3671003.34, 3620911.68,3682745.43,3677755.53,3596027.63,3800347.38,3724309.40,
3677755.53,3677755.53,3713785.71,3851333.33,3755050.00,3729455.70,3658766.67,3812820.00,
3760500.00,3755050.00,3767608.70,3744351.85,3830055.25,3812820.00,3719098.71, 3713785.71,
3851333.33,3755050.00,3510075.95,3658766.67,3812820.00,3760500.00, 3755050.00,3767608.70,
3637370.37,3830055.25,3812820.00,3719098.71) Histogram of x
summary(x)

Frequency

15
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 3375073 3570948 3713786 3684545 3774125 3851333
hist(x)

0 5
3400000 3600000 3800000

x
PRUEBAS DE HIPÓTESIS BASADAS EN UNA SOLA MUESTRA
length(x) # n = 76
shapiro.test(x) # W = 0.93083, p-value = 0.0004643 < 0,05
# Se rechaza Ho y se concluye que la variable x no se distribuye normalmente.
qqnorm(x, xlab = "", ylab = "", main = "", col = "firebrick")
qqline(x)
3700000

Se rechaza Ho Se acepta Ho
3400000

-2 -1 0 1 2
wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,
exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf)
# Ho: mediana = 3588655.70; H1: mediana ≠ 3588655.70
wilcox.test(x,3588655.70,conf.level=0.99, alternative = "two.sided") W = 56, p-value = 0.4302 > 0,01
# Se acepta la Ho y se concluye que no existe suficiente evidencia para aseverar que la mediana de
la muestra x es diferente a 3588655.70
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Muestras independientes pareadas
Para realizar inferencia de dos poblaciones con muestras independientes, se debe
cumplir los siguientes supuestos :
Normalidad. Las dos poblaciones deben tener una distribución normal. Se recomienda
que por lo menos n = 30.
Homogeneidad de varianzas. Las varianzas de las poblaciones son iguales.
La variable es cuantitativa.
𝑥ҧ1 − 𝑥ҧ2
El valor Estadístico de prueba (Distribución t student): 𝑡=
𝑠𝑐2 𝑠𝑐2
+
𝑛1 𝑛2
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑍=
𝜎12 𝜎22 𝑛 − 1 𝑠 2
+ 𝑛 − 1 𝑠 2
+ 1 1 2 2
𝑛1 𝑛2 𝑠𝑐2 =
𝑛1 + 𝑛2 − 2
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Intervalo de confianza
El valor t puede encontrarse en tablas tabuladas o mediante programas informáticos, en
R el valor t para un determinado intervalo de confianza y grados de libertad se puede
obtener con la función:
t = qt(p = confianza del intervalo + (1-confianza intervalo)/2, df= , lower.tail = TRUE)

Valor t para un intervalo de


confianza del 95% en una
distribución t-student con 15
grados de libertad:
qt(p = 0.95 + 0.05/2, df = 15,
lower.tail = TRUE)
# 2.13145
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
Las pérdidas semanales promedio de horas-hombre debidas
a accidentes en 10 plantas industriales, antes y después de
poner en operación cierto programa de seguridad:

antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
Probar si el programa de seguridad es efectivo con el 95% de confianza.

shapiro.test(antes) t.test(x, y = NULL,


alternative = c("two.sided", "less", "greater"),
shapiro.test(despues) mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)

t.test(despues, antes, paired = TRUE, alternative = "less")


boxplot(antes,despues,notch=TRUE)
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
######################################################
# Dos muestras pareadas (n=m mismo tamaño) #
######################################################
#1.- Muestras:

0.020
antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)

0.010
despues=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)

0.010
#2.- Estadística descriptiva de las muestras
summary(antes)

0.000

0.000
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 17.00 33.25 45.50 53.80 69.00 124.00 0 40 80 120 0 20 60 100

summary(despues) antes despues


# Min. 1st Qu. Median Mean 3rd Qu. Max.

0.012
# 11.00 30.50 40.00 48.60 57.75 119.00
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))

0.008
hist(antes,main="",ylab="",freq = F)

0.004
curve(dnorm(x,mean(antes),sd(antes)),add=T)
hist(despues,main="",ylab="",freq = F)

0.000
curve(dnorm(x,mean(despues),sd(despues)),add=T)
0 50 100
PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
qqnorm(antes,main="",ylab="",xlab="Antes");qqline(antes)
qqnorm(despues,main="",ylab="",xlab="Después");qqline(despues)

#3.- test de normalidad

100
n = m = 10

100
shapiro.test(antes)

60
# W = 0.90667, p-value = 0.2589 > 0.05

60
# Los datos se distribuyen normalmente

20
shapiro.test(despues)

20
# W = 0.90021, p-value = 0.2203 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
# Los datos se distribuyen normalmente
Antes Después
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (D>=A) Se incrementó las h/h perdidas después de implementar el programa de seguridad
#H1: (D<A) Se redujo las h/h perdidas después de implementar el programa de seguridad

two.sided less greater


PRUEBA DE HIPÓTESIS BASADA EN DOS MUESTRAS
#5.- Nivel de significancia alpha=0.05

120
#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05

100
#7.- Test de comprobación (boxplot):
par(mfrow = c(1, 1))

80
boxplot(antes,despues,names=c("Antes","Después"),notch = T)
Siempre se coloca primero la muestra a contrastar

60
length(antes)
length(despues) Y luego la muestra de control

40
# Ho: D>=A
t.test(despues,antes,paired = T,alternative = "less")

20
# t = -4.0333, df = 9, p-value = 0.001479

#8.- Conclusión: (p-valor > 0.05 se acepta la Ho) Antes Después


# como p-valor = 0.001479 < 0.05, se rechaza Ho y se acepta H1; por lo tanto se concluye que:
# existe suficiente evidencia para aseverar que se redujo las h/h perdidas después de
implementar el programa de seguridad
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes
De acuerdo a recomendaciones de expertos no
se debe tomar medidas de vibraciones colocando
el sensor sobre el disipador de calor de un motor
eléctrico y en su lugar se debe colocar el sensor
sobre un inserto.
inser=c(8.502,8.595,8.493,8.547,8.564,8.529,8.637,8.519,8.546,8.447,8.466,8.66
1,8.673,8.66,8.671,8.815,8.626,8.77,8.734,8.641,8.533,8.652,8.528,8.477,8.508,8
.446,8.568,8.543,8.471,8.373,8.539,8.441,8.426,8.405,8.415,8.485,8.477,8.509,8.
452,8.347,8.469,8.48,8.565,8.451,8.44,8.459,8.446,8.493,8.512,8.565)
disi=c(4.082,4.058,4.074,4.152,4.199,4.037,4.145,4.166,4.131,4.067,4.015,4.13,4.
056,4.098,4.159,4.202,4.119,4.186,4.01,4.073,4.113,4.12,4.145,3.932,4.037,4.09
1,3.935,3.972,4.145,3.951,4.012,4.031,3.999,4.031,4.062,3.976,4.051,3.971,3.92
6,4.085,3.992,4.098,4.076,4.072,4.061,4.051,4.151,4.066,4.157,4.217)
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
par(mfrow=c(1,2),mar=c(4.5,3.5,1,1))
hist(inser, freq=FALSE,main="",ylab="",xlab="a. Inserto")
curve(dnorm(x,mean(inser),sd(inser)),add=TRUE)
hist(disi, freq=FALSE,main="",ylab="",xlab="b. Disipador")
curve(dnorm(x,mean(disi),sd(disi)),add=TRUE)
length(inser) # n = 50

0 1 2 3 4 5 6 7
4
length(disi) # m = 50
3
2
1
0

8.3 8.5 8.7 3.90 4.00 4.10 4.20

a. Inserto c. Disipador
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes

qqnorm(inser,main="",ylab="",xlab="a. Inserto"); qqline(inser)


qqnorm(disi,main="",ylab="",xlab="b. Disipador"); qqline(disi)

8.8

4.15
shapiro.test(inser)

8.6
# W = 0.94768, p-value = 0.02742 < 0,05

4.05
3.95
8.4
shapiro.test(disi)
# W = 0.98043, p-value = 0.5701 > 0,05 -2 -1 0 1 2 -2 -1 0 1 2

a. Inserto b. Disipador
TEST NO PARAMÉTRICOS PARA DOS MUESTRAS
Test de Wilcoxon para muestras independientes

# Ho: disi = inser; Las medida de vibraciones tomadas sobre el disipador de calor
son similares a las tomadas sobre un inserto.
# H1: disi ≠ inser; Las medida de vibraciones tomadas sobre el disipador de calor
son diferentes a las tomadas sobre un inserto.

wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,


exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf)

wilcox.test(disi,inser,paired=T,alternative="two.sided",conf.level=0.99)
# V = 0, p-value = 7.79e-10< 0,01
# Se rechaza la Ho y se concluye que existe suficiente evidencia para aseverar que
las medidas de vibraciones tomadas sobre el disipador de calor son diferentes a
las tomadas sobre un inserto con un 99% de confianza.
Teorema de límite central
Si se cumple el teorema de limite central, a continuación se exponen algunos
definiciones de diferentes autores
Se cumple, cuando independientemente de la población de origen, la
distribución de la medias aleatorias se aproxima a una distribución normal a
medida que el tamaño de la muestra crece ( Bencardino,321:2.000).
Al hacerse lo bastante grande el tamaño de la muestra la distribución de
muestreo de la media puede aproximarse mediante la distribución normal. Esto
es cierto no importa la forma de la distribución de los valores individuales de la
población.
Para la mayoría de distribuciones de la población, sin importar la forma , la
distribución de muestreo de la media tendrá una distribución aproximadamente
normal si se seleccionan muestras de al menos 30 observaciones (Berenson y
Levine: 1996:329).
Teorema de límite central
Sea cual sea la forma de la
distribución de la población
(sea normal o no ), las
medias de todas las
muestras seleccionadas de
la población tendrán una
distribución normal.

La claves del éxito para


aplicar el teorema es que el
tamaño de la muestra sea
mayor que treinta (n> 30).
Teorema de límite central
curva=c(4.543,5.157,4.879,4.966,5.434,5.059,4.515,4.45,4.689,4.523,5.13,5.35,5.
021,5.385,4.426,4.276,5.308,5.291,5.375,5.286,5.236,5.36,3.79,4.192,3.031,5.519
,4.63,7.021,5.571,4.334,4.363,4.589,3.714,4.593,4.968,5.564,5.042,4.393,5.314,4.
085,3.444,4.691,5.007,5.004,4.012,5.053,5.416,5.342,5.082,5.215)
bootstrap = replicate(n=10000,sample(curva,replace = T))
medias = apply(bootstrap,MARGIN = 2,FUN = mean)
hist(medias)
library(nortest)
lillie.test(medias)
mean(curva)
mean(medias)
CAPÍTULO III
PRUEBAS ESTADÍSTICAS
1. Decisiones estadísticas
2. Hipótesis estadísticas
3. Ensayos de hipótesis y significación
4. Errores de tipo I y II
5. Pruebas de hipótesis basadas en una sola muestra
6. Prueba de hipótesis basada en dos muestras
7. Análisis de la varianza
ANÁLISIS DE LA VARIANZA
Muestras independientes no pareadas
Se quiere saber si existen diferencias significativas en la facturación de dos
tiendas de joyería de la misma cadena. Para ello se eligieron al azar 11 días
en los que se contabilizaron las ventas en la joyería A y otros 10 días en la
joyería B. Tomando en cuenta que las varianzas poblacionales de ambos
establecimientos son diferentes.
A: 1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930
B: 1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210
library(nortest)
var.test(a,b)
lillie.test(A)
lillie.test(B)
t.test(A, B, var.equal=F)
ANÁLISIS DE LA VARIANZA
##################################################
# MUESTRAS NO PAREADAS #
##################################################

#1.- Muestras:
a= c(1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930)
b= c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)

#2.- Estadística descriptiva de las muestras


summary(a);sd(a)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 110 1175 1290 1285 1498 1930
# sd = 488.8916
summary(b);sd(b)
#Min. 1st Qu. Median Mean 3rd Qu. Max.
#985 1120 1205 1246 1298 1705
# sd = 199.9833
ANÁLISIS DE LA VARIANZA

0.0015
par(mfrow = c(1, 2), mar = c(4.5, 3.5, 1, 1))

0.0008
hist(a,main="",ylab="",freq = F)
curve(dnorm(x,mean(a),sd(a)),add=T)

0.0000

0.0000
hist(b,main="",ylab="",freq = F)
curve(dnorm(x,mean(b),sd(b)),add=T) 0 500 1000 1500 2000 800 1200 1600

a b
qqnorm(a,main="",ylab="",xlab="Ventas de A");qqline(a)
qqnorm(b,main="",ylab="",xlab="Ventas de B");qqline(b)

#3.- test de normalidad

1000 1300 1600


1500
library(nortest)

500
lillie.test(a)
# D = 0.19874, p-value = 0.2604 > 0.05
-1.5 -0.5 0.5 1.5 -1.5 -0.5 0.5 1.5
# Los datos se distribuyen normalmente
Ventas de A Ventas de B
lillie.test(b)
# D = 0.19357, p-value = 0.358 > 0.05
# Los datos se distribuyen normalmente
ANÁLISIS DE LA VARIANZA

2000
#4.- Hipótesis nula e hipótesis alternativa.
#Ho: (A=B) No existe diferencia entre las ventas de A y B
#H1: (A???B) Existe diferencia entre las ventas de A y B

1500
#5.- Nivel de significancia alpha=0.05

#6.- Criterios: Rechazar la hipótesis nula si p-valor < 0.05

1000
#7.- Test de comprobación (boxplot):

500
par(mfrow = c(1, 1))
boxplot(a,b,names=c("Ventas de A","Ventas de B"),notch = T)

length(a)
length(b) Ventas de A Ventas de B

var.test(a,b) # se empleas de los tamaños de las muestras son diferentes


# F = 5.9764, num df = 10, denom df = 9, p-value = 0.01286 < 0.05
# Las varianzas son diferentes
ANÁLISIS DE LA VARIANZA

t.test(a,b,paired = F,alternative = "two.sided",var.equal = F,conf.level = 0.95)


# t = 0.24314, df = 13.511, p-value = 0.8115

#8.- Conclusión: (p-valor>0.05 se acepta la Ho)


# como p-valor = 0.8115 > 0.05, se acepta Ho y se concluye que:
# no existe suficiente evidencia para aseverar que las ventas entre A y B son diferencia.
ANÁLISIS DE LA VARIANZA
library(openintro)
library(tidyverse)
data(births)
head(births, 4)
smoker <- births %>% filter(smoke == "smoker") %>% pull(weight)
nonsmoker <- births %>% filter(smoke == "nonsmoker") %>% pull(weight)
mean(nonsmoker) - mean(smoker)
ggplot(births,aes(x = weight)) +
geom_histogram(aes(y = ..density.., colour = smoke)) +
facet_grid(.~ smoke) +
theme_bw() + theme(legend.position = "none")
par(mar = c(2, 2, 2, 2))
par(mfrow = c(1, 2))
qqnorm(nonsmoker, xlab = "", ylab = "",
main = "nonsmoker", col = "firebrick")
qqline(nonsmoker)
qqnorm(smoker, xlab = "", ylab = "",
main = "smoker", col = "springgreen4")
qqline(smoker)
ANÁLISIS DE LA VARIANZA
shapiro.test(smoker)
shapiro.test(nonsmoker)
ggplot(data = births) +
geom_boxplot(aes(x = smoke, y = weight, colour = smoke)) +
theme_bw() + theme(legend.position = "none")
require(car)
fligner.test(weight ~ smoke, data = births) # test no paramétrico basado en la mediana
leveneTest(weight ~ smoke, data = births, center = "median") # test no paramétrico basado
en la mediana
t.test(x=smoker,y=nonsmoker,alternative="two.sided",mu=0,var.equal=TRUE,conf.level=0.9
5)
CARRERA DE INGENIERÍA AUTOMOTRIZ

GRACIAS!
Ing. Eduardo Hernández Mgs.
0962141562 - edhernandez@espoch.edu.ec

“El mundo está construido por aquellos que en lugar de


dormir, se dedica a planificar su próximo sueño”

También podría gustarte