Está en la página 1de 28

UNIVERSIDAD PERUANA LOS ANDES

Facultad de Ingeniería
Escuela Profesional de Ingeniería Industrial

ASIGNATURA: ESTADÍSTICA INFERENCIAL

SEMANA 11: PRUEBA DE HIPOTESIS-TRES O MAS MUESTRAS

M. Sc. Antonio Anaya Ureña


Contenido
• Prueba de hipótesis con tres o más muestras
independientes.
• ANOVA (Analysis Of Variance).
• Modelo aditivo lineal.
• ANOVA con un solo factor y más factores.
• Prueba de comparaciones múltiples.
Inicio/entrada

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑛
𝐻1 : 𝜇1 ≠ 𝜇2 ≠ 𝜇3 ≠ ⋯ ≠ 𝜇𝑛
Análisis de varianza (ANOVA)
• Es una técnica estadística que permite descomponer la variabilidad
total de los resultados de un experimento en sus distintas fuentes
(tratamientos, interacciones entre factores, covariables, error
experimental), con la finalidad de compararlas e identificar su
importancia relativa en la explicación de la variabilidad total.
• Se entiende como análisis de varianza a las descomposición de la
variabilidad total que ocurren en los datos en cada una de sus fuentes
controladas y no controladas. El análisis de varianza (ANOVA) es una
técnica que se puede utilizar para decidir si las medidas de tres o más
poblaciones (tratamientos) son iguales o no.
Análisis de varianza (ANOVA)
• Se utiliza las varianzas de los datos para desarrollar una
prueba de hipótesis, con ello se compraran tres o mas
medias muestrales.
• El estadístico que se utiliza para ello es, la distribución F de
Fisher.
• La 𝑆 2 se divide en dos fuentes. A este procedimiento se
denomina “partición de la varianza”.
• Se diferencia de las comparación de las medias aritméticas,
ya que se toma en consideración la varianza de la muestra.
Estimación de Fo observado.
𝜎12 𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 "𝑒𝑛𝑡𝑟𝑒"
𝐹𝑜 = 2 =
𝜎2 𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 "𝑑𝑒𝑛𝑡𝑟𝑜"

Estimación de la variación que proviene de los efectos


𝜎12 observados entre las muestras experimentales. Estos
efectos son independientes entre si. Variación entre: CMt
Estimación de los errores aleatorios dentro de cada uno
𝜎22
de las muestras experimentales. Variación dentro: CMe
CONCEPTOS BÁSICOS:
• Factor. Es una variable explicativa independiente de tipo cualitativo
y cuantitativo. También puede ser definido como: el elemento,
material o cualquier procedimiento sometido a estudio o ensayos de
comparación sobre el cual el investigador tiene conocimiento y es de
su interés estudiarlo.
• Ejemplo: temperature, tiempo, presentación de un producto, tipo de
enseñanza, forma de elaborar un producto, variedad de un producto,
concentracion de un insumo, origen de material prima, laboratorio,
etc.
• Nivel de factor o tratamiento. Es una de las categorías de la variable
explicativa (factor). El término tratamiento en Estadística es utilizado
ampliamente para designar a cada uno de los niveles de un factor
(experimentos simples) o también para designar a cada una de las
combinaciones de los niveles de dos o más factores (experimentos
factoriales). En la tabla 1 se muestras ejemplos de factor y sus niveles
o tratamientos:
• Característica o variable respuesta. Es la característica a través de la cual se
evalúa el efecto de cada uno de los niveles del factor en estudio, para lo cual se
debe disponer del material experimental adecuado. Ejemplos: Rendimiento en
TM de caña de azucar, sabor de la mermelada de tomate (escala hedónica de 5
puntos), nivel de glucose en la sangre, Resistencia de un material, rendimiento de
un combustible, duración en horas de un equipo, etc.

• Unidad experimental (u.e.): Llamado también “Parcela experimental” en donde


se aplican los tratamientos, en el cual se observan, se miden y se evalúan las
variables respuesta (características) que se investiga. El conjunto de unidades
experimentales viene a ser el material experimental.
• Ejemplo: Una parcela de terreno, frascos de mermelada, un animal, una persona,
un vehículo o maquinaria, un equipo o herramienta, árbol, etc.
• Dato estadístico. Es el registro numérico, en un momento dado, de
cada una de las unidades experimentales ante la aplicación de los
(tratamientos) niveles del factor en estudio.
• Ejemplo: Factor: Variedades de caña de azucar. Niveles de factor
(cuatro variedades): V1, V2, V3, … , Vk. Variable respuesta:
Rendimiento en TM de una variedad de azucar. Unidad experimental:
Una hectarea. Dato estadístico: 18 TM/ha.
• Error experimental: Es la variación existente (involuntaria y/o
extraña) entre los resultados de las observaciones, realizados por dos
o más unidades experimentales que recibieron el mismo tratamiento
y que por efectos aleatorios (factores no controlables) reportan
ciertas diferencias. Es el fracaso de llegar a resultados idénticos con
dos o más unidades experimentales tratados por igual.
• Fuentes de variación: Una fuente de variación está constituida por
cualquier factor (variable independiente que afecta los resultados del
experimento) o conjunto de factores controlados o no por el
investigador. Se distinguen tres tipos:
• Aquellas cuyo efecto sobre la respuesta es de particular interés para el
experimentador (factores tratamiento).
• Aquellas que no son de interés directo pero que se contemplan en el diseño
para reducir la variabilidad no planificada (por ejemplo, como se verá más
adelante, los bloques).
• Aquellas que no son contempladas en el diseño (error experimental).
ANOVA de un factor
• Se conoce como DCA o DCR; es uno de los diseños más simples y se
utiliza cuando las unidades experimentales son homogéneas.
• Los tratamientos son asignados a las UE al azar, sin ninguna
restricción.

• Se utiliza cuando se tiene un solo factor de interés, además del error.

• Puede ser con igual número de repeticiones o con diferente número


de repeticiones por tratamiento.
Distribución del experimento
𝑟

𝒕𝟏 𝒕𝟐 𝒕𝟑 … 𝒕𝒕 Y.. = Gran total ෍ 𝑌𝑖𝑗


𝑌1,1 𝑌2,1 𝑌3,1 … 𝑌𝑡,1 𝑗=1

𝑌1,2 𝑌2,2 𝑌3,2 … 𝑌𝑡,2


𝑌1,3 𝑌2,3 𝑌3,3 … 𝑌𝑡,3 𝑥ҧ = 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
. . . . .
. . . . .
. . . . .
𝑌1,𝑟 𝑌2,𝑟 𝑌3,𝑟 …. 𝑌𝑡,𝑟
TOTAL 𝑌1. 𝑌2. 𝑌3. 𝑌𝑡. 𝑌..
Repeticiones 𝑟1. 𝑟2. 𝑟3. 𝑟𝑡. n
Promedios 𝑥1
ҧ 𝑥2
ҧ 𝑥ҧ3 𝑥ҧ𝑡
Modelo aditivo lineal

𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗
• DONDE:
• 𝑌𝑖𝑗 : 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎 𝑝𝑜𝑟 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑖é𝑠𝑖𝑚𝑜 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑦 𝑗 −
𝑠𝑖𝑚𝑜 𝑟𝑒𝑝𝑒𝑡𝑖𝑐𝑖ó𝑛.
• 𝜇: 𝑀𝑒𝑑𝑖𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
• 𝜏𝑖 : 𝐸𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑖
• 𝜀𝑖𝑗 : 𝐸𝑟𝑟𝑜𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙
Supuestos del modelo estadístico
El modelo estadístico debe cumplir con los siguientes supuestos:
• Aditividad: Los efectos del modelo son aditivos.
• Linealidad: Las relaciones entre los efectos del modelo son lineales.
• Normalidad: Los errores del modelo deben tener una distribución
normal con media cero y varianza 𝜎 2
• Independencia. Los resultados obtenidos en el experimento son
independientes entre sí.
• Homogeneidad de Variancias: Las diferentes poblaciones generadas
por la aplicación de los diferentes tratamientos tienen varianzas
iguales (𝜎 2 )
TABLA DE ANOVA EN DCA
F tabular
Fuente o F calculada o
Grados Suma de
componentes Cuadrados medios estadístico de
libertad cuadrados 0.05 0.01
de la variación prueba

Por el t-1 SCt 𝑆𝐶𝑡 𝐶𝑀𝑡 g.l.t/g.l.E


𝐶𝑀𝑡 = 𝐹=
tratamiento 𝑡−1 𝐶𝑀𝐸

Por el error n-t SCE 𝑆𝐶𝐸


𝐶𝑀𝐸 =
𝑛−𝑡

Total n-1 SCT


Estimación de los componentes de la variación
a) Suma de los cuadrados de la media o término
de corrección (TC) c) Suma de cuadrado del total
𝑟
𝑌. . 2
𝑇𝐶 = 𝑆𝐶𝑇 = ෍ 𝑌𝑖𝑗 2 − 𝑇𝐶
𝑛 𝑗=1

b) Suma de los cuadrados de los tratamientos (SCt)


2
σ𝑡𝑖=1 𝑦𝑖 .
𝑆𝐶𝑡 = − 𝑇𝐶
𝑟𝑖 d) Suma de cuadrados del error
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑡
Ejemplo: Una empresa azucarera desea conocer que variedad resulta más
productiva y para ello se dispone a evaluar cuatro variedades. A continuación se
muestra el rendimiento (TM/ha) de 4 variedades de caña de azúcar.

V1 V2 V3 V4
78.82 56.6 81.74 96.89
T1= Variedad 1
86.8 63.82 105.12 90.91
T2= Variedad 2 68.65 58.71 112.94 92.97
77.76 70.59 108.12 97.98
T3= Variedad 3 75.8 121.1 95.93
T4= Variedad 4 115.87

Y.. =
Suma yi. 387.83 7238.1 644.89 474.68
8745.53

n 5 4 6 5 20
x̅ 77.566 1809.5 107.48 94.936 437.277
Planteamiento de hipótesis
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1 : 𝑃𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑒𝑑𝑎𝑑𝑒𝑠 𝑒𝑠 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟

Nivel de significancia y nivel crítico :


𝛼 = 0.05
𝐹 𝑡𝑎𝑏𝑢𝑙𝑎𝑟: 3.239
Estimación de las sumas de cuadrados.
a) Término de corrección
2 2
𝑌. . 8,745.53
𝑇. 𝐶. = = = 3,824,214.75
𝑛 20

b) Suma de cuadrados de los tratamientos


𝑆𝐶𝑡
387.832 7238.102 644.892 474.682
= + + + − 3,824,214.75
5 4 6 5
𝑆𝐶𝑡 = 13,242,091.97 − 3,824,214.75
𝑆𝐶𝑡 = 9,417,877.22
Estimación de las sumas de los cuadrados:
c) Suma de cuadrados del total (SCT)

𝑆𝐶𝑇
= 78.822 + 86.802 + 68.652 + 78.762 + ⋯ + 97.982 + 95.932 − 3,824,214.75
𝑆𝐶𝑇 = 49,985,822.78 − 3,824,214.75
𝑆𝐶𝑇 = 46,161,608.03

d) Suma de cuadrados del Error (SCE)


𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑡
𝑆𝐶𝐸 = 46,161,608.03 − 9,417,877.02
𝑆𝐶𝐸 = 36,743,730.81
TABLA DE ANOVA EN DCA
Fuente de Grados Suma de Cuadrados F tabular
F calculado
variación Libertad cuadrados medios 0.05 0.01
Tratamientos T-1= 3 9,417,877.22 3,139,292.41 23.76 3.239 5.292

Error N-t= 16 36,743,730.81 2,296,483.18


Total N-1= 19 46,161,608.03

Criterio de decisión: Fc>Ft: Significativo


Fc>Tt: Rechazamos la Ho Fc<Ft: No significativo
Prueba de comparaciones múltiples o pruebas
Pos Hoc
Cuando rechazamos la hipótesis nula, los resultados nos indican que la
diferencia de las medias es significativa o altamente significativa.
Para conocer cual de las medias es diferente, recurrimos a las prueba de
comparación múltiple.
Entre ellas tenemos:
a) Prueba DLS o diferencia mínima significativa (cuando hay sólo tres grupos)
b) Prueba de Tukey (cuando hay número elevado de comparaciones e igual número
de repeticiones).
c) Prueba de Duncan.
d) Prueba de Dunnet (cuando hay grupo testigo).
e) Pruebas ortogonales.
f) Pruebas múltiples de Schefe (cuando hay diferente número de repeticiones)
ANOVA con dos factores
• Cuando en un experimento, dos factores pueden influenciar a las
unidades experimentales, se usa un análisis de varianza de dos vías,
denominado diseño de bloque aleatorizado (DBCA), en el cual se
comparan k tratamientos ubicados en columnas con bloques que se
basan en un factor ubicado en r filas.
Modelo estadístico o MAL
Cuadro de análisis de varianza para DBCA
Distribución del experimento en DBCA

También podría gustarte