Está en la página 1de 36

Licenciatura en Economía

Estadística II

Tema: Diseño de experimentos y análisis de


varianza
Presenta:
Dra. María del Rosario Granados Sánchez
07-05-2020
¿Cómo se clasifican los estudios estadísticos?
Experimental y Observacional

Tres diseños de experimentos análisis de varianza (ANOVA).


1. Diseño completamente aleatorizado
2. Diseño de bloques aleatorizado
3. Experimento factorial

¿Por qué es importante realizar un análisis de varianza?

1. Permite probar la igualdad de tres o más medias


poblacionales
2. Es imprescindible para el análisis de los resultados
de regresión que incluyen datos experimentales y
observacionales
Principios básicos de un diseño experimental:
Empresa que desarrolla sistemas de filtración para los suministros de agua.
Ha desarrollado un nuevo sistema de filtración y comprará a varios proveedores los componentes para
posteriormente ensamblarlos.
Tiene tres alternativas de ensamblado (A, B, C). Cada uno tiene un orden distinto para establecer el
sistema de armado.
La empresa desea determinar el método de ensamble más eficiente.

a. El método de ensamble
b. Tres métodos de ensamble en el experimento.
c. Tenemos un solo factor cualitativo (método de ensamble)

¿Cuántas poblaciones tenemos y cómo están conformadas?

¿Cuál es la variable dependiente de cada población?

En un diseño completamente aleatorizado,


¿Cómo se asignan las poblaciones a cada unidad experimental?
La empresa toma 15 trabajadores al azar.
Obtener datos adicionales.
Replicando el proceso experimental básico.
¿cómo se recolectaron los datos?
1. MÉTODO DE ENSAMBLE 2. Se toman los datos del
¿A, B, C? número de unidades
ensambladas por trabajador
por semana.
5 a, 5b, 5c
,

¿Las medias poblacionales correspondientes a los tres métodos de ensamble son iguales?

3. Planteamiento de hipótesis:
Ho:
Ha: no todas las medias poblacionales son iguales .
Supuestos del análisis de varianza:
1. En cada población, la variable de respuesta está normalmente distribuida.
2. La varianza de la variable de respuesta , es la misma en todas las poblaciones.
3. Las observaciones deben ser independientes.

¿Cuál es el fondo del análisis de varianza?


a. Si las medias poblacionales son iguales, se
esperaría que las tres medias muestrales fueran
muy similares.

b. Si la variablidad entre las medias muestrales es


pequeña se favorece que se cumpla la Ho.

c. Si la variablidad entre las medias muestrales es


grande se favorece que se cumpla la Ha.

d. Si Ho: , es verdadera, se usa la variabilidad entre


las medias muestrales para estimar la (varianza)
Supongamos los siguientes datos:

Si Ho es verdadera las
medias muestrales
provendrían de la misma
distribución muestral.

Estimamos la media y la varianza de la distribución muestral


Distribución muestral tiene una , entonces, =
´=
𝑥
∑𝑥 2
𝑠❑ =
∑ ( 𝑥 − 𝑥´ )
2
n( = n= ?
𝑛 𝑛 −1

entre tratamientos
¿Qué pasa cuando la Ho es falsa?

𝟐
𝒔 𝒙 mayor ⇒

𝑆𝑖 : 𝜇 1 ≠ 𝜇 2 ≠ 𝜇 3

Las varianzas muestrales


proporcionarán una estimación
insesgada de

Combinamos las estimaciones individuales de en una general.

Estimación dentro de los tratamientos de


Estimación dentro de los tratamientos de =
¿?

La ANOVA se basa en obtener dos estimaciones independientes de la varianza


poblacional común de

1. Se basa en la variabilidad entre las medias muestrales mismas


( entre tratamientos)
2. Se basa en la variabilidad entre los datos en cada muestra
(estimación dentro de los tratamientos de )

Si Ho es verdadera, las dos estimaciones serán semejantes y su


cociente será cercano a 1.
Si Ho es falsa, la estimación entre tratamientos será mayor que la
estimación dentro de los tratamientos y su cociente será grande.
En nuestro ejemplo, ¿de cuánto es el
¿es un cociente grande?
cociente entre las dos estimaciones?
Estimación de la varianza poblacional entre tratamientos
Cuando todas las muestras son del mismo
tamaño se le llama: cuadrado medio
debido a los tratamientos.

 Si Ho es verdadera  CMTR un estimador insesgado de la varianza


poblacional.
 Si Ho no es verdadera  CMTR un estimador sesgado de la varianza
poblacional y sobreestima a la misma.
Para los datos de nuestro ejercicio:
SCTR=
CMTR=
Estimación de la varianza poblacional dentro de los tratamientos
A esta estimación se le denomina
cuadrado medio debido al error y se
denota como CME.

• Se basa en la variación dentro de cada tratamiento


• Que la hipótesis nula sea o no verdadera no influye en nada
• El CME proporciona siempre una estimación insesgada de la varianza
poblacional.
Retomando el ejemplo:
SCE=
CME=
Comparación de las estimaciones de las varianzas: la prueba F
Si Ho es verdadera:
a. el CMTR y el CME proporcionaran dos estimaciones insesgadas e
independientes de la varianza poblacional.
b. se satisfacen los supuestos del ANOVA, la distribución muestral del
CMTR/CME es una distribución F con k-1 gl en el numerador y nT –k gl
en el denominador.
Si Ho es falsa:
c. el valor del CMTR/CME será muy grande debido a que el CMTR
sobreestima la varianza poblacional.
d. Ho será rechazada.

El estadístico de prueba:
Comparación de las estimaciones de las varianzas: la prueba F

El estadístico de prueba:

Continuando con el ejemplo:


a=0.05 como nivel de significancia
¿Cuál es el valor del estadístico de prueba?

Verificamos en tablas:
Si el valor del estadístico de prueba es grande,
la Ho será rechazada.
Supongamos un a = 0.05,
¿Qué pasa con la Ho?
¿Qué concluimos?
Comparación de las estimaciones de las varianzas: la prueba F

Estadístico de prueba vs valor crítico


Ftablas > Fcalculado  No se rechaza Ho

¿Qué concluye?

Tabla ANOVA ¿qué es?

La ANOVA más sencilla debe incluir necesariamente:


STC (suma total de los cuadrados) que representa a la fuente de la variación.
STC= SCTR+SCE
Fuente de Suma de Grados de Cuadrado F Valor p
variación cuadrados libertad medio
Tratamientos
Error
Total 860 14
Tabla ANOVA: ejercicio
Los siguientes datos se obtuvieron de un diseño completamente aleatorizado

a. Calcule la suma de cuadrados entre tratamientos


b. Calcule en cuadrado medio entre tratamientos
c. Determine la suma de cuadrados debido al error
d. Calcule el cuadrado medio debido al error
e. Establezca la tabla ANOVA para este problema
f. Con a=0.05, pruebe si las medias de los tres tratamientos son iguales
Procedimientos de comparación múltiple:

Nos permite saber en dónde se encuentran las diferencias entre las medias
poblacionales.
Procedimiento de la diferencia mínima significativa (LSD de Fisher).

En el ejemplo, encontramos no todas las medias poblacionales son iguales


La pregunta es, ¿dónde ocurren esas diferencias? ¿entre el tratamiento 1 y 2, 1 y3, 2 y3?

1. Planteamos hipótesis: 2. Planteamos el estadístico de prueba


= 𝑥𝑖 − 𝑥 𝑗
𝑡=


=
𝑪𝑴𝑬
( 1 1
+
𝑛𝑖 𝑛 𝑗 )
¿Hay diferencias entre el tratamiento 1 y 2?
Procedimientos de comparación múltiple:
Procedimiento de la diferencia mínima significativa (LSD de Fisher).

Nivel de significancia: a= 0.05

¿Cuáles fueron las medias muestrales que obtuvimos para los tres tratamientos?
¿Cuál fue el CME?

𝑥𝑖 − 𝑥 𝑗
𝑡=


t =____
𝑪𝑴𝑬
( 1 1
+
𝑛𝑖 𝑛 𝑗 )
De acuerdo al planteamiento de hipótesis, ¿tenemos una prueba de una o dos colas?
Procedimientos de comparación múltiple:
Procedimiento de la diferencia mínima significativa (LSD de Fisher).

En las tablas de distribución t ubicamos con 12gl el valor de t estimada t=1.19.


¿Entre qué área bajo la curva se encuentra el valor t=1.19?
Al ser una prueba de dos colas, entre qué pasa con el p-value?

3. Regla de rechazo por p-value


Si p-value ≤ a  Rechazo Ho
¿Qué concluye?
Otro método es determinando qué tan grande tiene que ser la diferencia entre
las medias muestrales para que Ho sea rechazada.

1. Planteamos Hipótesis 2. Estadística de prueba: | |


= | - |= ___
=

3. Regla de rechazo para ns a


rechazar Ho si | ≥ LSD

LSD = LSD = = 7.34

¿qué concluye?
Comparen las tres medias poblacionales.
¿Para cuáles no se cumple la Ho?
Podemos construir I.C. de la diferencia entre las medias de dos poblaciones

LSD

Regla de decisión:
Si el intervalo incluye el valor cero  no se rechaza la Ho. Las dos medias
poblacionales sean iguales.
Si el intervalo no incluye el valor cero  se rechaza la Ho. Sí hay diferencia
entre las medias poblacionales.

Ejercicio: Estimar los intervalos de confianza, empleando un intervalo de 95%


de confianza.
Tasas de error tipo I
¿Qué pasa si cometemos un error con alguna de las medias y aceptamos una que no es?

Es necesario estimar la probabilidad de cometer error tipo I

En el ejercicio tenemos tres muestras, cada una con un nivel de significancia a= 0.05.
En cada prueba, si Ho es verdadera, la probabilidad de cometer error tipo I será a= 0.05
La probabilidad de no cometer error tipo I será de 1-0.05= 0.95

A la probabilidad de cometer error tipo I, se le conoce como


tasa de error tipo I por comparación.
1. La probabilidad de que no se cometa un error
¿cuál es la probabilidad de que se tipo I en ninguna de las tres pruebas es:
cometa un error tipo I en por lo =_____
menos una de las tres pruebas? 2. La probabilidad de cometer por lo menos un
error tipo I: 1-()= _____
Entonces, la tasa de error tipo I correspondiente a este método no es 0.05,
sino ______, se le conoce como tasa de error tipo I por experimentación
o general ()

¿Qué pasa cuando tenemos más de tres poblaciones?

Ajuste de Bonferroni

Establecemos la probabilidad de cometer error tipo I por comparación


y lo dividimos entre el número de poblaciones

𝛼
𝐴𝑗𝑢𝑠𝑡𝑒 𝐵𝑜𝑛𝑓𝑒𝑟𝑟𝑜𝑛𝑖=
𝑛

Ejercicio: Establecer la probabilidad para tres y diez poblaciones con a=0.05


Diseño de bloques aleatorizado:

Unidades experimentales homogéneas analizamos la varianza a través del diseño


completamente aleatorizado.

¿qué sucede cuando tenemos unidades heterogéneas?

Empleamos la formación de bloques para


darle homogeneidad a esos grupos.

El propósito del diseño de bloques aleatorizado es:

 Controlar algunas fuentes de variación, eliminándolas del término CME.


 Proporciona una mejor estimación de la varianza del error.
 Conduce a pruebas de hipótesis más sólidas en términos de su capacidad para
detectar diferencias entre medias de tratamientos.
Ejemplo:

Corredores de bolsa y hay tres técnicas (tratamientos) diferentes para decidir sobre la
volatilidad en el precio de una acción, de ello dependerá que los corredores tomen
una decisión sobre invertir o no invertir en él.

Algunos de los corredores manejan muy bien una técnica pero no otra y eso los pone
un poco nerviosos sobre si su decisión será correcta.
Como no todos responden de la misma forma, entonces queremos saber ¿en qué
manera difieren estas tres técnicas en su efecto sobre el estrés y los nervios
que les producen a los corredores?

En este diseño de bloques, emplearemos una sola muestra de corredores de


bolsa y cada uno se prueba con cada una de las técnicas de decisión de modelo.
Entonces:

Cada corredor de bolsa es un bloque


Cada técnica econométrica es el factor de interés.
El aspecto aleatorizado del diseño de bloques aleatorizado es el orden al azar en el que
les son asignados las técnicas econométricas a los corredores de bolsa.

VECTOR CASA DE BOLSA


Manera aleatoria a seis corredores asignando a cada uno las tres técnicas
econométricas a utilizar.
Les realizaron una entrevista y un examen médico para medir su nivel de
estrés.
Los resultados son los siguientes:

¿las diferencias entre las tres técnicas son significativas estadísticamente?


1. Planteamiento de hipótesis: 2. Realizamos un análisis Al emplear bloques, se eliminan
del cálculo de la varianza. del término CME las diferencias
Ho:
A diferencia del diseño individuales de los bloques
Ha: (corredores) y se obtiene una
completamente aleatorizado,
prueba más sólida para las
aquí realizamos una partición
diferencias entre los factores
de la STC en tres grupos: (técnicas econométricas).
STC= SCTR+SCBL+SCE
1. STC =

2. SCTR =

3. SCBL=

4. SCE=
Fuente de Suma de Grados de Cuadrado F valor- p
variación cuadrados libertad medio
Tratamiento
s
Bloques

Error

Total

Suponga un a = 0.05

¿Cuál es su regla de decisión? ¿Qué concluye?


p-value ≤ a, se rechaza la Ho
Valor crítico
EXPERIMENTO FACTORIAL:
Permite obtener conclusiones simultaneas acerca de dos o más factores.

Se denomina factorial porque incluye todas las posibles combinaciones de los factores, es
decir, para a niveles de un factor A y b niveles de un factor B, el experimento incluiría una
colección de datos en el tratamiento de las combinaciones (ab).
El análisis factorial se usa con dos o más factores.

EJEMPLO:
Queremos analizar la admisión a una cierta escuela de negocios.
La universidad evalúa la habilidad de los aspirantes a cubrir un programa de grado en esa escuela. La
universidad sabe que las puntuaciones están en un rango de 200 a 800 puntos.

Con la intensión de mejorar el desempeño de los estudiantes, una escuela alterna considera ofrecer tres
programas de preparación para ese examen.

a. Repaso de tres horas para el tipo de preguntas que contiene el examen.


b. Repaso de un día del material más relevante del examen y un examen muestra.
c. Curso intensivo de 10 semanas, para identificar habilidades del estudiante y establecer un programa
individual de mejora.
Entonces…
El programa de preparación (un factor), contiene tres tratamientos.
Los principales aspirantes son estudiantes de tres licenciaturas: negocios, ingeniería, artes.

El segundo factor de interés es si la licenciatura influye en la calificación del examen.


También tiene 3 tratamientos.

Por tanto, tenemos un experimento factorial con tres tratamientos para el factor A y tres para
el factor B. tenemos un total de 9 combinaciones:
Al analizar la varianza, podremos responder las siguientes preguntas:
Sobre el factor A: ¿Los programas de preparación tienen efectos diferentes sobre la
puntuación obtenida en el GMAT?

Sobre el factor B: ¿Las licenciaturas tienen efectos diferentes sobre la puntuación obtenida en
el GMAT?

Sobre los factores A y B: ¿Es uno de los programas de preparación mejor para los estudiantes
que provienen de una de las tres licenciaturas, mientras que para los de otras licenciaturas es
mejor otro de los programas?
Tabla ANOVA: A diferencia del diseño completamente aleatorizado y del de
bloques, aquí realizamos una partición de la STC en cuatro grupos:
SCT= SCA+SCB+SCAB+SCE
1. STC =

2. SCA =

3. SCB =

4. SCAB =

5. SCE = STC – SCA – SCB - SCAB


Fuente de Suma de Grados de Cuadrado F valor- p
variación cuadrados libertad medio
Factor A

Factor B

Interacción

Error

Total

Suponga un a = 0.05

¿Cuál es su regla de decisión? ¿Qué concluye?


p-value ≤ a, se rechaza la Ho
Valor crítico
Fin

También podría gustarte