Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Asignatura
ECONOMETRÍA I
Sesión 6
Mg. José Luis Rojas López
Temario:
Distribución F
Distribución ANOVA
Logro de la Sesión
• Citrus Calen es un nuevo limpiador multiusos a prueba en el mercado, del cual se han
colocado exhibidores en tres lugares distintos dentro de varios supermercados. A
continuación se reporta la cantidad de botellas de 12 onzas que se vendieron en cada
lugar del supermercado. A un nivel de significancia de 0.05, ¿hay alguna diferencia
entre los promedios de botellas que se vendieron en los tres lugares?
a) Formule las hipótesis nula y alternativa.
b) ¿Cuál es la regla de decisión?
c) Calcule los valores de SS total, SST y SSE.
d) Elabore una tabla ANOVA.
e) ¿Cuál es su decisión respecto de la hipótesis nula?
Cerca de otros
Cerca del pan Cerca de la cerveza
limpiadores
18 12 26
14 18 28
19 10 30
17 16 32
5.- Tratamiento e inferencia sobre pares de medias.
• Esto permite concluir que no todas las medias de tratamiento son iguales. Algunas veces
esta conclusión sería satisfactoria, pero otras se desea conocer cuáles medias de
tratamiento difieren.
1 1
𝑋ത1 − 𝑋ത2 ± 𝑡 𝑀𝑆𝐸 +
𝑛1 𝑛2
donde:
𝑋ത1 = Es la media de la primera muestra.
𝑋ത2 = Es la media de la segunda muestra.
t = Se obtiene del apéndice B.2. Los grados de libertad son iguales a n – k.
MSE es el error medio cuadrático que se obtuvo de la tabla ANOVA [SSE/(n – k)].
𝑛1 = Es el número de observaciones en la primera muestra.
𝑛2 = Es el número de observaciones en la segunda muestra.
• Use el ejemplo anterior sobre las aerolíneas para calcular el intervalo de confianza de la
diferencia entre las calificaciones medias de los pasajeros de las aerolíneas Northern y
Branson. Con un nivel de confianza de 95%,
1 1
87.25 − 69.00 ± 2.101 33.0 + = 18.25 ± 7.79 = 10.46 𝑦 26.04
4 6
• Los siguientes datos son las colegiaturas por semestre (en miles de dólares) de una muestra de
universidades privadas en varias regiones de Estados Unidos. A un nivel de significancia de 0.05,
¿se puede concluir que hay una diferencia entre las colegiaturas medias de las diversas
regiones?
a) Formule las hipótesis nula y alternativa.
b) ¿Cuál es la regla de decisión?
c) Elabore una tabla ANOVA. ¿Cuál es el valor del estadístico de prueba?
d) ¿Cuál es su decisión respecto de la hipótesis nula?
e) ¿Puede existir una diferencia significativa entre la colegiatura media en el noreste en
comparación
con la del oeste? Si la hay, desarrolle el intervalo de confianza de 95% de esa diferencia.
10 8 7
11 9 8
12 10 6
10 8 7
12 6
6.- Análisis de la varianza de dos vías.
• El beneficio al considerar otros factores es que se reduce la varianza del error. Es decir, si se
reduce el denominador del estadístico F (al reducir la varianza del error o, de manera más
directa, el término SSE), el valor de F será mayor, lo que ocasionará el rechazo de la hipótesis
del tratamiento de medias iguales. En otras palabras, si se puede explicar más la variación,
habrá menos “error”.
Caso. Ejemplo.
1 Dante 18 17 21 22
2 Zubia 16 23 23 22
3 Carlos 21 21 26 22
4 Salas 23 22 29 25
5 Fidel 25 24 28 28
Paso 1:
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1 : No todas las calificaciones son iguales
Paso 2: Seleccione el nivel de significancia. 𝛼 = 0.5
Paso 3: Determine el estadístico de prueba. El estadístico de prueba es la distribución F
• Paso 5: Seleccione la muestra, realice los cálculos y tome una decisión. Es conveniente
resumir los cálculos del estadístico F en una tabla ANOVA
Donde:
K = Es el número de tratamientos.
B = Es el número de bloqueos.
𝑋ത𝑏 = Es la media muestral del bloque b.
𝑋ത𝐺 = Es la media global o total.
• Para desarrollar este ejercicio vamos a ir paso a paso trabajar con Excel.
ANOVA DE DOS VIAS
Tiempo de recorrido de Miraflores a Lima (minutos)
Conductor Carretera 6 West Endo Hockey Ruta 59 TOTAL
1 Dante 18 17 21 22
456 2 Zubia 16 23 23 22
𝑋ത𝐺 = = 22.8
20 3 Carlos 21 21 26 22
4 Salas 23 22 29 25
5 Fidel 25 24 28 28
Total de la
columna 103 107 127 119 456
n 5 5 5 5 20
Media 20.6 21.4 25.4 23.8 91.2
SST 72.8
TABLA ANOVA
Total 229.20 19
Caso. Resolver el Aula.
• Riddick Shampoo vende tres tipos de champús: para cabello seco, normal y graso. En la
tabla siguiente se presentan las ventas, en millones de dólares, de los últimos cinco meses.
Con un nivel de significancia de 0.05, compruebe si las ventas medias difieren entre los tres
tipos de champús o según el mes.
VENTAS (MILLONES DE SOLES)
1 Junio 7 9 12
2 Julio 11 12 14
3 Agosto 13 11 8
4 Setiembre 8 9 7
5 Octubre 9 10 13
7.- ANOVA de dos vías con interacción.
• Los resultados muestrales indicaron distintos tiempos medios según las rutas. Quizás esto tan
sólo se relacione con diferencias entre la distancia por las rutas. Los resultados también
indicaron diferencias entre los tiempos de conducción medios de los diversos conductores.
• Tal vez esta diferencia se explique al diferenciar las velocidades promedio de los conductores,
sin importar la ruta. Existe otro efecto que influye en el tiempo de recorrido. A éste se le
denomina efecto de interacción entre la ruta y el conductor sobre el tiempo de recorrido.
• INTERACCIÓN El efecto de un factor sobre una variable de respuesta difiere según el valor
de otro factor.
• Prueba de hipótesis para detectar interacción.
• El siguiente paso es realizar pruebas estadísticas para investigar aún más los efectos de
interacciones posibles.
• ¿Hay alguna interacción entre rutas y conductores?
• ¿Los tiempos de recorrido de los conductores son iguales?
• ¿Los tiempos de recorrido de las rutas son iguales?
Caso. Ejemplo.
TAMAÑO
CHICO MEDIANO GRANDE
23 20 11
PESADO 21 32 20
354
25 26 20 𝑋ത𝐺 = = 19.6667
18
PESO
13 20 11
LIGERO 32 17 23
17 15 8
Suma 131 130 93 354
Numero 6 6 6 18
Media 21.8333 21.6667 15.5000
TAMAÑO
TAMAÑO
CHICO MEDIANO GRANDE
23 1.3611 20 2.7778 11 20.2500
PESADO 21 0.6944 32 106.7778 20 20.2500
25 10.0278 26 18.7778 20 20.2500
𝑋 − 𝑋ത𝑁 2
PESO
13 78.0278 20 2.7778 11 20.2500
LIGERO 32 103.3611 17 21.7778 23 56.2500
17 23.3611 15 44.4444 8 56.2500
Suma 131 216.8333 130 197.3333 93 193.5000 607.6667 SSE
Numero 6 6 6
Media 21.8333 21.6667 15.5000
SST 156.3333
TAMAÑO
373.3333
PESADO LIGERO TOTAL
PEQUEÑO 23 21 25 23.0000 13 32 17 20.6667 21.8333
TAMAÑO MEDIANO 20 32 26 26.0000 20 17 15 17.3333 21.6667
GRANDE 11 20 20 17.0000 11 23 8 14.0000 15.5000
22.0000 17.3333 19.6667 MEDIA GLOBAL
19.6667
Total 764.0000 17
Caso. Resolver el Aula.
• La American Accor Asociación realizó un estudio para comparar los salarios semanales de
hombres y mujeres empleados en el sector público o privado en contabilidad.
A un nivel de significancia de 0.05:
a) Trace una gráfica de interacción de las medias de los hombres y las mujeres según el sector.
b) Pruebe el efecto de interacción del género y el sector en los salarios.
c) Con base en los resultados del inciso b), realice las pruebas de hipótesis adecuadas para
detectar las diferencias entre las medias de los factores. SECTOR
d) Interprete los resultados en un reporte breve. GENERO PUBLICO PRIVADO
978 1335
1035 1167
HOMBRES 964 1236
996 1317
1117 1192
863 1079
975 1160
MUJERES 999 1063
1019 1110
1037 1093
1.- ¿Qué es el análisis de correlación?
• Cuando se estudia la relación entre dos variables en escala de intervalo (o de razón), es usual
comenzar con un diagrama de dispersión. Este procedimiento proporciona una representación
visual de la relación entre las variables.
Tom Kely 20 30
Jefry Hall 40 60
Brian Viro 20 40
Gregorio Fins 30 60
Susan Welch 10 30
Carlos Ramirez 10 40
Rich Nilo 20 40
Mike Kien 20 50
Marck Reynolds 20 30
Soni Jones 30 70
• Al revisar los datos se observa que parece haber una relación entre el número de llamadas de
ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron más
llamadas de venta vendieron más unidades. Sin embargo, la relación no es “perfecta” o
exacta. Este grupo de técnicas estadísticas se denomina análisis de correlación.
• ANÁLISIS DE CORRELACIÓN Grupo de técnicas para medir la asociación entre dos variables.
• La idea básica del análisis de correlación es reportar la asociación entre dos variables. Por lo
general, el primer paso es trazar los datos en un diagrama de dispersión.
80 Analisis de Regresion
70
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45
2.- Coeficiente de correlación.
• El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza
de la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa
con la letra r, y con frecuencia se le conoce como r de Pearson y coeficiente de correlación
producto-momento. Puede adoptar cualquier valor de -1.00 a +1.00, inclusive. Un coeficiente
de correlación de -1.00 o bien de +1.00 indica una correlación perfecta
• COEFICIENTE DE CORRELACIÓN.- Medida de la fuerza de la relación lineal entre dos
variables.
CARACTERÍSTICAS DEL COEFICIENTE DE CORRELACIÓN
1. El coeficiente de correlación de la muestra se identifica con la letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de
intervalo o en escala de razón.
3. Varía de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables..
FORMULA:
σ 𝑋 − 𝑋ത 𝑌 − 𝑌ത
𝑟=
𝑛 − 1 𝑆𝑋 𝑆𝑌 𝑋 − 𝑋ത 2 𝑌 − 𝑌ത 2
𝑆= 𝑆=
𝑛 −1 𝑛 −1
Representante de Número de llamadas de Número de copiadoras
ventas ventas X vendidas Y 𝑋 − 𝑋ത 𝑌 − 𝑌ത 𝑋 − 𝑋ത 𝑌 − 𝑌ത 𝑋 − 𝑋ത 2 𝑌 − 𝑌ത 2
• Hébert Fornitura es un negocio familiar que vende a clientes minoristas en el área de Chicago
desde hace muchos años. Tanto en radio como en televisión e internet, la compañía destaca
sus precios bajos y fáciles términos de crédito. El propietario desea analizar la relación entre las
ventas y la suma de dinero que gastó en publicidad. A continuación se presenta la información
de las ventas y de los gastos publicitarios durante los últimos cuatro meses.
a) El propietario desea pronosticar las ventas con base en los gastos publicitarios. ¿Cuál es la
variable dependiente? ¿Cuál es la variable independiente?
b) Trace un diagrama de dispersión.
c) Determine el coeficiente de correlación.
d) Interprete la fuerza del coeficiente de correlación.
Gastos Ingresos por
Mes
publicitarios ventas
Julio 2 7
Agosto 1 3
Setiembre 3 8
Octubre 4 10
3.- Prueba de la importancia del coeficiente de correlación.
• Recuerde que la gerente de ventas de Copiar Sales de América determinó que la correlación
entre el número de llamadas de ventas y el número de copiadoras vendidas era 0.759, lo que
indicaba una asociación fuerte entre ambas variables.
• Sin embargo, en la muestra había sólo 10 vendedores. ¿Puede ser que la correlación entre la
población sea 0? Esto significaría que la correlación de 0.759 se debió a la casualidad.