Está en la página 1de 21

ESTADISTICA INFERENCIAL

Semana 16 – Sesión 1
LOGRO DE SESIÓN

Al finalizar la clase los alumnos desarrollan los conceptos de la matriz de


varianzas - covarianzas, intervalo de confianza e intervalo de predicción a
fin de poder aplicarlo en situaciones del campo de las ciencias y la
ingeniería.
MATRIZ DE VARIANZAS - COVARIANZAS
Una matriz de varianzas - covarianzas es una matriz cuadrada que contiene
las varianzas y covarianzas asociadas con diferentes variables.

Los elementos de la diagonal principal de la matriz contienen las varianzas


de las variables, mientras que los elementos que se encuentran fuera de la
diagonal principal contienen las covarianzas entre todos los pares posibles
de variables.
MATRIZ DE VARIANZAS - COVARIANZAS
La matriz de varianzas – covarianzas viene definida de la siguiente manera:

𝜎𝑌2 𝑆𝑌𝑋1 … 𝑆𝑌𝑋𝑚


𝑆 𝜎𝑋21 … ⋮
𝑉𝐶 = 𝑋1 𝑌
⋮ ⋮ ⋱ ⋮
2
𝑆𝑋𝑛 𝑌 … … 𝜎𝑋𝑚
Donde:

𝜎𝑌2 : 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑠𝑢 𝑚𝑒𝑑𝑖𝑎


𝑆𝑌𝑋𝑛 : 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑋𝑛
MATRIZ DE VARIANZAS - COVARIANZAS

Para obtener los valores de la matriz de varianzas – covarianzas se realizan los


siguientes cálculos:
𝑁
σ 𝑖=1 𝑌𝑖 ²
2
𝜎𝑌 = − 𝑌ത 2
𝑛

σ𝑁
𝑖=1 𝑌𝑖 𝑋1𝑖
𝑆𝑌𝑋1 = − 𝑌ത 𝑋ത1𝑖
𝑛

De la misma manera para cada variable que se tenga del modelo de regresión
lineal múltiple.
MATRIZ DE VARIANZAS - COVARIANZAS
Ejemplo
El gerente de una empresa estudia las posibles relaciones entre beneficios anuales,
gastos en publicidad anuales y horas extras anuales de los empleados. Para ello utiliza
datos de estas tres variables, proporcionadas por algunas empresas del sector:

Beneficios Gastos Publicidad Horas extras


(millones) (millones) (100 horas)
1.3 0.3 4
3.5 1.5 9
2.8 0.7 6
3 1.1 7.5
3.3 1.2 8
4 2 7
3.7 2 8

Se desea hallar la matriz de varianzas-covarianzas


MATRIZ DE VARIANZAS - COVARIANZAS
Solución:
Beneficios Gastos Publicidad Horas extras
Y^2 X1^2 X2^2 YX1 YX2 X1X2
(millones) (millones) (100 horas)
1.3 0.3 4 1.69 0.09 16 0.39 5.2 1.2
3.5 1.5 9 12.25 2.25 81 5.25 31.5 13.5
2.8 0.7 6 7.84 0.49 36 1.96 16.8 4.2
3 1.1 7.5 9 1.21 56.25 3.3 22.5 8.25
3.3 1.2 8 10.89 1.44 64 3.96 26.4 9.6
4 2 7 16 4 49 8 28 14
3.7 2 8 13.69 4 64 7.4 29.6 16

෍ 𝑌 = 21.6 ෍ 𝑋1 = 8.8 ෍ 𝑋2 = 49.5 ෍ 𝑋1 𝑌 = 30.26 ෍ 𝑋2 𝑌 = 160 ෍ 𝑋1 𝑋2 = 66.7

෍ 𝑌 2 = 71.36 ෍ 𝑋12 = 13.48 ෍ 𝑋22 = 366.25 𝑌ത = 3.0857 𝑋ത1 = 1.2571 𝑋ത2 = 7.0714
MATRIZ DE VARIANZAS - COVARIANZAS
Realizamos los cálculos necesarios:

En consecuencia, la matriz de varianzas – covarianzas es:


INTERVALO DE CONFIANZA
Como en la regresión lineal simple, en la regresión múltiple es posible
interpretar el valor ŷ de dos formas, ŷ puede interpretarse como la estimación
de la media de la subpoblación de los valores de Y que se supone existen
para combinaciones particulares de valores Xi.

La segunda interpretación indica que ŷ es el valor que más probablemente


asumirá y para los valores dados de las Xi.
INTERVALO DE CONFIANZA
Intervalo de confianza para la respuesta media:
De acuerdo con esta interpretación, ŷ es una estimación, y cuando se utiliza para este
propósito, a la ecuación se le llama ecuación de estimación.
Cuando ŷ se interpreta como, una estimación de la media de la población, al intervalo
se le llama intervalo de confianza.

Donde:
• La distribución t con 𝑛 – 𝑘– 1 grados de libertad ( 𝑘 : número de variables
independientes)
• 𝑥𝑜 es el vector que contiene los valores de las variables independientes para los
cuales se desea hacer el pronóstico.
• CME se obtiene de:
INTERVALO DE CONFIANZA
Intervalo de predicción para 𝒀𝒐
En este caso, ŷ es el valor pronosticado o valor de predicción de y, y a la ecuación
se le llama ecuación de predicción.
Cuando ŷ se interpreta como un valor de predicción de y, al intervalo se le llama
intervalo de predicción.

Donde:
La distribución t con 𝑛 – 𝑘– 1 grados de libertad y CME se obtiene de:
Foro semanal
Ejercicio: Se llevó a cabo un estudio sobre un tipo de conexión para conocer la
relación entre la cantidad de desgaste (y), la viscosidad del aceite (x1) y la carga (x2).
Se obtuvieron los datos siguientes. (Tomado de Response Surface Methodology,
Myers, Montgomery y Anderson-Cook, 2009).
Y X1 X2
193 1.6 851
172 22 1058
113 33 1357
230 15.5 816
91 43 1201
125 40 1115

Halle la matriz de varianzas – covarianzas añadiendo las columnas necesarias e


indicando las respectivas sumatorias.
INTERVALO DE CONFIANZA
Ejercicio
El gerente de una empresa estudia las posibles relaciones entre beneficios anuales, gastos en
publicidad anuales y horas extraordinarias anuales de los empleados. Para ello utiliza datos, de
estas tres variables, proporcionadas por algunas empresas del sector. Se desea saber:
Beneficios Gastos Publicidad Horas extras
(millones) (millones) (100 horas)
1.3 0.3 4
3.5 1.5 9
2.8 0.7 6
3 1.1 7.5
3.3 1.2 8
4 2 7
3.7 2 8

a) Halle el intervalo de confianza al 5% de significación para la estimación de los beneficios si


se tiene un gasto en publicidad de 1 y 5 horas extras.
b) Halle el intervalo de predicción al 5% de significación para la estimación de los beneficios si
se tiene un gasto en publicidad de 1 y 5 horas extras.
INTERVALO DE CONFIANZA
Solución:
Beneficios Gastos Publicidad Horas extras
Y^2 X1^2 X2^2 YX1 YX2 X1X2
(millones) (millones) (100 horas)
1.3 0.3 4 1.69 0.09 16 0.39 5.2 1.2
3.5 1.5 9 12.25 2.25 81 5.25 31.5 13.5
2.8 0.7 6 7.84 0.49 36 1.96 16.8 4.2
3 1.1 7.5 9 1.21 56.25 3.3 22.5 8.25
3.3 1.2 8 10.89 1.44 64 3.96 26.4 9.6
4 2 7 16 4 49 8 28 14
3.7 2 8 13.69 4 64 7.4 29.6 16

෍ 𝑌 = 21.6 ෍ 𝑋1 = 8.8 ෍ 𝑋2 = 49.5 ෍ 𝑋1 𝑌 = 30.26 ෍ 𝑋2 𝑌 = 160 ෍ 𝑋1 𝑋2 = 66.7

෍ 𝑌 2 = 71.36 ෍ 𝑋12 = 13.48 ෍ 𝑋22 = 366.25 𝑌ത = 3.0857 𝑋1 = 1.2571 𝑋2 = 7.0714

𝑌෠ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 = 0.590 + 0.936𝑋1 + 0.187𝑋2


INTERVALO DE CONFIANZA
Solución a):
𝑌෠ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 = 0.590 + 0.936𝑋1 + 0.187𝑋2

Reemplazando los valores 𝑋1 = 1 y 𝑋2 = 5 en la ecuación estimada:


𝑌෠ = 0.590 + 0.936 1 + 0.187 5 = 2.461
Para el intervalo de confianza:

1 3.632 0.585 −0.598


𝑥𝑜 = 1 Siempre anteponer el valor
(𝑋 ′ 𝑋)−1 = 0.585 0.845 −0.233
1 en la matriz
5 −0.598 −0.233 0.126
INTERVALO DE CONFIANZA
Solución:
Reemplazando los valores 𝑋1 = 1 y 𝑋2 = 5 en la ecuación estimada:

𝑌෠ = 0.590 + 0.936 1 + 0.187 5 = 2.461

Para el intervalo de confianza necesitamos los siguientes valores:

𝑦 ′ 𝑦 = 451.09 𝛽′ = 0.590 0.936 0.187 𝛽 ′ 𝑋 ′ 𝑦 = 70.987

451.09 − 70.987
= = 4.874
7−2−1
INTERVALO DE CONFIANZA
Solución:
El intervalo de confianza será:

t(1-α/2)= 2.776

3.632 0.585 −0.598 1


𝐼𝐶 𝜇𝑦Τ𝑥𝑜 = 2.461 ± 2.776 4.874 ∗ 1 1 5 0.585 0.845 −0.233 1
−0.598 −0.233 0.126 5

𝐿𝐼𝐶 = 2.461 − 2.776 4.874 ∗ 0.487 = −1.816


𝐿𝑆𝐶 = 2.461 + 2.776 4.874 ∗ 0.487 = 6.738
INTERVALO DE PREDICCIÓN
Solución b):
𝑌෠ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 = 0.590 + 0.936𝑋1 + 0.187𝑋2

Reemplazando los valores 𝑋1 = 1 y 𝑋2 = 5 en la ecuación estimada:


𝑌෠ = 0.590 + 0.936 1 + 0.187 5 = 2.461
Para el intervalo de predicción:

1 3.632 0.585 −0.598


𝑥𝑜 = 1 Siempre anteponer el valor
(𝑋 ′ 𝑋)−1 = 0.585 0.845 −0.233
1 en la matriz
5 −0.598 −0.233 0.126
INTERVALO DE PREDICCIÓN
Solución:
El intervalo de predicción será:
t(1-α/2)= 2.776

3.632 0.585 −0.598 1


𝐼𝑃 𝑦 = 2.461 ± 2.776 (4.874) ∗ 1 + 1 1 5 0.585 0.845 −0.233 1
−0.598 −0.233 0.126 5

𝐿𝐼𝑃 = 2.461 − 2.776 4.874 ∗ (1 + 0.487) = −5.012


𝐿𝑆𝑃 = 2.461 + 2.776 4.874 ∗ (1 + 0.487) = 9.934
EJERCICIO ADICIONAL
Se presentan los gastos en alimentación de una familia
en base a la información que proporcionan las variables
regresoras 'ingresos mensuales y 'número de miembros
de la familia'. Para ello se recoge una muestra aleatoria
simple de 15 familias, cuyos resultados se facilitan en la
tabla adjunta (el gasto e ingreso se expresan en cien mil
euros).
Obtener la matriz de varianzas - covarianzas
CIERRE
¿QUÉ HEMOS APRENDIDO?

1. ¿Para que se utiliza la matriz de


Varianzas-Covarianzas?

2. ¿Por qué será importante calcular


los intervalos de confianza para la
respuesta media e intervalo de
predicción de Yo?

También podría gustarte