Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diapositiva de Regresiòn Lineal
Diapositiva de Regresiòn Lineal
DOCENTE:
Barranquilla – Colombia.
RELACIÒN LINEAL ENTRE DOS VARIABLES
Relación Imperfecta.
Una relación lineal imperfecta es aquella en la cual existe una
relación positiva negativa, pero no todos los puntos caen sobre
la recta.
ANALISIS DE CORRELACIÒN LINEAL SIMPLE.
Si entre dos variables cuantitativas existen una relación lineal,
el análisis de correlación lineal simple se usa para determinar la
dirección y la magnitud de dicha dirección.
r = donde:
= -
= -
= -
Tanto como no pueden ser negativas, si puede ser positiva o
negativa.
CARACTERISTICAS DEL COEFICIENTE DE
CORRELACIÒN
= = = -3,857143
= = 38,6666-(3,857143)15 = 96,523811
La ecuación de regresión está dada por:
= = 96,523811 - 3,857143
Si el numero de cajas registradora es igual a cero, se espera que el
tiempo para que atiendan un cliente es de 96,52 minutos.
Si se aumenta el numero de cajas en una unidad se espera que el
tiempo de espera del cliente disminuya 3,87 minuto.
ANÀLISIS DE VARIANZA PARA LA REGRESIÒN LINEAL
Se utiliza el método de mínimos cuadrados.
Suma de cuadrado total SCT = = - = 10030 - = 1059,33
Suma de cuadrado del error SCE= - - =10030-96,523811(232)-(-3,857143)3210= 17,90
Suma de cuadrado de Regresión SCR = SCT – SCE = 1059,33 - 17,90 = 1041,43
= 15 = 96,523811
= 90 = -3,857143
=1420
= 3210
= 232
= 10030
= 38,667
GRADOS DE LIBERTAD
F = = = 232,5
PRUEBA DE HIPÒTESIS
= El modelo no es significativo
=El modelo es significativo
Si F ≥ se rechaza la hipótesis nula; donde, = 1 y =4
Para 95% de confiabilidad = 0,025
Tabla de Fisher = 7,71 ; como F ≥ ; se rechaza la hipótesis nula. Entonces el
modelo es significativo.
TABLA DE ANÀLISIS DE VARIANZA
- ≤ β≤ +
Para el intersecto: - ≤ β ≤ +
REGRESION LINEAL MULTIPLE
DOCENTE:
Kennedy Hurtado Ibarra
Matemática
Especialista en Estadística Aplicada
Magister en Estadística Aplicada
Doctor en Ciencias de la Educación
Introducción.
Regresión múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnósticos.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
En un modelo de regresión múltiple, queremos conocer el valor
de una variable respuesta a partir de más de una variable
explicativa:
Pequeños inconvenientes:
La visualización de los gráficos es un poco más
complicada.
Necesitamos redefinir el coeficiente
REGRESION MULTIPLE CORREGIDO
El coeficiente tiene el inconveniente de que se incrementa
al aumentar el número de variables en el modelo (ya sean
significativas o no). Para paliar este efecto, corregimos el
coeficiente para que tenga en cuenta este efecto, por lo
que en regresión múltiple se utiliza el coeficiente corregido
( o ajustado).
Ejemplo:
Supongamos que obtenemos los siguientes datos en el estudio
de la relación citada sobre la inteligencia y la motivación como
predictores de la calificación final obtenida en el bachillerato en
una muestra de 12 sujetos:
Sujeto CalificacionesMotivacion Notas
1 85 10 4
2 100 20 5
3 95 35 8
4 80 30 7
5 180 45 10
6 90 25 6
7 110 10 6
8 120 15 7
9 80 10 4
10 95 15 4
11 160 15 6
12 150 45 9
Variable dependiente: Notas
Variables independientes:
• Inteligencia
• Motivación
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 1,73747 0,884817 1,96365 0,0812
Inteligencia 0,0187631 0,00871416 2,15318 0,0597
Motivacion 0,108778 0,0224429 4,84688 0,0009
R-cuadrada = 84,9337 porciento
R-cuadrado (ajustado para g.l.) = 81,5856 porciento
Error estándar del est. = 0,845137
Error absoluto medio = 0,610172
Estadístico Durbin-Watson = 1,31244 (P=0,0743)
Autocorrelación de residuos en retraso 1 = 0,314513
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una
relación estadísticamente significativa entre las variables con un nivel de
confianza del 95,0%.
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio
Razón-F Valor-P
Modelo 36,2384 2 18,1192 25,37 0,0002
Residuo 6,4283 9 0,714256
El estadístico R-Cuadrada indica que el modelo así ajustado explica 84,9337% de la
variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más apropiada
para comparar modelos con diferente número de variables independientes, es
81,5856%. El error estándar del estimado muestra que la desviación estándar de los
residuos es 0,845137. Este valor puede usarse para construir límites para nuevas
observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 0,610172 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay
alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una
autocorrelación serial en los residuos con un nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo
Nuevo Modelo
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 3,29477 0,595206 5,53552 0,0002
Motivacion 0,132592 0,0228041 5,81437 0,0002
Fuente Suma de Cuadrados
Gl Cuadrado Medio
Razón-F Valor-P
Modelo 32,927 1 32,927 33,81 0,0002
Residuo 9,73971 10 0,973971
Total (Corr.) 42,6667 11
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una
relación estadísticamente significativa entre las variables con un nivel
de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 77,1726%
de la variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más
apropiada para comparar modelos con diferente número de variables
independientes, es 74,8898%. El error estándar del estimado muestra que la
desviación estándar de los residuos es 0,9869. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de
Reportes del menú de texto. El error absoluto medio (MAE) de 0,769188 es el
valor promedio de los residuos.
El estadístico de Durbin-Watson (DW) examina los residuos para
determinar si hay alguna correlación significativa basada en el orden en
el que se presentan en el archivo de datos. Puesto que el valor-P es
mayor que 0,05, no hay indicación de una autocorrelación serial en los
residuos con un nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto
de las variables independientes es 0,0002, que corresponde a Motivación.
Puesto que el valor-P es menor que 0,05, ese término es estadísticamente
significativo con un nivel de confianza del 95,0%. Consecuentemente,
probablemente no quisiera eliminar ninguna variable del modelo.
ANALISIS DE VARIANZA
Sean
Tratamientos
Observaciones Totales Promedios
(niveles)
1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1.
2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2.
. . … . . .
. . … . . .
. . … . . .
a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎. 𝑦ത𝑎.
𝑦.. 𝑦ത..
Los valores anteriores se presentan de manera recurrente así:
𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
Se considera
𝐸൫𝑦𝒊𝒋 ൯= 𝜇𝒊 . ; ó 𝐸൫𝜀𝒊𝒋 ൯= 0
Modelo de los efectos
𝑦𝒊𝒋 = 𝜇 + 𝜏𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
Requisito: que el experimento se lleve a cabo en orden aleatorio para que el ambiente en
el que se apliquen los tratamientos sea lo más uniforme posible.
Objetivos: Probar las hipótesis apropiadas acerca de las medias de los tratamientos y
estimarlas.
Supuestos:
𝜀𝒊𝒋 ~𝑵ሺ0, σ2 ሻ, es decir𝑦𝒊𝒋 ~𝑵ሺμ + τi , σ2 ሻ
yij son independientes.
Es frecuente encontrar en la literatura la denominación siguiente para las
expresiones utilizadas:
𝑎 2
σ 𝑖=1 ൫𝑦𝑖𝑗 − 𝑦ത𝑖 ൯
𝑆𝑖2 = , 𝑖 = 1, … , 𝑎
𝑛−1
Teorema 3
Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad, es decir,
𝒚𝒊𝒋 ~ 𝑵ሺ0, σ2 ሻ
𝑛
1
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 2
𝑛 ሺ𝑦
ത ത. . ሻ2 ~
𝑖 . −𝑦 𝜒𝑛2−1
𝜎
𝑗 =1
𝑎 𝑛
1 2
൫𝑦𝑖𝑗 − 𝑦
ത𝑖. ൯ ~ 𝜒𝑎2(𝑛 −1)
𝜎2
𝑖=1 𝑗 =1
OJO. También:
𝑎 𝑛
2
𝑦2. .
𝑆𝑆𝑇 = 𝑦𝑖𝑗 −
𝑁
𝑖 =1 𝑗 =1
𝑛
1 2
𝑦2. .
𝑆𝑆𝑇𝑟𝑎𝑡 = 𝑦𝑖 .−
𝑛 𝑁
𝑗 =1
Ejemplo :
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Probar:൞
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
Tabla N° 5. Secuencia aleatoria de corridas obtenida
Peso porcentual del
Secuencia de prueba Número de corrida (cod)
algodón
1 8 20
2 18 30
3 10 20
4 23 35
5 17 30
6 5 15
7 14 25
8 6 20
9 15 25
10 20 30
11 9 20
12 4 15
13 12 25
14 7 20
15 1 15
16 24 35
17 21 35
18 11 25
19 2 15
20 13 25
21 22 35
22 16 30
23 25 35
24 19 30
25 3 15
Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados como
sigue:
5 5
2 𝑦..2
𝑆𝑆𝑇 = 𝑦𝑖𝑗 −
𝑖 =1 𝑗 =1 𝑁
2
(376)
= ሺ7ሻ2 + ሺ7ሻ2 + ሺ15ሻ2 + ⋯ + ሺ15ሻ2 + ሺ11ሻ2 − = 636.96
25
1 𝑦..2
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = 𝑦𝑖2 −
𝑛 𝑁
𝑖 =1
2
1 ሺ376 ሻ
= [ሺ49ሻ2 + ⋯ + ሺ54ሻ2 ] − = 475.76
5 25
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
Peso
porcentual del 475.76 4 118.94. 14.76 <0.01
algodón
Error 161.20 20 8.06
Total 636.96 24
Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces
mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que
las medias de los tratamientos sean iguales. En términos formales se puede
118 .94
calcular el cociente entre 𝐹, 𝐹0 = 8.06
= 14.76 y comparar este valor con un punto
porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el
investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que
𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las
medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta
de manera significativa la resistencia a la tensión media.