Está en la página 1de 109

Departamento de Estadística e

Investigación Operativa Aplicadas


y Calidad
UD 5
Introducción a la
Inferencia Estadística
5-4 Modelos de Regresión

www.upv.es
¿Por dónde vamos?
muestreo

Muestra
Distribuciones
UD4 Estadística descriptiva
Población  gráficos
 parámetros
UD3  tablas UD2
Probabilidad
Conclusiones válidas con
razonable seguridad

UD5
Inferencia estadística

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Modelos de Regresión


¿Por dónde vamos?

5.1 Distribuciones en el muestreo

5.2 Inferencia básica en poblaciones normales

5.3 Introducción al Análisis de la Varianza

2.2. Estadística Descriptiva Bidimensional - 2

5.4. Introducción a la Regresión Lineal

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Modelos de Regresión


Contenido UD5 – 4 Modelos de Regresión
1. Introducción
2. Planteamiento del modelo
3. Estimación del modelo
4. Significación global del ajuste: ANOVA
5. Significación del efecto de una variable Xi: Test t
6. Predicciones en modelos de regresión
7. Validación del modelo: análisis de residuos
8. [Consideraciones de relaciones no lineales]
9. Análisis mediante el Statgraphics [Prácticas]
10. Ejercicios resueltos
11. Al terminar la UD5-4 debéis ser capaces de…
12. Glosario y enlaces de interés

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Modelos de Regresión


Introducción

 Los Modelos de Regresión Lineal permiten


analizar la posible relación existente entre la pauta
de variabilidad de una variable aleatoria y los
valores de una o más variables (aleatorias o no) de
las que la primera depende, o puede depender.
 El ANOVA es un caso particular de los Modelos de
Regresión (MR) Lineal.
 Exigen cálculos mucho más laboriosos que los implicados
en los ANOVA 
 El recurso a un software estadístico es prácticamente
indispensable.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Introducción
 Ejemplo: efecto de la temperatura diaria en el
consumo de energía de una factoría automovilística.
Variable Variables explicativas
- Temperatura
Dependiente (independientes)
- Producción de
Y X1 ....... Xi ....... XI vehículos
- Humedad ...
y1 X11 ....... Xi1 ....... XI1

... .............................. observaciones


de Temp., Prod.,
yj X1j ....... Xij ....... XIj Humedad, ... en
los días en los
... ..............................
que el Consumo
yj X1J ....... XiJ ....... XIJ fue de y1ºC

Consumo diario de energía en J días invernales

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Introducción
 Los MR son indispensables cuando:
 No es posible fijar previamente los valores a adoptar
por las variables explicativas en un determinado
estudio, como sucede si éstas son de tipo aleatorio
 Ejemplo: efecto de la temperatura diaria en el
consumo de energía de una instalación.

 Se analiza información histórica que no fue obtenida


a partir de un diseño experimental
 Ejemplo: datos procedentes del control estadístico
de cierto proceso recopilados el último año, o los
datos resultantes de una determinada encuesta.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Qué sabemos…
 Con los Diagramas de Dispersión podemos avanzar hipótesis
con respecto a la posible relación entre las variables, e incluso
con respecto a la naturaleza de la misma (si es negativa,
positiva, si parece lineal o cuadrática,…)
 Con el Coeficiente de correlación (r) podemos cuantificar la
relación lineal.
500

400 Parece que existe una


CONSUMO

300 relación lineal negativa


200 rT,C = -0,9695  Relación
100 lineal inversa y estrecha
0
-3 1 5 9 13 17 21
TEMPER
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Lo que podemos conocer también…
500
CONSUMO 400 ¿ Y = a + bX ?
300

200

100

0
-3 1 5 9 13 17 21
TEMPER
Si hay alguna evidencia de que la relación sea posible, no
basta con calcular r o un diagrama. En la práctica se
puede ir más allá  los modelos de Regresión.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Objetivo de un estudio de Regresión
Encontrar una función matemática que permita predecir
(con el mínimo error posible) el valor de una de las v.a. a
partir de los valores observado de las otras

 Estudiar las posibles relaciones existentes entre la


distribución de Yj y los valores de las Xij.
 A la Y se le denomina variable dependiente, explicada,
endógena, criterio o respuesta
 mientras que a las Xi se les llama variables
independientes, explicativas, exógenas o regresores.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Modelos de análisis de regresión

Modelos de
1 variable explicativa regresión 2+ variables explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal

UD 5-4

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


¿Con qué recta me quedo?
500

400
¿ Y = a + bX ?
CONSUMO

300

200

100

0
-3 1 5 9 13 17 21
¿Con cuál me quedo?
TEMPER ¡Hay infinitas rectas
que pasarían por la
nube de puntos!

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


¿Con qué recta me quedo?
Una recta
X = 10,93 Cº
500
450
400
CONSUMO

350 ej
300
250 Y = 247,61T
200
150
100
50
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

TEMPER
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
¿Con qué recta me quedo?
Otra recta
500
450
400
CONSUMO

350 ej
300
250
200
150
Recta que tenga un
100 promedio menor de
50 todos los “errores” ej
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

TEMPER
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: temperatura vs consumo

Valor de
consumo 500
realmente
observado 450
y = 390,32 T400
j
(xj,yj)

yˆ ≈ 340 T 350 yˆ = a + bxi T ei

Valor de 300
consumo
que
predice la 250
recta
200
xj = 6,46 ºC
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Estimación del modelo
 Los valores a y b que estiman β0 y β1 y definen la recta
serán aquellos que minimicen, en promedio, los “errores” ej:
ej se denominan residuos  ej =yj – (a + b xj)

ei

a b
 De dónde se obtienen las estimaciones1 a y b:

1 Estimación por mínimos cuadrados


DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Estimación del modelo
E(CONSUMO/TEMPER) = a + bxCONSUMO =
= 2,17 + 0,347xCONSUMO
500

400
CONSUMO

300

200

100

0
-3 1 5 9 13 17 21
TEMPER

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Horas de estudio vs Nota
 Se han recogido información sobre 10 alumnos:

N 1 2 3 4 5 6 7 8 9 10 X S

Horas/
4 9 10 14 4 7 12 22 1 17 10 6,46
mes
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen

1 - ¿Existe relación entre Horas de estudio y Notas?


2 – Si la hay ¿de qué tipo es?
3 – Obtener la Recta de Regresión

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Horas de estudio vs Nota
10
9
8
7
6
Nota

5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24

Horas
Parece que hay relación directa y estrecha rH,N = 0,98

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Horas de estudio vs Nota
 Los valores a y b que definen la recta son:

Recta de Regresión
NOTA = a + bxHORAS = 2,17 + 0,347xHORAS + ε

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


¿Cómo escribo el resultado?
Recta de Regresión (modelo teórico)
Y= β0 + β1 X + ε

Recta de Regresión estimada


NOTA = a + bxHORAS = 2,17 + 0,347xHORAS + ε
Y= a + bX = 2,17 + 0,347X + ε

Predicciones (medias)
E(NOTA/HORAS) = a + bHORAS = 2,17 + 0,347xHORAS
E(Y/X) = a + bX = 2,17 + 0,347 X

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Horas de estudio vs Nota
NOTA = a + bxHORAS = 2,17 + 0,347xHORAS + ε

1. ¿Cuál será la nota esperada (promedio) para un


alumno que ha estudiado 15 horas?
E(NOTA/HORAS) = 2,17 + 0,347xHORAS =
= 2,17 + 0,347x15 = 7,375

2. ¿Cuál será la nota esperada (promedio) para un


alumno que ha estudiado 4 horas?

E(NOTA/HORAS) = 2,17 + 0,347x4 = 3,558

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Interpretación de β0 (a) y β1 (b)
E(NOTA/HORAS) = a + b xHORAS = 2,17 + 0,347xHORAS

β0 (a) es la nota media esperada para un alumno que


no haya estudiado nada (0 horas)
E(NOTAS/HORAS=0) = 2,17

β1 (b) cuánto aumenta o disminuye la nota esperada si


el alumno estudia 1 hora más (efecto)

0,347 es la pendiente de la Recta de Regresión

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Calidad del ajuste
 La existencia de relación entre dos v.a. implica que el
conocimiento que podemos tener acerca de una de ellas
nos aporta algún tipo de información respecto del
resultado observado en la otra.
 La recta de regresión nos permite predecir los valores
de una v.a. a partir de los de la otra.

¿Cómo puedo
conocer la calidad
de la predicción?

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Calidad del ajuste
 A esa “calidad de la predicción” se le denomina calidad
del ajuste.
 Para valorarla hay que recordar que el objetivo de la
regresión es explicar los cambios que se dan en la v.a
dependiente:
A. Una parte de esos cambios son producidos por los
cambios de las v.a. independientes como
consecuencia de la relación entre ambas.
B. Otra parte se generan por el efecto conjunto de
todas las otras variables, incluyendo posibles
anomalías y que no se han tenido en cuenta en el
análisis.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
A. Influencia de la v.a. independiente
 La parte de los cambios producidos por los cambios de la
v.a. independiente es consecuencia de la relación entre
ambas.
 Cuanto más estrecha o fuerte sea la relación (en este
caso lineal) mayor cantidad de cambios serán provocados
por los valores que tomen las v.a. independientes.
 A más estrecha relación entre las Xi y la Y, mejor será la
calidad del ajuste y viceversa.

¿Cómo puedo saber si un grupo de


factores influyen sobre una var?
¿Cómo se cuantifica la calidad del
ajuste?

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Coeficiente de Determinación (R2)

La calidad del ajuste depende del


grado de relación entre las v.a. …
¡Yo se cómo cuantificar eso…!

Coeficiente de Determinación R2

R2 permite valorar la calidad del ajuste.


Mide el porcentaje de la variación de la v.a.
dependiente provocado por los cambios en la
v.a. independiente

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Coeficiente de Determinación (R2)
 Se calcula elevando al cuadrado el Coeficiente de
Correlación Lineal (r) y generalmente viene expresado
en %
 Se utiliza para comparar la calidad del ajuste entre
varios modelos alternativos

R2 = rxy2 x 100

Ejemplo: Horas de estudio vs Nota


R2 = rxy2 x 100 = (rH,N2) x 100 = (0,98)2 x 100 = 96,04 %

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


B. Influencia de otras variables
 La parte de los cambios producidos por los cambios de
otras variables, distinta de las independientes pueden
estar generados por:
 el efecto de todas las otras variables que pueden
influir, en mayor o menor medida, sobre la v.a.
dependiente y que no se han tenido en cuenta en la
recta de regresión
 A menudo hay v.a. que pueden influir, pero cuyo
efecto no es controlable, por tanto, no se puede incluir
en el modelo.
 El efecto de posibles anomalías.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
B. Influencia de otras variables
Ejemplo: Horas de estudio vs Nota

• nº de asignaturas matriculadas

• fatiga acumulada

• capacidad de concentración

• problemas personales, …

Residuos y
Varianza residual

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


¿Que son los Residuos?
Residuo1 de un dato es la diferencia entre el valor
realmente observado (yj) y el valor estimado (a+bXj)
por la Recta de Regresión

ε = y – (β0 + β1 x) Teórico (Población)

ej = yj – (a + bxj) Estimado (Muestra)

Residuo del dato 1  e1 = 3,1 – 3,558 = -0,458


-------------------------------------
Residuo del dato 10  e10 = 8,4 – 8,069 = 0,331

1 A los residuos de los datos de la muestra se le denominan perturbaciones aleatorias en la población.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Gráficamente
E(NOTA/H) = a + bHORAS = 2,17 + 0,347xHORAS
Nota que ha
sacado
realmente un
alumno que ha
estudiado 17 h (17, 8,4)
y j = 8, 4
e10 = Residuo10 = 0,331
8,069
ŷ = a + bx j = 2,17 + 0,347x17

Nota media que


predice la recta
para todos los xj = 17
alumnos que han
estudiado 17 h horas

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Gráficamente
Plot of RESIDUOS vs HORAS
1

0,7

0,4
RESIDUOS

0,1

-0,2

-0,5

-0,8
0 2 4 6 8 10 12 14 16 18 20 22 24
HORAS

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Interpretación
(17, 8,4)
yi = 8, 4
e10 = Residuo10
8,069
ŷ = a + bx i = 2,17 + 0,347x17

xi = 17 horas

El residuo (ej) para cada alumno recoge el efecto que sobre


la NOTA de dicho alumno han tenido todas las otras
variables que influyen sobre ésta, incluyendo posibles
anomalías y que no se han tenido en cuenta en el análisis.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Propiedades de los residuos Población
A nivel poblacional, los residuos (perturbaciones aleatorias):
 Se asume que ε ~ N(mε , σ2 ε)
 Media  mε = 0
 Varianza  σ2ε es constante desconocida
 Los residuos (εi) de cada observación son independientes
entre sí.

La Varianza residual (σ2R o σ2ε ) estima el orden de


magnitud del efecto conjunto de todos esos factores no
considerados al obtener la recta de regresión.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Distribuciones condicionales de NOTA respecto a HORAS (Y/X)

NOTA 10 E(Y/X=xt) = β0 + β1xt


7,5 m5 , σ2

m4 ,σ2
σ2Residual
5 m3 , σ2

E(Y/X=xt)
2,5
m2 , σ2

Distribución 1
m1 ,σ2

marginal del
NOTAS (Y)
1-5 6-10 11-15 16-20 21-25
HORAS (X)
Población

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Muestra
Estimación de parámetros poblacionales
Un alumno que ha estudiado 4 horas había
Residuos sacado un 3,1, pero la recta predice un 3,558
-0,457553 3,1 – 3,558 = -0,458 Media ≈ 0
0,507074  Media = -1,E-7 ≈ 0
0,86 Estimación
 Varianza = 0,247865 varianza
0,271702 residual (S2R)
0,142447
 Desviación típica= 0,49786
-0,198777  Stnd. skewness = 0,38086 Estimación
Desv. Típica
-0,334149  [-2, 2]  Simétrica residual (SR)
-0,704894  Stnd. kurtosis = -0,586536
-0,41633
 [-2, 2]  Mesocurtica Normal
0,330479

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Resumen
 Se han recogido información sobre 10 alumnos:
N 1 2 3 4 5 6 7 8 9 10 X S

Horas/me
4 9 10 14 4 7 12 22 1 17 10 6,46
s
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen

10
9 rH,N = 0,98
8
7
6 Fuerte relación
Nota

5
4 lineal y directa
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24

Horas

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Resumen
E(Y/X=xt) = β0 + β1 Xt E(Nota/Horas=h) = β0 + β1 h
σ2(Y/X=xt) = σ2 desconocida y cte.

Los valores a y b que estiman β0 y β1 son:


Recta de
E(NOTA/HORAS) = 2,17 + 0,347xHORAS Regresión

Calidad del ajuste:


Coeficiente de determinación Varianza residual
R2 = 96,04 % σ2 = 0,279

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Significación global del ajuste
¿Las variables explicativas o independientes
tienen efecto real a nivel poblacional?

¿Las variables explicativas influyen realmente


sobre la variable respuesta o ha sido casualidad?

Test de hipótesis
H0: β1 = β2 = ... = βI = 0
ANOVA
H0: ∃βi / βi ≠ 0

E(Y/X1=x1t,....,XI=xIt) = β0 + β1x1t +.... + βIxIt

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Significación global del ajuste
 La variabilidad total de la variable dependiente Y en el
conjunto de las N observaciones viene medida por
j= N

SC Total  j
2
= ( y - y )  N-1 grados de libertad
j=1

(SCT) que puede descomponerse en:


 una parte debida a TODAS las variables explicativas
en su conjunto (SCE) con I grados de libertad mas
 una parte residual recogida en los residuos ej, viniendo
medida su magnitud
j= N
por (SCR)
SC Residual=  j  [(N-1)-I] grados de libertad
e 2

j= 1

Regresión Lineal Simple  I = 1


DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación global del ajuste
SCT = SCE + SCR
 Si el valor medio de Y se obtiene a partir de las Xj mediante:
E(Y/X1=x1t,....,XI=xIt) = β0 + β1x1t +.... + βIxIt

 Se sabe que:
Si β1 =β2 =...=βI = 0 
SCExplicada
I CME
= = F -ratio ~ FI,N-1-I
SCRsidual CMR
(N-1-I)
¡Recordar! UD 5-3
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
¿Alguna de las variables explicativas influyen realmente
sobre la variable respuesta o es casualidad?
Tabla resumen del ANOVA
Origen Suma de Grados Cuadrado F
Variación Cuadrados Libertad Medio ratio
Total 47,524
Modelo 45,2932
Residual

SCT = SCE + SCR Test de hipótesis


N = nº de datos  CME
 > FI,N-1-I ó
I = Nº de variables ∃βi / βi ≠ 0  CMR
independientes  p-value < α

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Tabla resumen del ANOVA

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


ANOVA del modelo (Statgraphics)
-----------------------------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------------------------
Model SCE 45,2932 1 45,2932 162,43 0,0000
Residual SCR 2,23078 8 0,278848 CMR
------------------------------------------------------------------------------------------------------
P-Value < 0,05 
Total (Corr.) SCT 47,524 9 Lo que explican las
v.a. independientes
es significativo
α = 0,05  ∃ βi ≠ 0
Tabla F: F1,8(5%) = 5,32 F-ratio > 5,32 Rechazamos H0
F-ratio = 162,43
Lo que explica la recta es significativo a nivel poblacional.
Alguna de las variables incluidas en el modelo influye significativamente
sobre la v.a dependiente.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
ANOVA del modelo (Statgraphics)
-----------------------------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------------------------
Model SCE 45,2932 1 45,2932 162,43 0,0000
Residual SCR 2,23078 8 0,278848 CMR
------------------------------------------------------------------------------------------------------
Total (Corr.) SCT 47,524 9

Correlation Coefficient = 0,976248 = rH,N ≈ 0,98

R-squared = 95,306 percent  R = SCE


2
* 100
SCT
Standard Error of Est. = 0,52806  σˆ r = SR = S 2
R = CMR

Regresión Lineal Simple


S2R = S2y (1- r2xy) R2 = rxy2 x 100
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación global del ajuste
 Para estudiar la hipótesis alternativa de si al menos una
de las variables explicativas estudiadas tiene un efecto
real poblacional  SIN ESPECIFICAR CUÁL  se utiliza
el siguiente resultado:

 CME
 > FI,N-1-I ó
∃βi / βi ≠ 0  CMR
 p-value < α

En el caso de los modelos de Regresión Lineal Simple


 no es necesario especificar la var. explicativa
porque sólo hay una.
Regresión Lineal Simple  I = 1
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación del efecto de una variable Xi
 Dado el modelo:
E(Y/X1=x1t,....,XI=xIt) = β0 + β1x1t +.... + βIxIt

 Si la variable Xi no influye en E(Y) ⇐ βi = 0

Test de hipótesis
H0: βi = 0
H0: βi ≠ 0 Precisión de la
estimación
bi
 Se sabe que si βi = 0  ≈ t N −1− I
Sbi

Test t
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación del efecto de una variable Xi
Si se acepta la H0: ßi = 0 
No existe un efecto real poblacional de la Xi sobre E(Y),
bi
≤ t Nα −1− I ó bi no aparece en la
Sbi
ecuación final
p − value ≥ α

Si se rechaza la H0: ßi = 0  Se acepta H1: ßi ≠ 0 


Existe un efecto real poblacional de la Xi sobre E(Y),
bi
> t Nα −1− I ó
Sbi bi si aparece en la
ecuación final
p − value < α

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo: Horas de estudio vs Nota
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en el modelo?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447
b (b1) 0,347074 0,0272326

Test de hipótesis
N = nº de datos
 bi
I = Nº de variables  > tN-1-I ó
independientes
βi ≠ 0  Si
 p-value < α

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en la ecuación final de la recta?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447 6,79066 2,306
b (b1) 0,347074 0,0272326 12,7448 2,306

α = 0,05  Tabla t: t8(5%/2) = 2,306

6,79066 (t-calculada) > 2,306 Rechazamos H0: a=0

12,7448 (t-calculada) > 2,306 Rechazamos H0: b=0

Los dos parámetros de la recta son significativos a nivel poblacional.


No son diferentes de 0 por casualidad  deben aparecer en la ecuación
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Test t (Statgraphics)
Tipo de relación
Regression Analysis - Linear model: Y = a + b*X
------------------------------------------------------------------------------------------
Dependent variable: NOTA Precisión
Independent variable: HORAS estimación Sbi bi/ Sbi
------------------------------------------------------------------------------------------
Estimación
parámetros bi Standard T
Parameter Estimate Error Statistic P-Value
------------------------------------------------------------------------------------------
Intercept a 2,16926 Sa 0,319447 6,79066 0,0001
Slope b 0,347074 Sb 0,0272326 12,7448 0,0000
------------------------------------------------------------------------------------------
P-Value < 0,05 
El efecto es significativo.
a y b si aparecen en la ecuación final

E(NOTA/HORAS) = a + bxHORAS = 2,17 + 0,347xHORAS


DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Modelo final (Statgraphics)
Recta de regresión
NOTA = 2,16926 + 0,347074*HORAS
10
9
8
7
6
NOTA

5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24
HORAS

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Predicciones en los MR
Distribución
 Dado el modelo: normal
E(Y/X1,....,XI) = β0 + β1X1 +.... + βIXI

 El valor previsto de Y en la población cuando


X1 = X1t = ... = Xi = Xit puede estimarse como: Estimador
de βi
E(Y/X1=x1t,....,XI=xIt) = b0 + b1x1t +.... + bIxIt

 En el caso de los MR Lineal Simple, el modelo será


E(Y/X) = β0 + β1X
 El valor previsto de Y en la población cuando X = xt
puede estimarse como:
E(Y/X=xt) = a + bxt

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Predicciones en los MR Lineal Simple
Se sabe: a nivel poblacional: Y/X=xi ~ Normal
 Media (m)  estimación: E(Y/X=X ) = a + bxi i

↔ Predicción
 Varianza (σ2) estimación: S2R = S2y (1- r2xy)=CMR
↔ Varianza Residual

Y/X=xi ~ Normal(m = a + bxi ; σ2 = σ2R )


95% valores (≈) ∈ [E(Y/X=X ) ± 2SR]
i

99% valores (≈) ∈ [E(Y/X=X ) ± 3SR]


i

P((Y/X=xi) > y) = P(Normal((a + bxi); σ2R ) > y)


DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
 ¿Entre qué límites fluctúa, en el 95% de los casos, la
nota de un alumno que ha estudiado 15 h?
NOTA/HORAS=15h ~ Normal(m = 2,17 + 0,347x15; σR = 0,528)

95% (≈) valores de NOTAS ∈ [E(NOTA/HORAS=15) ± 2SR]

7,375 ± 2 x 0,528 =[6,319 , 8,431]

En el 95% de los casos, aproximadamente, la NOTA de


los alumnos que han estudiado 15h/mes estará entre
6,319 y 8,431
NOTAla Sresidual puede variar bastante con respecto al valor que da el Statgraphics según los decimales tomados
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
 ¿Cuál es la probabilidad de que un alumno que ha
estudiado 15 h obtenga una nota mayor o igual que 7?

(NOTA/HORAS=15h )~ Normal(m = 7,375; σR = 0,528)

P 
(NOTA
HORAS = 15
 
≥ 7 = P z ≥

7 − 7,375 
0,528   = )
P ( Z ≥ −0,71) = 1 − P ( Z ≥ 0,71) = 1 − 0,2389 = 0,7611

NOTAla Sresidual puede variar bastante con respecto al valor que da el Statgraphics según los decimales tomados
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Validación del modelo
Las técnicas de validación de modelos no son más que
diferentes tipos de análisis de residuos que permiten contestar
a preguntas del tipo:

• ¿Es admisible el que las εt (ej) se distribuyen normalmente?


• ¿Hay algún dato claramente anómalo?
• ¿Es admisible que la varianza de las ut no depende de los
valores de las variables explicativas?

• ¿Es realmente lineal la relación entre E(Y) y una Xi?


Representaciones gráficas

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Validación del modelo
1 - Un gráfico de los et en papel probabilístico normal 
permite estudiar si es admisible la hipótesis de normalidad, así
como detectar posibles observaciones anómalas.
Normal Probability Plot
99,9
99
95
percentage

80
50
20
5
1
0,1
0 2 4 6 8 10
NOTA
Los puntos forman un recta aproximadamente 
El modelo normal es admisible.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Validación del modelo
2 - Un gráfico de los et frente a los valores previstos para
cada observación  puede poner de manifiesto la existencia
de relaciones no lineales.

Residual Plot
2,6

1,6
Studentized residual

0,6

-0,4

-1,4

-2,4
2,5 4,5 6,5 8,5 10,5
predicted NOTA

No se aprecian tendencias Pueden existir tendencias


no lineales. no lineales.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicios resueltos

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen 2012

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
(10 puntos) Un informático que trabaja en una empresa dedicada al
montaje y venta de ordenadores estándar de sobremesa necesita
implementar un modelo para predecir el tiempo de entrega de los
pedidos de ordenadores nuevos. Se entiende como tiempo de entrega
el número de días discurridos entre el pedido de un ordenador nuevo y
la entrega real del mismo. El informático piensa que entre el número de
extras pedidos respecto de la configuración básica del equipo pedido y
el tiempo de entrega del mismo puede haber una relación lineal. Para
formular el modelo selecciona aleatoriamente una muestra de 16
pedidos de los que recoge la información relativa al número de extras y
el tiempo de entrega de cada uno.

Tras analizar los datos mediante un modelo de regresión lineal, obtiene


los resultados que se presentan a continuación:

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: tiempo
Independent variable: n. de extras
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept _______ 1,59084 13,7823 0,0000
Slope 2,06871 0,116411 17,7707 ______
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 2927,23 1 2927,23 315,80 0,0000
Residual 129,77 14 9,26932
-----------------------------------------------------------------------------
Total (Corr.) 3057,0 15
Correlation Coefficient = 0,978545
R-squared = ________ percent
Standard Error of Est. = _________

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
a) Plantea y estima el modelo de regresión del tiempo de entrega en función del
número de extras, indicando qué parámetros son significativos y por qué.
Utiliza α=5%. (3 puntos)

b) ¿Es el modelo planteado significativo globalmente?. Utiliza un Riesgo de 1ª


especie α de 0,01. (2 puntos)

c) ¿Qué porcentaje de la variabilidad del tiempo de entrega viene explicada


por el número de extras? Indica el parámetro que cuantifica dicho porcentaje.
(2 puntos)

d) Si se recibe un pedido de un equipo con 16 extras, ¿cuántos días, en


promedio, predice el modelo para la entrega? (1 puntos)

e) ¿Entre que valores aproximadamente estará el tiempo de entrega, en


promedio, en el 95% de los pedidos en los que se solicitan 16 extras? (2
puntos)

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
Regression Analysis - Linear model: Y = a + b*X
a) -----------------------------------------------------------------------------
Dependent variable: tiempo
Independent variable: n. de extras
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept (1) _______ 1,59084 13,7823 0,0000 (3)
Slope (2) 2,06871 0,116411 17,7707 (4) ______
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 2927,23 1 2927,23 315,80 0,0000
Residual 129,77 14 9,26932 (6)
-----------------------------------------------------------------------------
Total (Corr.) 3057,0 15
Correlation Coefficient = 0,978545 (5)
R-squared = ________ percent
Standard Error of Est. = _________

Variable dependiente Y = tiempo de entrega (TE)


Variable independiente X = Nº de extras (NE)
E(TE/NE) = β0 + β0NE
Estimación de β0 (1): tsatatistic x Sbi = 13,7823 x 1,59084 = 21,9254
Estimación de β1 (2): 2,06871
Modelo: E(TE/NE) = 21,9254 + 2,06871xNE
Significación de la estimación de β0 (3): p-value < 0,05  significativo

Significación de la estimación de β1 (4): [t calculada=17,7707] > [t14 =0,145]  significativo

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
Regression Analysis - Linear model: Y = a + b*X
a) -----------------------------------------------------------------------------
Dependent variable: tiempo
Independent variable: n. de extras
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept (1) _______ 1,59084 13,7823 0,0000 (3)
Slope (2) 2,06871 0,116411 17,7707 (4) ______
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 2927,23 1 2927,23 315,80 0,0000
Residual 129,77 14 9,26932 (6)
-----------------------------------------------------------------------------
Total (Corr.) 3057,0 15
Correlation Coefficient = 0,978545 (5)
R-squared = ________ percent
Standard Error of Est. = _________

β0 (21,9254) representa el tiempo medio de entrega para un pedido de


un equipo estándar con la configuración básica, sin extras.
β1 (2,06871) representa el nº de días en los que aumenta el tiempo de
entrega del pedido con cada extra adicional sobre la configuración
estándar del ordenador.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
b) ¿Es el modelo planteado significativo globalmente?. Utiliza un Riesgo de 1ª
especie α de 0,01. (2 puntos)
Para ello miramos el resultado del ANOVA, y como p-value < 0,01,
podemos decir que sí, como cabía esperar al haber resultado los dos
parámetros significativos en el test t.

c) ¿Qué porcentaje de la variabilidad del tiempo de entrega viene explicada por


el número de extras? Indica el parámetro que cuantifica dicho porcentaje. (2
puntos)
Este porcentaje viene expresado por el valor del Coeficiente de
Determinación, que se calcula como SCE/SCT x100 =
2927,23/3057,0x100 = 95,755%

En el caso de los Modelos de Regresión Lineal, este valor también puede


obtenerse como r2x100 = 0,9785452 x 100 (r se muestra en (5))

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejercicio Examen 2012
d) Si se recibe un pedido de un equipo con 16 extras, ¿cuántos días, en
promedio, predice el modelo para la entrega? (1 puntos)
Predicción:

E(TE/NE=16) = 21,9254 + 2,06871x16 = 55,02  56 días

e) ¿Entre que valores aproximadamente estará el tiempo de entrega, en


promedio, en el 95% de los pedidos en los que se solicitan 16 extras? (2
puntos)
Distribución condicional TE/NE=16 ~ N(m=55,02; σ=σResidual)

σResidual = Raíz(CMR) = Raíz (9,26932) = 3,04456 (6)

95% de los datos ∈ [m - 2σ, m + 2σ] 

[55,02 - 2x3,04456, 55,02 + 2x3,04456]  [48,93, 61,12]

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Control Del Consumo
De Energía

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Definición del problema
 Una factoría automovilística desea establecer un gráfico
para controlar su consumo diario de energía,
concretamente el de un tipo de gas utilizado para la
calefacción de sus instalaciones en el periodo de octubre
a abril.

 El objetivo del mismo, como el de cualquier gráfico control


industrial, es el de detectar precozmente la presencia de
cualquier anomalía (por ejemplo, una fuga de gas o un
defectuoso funcionamiento de los quemadores) y ayudar a
la identificación de la misma con el fin último de eliminarla
rápidamente del sistema (si es desfavorable) o de fijarla
definitivamente (si es favorable).

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Definición del problema
 Un gráfico de tipo estándar no resulta adecuado, dado que
podría producir señales de falta de control cuando el
proceso funciona perfectamente y no detectar, sin
embargo, la presencia de anomalías importantes, al no
tener en cuenta los efectos que sobre el consumo de
energía pueden tener diversos factores, especialmente la
temperatura diaria.
 Para controlar el proceso es necesario establecer un
modelo que permita predecir el consumo medio que cabe
esperar en las condiciones concretas de cada día y la σ
correspondiente, y llevar al gráfico las diferencias entre los
valores realmente observados y los previstos por el
modelo (o sea los residuos constatados) frente a unos
límites iguales a 0 ± 3σ.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Modelización Inicial
CONSUMO: diferencia entre las lecturas del contador general
de gas de tipo B a las 6,30 de la mañana (inicio del primer
turno) de un día respecto a la realizada a la misma hora del
día anterior.
(Por motivos de confidencialidad en este texto se ha
multiplicado por una constante, por lo que viene expresado en
una unidad arbitraria)

TEMPER: temperatura del día en ºC, definida como la media


aritmética de las 48 medidas realizadas cada media hora entre
las 6,30 de un día y la misma hora del siguiente.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Valor estimado de CONSUMO cualquier día:

E (CONSUMO ) = β0 + β1TEMPER
• Valor observado de CONSUMO un día t:
CONSUMOt = β0 + β1TEMPERt + ut
β0  consumo medio los días que la temperatura es 0 ºC

β1  incremento del consumo medio cuando se incrementa


1Cº la temperatura (el modelo asume que este incremento es
constante y no depende de la temperatura)
ut  diferencia entre el consumo real constatado el día t y el
consumo medio que corresponde a un día de temperatura igual
a la observada dicho día.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Estimación del modelo y test de significación
de cada parámetro:
Multiple Regression - CONSUMO
Multiple Regression Analysis
-----------------------------------------------------------------------------
Dependent variable: CONSUMO Bi/ Sbi
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT b0 448,913 Sb0 7,63264 58,8148 0,0000 *
TEMPER b1 -18,4109 Sb1 0,62714 -29,3569 0,0000 *
-----------------------------------------------------------------------------

R2 Si P-Value < 0.05


R-squared = 94,0011 percent
 El efecto es
Standard Error of Est. = 25,3093 Sresidual = CMR significativo

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Test de significación global:
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model SCE 552054,0 1 552054,0 861,83 0,0000
Residual SCR 35230,8 55 640,56
-----------------------------------------------------------------------------
Total (Corr.) SCT 587285,0 56

P-Value < 0.05 


∃ βi ≠ 0

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Validación del modelo:

Normal Probability Plot


99,9
99
95
percentage

80
50
20
5
1
0,1
-60 -30 0 30 60 90

RESIDUALS

Los residuos pueden considerarse normales

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Residuos en función de la TEMPER:

Residual Plot
3,4
Studentized residual

2,4
1,4
0,4
-0,6
-1,6
-2,6
0 100 200 300 400 500

predicted CONSUMO

Predominio de residuos positivos cuando los valores de


TEMPER son bajos o altos, y predominio de valores
negativos cuando los valores de TEMPER son intermedios.

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 1
• Residuos en función de la TEMPER:

Residual Plot
3,4
Studentized residual

2,4
1,4
0,4
-0,6
-1,6
-2,6
0 100 200 300 400 500

predicted CONSUMO

Los valores observados se sitúan en general por encima de


la recta estimada para valores extremos de TEMPER y por
debajo de la misma para los intermedios. El modelo lineal no
es adecuado.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
MODELO 1
• TEMPER frente a CONSUMO

Plot of Fitted Model


500

400
CONSUMO

300

200

100

0
-3 1 5 9 13 17 21

TEMPER

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 2
Es aconsejable introducir un término de segundo grado en la
ecuación, para captar mejor la naturaleza del efecto que la
temperatura tiene sobre el consumo diario de energía:

• Valor observado de CONSUMO un día t:

CONSUMOt = β0 + β1TEMPERt + β2TEMPERt2 + ut


β0  consumo medio los días que la temperatura es 0 ºC

β1  Pendiente en el origen. Aproximadamente igual al


incremento del consumo medio cuando se incrementa la
TEMPER pasando de 0ºC a 1ºC

β2  Medida de la curvatura de la ecuación CONSUMO =


f(TEMPER).

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


MODELO 2
• Estimación del modelo y test de Bi/ Sbi
significación de cada parámetro:
Multiple Regression Analysis
A progresivos incrementos de TEMPER le
-----------------------------------------------------------------------------
corresponden valores cada vez más
Dependent variable: CONSUMO
pequeños del consumo medio
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT b0 472,351 S0 8,56841 55,127 0,0000
*
b1 S1 1,83411
TEMPER -25,9865 -14,1685 0,0000
*
TEMPER^2 b2 0,400966 S2 0,0926855 4,32609 0,0001 *
-----------------------------------------------------------------------------
R-squared = 95,545 percent R2
Standard Error of Est. = 22,0115 Sresidual = CMR

2 2
RM2 = 95,5% > RM1 = 94%
La calidad del ajuste del modelo 2 es mejor que la del modelo 1:
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejercicios

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen Final EST GII Etsinf Curso 11-12
La conexión entre dos sistemas informáticos utiliza un enlace de alta
capacidad que sin embargo sufre problemas de ruido e interferencia
debidos a distintos factores.
Con el objeto de estudiar este problema se pretende evaluar el
efecto concreto que tiene la longitud media de las tramas de bits
entre ambos sistemas sobre el número de errores detectados
durante la transmisión de determinados ficheros de prueba de gran
tamaño.
Se ha recopilado la siguiente información referida a la transmisión de
82 ficheros entre los dos sistemas, para cada uno de los cuales se
han anotado la longitud media de las tramas utilizadas en la
transmisión y el número medio de errores detectados en esas
tramas:

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen Final EST GII Etsinf Curso 11-12

Resumen Estadístico
Longitud Errores
--------------------------------------
Frecuencia 82 82
Media 4.65893 2.63361
Mediana 4.332 2.5896
Varianza 2.04982 0.202711
Desviación típica 1.43172 0.450234
Mínimo 1.072 1.6458
Máximo 9.592 3.965
Rango 8.52 2.3192
Primer cuartil 3.864 2.3062
Tercer cuartil 5.032 2.8041
Rango intercuar. 1.168 0.4979
Asimetría tipi. 3.87271 3.65235
Curtosis típificada 3.38387 2.05077
--------------------------------------
Coeficiente de Correlación = 0.722933

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen Final EST GII Etsinf Curso 11-12
a) A partir del gráfico de dispersión anterior, describe la naturaleza
de la relación entre las dos variables objeto de estudio.
b) Teniendo en cuenta la tabla del resumen estadístico anterior
determina los parámetros de la recta de regresión correspondiente a
la relación entre las dos variables objeto de estudio, y plantea la
ecuación del modelo de regresión simple.
c) Calcula el número promedio de errores para una longitud de
trama igual a 6 y a 16.
d) Complementando los resultados anteriores, se ha hecho un
análisis mediante Statgraphics que se presenta parcialmente en las
siguientes tablas. ¿Es el modelo planteado significativo globalmente?
¿Y cada uno de sus parámetros? Utiliza un nivel de significación α =
0.05.

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen Final EST GII Etsinf Curso 11-12
Análisis de Regresión - Modelo Lineal Y = a + b*X
-----------------------------------------------------------------------------
Variable dependiente: Errores
Variable independiente: Longitud
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
Ordenada ---- 0.118335 13.3049 0.0000
Pendiente ---- 0.0242919 -----
-----------------------------------------------------------------------------

Análisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo . 1 8.5814 . .
Residuo 7.83818 .
-----------------------------------------------------------------------------
Total (Corr.) 16.4196 81

Coeficiente de Correlación = 0.722933


R-cuadrado = .
Error estándar de est. = 0.313013

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Examen Final EST GII Etsinf Curso 11-12
e) ¿Qué porcentaje de la variabilidad en el número de errores viene
explicada por la longitud de trama? Indica el parámetro que cuantifica
dicho porcentaje.

f) Calcula la varianza residual y explica qué representa.

g) ¿Entre que valores aproximadamente estará el número de errores, en


promedio, en el 95% de las transmisiones en la longitud de trama es igual
a 6?.

h) Calcula la probabilidad de que el número de errores medio, cuando las


transmisiones en la longitud de trama es igual a 6, sea inferior a 3.

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Ejercicio: edad y altura
En un estudio sobre la relación entre la edad y la altura (cm) de los
alumnos en un centro escolar se ha obtenido los siguientes resultados:
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Altura
Independent variable: Edad
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 86,1028 0,899422 95,7313 0,0000
Slope 5,93137 0,0997837 59,4423 0,0000
-----------------------------------------------------------------------------
Análisis de la Varianza
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 121848,0 1 121848,0 3533,39 0,0000
Residual 9000,5 261 34,4847
-----------------------------------------------------------------------------
Total (Corr.) 130848,0 262

Correlation Coefficient = 0,964994


R-squared = 93,1214 percent
R-squared (adjusted for d.f.) = 93,0951 percent
Standard Error of Est. = 5,87237
DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión
Ejercicio: edad y altura
A la vista de estos resultados, se pide:
a) Escribir el modelo que relaciona las dos variables (recta de regresión)
b) Estima los parámetros a y b e indica su significación estadística.
c) Explicar qué representan los parámetros estimados a y b y cuál es su
interpretación práctica.
d) ¿Cuál es la predicción de la altura para un alumno que tiene 8 años de
edad?
e) La altura que se ha anotado para un alumno de 10 años ha sido de
141,682 cm ¿En cuánto nos habríamos equivocado haciendo uso de la
recta de regresión?
f) ¿Qué porcentaje de la variabilidad de la altura esta explicada por la
variación de la edad? Indica que parámetro se usa para cuantificar
dicho porcentaje.
g) ¿Entre qué valores de altura estarán los niños de 8 años en el 99% de
los casos?

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Ejercicio: precio y tamaño
Las compañías proveedoras de conexión a Internet están estudiando
establecer la relación entre el precio de conexión a Internet y el uso
que el usuario haga de la misma.
Para ello, están pensando en establecer un límite de descarga (en
Gb) según el precio pactado con la compañía por el usuario, de
manera que cuanto más haya pagado, mayor podrá ser el tamaño de
descarga a lo largo de un mes.
Para ello se llevó a cabo una simulación cuyos resultados se
analizaron estadísticamente, utilizando un modelo de regresión. La
correspondiente salida del Statgraphics se muestra a continuación:

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Ejercicio: precio y tamaño
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Precio
Independent variable: Tamaño
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept -0,153952 0,385683 -0,399167 0,7002
Slope 9,45942 0,117376 80,5909 0,0000
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4113,33 1 4113,33 6494,89 0,0000
Residual 5,06654 8 0,633318
-----------------------------------------------------------------------------
Total (Corr.) 4118,4 9

Correlation Coefficient = 0,999385


R-squared = 99,877 percent
Standard Error of Est. = 0,795813

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Ejercicio: precio y tamaño
a) Plantear y estimar el modelo de regresión del precio en función
del tamaño de la descarga, indicando qué parámetros son
significativos y por qué (α=0,01).
b) ¿Cuál es la interpretación práctica de los parámetros del modelo?
c) ¿Qué porcentaje de la variabilidad de la variable Precio viene
explicada por la variable Tamaño? ¿Existe algún parámetro que
cuantifique dicho porcentaje?, en caso afirmativo, indica cuál.
d) ¿Cuál es el valor de la varianza residual? ¿Qué representa?
e) Calcula cuál sería el precio medio para una descarga mensual de 2
Gb.
f) Calcula la probabilidad de que el precio, en promedio, sea superior
a 18€ para una descarga mensual de 2 Gb.
g) ¿Qué objetivo tiene el ANOVA del modelo?

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Regresión


Introducción

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Ejemplo
 Se han recogido información sobre 10 alumnos:
N 1 2 3 4 5 6 7 8 9 10 X S

Horas/me
4 9 10 14 4 7 12 22 1 17 10 6,46
s
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen

10
9 rH,N = 0,98
8
7
6 Fuerte relación
Nota

5
4 lineal y directa
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24

Horas

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Estimación del modelo

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Coeficiente de Determinación R2
R2 permite valorar la calidad del ajuste.
Mide el porcentaje de la variación de la v.a. dependiente provocado por los
cambios en la v.a. independiente

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Residuos
Residuo1 de un dato es la diferencia entre el valor realmente
observado (yj) y el valor estimado (a+bXj) por la Recta de
Regresión

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Varianza Residual
La Varianza residual (σ2R) estima el orden de magnitud del
efecto conjunto de todos esos factores no considerados al obtener
la recta de regresión.

Calidad del ajuste:


Coeficiente de determinación Varianza residual
R2 = 96,04 % σ2 = 0,279
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación Globla del Ajuste. ANOVA
¿Alguna de las variables explicativas influyen realmente
sobre la variable respuesta o es casualidad?
Tabla resumen del ANOVA
Origen Suma de Grados Cuadrado F
Variación Cuadrados Libertad Medio ratio
Total 47,524
Modelo 45,2932
Residual

SCT = SCE + SCR Test de hipótesis


N = nº de datos  CME
 > FI,N-1-I ó
I = Nº de variables ∃βi / βi ≠ 0  CMR
independientes  p-value < α

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


ANOVA del modelo (Statgraphics)
-----------------------------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------------------------
Model SCE 45,2932 1 45,2932 162,43 0,0000
Residual SCR 2,23078 8 0,278848 CMR
------------------------------------------------------------------------------------------------------
P-Value < 0,05 
Total (Corr.) SCT 47,524 9 Lo que explican las
v.a. independientes
es significativo
α = 0,05  ∃ βi ≠ 0
Tabla F: F1,8(5%) = 5,32 F-ratio > 5,32 Rechazamos H0
F-ratio = 162,43
Lo que explica la recta es significativo a nivel poblacional.
Alguna de las variables incluidas en el modelo influye significativamente
sobre la v.a dependiente.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
ANOVA del modelo (Statgraphics)
-----------------------------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------------------------
Model SCE 45,2932 1 45,2932 162,43 0,0000
Residual SCR 2,23078 8 0,278848 CMR
------------------------------------------------------------------------------------------------------
Total (Corr.) SCT 47,524 9

Correlation Coefficient = 0,976248 = rH,N ≈ 0,98

R-squared = 95,306 percent  R = SCE


2
* 100
SCT
Standard Error of Est. = 0,52806  σˆ r = SR = S 2
R = CMR

Regresión Lineal Simple


S2R = S2y (1- r2xy) R2 = rxy2 x 100
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación del efecto de una variable Xi
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en el modelo?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447
b (b1) 0,347074 0,0272326

Test de hipótesis
N = nº de datos
 bi
I = Nº de variables  > tN-1-I ó
independientes
βi ≠ 0  Si
 p-value < α

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Test t
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en la ecuación final de la recta?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447 6,79066 2,306
b (b1) 0,347074 0,0272326 12,7448 2,306

α = 0,05  Tabla t: t8(5%/2) = 2,306

6,79066 (t-calculada) > 2,306 Rechazamos H0: a=0

12,7448 (t-calculada) > 2,306 Rechazamos H0: b=0

Los dos parámetros de la recta son significativos a nivel poblacional.


No son diferentes de 0 por casualidad  deben aparecer en la ecuación
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Test t (Statgraphics)
Tipo de relación
Regression Analysis - Linear model: Y = a + b*X
------------------------------------------------------------------------------------------
Dependent variable: NOTA Precisión
Independent variable: HORAS estimación Sbi bi/ Sbi
------------------------------------------------------------------------------------------
Estimación
parámetros bi Standard T
Parameter Estimate Error Statistic P-Value
------------------------------------------------------------------------------------------
Intercept a 2,16926 Sa 0,319447 6,79066 0,0001
Slope b 0,347074 Sb 0,0272326 12,7448 0,0000
------------------------------------------------------------------------------------------
P-Value < 0,05 
El efecto es significativo.
a y b si aparecen en la ecuación final

E(NOTA/HORAS) = a + bxHORAS = 2,17 + 0,347xHORAS


DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Objetivos competenciales
1. Estimar los parámetros β0 y β1 del modelo:
a. Calcular b0 y b1
b. o Identificar sus valores en la salida del Statg
2. Estudiar la significación global del modelo
a. Realizar el ANOVA
b. o Interpretar la salida ANOVA del Statg
3. Estudiar la significación de cada parámetro individualmente. Test t
4. Plantear el modelo final
5. Interpretar el significado de los parámetros del modelo
6. Evaluar la calidad del ajuste
a. Calcular el Coeficiente de Determinación R2
b. Obtener el valor de R2 a partir de la salida del Statg
c. Interpretar el valor del Coeficiente de Determinación R2
7. Realizar predicciones
8. Calcular Intervalos de confianza para las predicciones de forma aproximada
a. Calcular de la S residual
b. Obtener de la S o S2 residual a partir de las salidas del Sattg
c. Interpretar el significado de la Varianza Residual
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Glosario UD 5.4
Calidad del Ajuste Predicciones
Coeficiente de Determinación R2 Recta de Regresión
Desviación Típica Residual (σ residual) Regresión Lineal Simple
Estimación de β0 (b0) Resíduos
Significación del efecto de una variable
Estimación de β1 (b1)
(Test t)
Estimación de la Varianza Residual (S2
Significación Global del Ajuste (ANOVA)
residual). CMR
Modelo de Regresión Variable Dependiente o Explicada
Parámetro β0 Variable Independiente o Explicativa
Parámetro β1 Varianza Residual (σ2 residual)
Parámetros del modelo

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Enlaces de interés
• Forma del Diagrama de Dispersión a partir de r y la pendiente
de la Recta de Regresión. Rice Virtual Lab in Statistics
(Simulations/Demostrations):
http://onlinestatbook.com/stat_sim/comp_r/index.html

 Análisis de regresión lineal con Excel : http://goo.gl/VW8S

 r y Recta de Regresión. Descartes:


http://recursostic.educacion.es/descartes/web/materiales_didactico
s/Correlacion_regresion_recta_regresion/correlacion_y_regresion.ht
m#MEDIDA DE LA CORRELACIÓN

DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple


Fuentes: Romero y Zúnica: “Métodos Estadísticos en Ingeniería”
Estas transparencias NO son unos apuntes, son solo un guión de las explicaciones hechas en clase y algunos ejemplos
adicionales.

Elaborado por E. Vázquez – UPV (DEIOAC)

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la


misma licencia 2.5 España de Creative Commons. Para ver una copia de esta
licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/es/

Fin

DEIOAC – Estadística – Prof. E. Vázquez 5-4 Modelos de Regresión

También podría gustarte