Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9. Regresión simple
ESTADÍSTICA BÁSICA 2
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 3
1. Gráfico de dispersión
ESTADÍSTICA BÁSICA 4
1. Gráfico de dispersión
x 10
4 Energía horaria generada
3
Cada punto corresponde a
información horaria. Se tiene
la velocidad del viento en
Potencia generada por un
2.5
cada hora y la potencia
media desarrollada por el
kWh eólico
1.5
ESTADÍSTICA BÁSICA 5
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 6
2. Medidas de relación lineal
• Coeficiente de covarianza
• Coeficiente de correlación
ESTADÍSTICA BÁSICA 7
Para n individuos, tenemos datos de 2 variables
Individuo x y Covarianza
1 x1 y1
2 x2 y2
: : :
n xn yn
Correlación
Covarianza y
Covarianza y
correlación negativas
correlación positivas
ESTADÍSTICA BÁSICA 8
• La covarianza tiene unidades (unidades_x)(unidades_y)
• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR
• Se puede demostrar que -1£r£1
ESTADÍSTICA BÁSICA 9
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 10
3. La recta de regresión simple
( xi , yi )
𝑋
ESTADÍSTICA BÁSICA 11
La recta de regresión
X
ESTADÍSTICA BÁSICA 12
La recta de regresión
( xi , yi )
X
ESTADÍSTICA BÁSICA 13
La recta de regresión
Buscamos una recta muy concreta llamada
RECTA DE REGRESIÓN
𝑦
Es la recta que, dado el valor
de X proporciona la mejor
predicción de Y
𝑦� = 𝛽0 + 𝛽1 𝑥
Predicción de 𝑦
Factor, o
variable
explicativa,
𝑥
ESTADÍSTICA BÁSICA 14
Vamos a suponer que nuestros datos son una muestra de una población. Podemos
pensar entonces que existirá una recta de regresión para toda la población, que
será desconocida. Nosotros intentamos ‘estimarla’ con nuestra muestra.
Población Muestra
ESTADÍSTICA BÁSICA 15
La recta de regresión
La recta de regresión es la recta
que, dado el valor de 𝑋 , me da
la mejor predicción de 𝑌
𝑦
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥
𝑦𝑖 = 𝑦�𝑖 + 𝑒𝑖
𝑦𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 + 𝑒𝑖
( xi , yi )
Valor observado 𝑦𝑖
𝑒𝑖
Valor previsto 𝑦�𝑖
por la recta
valor observado xi
Error de predicción 𝑒𝑖 = 𝑦𝑖 − 𝑦�𝑖
X
ESTADÍSTICA BÁSICA 16
Población Muestra
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑢𝑖 𝑦𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 + 𝑒𝑖
ESTADÍSTICA BÁSICA 17
Ejemplo Dados los pares de puntos (𝑥, 𝑦) siguientes y la recta 𝑦� = 3 + 5𝑥, predice
los valores de 𝑦 a partir de los correspondientes valores de 𝑥 y calcula los
errores de predicción
𝑦 𝑥 𝑦� = 3 + 5𝑥 𝑒 = 𝑦 − 𝑦�
30 6 33 -3
11 2 13 -2
29 3 18 11
30 5 28 2
Dados los mismos pares de puntos (𝑥, 𝑦) pares de puntos siguientes y la recta
𝑦� = 10 − 14𝑥, predice los valores de y a partir de los correspondientes valores de x
y calcula los errores de predicción
𝑦 𝑥 𝑦� = 10 − 14𝑥 𝑒 = 𝑦 − 𝑦�
30 6 -74 104
11 2 -18 29
29 3 -32 61
30 5 -60 90
N
min ∑ ei
y 2
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥
i =1
(recta de mínimos cuadrados)
( xi , yi )
yi
𝑒𝑖
yˆi
valor observado xi X
ESTADÍSTICA BÁSICA 19
Derivación de la recta de regresión ‘optima’
ESTADÍSTICA BÁSICA 20
Derivación de la recta de regresión ‘optima’ (cont.)
Si cambian los
datos, cambia la
recta estimada.
ESTADÍSTICA BÁSICA 21
La recta de regresión
SOLUCIÓN
y 𝒄𝒄𝒄(𝒙, 𝒚)
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥 �𝟏 =
𝜷
𝒔𝟐𝒙
�𝟎 = 𝒚
𝜷 � 𝟏𝒙
�−𝜷 �
( xi , yi ) Si cambian los
y datos, cambia la
recta
x X
ESTADÍSTICA BÁSICA 22
La recta estimada sólo debe emplearse para predecir
dentro del rango de datos observados
Si estimamos una recta de regresión usando sólo los datos del recuadro, vamos a
predecir mal los datos de fuera, debido a la falta de linealidad.
ESTADÍSTICA BÁSICA 23
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias
Loc.1: V1 Loc.2: V2
media: 2.51 media: 3.28
varianza: 1.91 varianza: 2.36
cov (V1,V2)=1.995
ESTADÍSTICA BÁSICA 24
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias
Loc.1: Loc.2:
media: 2.51 media: 3.28
varianza: 1.91 varianza: 2.36
cov (V1,V2)=1.995
� 𝟐 = 0.657+1.045x5=5.88 m/s
𝑽
ESTADÍSTICA BÁSICA 25
𝑦� = 𝛽0 + 𝛽1 𝑥
Interpretación de 𝜷𝟏 :
Ejemplo
Relación negativa con pendiente -5. Si 𝑥
𝑦� = 10 − 5𝑥
aumenta en una unidad, el valor previsto para
𝑦 disminuye en 5 unidades
ESTADÍSTICA BÁSICA 26
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias
ESTADÍSTICA BÁSICA 27
𝑦� = 𝛽0 + 𝛽1 𝑥
Interpretación de 𝜷𝟎 :
𝑦� = 𝛽0 + 𝛽1 × 0 = 𝛽0
Ejemplo
Vˆ2 = 0.657 + 1.045 × V1
Si en la localización 1 no hay viento, en la localización 2 se prevé 0.657 m/s, que
es muy pequeño
Esta predicción puede ser poco precisa, pues el valor 𝑥 = 0 está fuera del
rango de datos empleado en la estimación.
ESTADÍSTICA BÁSICA 28
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 29
El valor real de la variable 𝑌 puede depender de muchos factores:
𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑀 , con M un número posiblemente muy grande. Algunos factores
pueden ser desconocidos.
• Y: variable dependiente
• 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑀 : factores, variables explicativas, variables independientes,…
𝑋1
Función 𝑋2
𝑌 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 𝑋3
+ ⋯ + 𝛽𝑀 𝑋𝑀 𝑋4
⋮
𝑋𝑀
ESTADÍSTICA BÁSICA 30
En Regresión Simple utilizamos sólo la información de un factor, 𝑋1 , para predecir 𝑌.
𝑌� = 𝛽0 + 𝛽1 𝑋1
Para un mismo valor de 𝑋1 , la variable 𝑌 podría entonces tomar diferentes valores, debido
a la influencia del resto de factores no considerados: 𝑋2 , … , 𝑋𝑀 . A la influencia de estos
factores le denominamos perturbación o término de error, y usaremos la letra 𝑢.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑀 𝑋𝑀
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝑢
Función 𝑋1
𝑌
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝑢 𝑢
𝑢 = 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑀 𝑋𝑀 𝑢 ∼ 𝑁(0, 𝜎 2 )
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑌 ∼ 𝑁(𝛽0 + 𝛽1 𝑋; 𝜎 2 )
constante
Función 𝑋 fijo
𝑌 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢
𝑢
ESTADÍSTICA BÁSICA 32
El “modelo de regresión simple”
Influencia de otros factores
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑢 ∼ 𝑁(0, 𝜎 2 )
DATOS
MODELO
Y Y
𝛽0 + 𝛽1 𝑋
X X
ESTADÍSTICA BÁSICA 33
El “modelo de regresión simple”
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑢 ∼ 𝑁(0, 𝜎 2 )
𝑐𝑐𝑐(𝑥, 𝑦)
𝛽̂1 = 𝛽̂0 = 𝑦� − 𝛽̂1 𝑥̅
𝑠𝑥2
𝑒𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 ; 𝑖 = 1, … , 𝑛
𝑛 2
∑𝑖=1 𝑒𝑖
𝑆̂𝑅2 =
𝑛−2
ESTADÍSTICA BÁSICA 34
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Vamos a construir un modelo de regresión simple que prediga la nota
de QG1 a partir de la de ICS para la población de la que procede nuestra
muestra.
• ¿Cuál es la probabilidad de que un alumno que tiene 17 en ICS tenga más de 15 en QG1?
• ¿Qué nota media tendrán en QG1 los alumnos que tienen 0 en ICS?
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Tiene también las variables de Peso y Altura de los estudiantes.
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura?
ESTADÍSTICA BÁSICA 38
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 39
5. Inferencia en regresión simple
De todos los temas que podemos ver sobre inferencia en regresión simple, nos
centraremos en aprender a contrastar si la variable 𝑋 es o no relevante para explicar
la variabilidad de la variable de salida 𝑌
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
ESTADÍSTICA BÁSICA 40
5. Inferencia en regresión simple
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
• Estadístico de contraste:
𝛽�1 𝑆𝑥 𝑛
𝑡=
𝑆̂𝑅
• Distribución de referencia
Rechazo H0 Rechazo H0
Acepto H0
− zα / 2 zα / 2
−tn −1;α / 2 tn −1;α / 2
ESTADÍSTICA BÁSICA 41
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Tiene también las variables de Peso y Altura de los estudiantes.
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura?
ESTADÍSTICA BÁSICA 42
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que
invirtieron los estudiantes en realizar un avión de papel.
¿Los altos son más torpes haciendo aviones?
ESTADÍSTICA BÁSICA 43
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 44
6. Diagnosis del modelo
Gráficos
• Correlación y
Análisis de normalidad Coeficiente de
sobre los residuos determinación R2
• Contaste de
significatividad
ESTADÍSTICA BÁSICA 45
6. Diagnosis del modelo
1.1 Gráfico xy
Datos: parqueeolico.sf3
ESTADÍSTICA BÁSICA 46
6. Diagnosis del modelo
Hay No hay
linealidad linealidad
ESTADÍSTICA BÁSICA 47
6. Diagnosis del modelo
Valores Valores
observados previstos
ESTADÍSTICA BÁSICA 48
6. Diagnosis del modelo
Valores Energia-
previstos PREDICCION
ESTADÍSTICA BÁSICA 49
6. Diagnosis del modelo
Valores Energia-
previstos PREDICCION
ESTADÍSTICA BÁSICA 50
Ejemplo La variable V1 tiene la velocidad del viento registrada en la
localización 1, mientras que la variable V2 tiene las velocidades
registradas en esos mismos instantes en la localización 2. Se
tiene un total de 115 pares de medidas
Estos residuos no
muestran ninguna
estructura evidente. Es
señal de que el modelo
lineal es adecuado
ESTADÍSTICA BÁSICA 51
Estos gráficos de residuos SÍ son aceptables
ESTADÍSTICA BÁSICA 52
Algunos tipos de no linealidades se pueden
corregir transformando la variable
ESTADÍSTICA BÁSICA 53
53
Buscamos una
transformación que
‘enderece’ la nube
de puntos
y=a+bxc
c=0.5 ¡perfecto! c=0.1 nos hemos pasado!!
c=0.9 insuficiente
y y y
•Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos)
ESTADÍSTICA BÁSICA 55
55
6. Diagnosis del modelo
Correlación y
Coeficiente de
determinación R2
• Entre 0 y 1
ESTADÍSTICA BÁSICA 56
6. Diagnosis del modelo
ESTADÍSTICA BÁSICA 57
Tema 9: Regresión simple
1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 58
7. Regresión con variables binarias.
Una variable binaria o dicotómica es aquella que toma sólo dos valores. Vamos a asumir que son 1 y 0.
Esta variable se puede usar para definir la presencia/ausencia de una atributo o la pertenencia/no
pertenencia a un grupo.
ESTADÍSTICA BÁSICA 59
7. Regresión con variables binarias.
Altura=165.313+14.0367 sexo+e
ESTADÍSTICA BÁSICA 60
7. Regresión con variables binarias.
Podemos separar el modelo en dos: uno para cada valor de la variable binaria
Altura=165.313+14 sexo+e
ESTADÍSTICA BÁSICA 61
7. Regresión con variables binarias.
Podemos separar el modelo en dos: uno para cada valor de la variable binaria
Altura=165.313+14 sexo+e
ESTADÍSTICA BÁSICA 62
7. Regresión con variables binarias.
ESTADÍSTICA BÁSICA 63
Ahora los ‘valores previstos’ es la media de cada grupo: sólo tiene dos valores
diferentes
ESTADÍSTICA BÁSICA 64
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, el dinero
que gastaron los estudiantes en el fin de semana, el tiempo que tardaron en
realizar un avión de papel, y el tiempo de vuelo de ese avión, en segundos.
También se tiene la variable Sexo: 1 para chicos y 0 para chicas. hay
diferencias significativas entre chicos y chicas en dichas variables?
ESTADÍSTICA BÁSICA 65