Está en la página 1de 65

ESTADÍSTICA BÁSICA 1

9. Regresión simple

ESTADÍSTICA BÁSICA 2
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 3
1. Gráfico de dispersión

Para cada dato (individuo, elemento) tenemos información de dos


variables: X e Y
El gráfico permite ver la relación entre las dos variables: linealidad o no linealidad,
atípicos, etc.

Potencia y velocidad máxima de un


conjunto de autos

Estas dos variables


están relacionadas de
forma lineal. Una línea
recta sería un buen
resumen.

ESTADÍSTICA BÁSICA 4
1. Gráfico de dispersión

x 10
4 Energía horaria generada
3
Cada punto corresponde a
información horaria. Se tiene
la velocidad del viento en
Potencia generada por un

2.5
cada hora y la potencia
media desarrollada por el
kWh eólico

2 parque eólico en dicho


periodo.
parque

1.5

La gráfica muestra que


hay una relación entre las
0.5
dos variables, pero es no
lineal.
0
0 5 10 15 20 25
Velocidad horaria media del viento (m/s)

ESTADÍSTICA BÁSICA 5
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 6
2. Medidas de relación lineal

• Coeficiente de covarianza
• Coeficiente de correlación

Entre estas variables hay


Entre estas variables no hay
relación lineal
relación lineal

La línea roja podría ser un


buen resumen de esa relación

ESTADÍSTICA BÁSICA 7
Para n individuos, tenemos datos de 2 variables

Individuo x y Covarianza
1 x1 y1

2 x2 y2

: : :

n xn yn
Correlación

Covarianza y
Covarianza y
correlación negativas
correlación positivas
ESTADÍSTICA BÁSICA 8
• La covarianza tiene unidades (unidades_x)(unidades_y)
• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR
• Se puede demostrar que -1£r£1

r=1 r=0.8 r=0.06

r=-0.94 r=-0.83 r=-0.08

ESTADÍSTICA BÁSICA 9
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 10
3. La recta de regresión simple

𝑌 ¿Cómo obtener la ecuación de esa recta ‘resumen’?


𝑌 = 𝑎 + 𝑏𝑏

( xi , yi )

𝑋
ESTADÍSTICA BÁSICA 11
La recta de regresión

Si sólo tuviésemos dos puntos: solución única

X
ESTADÍSTICA BÁSICA 12
La recta de regresión

Tenemos una muestra de 𝑛 pares de puntos


y (𝑥𝑖 , 𝑦𝑖 ).
Es imposible que una recta pase por todos ellos
¿Cómo elegir la que más nos interesa?

( xi , yi )

X
ESTADÍSTICA BÁSICA 13
La recta de regresión
Buscamos una recta muy concreta llamada
RECTA DE REGRESIÓN

𝑦
Es la recta que, dado el valor
de X proporciona la mejor
predicción de Y

𝑦� = 𝛽0 + 𝛽1 𝑥

Predicción de 𝑦

Factor, o
variable
explicativa,

𝑥
ESTADÍSTICA BÁSICA 14
Vamos a suponer que nuestros datos son una muestra de una población. Podemos
pensar entonces que existirá una recta de regresión para toda la población, que
será desconocida. Nosotros intentamos ‘estimarla’ con nuestra muestra.

Población Muestra

𝑦�𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑦�𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖

𝑦�𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑦�𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖


Recta con coeficientes ‘poblacionales’. Son los Recta con coeficientes muestrales. Se interpretan
que obtendríamos si tuviésemos toda la como estimaciones de los poblacionales. Son los
población de pares (𝑥, 𝑦), posiblemente infinitos. que obtenemos con la muestra. Por tanto, tienen
variabilidad muestral.

ESTADÍSTICA BÁSICA 15
La recta de regresión
La recta de regresión es la recta
que, dado el valor de 𝑋 , me da
la mejor predicción de 𝑌
𝑦
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥

𝑦𝑖 = 𝑦�𝑖 + 𝑒𝑖

𝑦𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 + 𝑒𝑖

( xi , yi )
Valor observado 𝑦𝑖
𝑒𝑖
Valor previsto 𝑦�𝑖
por la recta

𝑦�𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖

valor observado xi
Error de predicción 𝑒𝑖 = 𝑦𝑖 − 𝑦�𝑖
X
ESTADÍSTICA BÁSICA 16
Población Muestra

𝑦�𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑦�𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖

En la recta poblacional (desconocida), la En la recta que obtenemos con la


distancia de la recta a cada punto (error muestra, la distancia de la recta a cada
de predicción) se denota por 𝑢𝑖 y se punto (error de predicción) se denota por
denomina término de error o 𝑒𝑖 y se denomina residuo:
perturbación:
𝑢𝑖 = 𝑦𝑖 − (𝛽0 +𝛽1 𝑥𝑖 ) 𝑒𝑖 = 𝑦𝑖 − (𝛽̂0 + 𝛽̂1 𝑥𝑖 )

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑢𝑖 𝑦𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 + 𝑒𝑖

ESTADÍSTICA BÁSICA 17
Ejemplo Dados los pares de puntos (𝑥, 𝑦) siguientes y la recta 𝑦� = 3 + 5𝑥, predice
los valores de 𝑦 a partir de los correspondientes valores de 𝑥 y calcula los
errores de predicción
𝑦 𝑥 𝑦� = 3 + 5𝑥 𝑒 = 𝑦 − 𝑦�
30 6 33 -3
11 2 13 -2
29 3 18 11
30 5 28 2

Dados los mismos pares de puntos (𝑥, 𝑦) pares de puntos siguientes y la recta
𝑦� = 10 − 14𝑥, predice los valores de y a partir de los correspondientes valores de x
y calcula los errores de predicción

𝑦 𝑥 𝑦� = 10 − 14𝑥 𝑒 = 𝑦 − 𝑦�
30 6 -74 104
11 2 -18 29
29 3 -32 61
30 5 -60 90

¿Qué recta predice mejor a 𝑦?¿Por qué?


ESTADÍSTICA BÁSICA 18
La recta de regresión
Buscamos la recta que minimiza
los errores de predicción:

N
min ∑ ei
y 2
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥
i =1
(recta de mínimos cuadrados)

( xi , yi )
yi
𝑒𝑖
yˆi

valor observado xi X
ESTADÍSTICA BÁSICA 19
Derivación de la recta de regresión ‘optima’

ESTADÍSTICA BÁSICA 20
Derivación de la recta de regresión ‘optima’ (cont.)

Si cambian los
datos, cambia la
recta estimada.

ESTADÍSTICA BÁSICA 21
La recta de regresión
SOLUCIÓN

y 𝒄𝒄𝒄(𝒙, 𝒚)
𝑦� = 𝛽̂0 + 𝛽̂1 𝑥 �𝟏 =
𝜷
𝒔𝟐𝒙
�𝟎 = 𝒚
𝜷 � 𝟏𝒙
�−𝜷 �

( xi , yi ) Si cambian los
y datos, cambia la
recta

x X
ESTADÍSTICA BÁSICA 22
La recta estimada sólo debe emplearse para predecir
dentro del rango de datos observados

Si estimamos una recta de regresión usando sólo los datos del recuadro, vamos a
predecir mal los datos de fuera, debido a la falta de linealidad.

ESTADÍSTICA BÁSICA 23
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias

Loc.1: V1 Loc.2: V2
media: 2.51 media: 3.28
varianza: 1.91 varianza: 2.36

cov (V1,V2)=1.995

En la localización 1 se va a establecer un sistema para la telemedida de la


velocidad del viento, pero no para la localización 2. Por tanto, se quiere
calcular la recta de regresión que permita predecir la velocidad de la
Localización 2 sabiendo la de la Localización 1.

ESTADÍSTICA BÁSICA 24
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias

Loc.1: Loc.2:
media: 2.51 media: 3.28
varianza: 1.91 varianza: 2.36

cov (V1,V2)=1.995

𝛽̂1 = 𝑐𝑐𝑐(𝑥, 𝑦)⁄𝑣𝑣𝑣 𝑥 = 1.995⁄1.91 = 1.045


Vˆ2 = 0.657 + 1.045 × V1
𝛽̂0 = 𝑦� − 𝛽̂1 𝑥̅ = 3.28 − 1.045 2.51 = 0.657

Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5


m/s, la predicción en la Localización 2 es de un viento de

� 𝟐 = 0.657+1.045x5=5.88 m/s
𝑽

ESTADÍSTICA BÁSICA 25
𝑦� = 𝛽0 + 𝛽1 𝑥

Interpretación de 𝜷𝟏 :

• si 𝑥 aumenta en una unidad, 𝑦� aumenta en 𝛽1


unidades

𝑦�1 = 𝛽0 + 𝛽1 𝑥1 Δ𝑦 = 𝑦�2 − 𝑦�1 = 𝛽1



𝑦�2 = 𝛽0 + 𝛽1 (𝑥1 +1)

• Pendiente de la recta de regresión


𝑑𝑦�
= 𝛽1
𝑑𝑑

Ejemplo
Relación negativa con pendiente -5. Si 𝑥
𝑦� = 10 − 5𝑥
aumenta en una unidad, el valor previsto para
𝑦 disminuye en 5 unidades

Relación positiva con pendiente 3. Si 𝑥


𝑦� = 2 + 3𝑥
aumenta en una unidad, el valor previsto para
𝑦 aumenta en 3 unidades

ESTADÍSTICA BÁSICA 26
Ejemplo La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias

Vˆ2 = 0.657 + 1.045 × V1

Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en


la localización 2 se prevé que lo hará en 1.045 m/s. El
comportamiento del viento es casi idéntico en ambas localizaciones.

ESTADÍSTICA BÁSICA 27
𝑦� = 𝛽0 + 𝛽1 𝑥

Interpretación de 𝜷𝟎 :

• Es el valor previsto para 𝑦 si 𝑥 toma el valor 0.

𝑦� = 𝛽0 + 𝛽1 × 0 = 𝛽0

(no siempre la situación 𝑥 = 0 va a tener sentido


para nuestros datos)

• Es el punto de corte de la recta en el eje Y (intercepto)

Ejemplo
Vˆ2 = 0.657 + 1.045 × V1
Si en la localización 1 no hay viento, en la localización 2 se prevé 0.657 m/s, que
es muy pequeño

Esta predicción puede ser poco precisa, pues el valor 𝑥 = 0 está fuera del
rango de datos empleado en la estimación.

ESTADÍSTICA BÁSICA 28
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 29
El valor real de la variable 𝑌 puede depender de muchos factores:
𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑀 , con M un número posiblemente muy grande. Algunos factores
pueden ser desconocidos.
• Y: variable dependiente
• 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑀 : factores, variables explicativas, variables independientes,…

En general, la relación de 𝑌 con las 𝑋𝑋𝑋 puede ser complicada e incluso


desconocida
𝑌 = 𝑓(𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑀 )

Como primera simplificación, asumiremos que la relación sigue un modelo lineal.


𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑀 𝑋𝑀

𝑋1
Función 𝑋2

𝑌 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 𝑋3
+ ⋯ + 𝛽𝑀 𝑋𝑀 𝑋4

𝑋𝑀

ESTADÍSTICA BÁSICA 30
En Regresión Simple utilizamos sólo la información de un factor, 𝑋1 , para predecir 𝑌.

𝑌� = 𝛽0 + 𝛽1 𝑋1

Para un mismo valor de 𝑋1 , la variable 𝑌 podría entonces tomar diferentes valores, debido
a la influencia del resto de factores no considerados: 𝑋2 , … , 𝑋𝑀 . A la influencia de estos
factores le denominamos perturbación o término de error, y usaremos la letra 𝑢.

Valor previsto por


la reg. simple 𝑌� 𝑢 Error que comete la regresión
𝑌� = 𝛽0 + 𝛽1 𝑋1 simple 𝑌� = 𝛽0 + 𝛽1 𝑋1

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑀 𝑋𝑀

Modelo de regresión simple

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝑢

Función 𝑋1
𝑌
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝑢 𝑢

En adelante, omitiremos el subíndice de 𝑋1


ESTADÍSTICA BÁSICA 31
Para entender la influencia de 𝑒 podemos plantear el siguiente experimento aleatorio

“Fijamos el valor de 𝑋 y observamos el valor resultante de 𝑌”

Entonces, aunque 𝑋 no varíe, el resto de factores 𝑋2 , … , 𝑋𝑀 sí puede hacerlo,


pues no se controlan en el experimento. El resultado es que 𝑌 tomará valores
diferentes cada vez que repitamos el experimento aleatorio. Por tanto, para un
valor fijo de 𝑋, 𝑌 es una variable aleatoria por culpa de 𝑢.

¿Cómo es la variable aleatoria 𝑢? Asumiremos que M es grande y, por tanto, por el


Teorema del Límite Central 𝑢 sigue una Normal

𝑢 = 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑀 𝑋𝑀 𝑢 ∼ 𝑁(0, 𝜎 2 )

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑌 ∼ 𝑁(𝛽0 + 𝛽1 𝑋; 𝜎 2 )
constante

Función 𝑋 fijo

𝑌 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢
𝑢

ESTADÍSTICA BÁSICA 32
El “modelo de regresión simple”
Influencia de otros factores

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑢 ∼ 𝑁(0, 𝜎 2 )

DATOS
MODELO
Y Y

𝛽0 + 𝛽1 𝑋

X X

Dado el par observado 𝑥𝑖 , 𝑦𝑖 de las variables (𝑋, 𝑌) , interpretamos que el

valor de 𝑦𝑖 es una realización la normal 𝑁 𝛽0 + 𝛽1 𝑥𝑖 ; 𝜎 2

Suponemos que el error 𝑢 es homogéneo a lo largo de la recta: su varianza es


constante (homocedasticidad)

ESTADÍSTICA BÁSICA 33
El “modelo de regresión simple”

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 𝑢 ∼ 𝑁(0, 𝜎 2 )

Para estimar el modelo tenemos que estimar 𝛽0 , 𝛽1 y 𝜎 2

Como ya hemos viso antes, dada la muestra 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, . . , 𝑛, estimamos 𝛽0 , 𝛽1


usando el método de mínimos cuadrados. Obtenemos así 𝛽�0 y 𝛽�1 .

𝑐𝑐𝑐(𝑥, 𝑦)
𝛽̂1 = 𝛽̂0 = 𝑦� − 𝛽̂1 𝑥̅
𝑠𝑥2

Con estas estimaciones, ‘estimamos’ el término de error, que denominamos


RESIDUO:

𝑒𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 ; 𝑖 = 1, … , 𝑛

Se estima entonces 𝜎 2 con el siguiente estimador, denominado varianza residual:

𝑛 2
∑𝑖=1 𝑒𝑖
𝑆̂𝑅2 =
𝑛−2

Se puede demostrar que es insesgado.

ESTADÍSTICA BÁSICA 34
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Vamos a construir un modelo de regresión simple que prediga la nota
de QG1 a partir de la de ICS para la población de la que procede nuestra
muestra.

Primero de todo debemos visualizar la


relación. Si es lineal, tendrá sentido estimar
los coeficientes de mínimos cuadrados (lo
haremos con ordenador)
• Los alumnos que tienen un 11 en ICS tienen, por término medio, un 3.89 + 0.637 × 11 =
10.9 en QG1. Y si en ICS tienen un 18, en QG1 tienen, por término medio, 15.4.

• Dada la calificación de ICS, la de QG1 es la variable aleatoria


�2 = 1.899432
QG1 ∼ 𝑁 3.89 + 0.637 ICS;σ

• ¿Cuál es la probabilidad de que un alumno que tiene 17 en ICS tenga más de 15 en QG1?

• ¿Qué nota media tendrán en QG1 los alumnos que tienen 0 en ICS?
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Tiene también las variables de Peso y Altura de los estudiantes.
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura?

¿A mayor altura es más fácil


aprobar?
¿A mayor peso, más nota en
ICS?

ICS=𝛽0 + 𝛽1 PESO+u ¿No sería más lógico que 𝛽1 = 0?

(Lo que nos da el ordenador no es 𝛽1 sino 𝛽�1 )


ESTADÍSTICA BÁSICA 37
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que
invirtieron los estudiantes en realizar un avión de papel.
¿Los altos son más torpes haciendo aviones?

TIEMPO=𝛽0 + 𝛽1 ALTURA+u ¿No sería más lógico que 𝛽1 = 0?

ESTADÍSTICA BÁSICA 38
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 39
5. Inferencia en regresión simple

De todos los temas que podemos ver sobre inferencia en regresión simple, nos
centraremos en aprender a contrastar si la variable 𝑋 es o no relevante para explicar
la variabilidad de la variable de salida 𝑌

Si la variable X es relevante: 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑢 (𝛽1 ≠ 0)

Si la variable X es irrelevante: 𝑌 = 𝛽0 + 𝑢 (𝛽1 = 0)

Como lo único que tendremos es la recta estimada


𝑌 = 𝛽̂0 + 𝛽̂1 𝑋 + 𝑒

Necesitaremos usar esta estimación para contrastar la hipótesis

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0

Este contraste se denomina contraste de significatividad individual

ESTADÍSTICA BÁSICA 40
5. Inferencia en regresión simple

Contaste de significatividad individual:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
• Estadístico de contraste:

𝛽�1 𝑆𝑥 𝑛
𝑡=
𝑆̂𝑅
• Distribución de referencia

• Para 𝑢 normal: 𝑡𝑛−2


• Si 𝑛 es grande (típicamente 𝑛 > 100), es la 𝑁 0,1
y no es necesario que 𝑢 sea normal

• La región de rechazo es a dos colas. Los ordenadores nos proporcionan el p-valor

Rechazo H0 Rechazo H0

Acepto H0

− zα / 2 zα / 2
−tn −1;α / 2 tn −1;α / 2

ESTADÍSTICA BÁSICA 41
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y
QG1. Tiene también las variables de Peso y Altura de los estudiantes.
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura?

Como era lógico, las variables no son significativas. El coeficiente


estimado no nulo se debe al azar del muestreo

ESTADÍSTICA BÁSICA 42
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que
invirtieron los estudiantes en realizar un avión de papel.
¿Los altos son más torpes haciendo aviones?

Como era lógico, la variable no es significativa. El coeficiente


estimado no nulo se debe al azar del muestreo.

ESTADÍSTICA BÁSICA 43
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 44
6. Diagnosis del modelo

La regresión para predecir y a partir de x será buena idea si:

Gráficos

1. La relación entre x e y es lineal


2. La relación es significativa, y cuanto más fuerte mejor
3. Las perturbaciones son normales

• Correlación y
Análisis de normalidad Coeficiente de
sobre los residuos determinación R2
• Contaste de
significatividad

ESTADÍSTICA BÁSICA 45
6. Diagnosis del modelo

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal


1.1 Gráfico xy
1.2 Gráfico de predicciones vs observaciones
1.3 Gráfico de residuos vs valores previstos

1.1 Gráfico xy

Datos: parqueeolico.sf3

Este simple gráfico xy nos


dice que no hay relación
lineal. La regresión va a
predecir mal

ESTADÍSTICA BÁSICA 46
6. Diagnosis del modelo

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal


1.1 Gráfico xy
1.2 Gráfico de predicciones vs observaciones
1.3 Gráfico de residuos vs valores previstos

1.2 Gráfico de predicciones frente a observaciones

Hay No hay
linealidad linealidad

Parqueeolico.sf3: queremos explicar


Cardata.sf: queremos explicar mpg la energía generada en función de la
(millas por galón) en función del peso velocidad del viento)
(weight)

ESTADÍSTICA BÁSICA 47
6. Diagnosis del modelo

1.3 Gráfico de residuos frente a valores previstos

Es la representación gráfica más importante para evaluar una regresión

Valores Valores
observados previstos

ESTADÍSTICA BÁSICA 48
6. Diagnosis del modelo

1.3 Gráfico de residuos frente a valores previstos

Es la representación gráfica más importante para evaluar una regresión

Valores Energia-
previstos PREDICCION

ESTADÍSTICA BÁSICA 49
6. Diagnosis del modelo

Valores Energia-
previstos PREDICCION

La no linealidad es muy clara. La regresión no es adecuada.

ESTADÍSTICA BÁSICA 50
Ejemplo La variable V1 tiene la velocidad del viento registrada en la
localización 1, mientras que la variable V2 tiene las velocidades
registradas en esos mismos instantes en la localización 2. Se
tiene un total de 115 pares de medidas

Vˆ2 = 0.657 + 1.045 × V1

Estos residuos no
muestran ninguna
estructura evidente. Es
señal de que el modelo
lineal es adecuado

ESTADÍSTICA BÁSICA 51
Estos gráficos de residuos SÍ son aceptables

Estos gráficos de residuos NO son aceptables

ESTADÍSTICA BÁSICA 52
Algunos tipos de no linealidades se pueden
corregir transformando la variable

Esta curva es la que nos


gustaría usar como
resumen de la relación…
… Pero la técnica de regresión
simple sólo nos proporciona
este tipo de soluciones

Buscamos otras variables


y*=f(y) , x*=g(x) tales
x
que entre ellas haya
relación lineal

ESTADÍSTICA BÁSICA 53
53
Buscamos una
transformación que
‘enderece’ la nube
de puntos

Si c<1, los valores más


Si c>1, el efecto es el opuesto:
grandes se comprimen más.
y=a+bxc En este caso, aplicado sobre
los valores más grandes se
expanden más. En este caso,
X ‘enderezamos’ la
aplicado sobre Y también
yc=a+bx curvatura.
‘enderezamos’ la curvatura.

y=a+bxc
c=0.5 ¡perfecto! c=0.1 nos hemos pasado!!
c=0.9 insuficiente

y y y

x0.9 x0.5 x0.1


ESTADÍSTICA BÁSICA 54
54
Y

•Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos)

ESTADÍSTICA BÁSICA 55
55
6. Diagnosis del modelo

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal


2. La relación es significativa y cuanto más fuerte mejor

Correlación y
Coeficiente de
determinación R2

A mayor 𝑅 2 menor varianza residual

• Entre 0 y 1

• El coeficiente de determinación nos dice qué proporción de


la dispersión de la variable respuesta y viene explicada por
la recta de la regresión

ESTADÍSTICA BÁSICA 56
6. Diagnosis del modelo

• La normalidad es importante para calcular probabilidades sobre valores previstos,


pues se basan en la normal.

• Si n es grande, la estimación y los contrastes son válidos (si podemos asumir la


linealidad), aunque no se tenga normalidad

Suele ser entonces suficiente con hacer un histograma y ver que la


distribución es unimodal y no se aleja mucho de la normalidad

esta asimetría puede ser


porque no hemos resuelto
bien la linealidad, o por
valores atípicos

ESTADÍSTICA BÁSICA 57
Tema 9: Regresión simple

1. Gráficos de dispersión.
2. Medidas de relación lineal
3. La recta de regresión simple.
4. El modelo de regresión simple.
5. Inferencia en regresión simple
6. Diagnosis del modelo de regresión.
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 58
7. Regresión con variables binarias.

Una variable binaria o dicotómica es aquella que toma sólo dos valores. Vamos a asumir que son 1 y 0.

Esta variable se puede usar para definir la presencia/ausencia de una atributo o la pertenencia/no
pertenencia a un grupo.

Es una variable cuantitativa, y en regresión se usa igual que el resto de variables.

Ejemplo: El fichero AlumnosIndustriales tiene la variable sexo: 1 si el estudiante es


chico y 0 si es chica. ¿Explica la altura?

ESTADÍSTICA BÁSICA 59
7. Regresión con variables binarias.

Altura=165.313+14.0367 sexo+e

La interpretación ‘habitual’ de la regresión es:


Si la variable sexo aumenta en una unidad, la altura media aumenta en
14 cm

Al ser una variable binaria, el coeficiente mide la


diferencia de los individuos con valor 1 respecto
a los que tienen valor 0

ESTADÍSTICA BÁSICA 60
7. Regresión con variables binarias.

Podemos separar el modelo en dos: uno para cada valor de la variable binaria

Altura=165.313+14 sexo+e

Para sexo=0: Para sexo=1:

E(Altura|chica)=165.313+14.0367 x0=165.313 cm E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm

Para cada ‘grupo’, el modelo estima la media de la variable


dependiente

El resultado es exactamente igual a si calculamos la media muestral de cada grupo...

ESTADÍSTICA BÁSICA 61
7. Regresión con variables binarias.

Podemos separar el modelo en dos: uno para cada valor de la variable binaria

Altura=165.313+14 sexo+e

Para sexo=0: Para sexo=1:

E(Altura|chica)=165.313+14.0367 x0=165.313 cm E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm

Para cada ‘grupo’, el modelo estima la media de la variable


dependiente

El resultado es exactamente igual a si calculamos la media muestral de cada grupo...

...con la ventaja de que el p-valor nos dice si la diferencia es significativa

ESTADÍSTICA BÁSICA 62
7. Regresión con variables binarias.

ESTADÍSTICA BÁSICA 63
Ahora los ‘valores previstos’ es la media de cada grupo: sólo tiene dos valores
diferentes

ESTADÍSTICA BÁSICA 64
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, el dinero
que gastaron los estudiantes en el fin de semana, el tiempo que tardaron en
realizar un avión de papel, y el tiempo de vuelo de ese avión, en segundos.
También se tiene la variable Sexo: 1 para chicos y 0 para chicas. hay
diferencias significativas entre chicos y chicas en dichas variables?

Por término medio, los chicos se gastan


casi 18 soles más que las chicas los fines
de semana

Las diferencias no son


significativas. Clasificar a la
muestra en chicos y chicas no es
relevante.

ESTADÍSTICA BÁSICA 65

También podría gustarte