Está en la página 1de 42

Regresión lineal simple

Miércoles 26 de septiembre

Carmen Le Foulon

Análisis de Datos Polı́ticos - ICP 0502


Hoy veremos

1. Varios

2. Métodos de Mı́nimos Cuadrados Ordinarios

1
Varios
Control 1 y 2

• Control 1: bajo logro.


• Si bien, ejercicios similares a ejercicios guı́a y hechos en clase.
• Por ello: control 2 será acumulativo.
• Nota control 1 se podrá reemplazar por la del Control 2: sólo
quienes completen en forma individual guı́a de Webcursos.

2
Guı́a de ejercicios

• Se encuentra disponible en Webcurso.


• SOLO QUIENES ENTREGUEN ESTA GUÍA RESPONDIDA EN
FORMA COMPLETA, INDIVIDUAL Y EN FORMA ESCRITA (A
MANO) TENDRÁN LA OPCIÓN DE REEMPLAZAR LA NOTA
DEL CONTROL 1 POR EL CONTROL 2.
• Fecha y hora entrega: lunes 1 de octubre, 15:30hrs a la profesora al
inicio de la clase.
• Si se opta por reemplazar: Control 2 ponderará 15 %.
• Se entiende que si Nota C1 > Nota C2, no se reemplaza y se
mantienen ambas notas.

3
Hemos visto en inferencia

• Intervalos de confianza de proporciones y medias.


• Pruebas de hipótesis: diferencias de medias o proporciones entre dos
grupos.
• Pruebas de asociación entre variables categóricas

4
Lo que veremos el resto del semestre

• Determinar el efecto de variables explicativas en una variable


cuantitativa a explicar.
• En la terminologı́a tradicional: explicar una variable dependiente por
medio de variables independientes.
• En particular, vamos a decir que una variable explicada (Y) es
función de una o más variables explicativas, (Xs).

5
Lo que veremos el resto del semestre

• Entonces: Y=f(X).
• Esa función es la función de la recta.
• Además, vamos a suponer que hay una relación verdadera, es decir,
en la población, entre la variable explicada y las explicativas.
• Lo que buscamos es estimar esa función, en particular, los
parámetros de esa función.

6
Lo que veremos el resto del semestre

• Entonces: Y=f(X).
• Esa función es la función de la recta.
• Además, vamos a suponer que hay una relación verdadera, es decir,
en la población, entre la variable explicada y las explicativas.
• Lo que buscamos es estimar esa función, en particular, los
parámetros de esa función.

7
Repasando: Ecuación de la recta

Ecuación de la recta: Y = a + bX

8
Repasando: Ecuación de la recta

Ecuación de la recta: Y = a + bX

9
Repasando: Ecuación de la recta

Ecuación de la recta: Y = a + bX

10
Estimar la relación entre Y y Xs

• Suponemos una relación verdadera, es decir, poblacional, entre la


variable explicada y las explicativas.
• Lo que buscamos es estimar esa función, en particular, los
parámetros de esa función: a y b.
• Llamaremos coeficientes a los parámetros de la función de la recta.
• El método que utilizaremos para estimar esos coeficientes es el
método de mı́nimos cuadrados ordinarios.

11
Métodos de Mı́nimos Cuadrados
Ordinarios
¿Cuál es la relación entre mortalidad infantil y
libertad de expresión?

América Latina y el Caribe (2012)

12
Buscamos encontrar una recta que explique la relación

Tenemos muchas alternativas

13
Buscamos encontrar una recta que explique la relación

Tenemos muchas alternativas

14
Buscamos encontrar una recta que explique la relación

Tenemos muchas alternativas

15
Buscamos encontrar una recta que explique la relación

Tenemos muchas alternativas, cómo elegimos la ”mejor”

16
Buscamos encontrar una recta que explique la relación

• ¿Cómo elegimos la mejor?


• Qué método usamos para elegirla.
• Vamos a decir que mejor es aquella que pasa más cerca de todos los
puntos
• ¿Cómo definimos cerca?
• Diferencia entre el valor predicho por la recta y el valor observado

17
Residuo: diferencia entre el predicho y observado

18
Residuo: diferencia entre el predicho y observado

19
Método para encontrar la mejor recta

• La mejor recta es aquella que minimiza la suma de los residuos, AL


CUADRADO
• ¿Qué implica al cuadrado?
• Es una suma: al cuadrado es siempre positivo
• Mayor peso a las observaciones que éstan más lejos

20
Métodos de Mínimos Cuadrados
Ordinarios
• Mejor recta: aquella que minimiza la suma de los
residuos al cuadrado

• Por lo tanto, tenemos que encontrar los valores de a


y b que minimicen la suma de los residuos al
cuadrado.
Métodos de Mínimos Cuadrados
Ordinarios
• Residuo: la diferencia entre el valor observado y el
predicho por la regresión: 𝑟𝑖

• Valor observado: valor de 𝑦 que observo en mis


datos: 𝑦𝑖

• Valor predicho: el valor que obtengo de aplicar la


función al 𝑥𝑖 : 𝑦i = 𝑎 + 𝑏𝑥𝑖 .
Practiquemos:
Probando para a=5 y b=2:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖
Valor observado Valor Residuo
𝒚𝒊 𝒙𝒊 predicho 𝒓𝒊
𝒚𝒊

27 10
16 8
28 13
21 6
Practiquemos:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖
Valor Valor Residuo
observado 𝒙 predicho 𝒓
𝒚 𝒚

27 10 25 2
16 8 21 -5
28 13 31 -3
21 6 17 4
Practiquemos:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖

Valor Valor Residuo al


observado 𝒙𝒊 predicho Residuo cuadrado
𝒚𝒊 𝒚𝒊 𝒓𝒊 𝒓𝟐𝒊

27 10 25 2 4
16 8 21 -5 25
28 13 31 -3 9
21 6 17 4 16
Métodos de Mínimos Cuadrados
Ordinarios
• Pero no conocemos los valores de a y b.

• Una opción es probar con todos los valores posibles


de a y b….
Métodos de Mínimos Cuadrados
Ordinarios
• Pero no conocemos los valores de a y b.

• Una opción es probar con todos los valores posibles


de a y b….
Métodos de Mínimos Cuadrados
Ordinarios
• Encontramos un estimador – una función de los datos.

• Cómo: en base a nuestra definición de la mejor recta:


aquella que minimiza la suma de los residuos al cuadrado

• Por lo tanto, tenemos que encontrar los estimadores de


a y b que minimicen la suma de los residuos al cuadrado.

𝑛 𝑛
SRC = 𝑖=1(𝑦𝑖 − 𝑦𝑖 )2 = 𝑖=1(𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 )2
Métodos de Mínimos Cuadrados Ordinarios
Buscamos a y b, tal que minimicen:
SRC = 𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖 )2 = 𝑛𝑖=1(𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 )2

Para minimizar:
• Se igualan las primeras derivadas a 0:

𝜕(𝑆𝑅𝐶) 𝑛
= 𝑖=1 −2∗(𝑦𝑖 −𝑎 − 𝑏𝑥𝑖 ) = 0
𝜕𝑎

𝜕(𝑆𝑅𝐶) 𝑛
𝜕𝑏
= 𝑖=1 2∗−𝑥𝑖 ∗ (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
Derivando los coeficientes
Resolviendo el sistema de ecuaciones, se obtiene:

a = 𝑦 - b𝑥

𝑏=

Por lo tanto, esta es la fórmula de los coeficientes


de la recta que minimizan la suma de la distancia al
cuadrado entre los valores observados y los valores
predichos.
Practiquemos:
𝑦 = 23, 𝑥 = 9.25
𝒚𝒊 𝒙𝒊 (𝒙𝒊 − 𝒙) (𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙)*(𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙) 𝟐

27 10 0,75 4 3 0,5625
16 8 -1,25 -7 8,75 1,5625
28 13 3,75 5 18,75 14,0625
21 6 -3,25 -2 6,5 10,5625
Suma: 37 26,75

b=
b = 37/26.75=1.383
a= 𝑦 - b𝑥 = 23- 9.25*1.383=10.205
Para los coeficientes obtenidos por MCO
Propiedades algebraicas
• Propiedades algebraicas son propiedades que se derivan
de la forma cómo calculamos los coeficientes. Es decir, se
derivan del método que usamos.

• En particular, se pueden derivar de las llamadas


“ecuaciones normales”: las primeras derivadas igualadas
a cero.

• Debido a que son propiedades que se derivan de la


forma en que se obtienen los coeficientes, son
propiedades de los coeficientes obtenidos por MCO

• Es decir: SIEMPRE SE CUMPLEN.


Para los coeficientes obtenidos por MCO
Propiedades algebraicas
• La recta pasa por las medias de x e y:
𝑦 = a + b𝑥

• La suma de los residuos es siempre cero.


𝑟𝑖 = 0

• La suma de la multiplicación de los residuos


por la variable x es siempre cero
𝑥𝑖 ∗ 𝑟𝑖 = 0
Hasta ahora
• SÓLO HEMOS DESCRITO
• Por lo tanto:
– Las propiedades algebraicas SIEMPRE SE
CUMPLEN
– Siempre podemos estimar una regresión, sin
importar lo “tonta” que sea la relación.
Por ejemplo….con R2=.44
Función poblacional
• Ahora, buscamos estimar una función
poblacional a través de una muestra de datos.
• Para ello, debemos realizar una serie de
supuestos.
Supuestos del Modelo Clásico de
Regresión
Supuestos del modelo clásico de
regresión

• La teoría describe una relación deterministica entre la


variable dependiente y las independientes.

• Los supuestos describen la forma del modeloy la


relación entre sus distintos componentes.

• Supuestos sobre como los datos fueron generados, es


decir, del proceso generador de datos subyacentes.
Supuestos del
modelo clásico de regresión
1. Linealidad en los parámetros:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜇
2. Rango completo
3. Media condicional del error igual a cero: 𝐸 𝜇 𝑥 = 0
4. Variables explicativas no estocásticas (situación
experimental). En datos observacionales:
– 𝐸 𝜇 𝑥 = 0, muestreo aleatorio, y sin error de medición.
5. Homocedasticidad: cada error 𝑢𝑖 tiene la misma
varianza finita

También podría gustarte