AD 2018 Clase 12s

Regresión lineal simple
Miércoles 26 de septiembre
Carmen Le Foulon
Análisis de Datos Polı́ticos - ICP 0502

Hoy veremos
1. Varios
2. Métodos de Mı́nimos Cuadrados Ordinarios
1
Varios
Control 1 y 2
• Control 1: bajo logro.

• Si bien, ejercicios similares a ejercicios guı́a y hechos en clase.
• Por ello: control 2 será acumulativo.
• Nota control 1 se podrá reemplazar por la del Control 2: sólo
quienes completen en forma individual guı́a de Webcursos.
2
Guı́a de ejercicios
• Se encuentra disponible en Webcurso.

• SOLO QUIENES ENTREGUEN ESTA GUÍA RESPONDIDA EN
FORMA COMPLETA, INDIVIDUAL Y EN FORMA ESCRITA (A
MANO) TENDRÁN LA OPCIÓN DE REEMPLAZAR LA NOTA
DEL CONTROL 1 POR EL CONTROL 2.
• Fecha y hora entrega: lunes 1 de octubre, 15:30hrs a la profesora al
inicio de la clase.
• Si se opta por reemplazar: Control 2 ponderará 15 %.
• Se entiende que si Nota C1 > Nota C2, no se reemplaza y se
mantienen ambas notas.
3
Hemos visto en inferencia
• Intervalos de confianza de proporciones y medias.

• Pruebas de hipótesis: diferencias de medias o proporciones entre dos
grupos.
• Pruebas de asociación entre variables categóricas
4
Lo que veremos el resto del semestre
• Determinar el efecto de variables explicativas en una variable

cuantitativa a explicar.
• En la terminologı́a tradicional: explicar una variable dependiente por
medio de variables independientes.
• En particular, vamos a decir que una variable explicada (Y) es
función de una o más variables explicativas, (Xs).
5
• Entonces: Y=f(X).
• Esa función es la función de la recta.
• Además, vamos a suponer que hay una relación verdadera, es decir,
en la población, entre la variable explicada y las explicativas.
• Lo que buscamos es estimar esa función, en particular, los
parámetros de esa función.
6
• Entonces: Y=f(X).
• Esa función es la función de la recta.
• Además, vamos a suponer que hay una relación verdadera, es decir,
en la población, entre la variable explicada y las explicativas.
parámetros de esa función.
7
Repasando: Ecuación de la recta
Ecuación de la recta: Y = a + bX
8
9
10
Estimar la relación entre Y y Xs
• Suponemos una relación verdadera, es decir, poblacional, entre la

variable explicada y las explicativas.
parámetros de esa función: a y b.
• Llamaremos coeficientes a los parámetros de la función de la recta.
• El método que utilizaremos para estimar esos coeficientes es el
método de mı́nimos cuadrados ordinarios.
11
Métodos de Mı́nimos Cuadrados
Ordinarios
¿Cuál es la relación entre mortalidad infantil y
libertad de expresión?
América Latina y el Caribe (2012)
12
Buscamos encontrar una recta que explique la relación
Tenemos muchas alternativas
13
14
15
Tenemos muchas alternativas, cómo elegimos la ”mejor”
16
• ¿Cómo elegimos la mejor?

• Qué método usamos para elegirla.
• Vamos a decir que mejor es aquella que pasa más cerca de todos los
puntos
• ¿Cómo definimos cerca?
• Diferencia entre el valor predicho por la recta y el valor observado
17
Residuo: diferencia entre el predicho y observado
18
Residuo: diferencia entre el predicho y observado
19
Método para encontrar la mejor recta
• La mejor recta es aquella que minimiza la suma de los residuos, AL

CUADRADO
• ¿Qué implica al cuadrado?
• Es una suma: al cuadrado es siempre positivo
• Mayor peso a las observaciones que éstan más lejos
20
Métodos de Mínimos Cuadrados
Ordinarios
• Mejor recta: aquella que minimiza la suma de los
residuos al cuadrado
• Por lo tanto, tenemos que encontrar los valores de a

y b que minimicen la suma de los residuos al
cuadrado.
Ordinarios
• Residuo: la diferencia entre el valor observado y el
predicho por la regresión: 𝑟𝑖
• Valor observado: valor de 𝑦 que observo en mis

datos: 𝑦𝑖
• Valor predicho: el valor que obtengo de aplicar la

función al 𝑥𝑖 : 𝑦i = 𝑎 + 𝑏𝑥𝑖 .
Practiquemos:
Probando para a=5 y b=2:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖
Valor observado Valor Residuo
𝒚𝒊 𝒙𝒊 predicho 𝒓𝒊
𝒚𝒊
27 10
16 8
28 13
21 6
Practiquemos:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖
Valor Valor Residuo
observado 𝒙 predicho 𝒓
𝒚 𝒚
27 10 25 2
16 8 21 -5
28 13 31 -3
21 6 17 4
Practiquemos:
𝑦𝑖 = 5 + 2 ∗ 𝑥𝑖
Valor Valor Residuo al

observado 𝒙𝒊 predicho Residuo cuadrado
𝒚𝒊 𝒚𝒊 𝒓𝒊 𝒓𝟐𝒊
27 10 25 2 4
16 8 21 -5 25
28 13 31 -3 9
21 6 17 4 16
Ordinarios
• Pero no conocemos los valores de a y b.
• Una opción es probar con todos los valores posibles

de a y b….
Ordinarios
• Pero no conocemos los valores de a y b.
• Una opción es probar con todos los valores posibles

de a y b….
Ordinarios
• Encontramos un estimador – una función de los datos.
• Cómo: en base a nuestra definición de la mejor recta:

aquella que minimiza la suma de los residuos al cuadrado
• Por lo tanto, tenemos que encontrar los estimadores de

a y b que minimicen la suma de los residuos al cuadrado.
𝑛 𝑛
SRC = 𝑖=1(𝑦𝑖 − 𝑦𝑖 )2 = 𝑖=1(𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 )2
Métodos de Mínimos Cuadrados Ordinarios
Buscamos a y b, tal que minimicen:
SRC = 𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖 )2 = 𝑛𝑖=1(𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 )2
Para minimizar:
• Se igualan las primeras derivadas a 0:
𝜕(𝑆𝑅𝐶) 𝑛
= 𝑖=1 −2∗(𝑦𝑖 −𝑎 − 𝑏𝑥𝑖 ) = 0
𝜕𝑎
𝜕(𝑆𝑅𝐶) 𝑛
𝜕𝑏
= 𝑖=1 2∗−𝑥𝑖 ∗ (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
Derivando los coeficientes
Resolviendo el sistema de ecuaciones, se obtiene:
a = 𝑦 - b𝑥
𝑏=
Por lo tanto, esta es la fórmula de los coeficientes

de la recta que minimizan la suma de la distancia al
cuadrado entre los valores observados y los valores
predichos.
Practiquemos:
𝑦 = 23, 𝑥 = 9.25
𝒚𝒊 𝒙𝒊 (𝒙𝒊 − 𝒙) (𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙)*(𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙) 𝟐
27 10 0,75 4 3 0,5625
16 8 -1,25 -7 8,75 1,5625
28 13 3,75 5 18,75 14,0625
21 6 -3,25 -2 6,5 10,5625
Suma: 37 26,75
b=
b = 37/26.75=1.383
a= 𝑦 - b𝑥 = 23- 9.25*1.383=10.205
Para los coeficientes obtenidos por MCO
Propiedades algebraicas
• Propiedades algebraicas son propiedades que se derivan
de la forma cómo calculamos los coeficientes. Es decir, se
derivan del método que usamos.
• En particular, se pueden derivar de las llamadas

“ecuaciones normales”: las primeras derivadas igualadas
a cero.
• Debido a que son propiedades que se derivan de la

forma en que se obtienen los coeficientes, son
propiedades de los coeficientes obtenidos por MCO
• Es decir: SIEMPRE SE CUMPLEN.

Para los coeficientes obtenidos por MCO
Propiedades algebraicas
• La recta pasa por las medias de x e y:
𝑦 = a + b𝑥
• La suma de los residuos es siempre cero.

𝑟𝑖 = 0
• La suma de la multiplicación de los residuos

por la variable x es siempre cero
𝑥𝑖 ∗ 𝑟𝑖 = 0
Hasta ahora
• SÓLO HEMOS DESCRITO
• Por lo tanto:
– Las propiedades algebraicas SIEMPRE SE
CUMPLEN
– Siempre podemos estimar una regresión, sin
importar lo “tonta” que sea la relación.
Por ejemplo….con R2=.44
Función poblacional
• Ahora, buscamos estimar una función
poblacional a través de una muestra de datos.
• Para ello, debemos realizar una serie de
supuestos.
Supuestos del Modelo Clásico de
Regresión
Supuestos del modelo clásico de
regresión
• La teoría describe una relación deterministica entre la

variable dependiente y las independientes.
• Los supuestos describen la forma del modeloy la

relación entre sus distintos componentes.
• Supuestos sobre como los datos fueron generados, es

decir, del proceso generador de datos subyacentes.
Supuestos del
modelo clásico de regresión
1. Linealidad en los parámetros:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜇
2. Rango completo
3. Media condicional del error igual a cero: 𝐸 𝜇 𝑥 = 0
4. Variables explicativas no estocásticas (situación
experimental). En datos observacionales:
– 𝐸 𝜇 𝑥 = 0, muestreo aleatorio, y sin error de medición.
5. Homocedasticidad: cada error 𝑢𝑖 tiene la misma
varianza finita

AD 2018 Clase 12s

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AD 2018 Clase 12s

Cargado por

Copyright:

Formatos disponibles

Regresión lineal simple

Análisis de Datos Polı́ticos - ICP 0502

2. Métodos de Mı́nimos Cuadrados Ordinarios

• Control 1: bajo logro.

• Se encuentra disponible en Webcurso.

• Intervalos de confianza de proporciones y medias.

• Determinar el efecto de variables explicativas en una variable

• Suponemos una relación verdadera, es decir, poblacional, entre la

América Latina y el Caribe (2012)

Tenemos muchas alternativas

Tenemos muchas alternativas

Tenemos muchas alternativas

Tenemos muchas alternativas, cómo elegimos la ”mejor”

• ¿Cómo elegimos la mejor?

• La mejor recta es aquella que minimiza la suma de los residuos, AL

• Por lo tanto, tenemos que encontrar los valores de a

• Valor observado: valor de 𝑦 que observo en mis

• Valor predicho: el valor que obtengo de aplicar la

Valor Valor Residuo al

• Una opción es probar con todos los valores posibles

• Una opción es probar con todos los valores posibles

• Cómo: en base a nuestra definición de la mejor recta:

• Por lo tanto, tenemos que encontrar los estimadores de

Por lo tanto, esta es la fórmula de los coeficientes

• En particular, se pueden derivar de las llamadas

• Debido a que son propiedades que se derivan de la

• Es decir: SIEMPRE SE CUMPLEN.

• La suma de los residuos es siempre cero.

• La suma de la multiplicación de los residuos

• La teoría describe una relación deterministica entre la

• Los supuestos describen la forma del modeloy la

• Supuestos sobre como los datos fueron generados, es

También podría gustarte