Está en la página 1de 44

ESTADÍSTICA AVANZADA

7
1
REGRESIÓN LINEAL
Es para fines de predicción. Es importante considerar que
generalmente existen entre dos o más variables.

El conjunto de puntos 𝑥, 𝑦 que se relacionan a través de


un sistema de coordenadas rectangulares, recibe el nombre
de Diagrama de Dispersión.
Ejemplo: La siguiente tabla relaciona el peso y la estatura en un grupo
de 10 personas.

A partir del Diagrama de Dispersión, es posible visualizar una curva


que aproxima los datos, esta curva se llama Curva Aproximante.
Tipos de Regresión Lineal

Relación Lineal Positiva Relación No Lineal

Relación Lineal Negativa No Existe Relación


Ejemplos de cada una de las relaciones:

a)

b)

c)

d)
a)
b)
c)
d)
Llamaremos ajuste de curvas, al problema de hallar
ecuaciones de curvas aproximantes que se ajustan a un
conjunto de datos.
Variable
Dependiente
REGRESIÓN
Variable
Independiente
Los tipos más comunes de curvas aproximantes y sus
ecuaciones son:
𝐿𝑖𝑛𝑒𝑎 𝑅𝑒𝑐𝑡𝑎 → 𝑦 = 𝑎0 + 𝑎1 𝑥
𝑃𝑎𝑟á𝑏𝑜𝑙𝑎 → 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2
𝐶𝑢𝑟𝑣𝑎 𝐶ú𝑏𝑖𝑐𝑎 → 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3

Observaciones:
1) Para decidir qué curva utilizar, es útil mirar el Diagrama
de Dispersión, con ella se tiene una idea aproximada de
la relación entre las variables.

2) Para evitar juicios subjetivos al construir rectas,


parábolas u otras curvas aproximantes de ajuste de
datos, se utiliza el método de Mínimos Cuadrados.
Una medida de bondad de ajuste de la curva a los datos
dados, está proporcionada por la expresión:
2 2 2 2
𝐷 + 𝐷 + 𝐷 + ⋯ … … … . . +𝐷
1 2 3 𝑛
Curva de Ajuste Mínimo
De todas las curvas que aproximan un conjunto de datos, la
que tiene la propiedad que:
2 2 2 2
𝐷 + 𝐷 + 𝐷 + ⋯ … … … . . +𝐷 es mínimo.
1 2 3 𝑛
Estas diferencias: 𝐷𝑖 ; 𝑖 = 1; … . ; 𝑛 pueden ser positivas,
negativas o iguales a cero.
Curva Mínimos Cuadrados
Es cuando una curva cumple con la condición que:

2 2 2 2
𝐷 + 𝐷 + 𝐷 + ⋯ … … … . . +𝐷 sea mínimo.
1 2 3 𝑛
La Recta de los Mínimos Cuadrados
El análisis de Regresión Lineal Simple, tiene por objetivo
encontrar la línea recta que mejor se ajuste a los datos.
La recta de mínimos cuadrados que aproxima el conjunto
de puntos: 𝑥1 ; 𝑦1 , 𝑥2 ; 𝑦2 , … … . , 𝑥𝑛 ; 𝑦𝑛 tiene por
ecuación de la recta 𝑦 = 𝑎0 + 𝑎1 𝑥; donde las constantes
𝑎0 y 𝑎1 , se encuentran al resolver el sistema de ecuación:

෍ 𝑦 = 𝑎0 𝑛 + 𝑎1 ෍ 𝑥

෍ 𝑥𝑦 = 𝑎0 ෍ 𝑥 + 𝑎1 ෍ 𝑥 2

Se denominan Ecuaciones Normales para la recta de


Números Cuadrados.
Otra forma para encontrar las constantes 𝑎0 ; 𝑎1 , es a
través de la expresión:

𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑎1 = ; 𝑎0 = 𝑦ത − 𝑎1 𝑥ҧ
𝑛 σ 𝑥2 − σ 𝑥 2

𝑥ҧ ; 𝑦ത corresponden a la media de los datos.


Si se toma 𝑥 coma la variable dependiente, la recta toma la
forma: 𝑥 = 𝑏0 + 𝑏1 𝑦 ; con lo cual, las Ecuaciones
Normales, serian:
෍ 𝑥 = 𝑏0 𝑛 + 𝑏1 ෍ 𝑦

෍ 𝑥𝑦 = 𝑏0 ෍ 𝑦 + 𝑏1 ෍ 𝑦 2

𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑏1 = ; 𝑏0 = 𝑥ҧ − 𝑏1 𝑦ത
𝑛 σ 𝑦2 − σ 𝑦 2
Ejemplo: Encuentre la recta de números cuadrados,
considerando:
a) 𝑥 como variable independiente.
b) 𝑥 como variable dependiente.
Esto considerando la siguiente tabla:
Curva de Regresión

Denominaremos Curva de Regresión de 𝑦 sobre 𝑥, cuando


se estima 𝑦, a partir de 𝑥.

Ejemplo: Considerando el ejemplo anterior, encuentre la


curva de regresión.
Centroide
Las intersección de las rectas de regresión:
𝑦 = 𝑎0 + 𝑎1 𝑥 y 𝑥 = 𝑏0 + 𝑏1 𝑦
recibe el nombre de Centroide, el cual se denota por 𝑥,ҧ 𝑦ത
donde:
σ𝑥 σ𝑦
𝑥ҧ = 𝑛
; 𝑦ത = 𝑛
Ejemplo: ¿Cuál es el centroide (si hay) del ejemplo de la
clase anterior?
Observaciones: El método de regresión responde a tres
objetivos:

1) Si ambas variables están relacionadas.


2) Encontrar que tipo de relación (si existe), las une.
3) Predecir los valores de una variable a partir de valores
conocidos de la otra.

Por ello, conocer el grado de relación existente entre ambas


variables, permitirá saber si la predicción realizada con el
modelo matemático establecido es buena o mala.
Coeficiente de Correlación Lineal (r de Pearson)
Ayuda a medir el grado de relación existente entre la
variable independiente y la variable dependiente, su cálculo
está dado por:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
Análisis de Residuos
El Análisis de Residuos, sirve para verificar si el Modelo
Lineal, es el que mejor se ajusta a los datos.

Se define un residuo 𝑒𝑖 como la diferencia entre el valor


observado 𝑦 y el valor determinado 𝑦, ො es decir:
𝑒𝑖 = 𝑦𝑖 − 𝑦 ′
𝑖

donde 𝑦𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜; 𝑦 = 𝑉𝑎𝑙𝑜𝑟 𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜
𝑖
Permite llegar a conclusiones, como:
1) La Función de Regresión Lineal.
2) La Función de Regresión No Lineal.
3) El modelo de RL se ajusta a todas, excepto una o varias
observaciones atípicas.
Análisis de Estudio de
Residuos Gráficos
A modo de orientación:
Este es un caso típico en
el cual el modelo lineal es
adecuado
Muestra una
desviación clara de
linealidad.
La figura muestra una
observación atípica, se
escapa del modelo lineal
que tienen los otros
datos.
Ejemplo: Dada la siguiente tabla y la recta de regresión de 𝑦
sobre 𝑥.

𝑦 = 35,82 + 0,467𝑥

Con lo anterior, determine:

a) Los valores estimados de 𝑦.


b) Los residuos 𝑒𝑖 para cada caso.
c) Represente gráficamente los residuos.
d) ¿Qué puede concluir de este gráfico?
a) Los valores estimados de 𝑦.
b) Los residuos 𝑒𝑖 para cada caso.
42
c) Represente gráficamente los residuos.
d) ¿Qué puede concluir de este gráfico?

También podría gustarte