Está en la página 1de 35

ANÁLISIS DE REGRESIÓN.

REGRESIÓN LINEAL SIMPLE.

Ajuste por Mı́nimos Cuadrados.

Clase III.

Departamento de Estadı́stica
Facultad de Ciencias Fı́sicas y matemáticas
Universidad de Concepción
Prof: Marı́a José Alejandra Medina Fritz

26 de marzo de 2024

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

El análisis de regresión es utilizado con fines de predicción.

En ocasiones existe relación entre 2 o más variables

La relación entre estas variables es modelada en forma matemática.

Para encontrar la relación entre este par de variables es necesario:

Recoger la información.

Delimitar los puntos (x, y) en un sistema de coordenadas (Diagrama de


Dispersión).

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

EJEMPLO
En una muestra donde se registra el número de ventas promedio semanales,
vamos a ver si existe algún tipo de relación lineal con respecto al sueldo
promedio del vendedor.

Para ver si un modelo de regresión lineal tiene sentido, se dará


comienzo realizando un diagrama de dispersión

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

Ejemplo: la siguiente tabla muestra el tiempo en horas que un vendedor


dedica mensualmente a 10 empresas de la zona (clientes) y la cantidad
de insumos compradas en kg por estos clientes.
Tiempo mes 40 75 35 15 45 60 55 35 30 60
Cant comprada 55 65 50 35 45 50 63 62 53 64

Es deseable expresar estas relaciones en forma matemática, determinan-


do una ecuación que conecte estas variables.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

Entonces, para encontrar la ecuación que relaciona a este par de variables


debemos:
1 En primer lugar, recolectar los datos.
2 Luego, se deben delimitar los puntos (x, y) en un sistema de coordenadas.

Al conjunto de pares resultantes se les denomina Diagrama de dispersión.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

A partir de este diagrama de puntos se puede visualizar la tendencia que


siguen los datos o curva aproximada, la cual no necesariamente debe ser
lineal.

Uno de los propósitos principales, es estimar una de las variables (Variable


dependiente) en función de la otra (Variable independiente)

A este proceso de estimación se le conoce como Regresión.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


ANÁLISIS DE REGRESIÓN.
Introducción
REGRESIÓN LINEAL SIMPLE.

ANÁLISIS DE REGRESIÓN

Por lo tanto, para decidir que curva usar, es útil observar el diagrama
de dispersión.

Con el diagrama de dispersión se puede tener una idea aproximada de


la relación entre las variables. La relación más sencilla es la lineal.

A menudo, se recurre a la intuición personal para dibujar una curva que


se ajuste a un conjunto de datos. Este método tiene la desventaja de
que diferentes observadores obtendrán distintas curvas y ecuaciones.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN

En este curso, trabajaremos la curva de regresión lineal simple y múltiple.


Sin embargo, se debe tener en cuenta, que existen otros tipos de ajustes, por
ejemplo: curva cúbica, curva parabólica, entre otras.

Recta de Regresión Lineal Simple.

Y = β0 + β1 x + ,

donde, todos los valores de βi representan constantes,  es el error aleatorio,


x representa a la variable independiente e y a la variable dependiente.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN

El intercepto (β0 ), corresponde al valor que asume la variable respuesta


o dependiente “y”, cuando la predictora o independiente “x”, asume el
valor 0.

La pendiente (β1 ), es el valor en el cuál se incrementa la respuesta “y”


por cada unidad que aumenta la predictora.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN.

El método de regresión tiene 3 objetivos principales:

Predecir los valores que puede tomar una variable a partir de valores
conocidos de la otra.

Estudiar si ambas variables están relacionadas.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN.

El método de regresión tiene 3 objetivos principales:

Predecir los valores que puede tomar una variable a partir de valores
conocidos de la otra.

Estudiar si ambas variables están relacionadas.

Determinar que tipo de relación, en caso de existir, une a ambas varia-


bles.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN.

El método de regresión tiene 3 objetivos principales:

Predecir los valores que puede tomar una variable a partir de valores
conocidos de la otra.

Estudiar si ambas variables están relacionadas.

Determinar que tipo de relación, en caso de existir, une a ambas varia-


bles.

Conocer el grado de relación que existe entre 2 o más variables, permite saber
si la predicción realizada es buena o mala.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

ANÁLISIS DE REGRESIÓN.

El método de regresión tiene 3 objetivos principales:

Predecir los valores que puede tomar una variable a partir de valores
conocidos de la otra.

Estudiar si ambas variables están relacionadas.

Determinar que tipo de relación, en caso de existir, une a ambas varia-


bles.

Conocer el grado de relación que existe entre 2 o más variables, permite saber
si la predicción realizada es buena o mala.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

REPRESENTACIÓN GRÁFICA DEL MODELO DE REGRESIÓN

Para evitar juicios subjetivos al construir rectas, parábolas u otras curvas de


aproximación de ajuste de datos, se utiliza el Método de Mı́nimos Cuadrados.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

MODELO DE REGRESIÓN LINEAL

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

MODELO DE REGRESIÓN LINEAL Y MODELO DE REGRESIÓN


LINEAL AJUSTADO

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS

El análisis de regresión lineal simple tiene por objetivo encontrar la lı́nea


recta que mejor se ajuste a los datos, es decir, se quiere encontrar la lı́nea
recta que presente las diferencias más pequeñas entre el verdadero valor
de “y 00 y el valor estimado “ŷ 00 .

Es ası́, como se buscan los valores de β0 y β1 que hagan que la suma de


los residuos al cuadrado sea mı́nima

n
X n
X
2i = (yi − yˆi )2
i=1 i=1

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS

Una medida de la bondad de ajuste de la curva a los datos está dada por la
suma de la minima distancias al cuadrado:

S = 2 + 2 + . . . + 2 ,

donde,  representa la distancia entre los verdaderos valores de “y” y la


recta ajustada.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS

Estas diferencias i con i = 1, n, pueden ser positivas, negativas o iguales a


cero.

La recta que cumpla con la condición de que 2 + 2 + . . . + 2 sea mı́nimo,


será denominada Curva de Mı́nimos Cuadrados.

Mientras, más pequeña sea esta cantidad, mejor es el ajuste.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS

La recta de mı́nimos cuadrados que aproxima el conjunto de puntos


{(x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn )} tiene por ecuación:

Y = β0 + β1 X + ,

donde,

β0 y β1 , se obtienen resolviendo el siguiente sistema de ecuaciones.

X X
y = β0 × n + β1 × x
X X X 2
xy = β0 × x + β1 × x

Estas ecuaciones son denominadas ECUACIONES NORMALES para la rec-


ta de mı́nimos cuadrados.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS.

Del sistema de ecuaciones antes presentado, se deduce que:

P P P
n xy − x y
βˆ1 = P 2 P
n x − ( x)2
βˆ0 = ȳ − βˆ1 x̄.

donde, x̄ e ȳ corresponden a los promedios de los datos para x e y, respec-

tivamente.

Cabe destacar que “y” es la variable dependiente y “x” la independiente

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

AJUSTE POR MÍNIMOS CUADRADOS.

lo anteripor es equivalente a:

Sxy
βˆ1 =
Sx2

donde

Pn
i=1 xi yi
Sxy = − x̄ȳ
n

Pn
x2i
Sxx = i=1
− x̄2
n

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

REALIZACIÓN DE UN MODELO DE REGRESIÓN POR MÍNIMOS


CUADRADOS

En conclusión, para poder llevar a cabo un modelo de regresión, será


necesario:

Diagrama de Dispresión.

Elección del o los posibles modelos.

Estimación de los coeficientes.

Construcción del modelo ajustado.

Diagnóstico de los residuos del modelo.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

CURVA DE REGRESIÓN DE “x” SOBRE “y”

Si se toma “x” como la variable dependiente, la recta de regresión toma la


siguiente forma:

X = β0 + β1 Y + ,

donde, todos los valores de βi representan constantes, la variable “y” repre-


senta a la variable independiente y “x” a la variable dependiente.

Las ecuaciones normales para obtener los parámetros de “x” sobre “y” serı́an:
P P P
n xy − x y
βˆ1 = P 2 P
n y − ( y)2
βˆ0 = x̄ − βˆ1 ȳ.

Por lo general, la recta obtenida no es la misma que la de y sobre x.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

Las ecuaciones de las rectas de regresión “Y = β0 + β1 X + ” y


“X = β0 + β1 Y + ” se intersectan en el punto (x, y). Este punto es llamado
centroide, donde:

P P
xi yj
x = y y=
n n

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

βˆ0 = ȳ − βˆ1 x̄ βˆ1 = SXY


2
SX

La cantidad “βˆ1 ” se denomina Coeficiente de regresión de Y sobre X

Interpretación:

El coeficiente de regresión “βˆ1 ” se interpreta como el cambio que se pro-


duce en Y cuando X varı́a una unidad.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

COEFICIENTE DE CORRELACIÓN ρ(X, Y )

Para medir la relación que existe entre la variable dependiente e indepen-


diente, se utiliza el coeficiente de correlación lineal de Pearson ρ(X, Y ), visto
en clases anteriores:
cov(X, Y )
ρ(x, y) = ,
SX × SY
donde

SX y SY son desviaciones estándar poblacionales de X e Y , respectivamente


y la covarianza entre X e Y, se define como:.

cov(X, Y ) = E(X, Y ) − E(X) × E(Y )


= XY − X × Y ,

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

COEFICIENTE DE CORRELACIÓN ρ(x, y)

Este coeficiente, puede ser calculado además, de la siguiente forma:

P P P
n xy − x × y
r(x, y) = p P P P P ,
[n x2 − ( x)2 ] × [n y 2 − ( y)2 ]

Diremos que 2 variables son icorrelacionadas o no presentan relación, si y


sólo si, la covarianza es cero.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

COEFICIENTE DE DETEERMINACIÓN

Mide el porcentaje de variabilidad, que es explicado por la variable in-


dependiente, en el modelo.

Medida que se puede obtener de “x”, con el objetivo de reducir la varia-


bilidad de “y”.

Este coeficiente se obtiene elevando al cuadrado el coeficiente de corre-


lación (ρ2 ), y se denota como (R2 )

R2 = ρ2 (X, Y ),

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

EJEMPLO

La siguiente tabla, muestra las notas obtenidas en escala de 1 a 100, por 10


estudiantes elegidos al azar en las asignaturas de Algebra y Estadı́stica:
Notas de algebra 75 80 93 65 87 71 98 68 84 77
Notas de estadı́stica 82 78 86 72 91 80 95 72 89 74

a) Realizar un diagrama de dispersión.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

SOLUCIÓN

b) Obtener la recta de regresión de y sobre x.

Y = β0 + β1 X + ,

Para la obtención de los parámetros, es necesario el uso de las ec. nor-


males:
P P P
n xy − x y
βˆ1 = P 2 P
n x − ( x)2
βˆ0 = ȳ − βˆ1 x̄.

Se tiene desde el conjunto de datos que:


P
xi 798
x = = = 79, 8
P n 10
yi 819
y = = = 81, 9
n 10

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

SOLUCIÓN

X
xy = (75 × 82) + (80 × 98) + (93 × 86) + (65 × 72) + (87 × 91)
+ (71 × 80) + (98 × 95) + (68 × 72) + (84 × 89) + (77 × 74)
= 66,045

X X X 2
x= 798; y= 819; ( x) = 636,804

X
x2 = 752 + 802 + 932 + 652 + 872 + 712 + 982 + 682 + 842 + 772
= 64,722.

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

SOLUCIÓN
Luego,
P P P
n xy − x y
βˆ1 = P 2 P
n x − ( x)2
10 × 66045 − 798 × 819
=
10 × 64722 − 636804
= 0,66

reemplazando βˆ1 en βˆ0 se tiene:

βˆ0 = 81,9 − 0,66 × 79,8


= 29,23

Ası́, la ecuación de regresión es:

ŷ = 29, 23 + 0,66x

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

SOLUCIÓN
c) Determine el coeficiente de correlación y determinación.

cov(X, Y )
ρ(X, Y ) = ,
SX × SY
Sabemos que:
cov(X, Y ) = xy − x × y
= 6604,5 − 79,8 × 81,9
= 68,88.

Sx2 = (75 − 79,8)2 + (80 − 79,8)2 + . . . = 115,73


Sy2 = (82 − 81,9)2 + (78 − 81,9)2 + . . . = 66,54

Luego,
68,88
ρ(X, Y ) = = 0,79 y R2 = 0,62
10,75 × 8,157

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).


Estimación por Mı́nimos Cuadrados.
ANÁLISIS DE REGRESIÓN. Coeficiente de Correlación
REGRESIÓN LINEAL SIMPLE. Coeficiente de Determinación R2
Ejercicio.

Para el siguiente conjunto de observaciones, se pide:

x y
1 2
3 4
5 3
7 6
9 5
3 3
5 4
4 4
6 5

a) Hacer un diagrama de dispersión


b) Determine la recta de regresión
c) Identificar el coeficiente de posición y el coeficiente de regresión
d) Interprete el coeficiente de determinación

Marı́a José Alejandra Medina Fritz Estadı́stica (523219).

También podría gustarte