Está en la página 1de 9

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

FACULTAD DE INGENIERIA ELÉCTRICA Y ELECTRÓNICA

ASIGNATURA: Estadística y probabilidades

CODIGO: 305

DOCENTE: Juan Arellano Guerrero

TEMA: Métodos de mínimos cuadrados, regresión y correlación

SEMANA: 13

HUANCAYO – PERÚ

2020
MÉTODO DE MÍNIMOS CUADRADOS

Este método establece que la mejor línea (curva o recta) posible es aquella que
minimiza la suma de los cuadrados de las desviaciones de los puntos dados Yi y los
correspondientes a dicha línea (curva o recta) Yc.

Yi valor real Yc valor estimado o calculado

Simbólicamente significa minimizar la

expresión:

. . 𝐷 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌𝑐 )2 = 𝑚𝑖𝑛𝑖𝑚𝑜

. .

. .

Gráfico 1: nube de puntos

REGRESION LINEAL SIMPLE

Primeramente, se considera la ecuación de la recta Y=a+bX , en dicha ecuación se


observa dos parámetros y estos son a y b. Estos parámetros determinamos aplicando
el método de mínimos cuadrados; lo que significa minimizar la expresión:

𝐷 = ∑(𝑌𝑖 − 𝑌𝑐 )2
𝑖=1

Yi= valor observado

Yc=valor calculado (estimado por la ecuación Y=a+bX)

n=número de datos

remplazando Yc=a+bX en D:
𝐷 = ∑(𝑌𝑖 − 𝑌𝑐)2

𝐷 = ∑[𝑌𝑖 − (𝑎 + 𝑏𝑥)]2

𝐷 = ∑(𝑌𝑖 − 𝑎 − 𝑏𝑥)2

‘Minimizar’ significa derivar D respecto a cada uno de los parámetros a y b.

Suprimiendo los sub índices y considerando para cualquier punto se tiene:

∑𝐷2 = mínimo

De modo que:

𝐷 = ∑(𝑌 − 𝑎 − 𝑏𝑥)2

Como debe satisfacer la condición de que las sumas de los cuadrados de las
desviaciones sean mínimos, es decir D sea mínimo, esto solo ocurre cuando:

𝑑𝐷 𝑑𝐷
=0 =0
𝑑𝑎 𝑑𝑏

𝑑𝐷 𝑑(𝑦−𝑎−𝑏𝑥)2
01. = =0
𝑑𝑎 𝑑𝑎

𝑦 − 𝑎 − 𝑏𝑥 = 0

∑(𝑦 − 𝑎 − 𝑏𝑥 ) = 0

∑ 𝑦 = 𝑎𝑛 + 𝑏 ∑ 𝑥

𝑑𝐷 𝑑(𝑦−𝑎−𝑏𝑥)2
02. 𝑑𝑏 = =0
𝑑𝑏

𝑥(𝑦 − 𝑎 − 𝑏𝑥) = 0
(𝑥𝑦 − 𝑎𝑥 − 𝑏𝑥 2 ) = 0

∑(𝑥𝑦 − 𝑎𝑥 − 𝑏𝑥 2 ) = 0

∑ 𝑥𝑦 = 𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥 2

Las ecuaciones 01 y 02 constituyen las dos ecuaciones normales con dos incógnitas a y
b que son los parámetros definidos como:
a= constante de intersección
b= coeficiente de regresión
Entonces el sistema de ecuaciones normales será:

∑ 𝑦 = 𝑎𝑛 + 𝑏 ∑ 𝑥

∑ 𝑥𝑦 = 𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥 2

∑ 𝑦 ∑ 𝑥 2 − ∑ 𝑥 ∑ 𝑥𝑦
𝑎= 2
𝑛 ∑ 𝑥 2 − (∑ 𝑥)

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏= 2
𝑛 ∑ 𝑥 2 − (∑ 𝑥)
CARACTERISTICAS DEL COEFICIENTE DE REGRESION
El coeficiente de regresión b indica el número de unidades en el que varía Y al variar X
en una unidad.

Gráfico 2: Línea de regresión b

Si el signo es positivo, al aumentar X aumenta Y, y al disminuir X disminuye Y, si el


signo es negativo al aumentar X disminuye Y y viceversa.

Esta es la principal característica del coeficiente de regresión, otra característica es:

El coeficiente b mide la pendiente de la línea de regresión, es decir cuanto más alto es


el valor absoluto, mayor es la pendiente.

CARACTERISTICAS DE LA LINEA DE REGRESION

1. La línea de regresión es válida dentro de los valores observados de X.


2. Si el coeficiente b es positivo, la línea de regresión es ascendente de izquierda a
derecha, y si b es negativo, la línea es descendente de derecha a izquierda
3. La línea de regresión debe pasar por el punto determinado → y → (promedios
𝑥 𝑦

de las dos características de la muestra).

Problema

Se quiere analizar la relación entre la edad y el tiempo efectivo de trabajo de los


trabajadores de una empresa; para el efecto, se consideró una muestra de 15
trabajadores. Estimar a y b y calcular el valor estimado Yc para X = 48 y X = 27.

Edad: 48, 40, 30, 39, 46, 42, 27, 36, 34, 46, 32, 42, 40, 32, 27

Tiempo efectivo de trabajo: 24, 18, 9, 14, 22, 22, 4, 13, 10, 20, 12, 18, 16, 8,6
∑X ∑Y ∑XY ∑X2 ∑Y2
48 24 1152 2304 576
40 18 720 1600 324
30 9 270 900 81
39 14 546 1521 196
46 22 1012 2116 484
42 22 924 1764 484
27 4 108 729 16
36 13 468 1296 169
34 10 340 1156 100
46 20 920 2116 400
32 12 384 1024 244
42 18 756 1764 324
40 16 640 1600 256
32 8 250 1024 64
27 6 162 729 36
561 216 8658 21643 3654
Tabla 1: Edad y tiempo efectivo de trabajo

Reemplazando valores de la tabla 1 en las ecuaciones normales, se tiene el sistema


de ecuaciones:

∑Y = an + b∑X -> 216 = a (15) + b (561)

∑XY = a∑X + b∑𝑋 2 -> 8658 = a (561) + b (21643)

De donde se obtiene:

a = - 18. 363

b = 0.876

Finalmente, la línea de regresión de Y sobre X es:

Y=a+bX

Y = - 18.363 + 0.876 X

Con esta ecuación, se calcula el valor estimado 𝑌𝑐

X = 48 Y = - 18.363 + 0.876 (48)

𝑌𝑐 = 23.685 ≈ 24
X = 40 Y = - 18.363 + 0.876 (40)

𝑌𝑐 = 16.677

…………

X = 27 Y = - 18.363 + 0.876 (27)

𝑌𝑐 = 5.289 ≈ 5

Procedemos a graficar, y se puede tomar el par ordenado mayor y el par ordenado


menor y trazar la recta sabiendo que la ecuación Y = - 18.363 + 0.876 X es la
ecuación de la recta.

Y
. P1 (48, 24)

. P15 (27, 5)
X

Gráfico 3: Recta de la ecuación

DESVIACION ESTÁNDAR DEL VALOR ESTIMADO

Yc representa el valor de Y estimado de Yc = a + bX para valores de X dados, la medida


de dispersión alrededor de la recta de regresión de Y sobre X viene dada por la
2
varianza 𝑆𝑦𝑥 ó desviación estándar 𝑆𝑦𝑥 mediante la siguiente relación:

2
𝑆𝑦𝑥 = (∑𝑌 2 – a ∑Y – b ∑XY) / n

Es recomendable sacar la raíz cuadrada y se obtiene la desviación estándar 𝑆𝑦𝑥


del valor estimado.

El valor de la desviación estándar del valor estimado indica que tan dispersos están
los datos en promedio alrededor de la línea de regresión.
ANALISIS DE LA CORRELACION

En el análisis de regresión lineal, se ha estudiado el caso en que al tomar dos variables,


una puede ser considerada como independiente y la otra como dependiente; pero
puede presentarse el caso en que al tomarse dos variables, éstas estén relacionadas
sin que se pueda considerar que una depende de la otra.

Por medio de la correlación se puede estudiar el grado de asociación que existe entre
dos variables, mientras que el coeficiente de correlación mide la mutua asociación
entre las variables, el coeficiente de regresión nos dice si alteramos el valor de la
variable independiente, la variable dependiente será alterada.

En casos en que Y es controlado o causado ´por X, es necesario el estudio de la


regresión porque este estudio permite estimar el valor de Y de un valor conocido de X.

Sin embargo, cuando dos características están relacionadas, sin que se pueda decir que
una depende de la otra, sino ambas dependen de un factor ajeno a ellas, es necesario
el estudio de la correlación.

VARIACION EXPLICADA Y NO EXPLICADA

Y
y
e [.
YC
-y

X
x

Gráfico 4: Variación explicada y no explicada

En el gráfico 4, se establece la relación:

(Y – Yp) = (Y – Yc) + (Yc – Yp)


Donde:

Yc = valor estimado

Yp = valor promedio o valor medio

1) (Y – Yp) representa la desviación total (error total o variación total) y se puede


considerar como el error entre un valor individual Y y la media aritmética Yp
que es el estimador de Y cuando no se usa la recta de regresión.
2) (Yc – Yp) se denomina ‘error explicado’ y se considera como la cantidad de
error que se elimina cuando la recta de regresión se ajusta a los puntos por el
método de mínimos cuadrados.
3) El valor e = (Y – Yc) es la desviación definida como ‘error no explicado’ y se
considera como el error que todavía resta luego del ajuste de la recta de
regresión; es decir, todavía queda sin explicar después del ajuste.

También podría gustarte