Está en la página 1de 25

INTRODUCCIÓN A LOS

MÉTODOS NO LINEALES

  
ESCUELA DE INGENIERÍA EN COMPUTACIÓN E INFORMÁTICA
UNPRG II FACULTA DE CIENCIAS FÍSICAS Y MATEMÁTICAS
UNIVERSIDAD NACIONAL
PEDRO RUIZ GALLO

FACULTAD DE CIENCIAS FÍSICAS Y


MATEMÁTICAS
ESCUELA PROFESIONAL DE INGENIERÍA EN COMPUTACIÓN E
INFORMÁTICA

CURSO:
MÉTODOS DE PREDICCIÓN

DOCENTE
Ofelia Guerrero

ALUMNOS:
Chacón de los Ríos Elías
Cruz Julcarima José Luis
Mil Limo Patricia
Morales Limo David
Muñoz Tello Segundo Ricardo
Veliz Yamunaqué Francia
Zarpán Chapoñan Kevyn

CICLO ACADÉMICO
2018 – I

LAMBAYEQUE 2018
INTRODUCCIÓN

Es muy frecuente expresar la relación entre dos variables mediante una línea recta, sin
embargo, existen algunas variables, como aquellas relacionadas con las actividades de
los negocios y de la economía, que por su comportamiento resulta más conveniente
expresar su relación mediante una curva o función no lineal. Esto significa que para los
“n” valores(X, Y) es posible ajustar una curva o función tales como: la curva
parabólica, la potencial, la exponencial, hipérbola equilátera, etc. Por su parte, a cada
curva le corresponde un “Coeficiente de Correlación No Rectilínea”

Un modelo se puede definir como una ecuación o conjunto de ecuaciones que describen
el comportamiento de algún sistema por ejemplo, el trabajo de un reactor químico o el
crecimiento de un animal. La teoría estadística dedicada a los modelos lineales en los
parámetros es muy amplia, debido a en gran parte a sus múltiples aplicaciones y ala
fácil interpretación de los resultados de este tipo de análisis. Sim embargo, hay
fenómenos observables que no pueden ser explicados por modelos lineales, por
ejemplo, el desarrollo de una teoría en la química o la física, en tales situaciones un
modelo no lineal en los parámetros se puede ajustar mejor.

Hoy en día es más viable, gracias al progresivo avance de los computadores, la


aplicación de modelos no lineales en fenómenos donde el conjunto de parámetros no
puede expresarse en forma lineal.

MÉTODOS DE REGRESIÓN NO LINEAL


1. PARÁBOLA DE SEGUNDO GRADO
La curva o función de regresión parabólica se construye a partir de la ecuación polinomial de
segundo grado:
Y* = (a + b X) + cX2
Que tiene tres parámetros o coeficientes desconocidos a, b, c. para determinar el valor de estos
tres parámetros se requieren ecuaciones. Precisamente aplicando el método de los Mínimos
Cuadrados se obtienen las tres Ecuaciones Normales siguientes:
1) ∑Y = na + b ∑X + c∑X2

2) ∑XY = n ∑X +b∑X2 + c∑X3

3) ∑X2Y = a∑X2 +b∑X3 + c∑X4

DEDUCCIÓN DE LAS ECUACIONES NORMALES:


Por el método de los mínimos cuadrados se parte de la expresión:
Min  = ∑ (Y – Y*)2 donde reemplazando:
Y* = a +b X +cX2 Se tiene:
Min  = ∑ (Y – a +b X +cX2)2
Derivando parcialmente con respecto a los parámetros a, b, c e igualando a cero resulta:
1) ∂ = 2∑(Y – a –b X –cX2 )(-1 ) = 0
∂a
2) ∂ = 2∑(Y – a –b X –cX2)( -X ) = 0
∂a
3) ∂ = 2∑(Y – a –b X –cX2) (-X2 ) = 0
∂a

Desarrollando sumatorias y trasponiendo términos, se obtienen las tres ecuaciones normales


anotadas anteriormente. En este sistema de tres ecuaciones con tres incógnitas (a, b, c) se
reemplaza el valor de las sumatorias que se obtiene de los datos y luego se resuelve.

ERROR ESTÁNDAR DE ESTIMACIÓN:


Para determinar el “Error estándar de estimación” de la parábola se parte de la definición:

∑ (Y −Y ¿ )2
S yx =
√ n
Donde se sustituye Y* = a + b X + cX2 para obtener:
2
∑ ( Y −a−bX−c X 2 )
S yx =
√ n
Desarrollando el cuadrado, factorizando y simplificando términos resulta:

∑ Y 2−a ∑Y −b ∑ XY −c ∑ X 2 Y
S yx =
√ n
Que finalmente es la fórmula para calcular el Error Estándar de Estimación
Aquí S2yx =S 2e constituye la Varianza Residual.

EL COEFICIENTE DE CORRELACIÓN PARABÓLICA:


Por otra parte, para deducir la fórmula del Coeficiente de Correlación Parabólica se considera la
definición de coeficiente de correlación, dado por:

S2y S2y

¿
¿
2
r= 2
O r= 2
S y
S y

De donde:

2 ∑Y ¿ 2−n Ý 2
r= Sustituyendo Y* se tiene
∑ Y 2−n Ý 2

∑(a+bX + c X 2 )2−n Ý 2
r 2=
∑Y 2 −n Ý 2

Ejecutando operaciones, factorizando y sustituyendo expresiones por ecuaciones normales, se


obtiene finalmente:

2 a ∑Y +b ∑ XY + c ∑ X 2 Y −n Ý 2
r=
∑ Y 2−n Ý 2
Cuya raíz cuadrada (r) constituye la fórmula del Coeficiente de Correlación Parabólica.
También se puede aplicar la fórmula:

S 2yx
r 2=1− 2
Sy

Donde S2yx (varianza residual) y S2y (varianza de Y) se pueden calcular fácilmente por las
fórmulas ya conocidas.

EJEMPLO:
En las primeras columnas del siguiente. Cuadro, están el volumen mensual de ventas (Y) en
millones de dólares y los años de experiencia en ventas (X) de 10 vendedores profesionales de
una fábrica productora de alimentos.
a) Construir el diagrama de esparcimiento
b) Determinar la Curva de Regresión Parabólica
c) Calcular el Error Estándar de Estimación
d) Calcular el Coeficiente de Correlación
e) Graficar la curva de regresión obtenida
Solución:
a) El diagrama de esparcimiento de los puntos (X, Y) se pueden apreciar en el gráfico cuya
forma insinúa el ajuste de una curva, como una parábola; esto no anula la posibilidad de
ajustar también una línea recta.
DETERMINACIÓN DE LA CURVA DE REGRESIÓN PARABÓLICA DE LAS VENTAS MENSUALES (Y) Y
EXPERIENCIA (%) EN VENTAS DE 10 VENDEDORES PROFESIONALES

Y X XY X2 X3 X4 X2Y Y2
5 4 20 16 64 256 80 25
6 5 30 25 125 625 150 36
4 2 8 4 8 16 16 16
5 5 25 25 125 625 125 25
7 6 42 36 216 1296 252 49
10 7 70 49 343 2401 490 100
3 1 3 1 1 1 3 9
11 8 88 64 512 4096 704 121
4 3 12 9 27 81 36 16
9 7 63 49 343 2401 441 81
64 48 361 278 1 764 11 798 2 297 478
∑Y ∑X ∑ XY ∑ X2 ∑ X3 ∑ X4 ∑ X2Y ∑ Y2
Fuente: Record individual de Ventas. Departamento de Ventas Fábrica de Alimentos 2002 S.A 2000. Elaboración: Actualidad
Estadística. Estudios y Ediciones R.A

b) Para la curva de regresión parabólica:

Y* = a +b X +cX2

Las ecuaciones normales son:


1) ∑Y = na + b ∑X + c∑X2

2) ∑XY = n ∑X +b∑X2 + c∑X3

3) ∑X2Y = a∑X2 +b∑X3 + c∑X4

Sustituyendo el valor de las sumatorias calculadas en el Cuadro anterior, resulta:


64 = 10a + 48b + 278c
361 = 48a + 278b + 1 764c
2297 = 278a +1 764b + 1179c
Resolviendo el sistema se obtiene:
a = 3.5762 b = -0.3824 c = 0.1676
Luego la ecuación de regresión parabólica es
Y* = 3.5762 – 0.3824 X + 0.1676 x2

c) En la fórmula del error estándar de estimación:


∑ Y 2−a ∑Y −b ∑ XY −c ∑ X 2 Y
S yx =
√ n

Se reemplazan las sumatorias y parámetros:


478−( 3.5762 ) ( 64 )− (−0.3824 ) ( 361 )−( 0.1676 )(22797)
S yx =
√ 10
S yx =√ 0.2192=0.468

d) Para calcular el Coeficiente de correlación parabólica podemos usar:

2 S 2yx 0.2192
r =1− 2 =1− =0.9680
Sy 6.84

r =0.9838
Sabiendo que:

∑ Y 2 ∑ Y 2 478 64 2
S=2
y
n

n ( )
=
10

10
=6.84 ( )
También se puede aplicar la fórmula:

2 a ∑Y +b ∑ XY + c ∑ X 2 Y −n Ý 2
r=
∑Y 2−n Ý 2
Reemplazando los valores:

( 3.5762 ) ( 64 ) + (−0.3824 )( 361 ) + ( 0.1676 )( 2297 )−10(6.4)2


r 2=
478−10(6.4)2

r 2=0.9679 luego r =0.9838


El valor de r = 0.9838, indicaría que la correlación es muy significativa, es decir que la
curva parabólica expresa adecuadamente la relación entre las variables consideradas.
e) Para graficar la ecuación:

Y* = 3.5762 – 0.3824 X + 0.1676 X2

Tenemos que determinar algunos “puntos aislados” asignando valores a X, así tenemos:

X= 0 Y = 3.6 P1 (0; 3,6)


X= 1 Y = 3.4 P2 (1; 3,4)
X= 5 Y = 5.8 P3 (5; 5,8)
X= 8 Y = 11.2 P4 (8; 11,2)
Estos 4 puntos se ubican en el plano y por ellos aproximadamente a mano alzada construíamos
la parábola. Como se observa en el gráfico, la parábola pasa a lo largo del diagrama de
esparcimiento. Los valores observados Y están ubicados alrededor de la parábola, en tanto que
los valores teóricos o estimados Y* están ubicados en el lugar geométrico de la parábola.
Y* = 3.5762 – 0.3824 X + 0.1676 X2

Ejemplo:

Ajuste de una función parabólica: Y* = a + b X + c X2

X Y X2 X3 X4 XY X2Y Y* e=Y-Y* e2
1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049
2 5 4 8 16 10 20 5,11 -0,11 0,0121
3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049
4 20 16 64 256 80 320 19,81 0,19 0,0361
5 30,5 25 125 625 152,5 762,5 30,58 -0,08 0,0064

 15 68 55 225 979 277,5 1205 68 0 0,0644

1/5 3 13,6 11 55,5 13,6 0 0,0128


Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema
de ecuaciones:

∑ Y = Na + b ∑ X+ c ∑ X 2
∑ XY=a ∑ X + b ∑ X 2+ c ∑ X 3
∑ X 2 Y =a ∑ X 2+ b ∑ X 3 + c ∑ X 4 } ⇒
68= 5a +15b+55c
277,5=15a+55b+225c
1205=55a+225b+ 979c }
Resolviendo este sistema se obtiene: a= -0,47 b= 0,51 c= 1,14
Y * = -0,47 + 0,51 X + 1,14 X2

Error de estándar de estimación:

2
SY ¿ S 2e 0,01288
=1- = 1- = 0,9998
Coeficiente de determinación: R2 = S 2Y S2Y 111,715

2
S 2e = ECM =
∑ e
=0,01288
2
N

O también se puede aplicar:

r2= a∑Y+b∑XY+c∑X2Y-nY2 ∑Y2-nY2

2. LA FUNCION POTENCIAL:
La curva de la regresión potencial se construye a partir de la función potencial cuya ecuación
es:
Y* = b. X*
que tiene dos parámetros desconocidos a, b . En este caso se trata de ajustar una curva
potencial a la nube de puntos (X,Y)
Recordemos que por una nube de puntos (X,Y) pueden pasar muchas funciones potenciales , de
esta familia de curvas se elige LA QUE MEJOR se ajuste a los valores de (X,Y), es decir que
las diferencias o residuo (Y – Y*) sean mínimos. Tal como se ha establecido el método de los
mínimos cuadrados permiten determinar la mejor curva.
Como hay 2 parámetros (a,b) se necesitan 2 ecuaciones normales.
Para facilitar la determinación de las 2 ecuaciones normales conviene expresar la función
original en términos logarítmicos.
Si Y* = b. X* entonces Lg Y* = logb + a.logX ahora los parámetros son: log.b;a

LAS ECUACIONES NORMALES:


Aplicando el método de los mínimos cuadrados, la expresión por minimizar es:

2
Min Φ ¿ ∑ ( log. Y −log. Y ´ )

2
Sustituyendo log Y*: ¿ ∑ ( log. Y −log. b−a . log . X ´ )

Derivando parcialmente, respecto a los parámetros log.b:a:

∂Φ
= 2 ∑ ( log. Y −log .b−a . log . X ) (−1 )=0
∂(log . b)

∑ ( log. Y −log .b−a . log . X )=0

∂Φ
∂a
= 2 ∑ ( log. Y −log .b−a . log . X ) (−log . X )=0

∑ ( log . X . log . Y −log. b . log . X−a . log 2 . X )=0


Resultando las ecuaciones normales siguientes:

∑ log . Y =nlog b+∑ log X

∑ log . Y log X = log b ∑ log X = a ∑ ( log X )2


En este par de ecuaciones el valor de las sumatorias obtenidas en el respectivo cuadro de
trabajo a partir de los datos bidimensionales (X,Y) luego se resuelve simultáneamente el sistema
de ecuaciones para obtener el valor de los dos parámetros: a: log b.

COEFICIENTE DE CORRELACIÓN:
La determinación del coeficiente de correlación potencial se realiza a partir de la definición
general, dada por la expresión:

r=
√∑ ( Y ´ ) 2−n Y͞ 2

√∑ ( Y ) 2 −n ∑ (Y ) 2

Elevando al cuadrado y sustituyendo la función en términos logarítmicos, resulta:


∑ ( log .Y ´ 2 )−n ( log .Y͞ 2
)
2
r =
∑ ( log .Y 2 )−n ( log .Y͞ 2
)

Donde log Y=
∑ ( log. Y ) ahora reemplazando log Y´ resulta:
n

∑ ( log .b +a . log . X 2 ) −n ( log .Y͞ 2


)
2
r =
∑ ( log. Y 2) −n ( log . Y ´ ͞ 2
)

Desarrollando el binomio ( log . b+ a . log . X 2 ) factorizando y simplificando , se obtiene:

a ∑ ( log . X . log . Y )+ logb ∑ logY −n ( log .Y͞ 2 )


r 2=
∑ ( log. Y 2 ) −n ( log . Y ´ ͞ 2
)

Donde la raíz cuadrada(r) constituye la fórmula del coeficiente de correlación potencial cuyo
valor debe satisfacer la propiedad fundamental

-1 ≤ r ≤+1

Ejercicio propuesto:
El ingreso y consumo promedio mensual (en miles de pesos) de una muestra de 12 familias de
distintos estratos sociales, fue el siguiente:

INGRESO: 13 15 17 18 20 21 22 24 24 26 28 30
CONSUMO: 12 14 16 15 18 18 17 19 21 20 21 22

a) Construir la nube de puntos o diagrama de esparcimiento


b) Ajustar los datos a una curva de regresión potencial
c) Calcular el coeficiente de correlación potencial
d) Estimar el valor de consumo de una familia con un ingreso mensual de 25,000 pesos
SOLUCIÓN:
a) Los puntos(X,Y) se grafican en un plano rectangular y resulta el diagrama de
esparcimiento o nube de puntos .la Nube de puntos sugiere una curva
b) Trabajamos con la curva de regresión potencial en su forma logarítmico:

Log Y* = log b + a log X

Cuyas Ecuaciones normales son:

log . Y =nlog b+a ∑ log X

∑ log X log. Y =logb ∑ log X + a ∑ ( log X )2


Sustituyendo valores de las sumatorias calculadas anteriormente se obtiene:

14.9130=12 log b + 15.8410 a


19.7794=15.8410 log b + 21.0450 a
De donde:
a=0.698 log b=0.3213 ó b=2.096
luego:
log Y*=0.3213 + 0.698 X
o también:

Y*= 2.096 X 0.698

c) El coeficiente de correlación potencial se obtiene sustituyendo valores en la fórmula:

a ∑ ( log . X . log . Y )+ logb ∑ logY −n ( log .Y͞ 2 )


r 2=
∑ ( log. Y 2 ) −n ( log . Y ´ ͞ 2
)

( 0.698 ) (19.7794 ) + ( 0.3213 ) ( 14.913 )−12(1.1427) 2


r 2=
18.6030−12(1.1427) 2

r 2=0.9166 r =0.9574
El valor de r es bastante cercano a +1, lo cual indica que la curva potencial se ajusta muy bien
a los datos (X, Y) del ejemplo, y por su tanto es un buen modelo para estimar el consumo
familiar en función de sus ingresos, en la ciudad de Libertad, siempre que no hayan cambiado
sustantivamente los patrones de consumo.
d) Para graficar la ecuación:
Y*=2.096 X 0.698

El método más sencillo es determinar algunos puntos aislados(X,Y) para el efecto se asignan
valores a X de donde resulta el valor de Y.
Si

X=10 resulta Y=1.05 P1 (10,10.5)

X=15 resulta Y=13.9 P2 (15,13.9)

X=20 resulta Y=17.0 P3 (20,17.0)

X=25 resulta Y=19.8 P4 (25,19.8)

X=30 resulta Y=22.5 P5 (30,22.5)


Estos 5 puntos se grafican en el mismo plano de la nube de puntos, luego por estos puntos
trazar a mano alzada la curva potencial obtenida. Se observa que lo puntos del diagrama del
esparcimiento están muy cerca a la curva; entonces puede afirmarse que el error estándar de
estimación es muy pequeño, es decir que la curva obtenida se ajusta muy bien a los datos
bidimensionales Consumo (Y) e Ingreso(X).
e) Para un ingreso de 25000 pesos mensuales, significan reemplazar en la función
potencial X=25 ; luego:

Y*=2.096 (25) 0.698 y*=19.82 miles de pesos

Aproximadamente una familia que tiene un ingreso de 25,000 pesos gastaría o


consume alrededor de 19.820 pesos mensuales.

INGRESO(X) y CONSUMO (Y) PROMEDIO MENSUAL DE UNA MUESTRA DE


FAMILIAS EN LA CIUDAD LIBERTAD,1992

X Y logX logY logX logY ( log X ) 2 ( logY ) 2


13 12 1.1139 1.0792 1.2021 1.2409 1.1646
15 14 1.1761 1.1461 1.3480 1.3832 1.3136
17 16 1.2304 1.2041 1.4816 1.5140 1.4499
18 15 1.2553 1.1761 1.4763 1.5757 1.3832
20 18 1.3010 1.2553 1.6331 1.6927 1.5757
21 18 1.3222 1.2553 1.6597 1.7483 1.5757
22 17 1.3424 1.2304 1.6518 1.8021 1.5140
24 19 1.3802 1.2788 1.7650 1.9050 1.6352
24 21 1.3802 1.3222 1.8249 1.9050 1.7483
26 20 1.4150 1.3010 1.8409 2.0021 1.6927
28 21 1.4472 1.3222 1.9135 2.0943 1.7483
30 22 1.4471 1.3424 1.9829 2.1819 1.8021
258 213 15.8411 14.9132 19.7799 21.0451 18.6033

∑X ∑ Y ∑ Log X ∑ logY ∑ logX.log ∑( log X ) 2 ∑( logY ) 2


Y
DIAGRAMA DE ESPARCIMIENTO Y CURVA POTENCIAL DEL INGRESO (X) Y
CONSUMO (Y) DE UNA MUESTRA DE FAMILIAS 1992

3. LA FUNCION EXPONENCIAL
La curva de regresión exponencial se determina a partir de la función exponencial de la forma:

Y* = a bX
Que también tiene dos parámetros (a, b).
Esta función se utiliza cuando interesa calcular tasas de incremento considerando todos los
puntos observados durante un periodo, aquí se supone que existe un crecimiento no lineal de
tipo geométrico.

La ecuación Y* = a bX , es semejante a la fórmula del interés compuesto donde b = 1 +


i y X= tiempo, es decir:
Y = a (1 + i)X ó Ca = C0 (1 + i)a
Aquí “ i ” es la tasa del crecimiento promedio del periodo.
El problema es ajustar líneas a nubes de puntos (X,Y) de comportamiento no lineal en esta
oportunidad interesa determinar la función exponencial que mejor se ajuste a la nube de puntos
(X,Y).
De la misma manera que la función potencial, transformar la función exponencial original en
forma logarítmica. Entonces aplicando el operador log. A la expresión:

Y* = a bX
Se transforma en:

log Y*= log a + X log b


En donde los parámetros son: log a, log b.
LAS ECUACIONES NORMALES
De acuerdo a lo sostenido en páginas anteriores, para determinar la mejor curva exponencial de
un conjunto de puntos se aplica el método de mínimos cuadrados, que significa minimizar la
expresión:

Min ∅ = ∑ (log Y – log Y*) 2


Sustituyendo log Y* se tiene:

Min ∅ = ∑ (log Y – log a – X log b) 2


Derivando parcialmente respecto a los parámetros log a. log b se obtiene las ecuaciones
normales para el caso exponencial.
∂∅
= 2∑ (log Y – log a – X log b) (-1) = 0
∂ log a

∂∅
= 2∑ (log Y – log a – X log b) (-X) = 0
∂ log b

Efectuando las operaciones indicadas en las derivadas, resultan las siguientes Ecuaciones
Normales:

∑ Log Y = n log a + log b ∑ X


∑X log Y = log a ∑X + log b ∑ X2

Donde las incógnitas son (log a, log b), cuyos valores se obtienen reemplazando las sumatorias.

COEFICIENTE DE CORRELACION EXPONENCIAL


La fórmula del Coeficiente de Correlación Exponencial, se deduce de la definición donde es
suficiente remplazar log Y*, resultando que:

2 ∑(log Y ¿− log´ Y )2 ∑(logY ¿ )2−n( log´ Y )2


r= =
∑(log Y − log´ Y )2 ∑(log Y )2−n ( log´ Y )2

2 ∑(log a+ X log b)2−n(log´ Y )2


r=
∑(log Y )2 −n(logY
´ )2

Desarrollando el binomio, factorizando y simplificando:


∑ ´ ¿ ¿¿)2
logY −n( logY
2
r =log b ∑ X log Y + log a ¿¿ ¿
∑(logY )2−n(logY
´ )2

De esta expresión, la raíz cuadrada (r) es el valor del Coeficiente de correlación exponencial.

Ejemplo
Función:
Transformación lineal:

x y ln(y) x2 x ln(y)

1 3 1,0986 1 1,0986

1,2 3,4 1,2237 1,44 1,4684

1,5 5 1,6094 2,25 2,4141

2 2 0,6931 4 1,3862

3 4,1 1,4109 9 4,2327

3,7 5 1,6094 13,69 5,9547

4 7 1,9459 16 7,7836

4,5 6,5 1,8718 20,25 8,4231

Σ 20,9 Σ 36 Σ 11,4628 Σ 67,63 Σ 32,7614


4. LA HIPERBOLA EQUILATERA
Es un caso especial de la función potencial. Esta curva se usa con frecuencia para el
ajuste de curvas de demanda. Es una función asintótica con los ejes coordenados. La
forma más simple de su ecuación es:


a
Y=
X
Es una función con un solo parámetro “a”

ECUACIONES NORMALES
Como tiene un solo parámetro será necesario disponer de una ecuación normal.
Ahora la expresión para minimizar es:

a
Min ꬹ = ∑ (Y −Y ¿ ¿¿)2 ¿ = ∑ (Y −¿ X )¿ 2

Derivando respecto el parámetro “a” se tiene:


ὰꬹ a
ὰa
=2 ∑ y− (
X )(−1X )=0
Luego:

∑ ( xy )=∑ ( Xa2 )

Esta ecuación Normal permite obtener el valor “a”.

COEFICIENTE DE CORRELACIÓN
Como se ha ilustrado para otras curvas, el coeficiente de correlación de la hipérbola
equilátera también se obtiene de la expresión:

a2
¿2 2 ∑ −n Y 2
∑ Y −n Y X
r 2= =
∑ Y −n Y ∑ Y 2−n Y 2
2 2
r 2=
a∑ ( Xy )−nY 2

∑ Y 2−n Y 2

Donde la raíz cuadrada (r) constituye el valor del coeficiente de correlación hiperbólica

EJEMPLO:
Considerar las cantidades vendidas (miles de unidades) de un artículo según la
variación de su precio (en soles), observados en un periodo de 9 meses, cuyos datos se
indican en el cuadro N° 7.11

a) Construir el diagrama de esparcimiento


b) Determinar la curva de regresión hiperbólica equilátera
c) Calcular el coeficiente de correlación
d) Graficar la cura de regresión obtenida
Solución:
a) El diagrama de esparcimiento se aprecia en el Grafico N° 7.10, donde hay nueve puntos
(X,Y)
b) La ecuación de la hiperbólica equilátera de nuestro análisis y la correspondiente
ecuación normal son:

a
Y ¿= o también Y ¿ =a X −1
X

∑ ( YX )=a ∑ X12
Remplazando valores:
143,88 = 0.1414 a
A = 1017,5
Luego la ecuación es:
1017,5
Y ¿=
X

Cuadro N°7.11
PRECIOS (X) Y CANTIDADES (Y) TRANSADAS EN
EL MERCADO DE UN ARTÍCULO EN 9 MESES

X Y Y 1 1 y2
X X X2
4 240 60,00 0,250 0,0625 57600
5 200 40,00 0,200 0,0400 40000
8 150 18,75 0,125 0,0156 22500
10 100 10,00 0,100 0,0100 10000
14 80 5,71 0,071 0,0051 6400
18 70 3,89 0,056 0,0031 4900
21 60 2,86 0,048 0,0023 3600
25 40 1,60 0,040 0,0016 1600
28 30 1,07 0,036 0,0013 900
133 970 143,88 0,925 0,1415 147,500
∑X ∑Y Y 1 1 ∑Y2
∑( X) ∑( X) ∑ ( X2 )

c) Para obtener el valor del coeficiente de correlación se reemplaza valores en:

2
r=
a∑ ( YX )−nY = 1017.5 ( 143.88)−9(107.78)
2
2

∑ Y 2−n Y 2 147.500−9 (107.78)2

Y ¿ =0.9743 Entonces r=0.9871

Como r es numéricamente alto, la curva de regresión obtenida se puede utilizar como un


modelo de regresión no lineal para explicar el comportamiento de la variable
dependiente (Y) dado valores de (X). Por ejemplo, ¿Cuál sería la cantidad de demanda
si el precio del artículo se establece en 30 soles?: en este caso X=30 es reemplazado es
la ecuación, resultando:

1017.5
Y ¿= =34 Miles de unidades
30

d) Nuevamente, para graficar la hipérbola equilátera será necesario determinar algunos


puntos, como:

Si:
X=4 C=254
X=10 C=102
X=16 C=63
X=26 C=39
Los puntos se grafican en el plano rectangular elegido y por ello se traza a mano alzada
la curva correspondiente, resultando la curva del grafico N° 7.10
Se calcula algunos puntos aislados (Q.C) a partir de la ecuación dando valores a Q
Donde:
Si
Q=20 entonces C=34,9
Q=40 C=45,9
Q=60 C=60,3
Q=80 C=79,4
Q=90 C=91,0
Los cinco puntos se grafican en el mismo plano del diagrama de esparcimiento
(Gráfico N° 7.09), y por estos puntos trazar a “mano alzada” la curva exponencial
correspondiente. Como es de esperar los datos observados (Q.C) están ubicados muy cerca al
lugar geométrico de la curva que reafirma el elevado valor de r=0.9770.
e) El costo total, para una producción de 42000 unidades significa que Q=42, luego
reemplazando es:
C* = 26,516(1.0138)Q se tiene
C* = 26,516(1.0138)42= 47,152 millones de pesos
C* = 47152000 pesos

SUSPUESTOS SOBRE LOS ERRORES


La regresión múltiple tiene 4 supuestos importantes que hay que seguir para hacer un análisis
preciso y no sesgado:
1) Normalidad
2) Relación lineal
3) Aditividad y Multicolinealidad
4) Homocedasticidad

Normalidad:
Esto se refiere a que todos nuestros datos, tanto nuestras variables independientes así como
nuestra variable dependiente, tienen que tener puntajes que están distribuidos normalmente. Más
específicamente los residuos (error) de estos puntajes deben tener una distribución normal. La
regresión es un análisis lineal y por ello, trabaja con relaciones lineales. Cuando los errores de
las variables tienen distribución no normal, pueden afectar las relaciones y la significancia, y se
enfocan en los errores porque en una regresión lineal también es posible poner variables
dicotómicas (sexo) y estas no tienen una distribución normal.

Relación lineal:
Este segundo supuesto está dirigido a la relación entre las variable independientes y
dependiente. La relación entre cada variable independiente con la variable dependiente debe ser
lineal. En otras palabras, debe haber una correlación entre las variables independientes y la
dependiente. Los análisis de correlación se deben hacer antes de la regresión para poder saber
qué variables tienen relación con la que deseamos medir, porque este análisis previo nos
permitirá saber qué variables incluimos en nuestro modelo de regresión.

Additividad y multicolinealidad:
La aditividad se refiere a que el modelo de regresión lineal es aditivo, es decir que cada variable
independiente por sí sola, suma a la explicación de la variable dependiente. En otras palabras,
no hay relación entre las variables independientes. Si hubiera relación entre las variables
independientes de nuestro modelo, tendríamos un problema llamado multicolinealidad; y se da
cuando dos variables independientes están relacionadas.
Esto viene a ser un problema porque si hay relación entre dos variables entonces son muy
parecidas y por ello tener las dos no aporta nada a explicar mejor nuestra variable dependiente.
Para saber si existe la multicolinealidad existen dos maneras:
a) Previo a hacer nuestro modelo de regresión múltiple analizar con una correlación de Pearson
para ver si hay relación fuerte entre nuestras variables independientes.
b) Durante el análisis estadístico de regresión múltiple se le puede pedir al programa,
diagnósticos de multicolinealidad.

Homocedasticidad:
La homocedasticidad es cuando la varianza de los errores de medición de nuestro análisis es
igual para todas las variables independientes. A su vez, cuándo esta varianza es diferente entre
las diferentes variables independientes tenemos un problema de Heterocedasticidad, ya que
puede arruinar los resultados y hacer caer en un error, es decir podríamos asumir que algo está
relacionado cuando en realidad no lo está. Así como la Multicolinealidad, hay una manera de
revisar si existe Homocedasticidad en nuestros datos. Para esto se revisa un gráfico, y si la
varianza del error de nuestras variables independientes está relacionada con la varianza que
predice nuestra variable dependiente existe una complicación. Porque hay Heterocedasticidad,
el error no debe estar relacionado con nuestra capacidad para predecir nuestra variable
dependiente
EJERCICIOS PROPUESTOS
EJEMPLO 01:
Para estimar la función de Costo Total (C medida en millones de pesos) con respecto a la
producción total (Q medida en miles de unidades), un fabricante ha obtenido el siguiente
conjunto de datos muestrales:

Producción (Q): 10 20 30 40 50 60 70 80
Costo Total (C): 30 36 40 48 50 54 66 68

Con estos datos:


a) Construir el diagrama de esparcimiento
b) Determinar la función de Costo Total, a través de una curva de regresión.
c) Calcular el coeficiente de correlación exponencial
d) Graficar la curva de regresión o función de costo total.
e) Estimar el costo total, si se producen 42000.
Solución:
En este caso, es claro que:
Costo Total = f(producción) o sea C= f(Q)
Donde los puntos bidimensionales serían (Q,C) equivalente a (X,Y).
a) Los puntos (Q,C) constituyen el diagrama de esparcimiento o nube de puntos que se
presentan en el Gráfico N° 7.09
b) La curva de regresión exponencial (función costo total) es:

Y* = a bx log Y*= log a + X log b


log C* = log a + Q log b
C* = a bQ
Luego las Ecuaciones Normales son:

∑ Log C = n log a + log b ∑ Q


∑Q log C = log a ∑X + log b ∑ Q2
El cuadro de trabajo para obtener el valor de los parámetros log a, log b, es el
siguiente:

Q1 C1 Log C Q2 Q log C (log C)2


10 30 1,4771 100 14,77 2,1819
20 36 1,5563 400 31,13 2,4221
30 40 1,6021 900 48,06 2,5666
40 48 1,6812 1600 67,25 2,8266
50 50 1,6990 2500 84,95 2,8865
60 54 1,7324 3600 103,94 3,0012
70 66 1,8195 4900 127,37 3,3107
80 88 1,9445 6400 155,56 3,7810
360 412 13,5121 20 400 633,03 22 9766
∑Q1 ∑C1 ∑Log C ∑Q2 ∑Q log C ∑ (log C)2
Reemplazando los valores en las ecuaciones normales:
13,512 = 8 log a + 360 log b
633,00 = 360 log a + 20 400 log b
Resolviendo se obtiene:
Log b = 0,0059 b = antlog 0,0059 = 1,0138
Log a = 1,4235 a = antlog 1,4235 = 26,5155
Luego la función costo estimado
C* = 26,516(1,0138)Q

c) El coeficiente de correlación exponencial, de la función: C* = a b Q es

´ ¿¿¿)2
∑ log C−n( logC
r 2=log b ∑Q log C +log a ¿ ¿¿
∑( log C)2−n( logC
´ )2

Reemplazando valores:
r 2= ( 0,0059 )( 633 )+ ( 1,4235 )( 13,512 )−8 ¿ ¿

Luego: r =0,09770

El valor de (r) indica que existe una alta de correlación o afinidad entre las variables C
= costo total, Q = producción.

d) Para graficar la función exponencial o la función de costo total:


C* = 26,516 (1,0138)Q
Se calculan algunos puntos aislados (Q,C) a partir de la ecuación dando valores a Q
donde:
Si: Q = 20 entonces: C= 34,9
Q = 40 C= 45,9
Q = 60 C= 60,3
Q = 80 C= 79,4
Q = 90 C= 91,0
Los cincos puntos se grafican en el mismo plano del diagrama de esparcimiento
(Gráfico N° 7.09) y por estos puntos trazar a “mano alzada” la curva exponencial
correspondiente. Como es de esperar los datos observados (Q, C) están ubicados muy
cerca al lugar geométrico de la curva que reafirma el elevado valor de r = 0,9770.
e) El costo total, para una producción de 42 000 unidades significa que Q = 42, luego
reemplazando en

C* = 26,516 (1,0138)Q se tiene


C* = 26,516 (1,0138)42 = 47,152 millones de pesos
C* = 47 152 000 pesos

También podría gustarte