Está en la página 1de 93

INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”

Fundado en 1929

Unidad IV

Análisis de Regresión Simple y Series de


Tiempo

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Objetivos Específicos de la Unidad

Al finalizar el estudio de la unidad, los


alumnos estarán en condiciones de:

A. Identificar herramientas útiles que permiten analizar


las relaciones entre dos variables

B. Determinar ecuaciones de regresión lineal y


exponencial, según sea la distribución de datos, a partir
del método de los mínimos cuadrados

C. Estimar valores en función de datos históricos a través


de ecuaciones de regresión

D. Analizar la tendencia y los resultados de una ecuación


de regresión

E. Aplicar técnicas de suavizamiento de los datos de una


serie cronológica.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Índice de Contenidos de la Unidad

4. Análisis de regresión simple y series de tiempo

4.1. Regresión y correlación

4.2. Método de regresión lineal


4.2.1. Distribución de datos
4.2.2. Constantes β0 y β1 de la ecuación

4.3. Método de regresión exponencial


4.3.1. Distribución de datos
4.3.2. Constantes β0 y β1 de la ecuación

4.4. Varianza residual y error estándar

4.5. Coeficiente de correlación y de determinación


4.5.1. Definición
4.5.2. Análisis de los valores

4.6. Cambio de variables

4.7. Aplicación de regresión en Excel

4.8. Series de tiempo


4.8.1. Clasificación de movimientos de series de tiempo
4.8.2. Técnica de suavizamiento: tendencia
4.8.2.1. Método de promedios móviles
4.8.2.2. Método de los semipromedios

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.9. Resumen de la unidad

4.10. Actividad de Autoevaluación

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

UNIDAD 4: ANÁLISIS DE REGRESIÓN SIMPLE Y SERIES


DE TIEMPO

4. Análisis de regresión simple y series de tiempo

4.1. Regresión y correlación

L a regresión y la correlación son las


dos herramientas estadísticas más
poderosas y versátiles, que se pueden
utilizar para solucionar problemas
comunes en los negocios. Muchos
estudios, se basan en la creencia de
que se puede identificar y cuantificar
alguna relación funcional entre dos o
más variables. Se dice que una
variable depende de la otra, es decir,
‘y’ depende de ‘x’, en donde ‘x’ e ‘y’,
son dos variables cualquiera.

Debido a que ‘y’ depende de ’x’:

’y’ es la variable dependiente y

‘x’ es la variable independiente

Es importante identificar cuál es la variable dependiente


y cuál es la variable independiente, en el modelo de regresión. Una
distribución bidimensional puede representarse, gráficamente, en un
plano cartesiano, colocando en el eje horizontal los valores de la
variable’ x’ (variable independiente) y, en el eje vertical, los valores

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

de la variable’y’ (variable dependiente). A cada par de


observaciones se le hace corresponder un punto, a este conjunto de
puntos, se le llama Diagrama de Dispersión. Este diagrama nos
muestra una idea del tipo de relación que existe entre las dos
variables.

El primero en desarrollar el análisis de regresión, fue el


científico inglés Sir Francis Galton (1822-1911). Sus primeros experimentos
con regresión comenzaron con un intento de analizar los patrones de
crecimiento hereditarios de los guisantes. Animado por los resultados, Sir
Francis extendió su estudio para incluir los patrones hereditarios en la
estatura de las personas adultas. Así, descubrió que los niños que tienen
padres altos o bajos tendían a ‘ingresar’ a la estatura promedio de la
población adulta. Con este modesto inicio, el uso del análisis de regresión, se
dio a conocer, convirtiéndose en una de las herramientas estadísticas más
poderosas que se encuentran disponibles actualmente (Webster, Allen; 2000).

En la regresión simple, se establece


que ‘y’ es una función de sólo una
variable independiente. Con
frecuencia, se le denomina regresión
bivariada, porque sólo hay dos
variables, una dependiente y una
independiente.

Es necesario hacer una distinción entre la regresión


lineal y la regresión curvilínea (no lineal). En el modelo de
regresión lineal, la relación entre ‘x’ e ‘y’, puede representarse por
medio de una línea recta. El modelo sostiene que, a medida que ’x’
cambia,’y’ cambia en una cantidad constante y consiste en
determinar la ecuación y = β1 x + β o que mejor se ajuste a los datos
observados.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

La regresión curvilínea utiliza una


curva para expresar la relación entre
’x’ e’ y’. El modelo sostiene que, a
medida que ‘x’ cambia ‘y’ cambia, en
una cantidad diferente cada vez. Es
el caso de la regresión exponencial,
en la cual, la curva que mejor
describe la tendencia de los datos es
una curva exponencial del tipo:
y = β o ⋅ β 1 x .1

Existen otros tipos de regresión curvilínea, pero en esta


unidad, se estudiarán sólo la regresión lineal y la regresión
exponencial, antes citadas.

4.2. Método de regresión lineal

C uando se considera que la línea


recta es la que mejor describe la
tendencia del diagrama de dispersión,
se hablará de una regresión lineal y se
deberá establecer la ecuación
correspondiente.

En este sentido, la ecuación de la recta se define de la


siguiente forma:

y = β1 ⋅ x + β 0 , con β 1 y β , constantes a determinar.


0

1
En ambos modelos, lineal y exponencial, las constantes son mudas, es decir, no importa su
notación. En algunos textos, se utiliza la nomenclatura de α y β o a y b para las constantes

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

La ecuación anterior nos indica que la variable ‘y’


depende de la variable ‘x’. Para cada valor que tome ‘x’, se puede
encontrar a través de esta ecuación, el valor correspondiente de la
variable’y’.

4.2.1. Distribución de datos

L a aplicación de una regresión


lineal, sólo será posible para
aquellas tendencias que tienen un
comportamiento lineal. En caso
contrario, deberá utilizarse otro tipo de
regresión, dependiendo del
comportamiento de las variables.

Ejemplo 4.1.

Supongamos las siguientes series de datos:

1,200,000 300

1,000,000 250

800,000 200
Gasto (MM$)
Nº Clientes

600,000 150

400,000 100

200,000 50

- -
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Año Año

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En la serie 1 (Nº clientes), la distribución de los


datos no tiene una tendencia lineal, ya que los clientes, no
aumentaron de una forma moderada en todo el período. Es así
como, a partir de 1998, se observa un crecimiento explosivo
hasta el año 2001.

En cambio en la serie 2 (gasto), se observa una


tendencia plana (lineal), es decir, el gasto aumentó en forma
moderada año tras año.

4.2.2. Constantes β0 y β1 de la ecuación

as constantes β0 y β1 deben ser


L determinados a partir de las
observaciones.

La forma de estimarlas, a partir de la ecuación de


regresión y = β 1 ⋅ x + β 0 , es la siguiente:

Cada uno de los n pares de observaciones,


deben verificar la ecuación anterior (en forma
aproximada), así se tiene;

y1 = β 1 ⋅ x1 + β 0
.
.
.

y n = β1 ⋅ xn + β 0

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Sumando cada una de estas igualdades se


llega a:

∑y i = β 1 ⋅ ( x1 + x 2 + ... + x n ) + n ⋅ β 0
i =1

n n
(1) ∑y
i =1
i = β 1 ⋅ ∑ xi + n ⋅ β 0
i =1

Por otro lado, cada una de las n igualdades


anteriores, se pueden multiplicar por el xi
respectivo, obteniéndose;

y1 ⋅ x1 = β 1 ⋅ x12 + β 0 ⋅ x1

y n ⋅ xn = β 1 ⋅ x n2 + β 0 ⋅ xn

Al sumarlas se llega a:

n n n
(2) ∑x
i =1
i ⋅ yi = β 1 ⋅ ∑ xi2 + β 0 ⋅ ∑ xi
i =1 i =1

Luego, las expresiones (1) y (2) muestran dos


ecuaciones y dos incógnitas (β1 y β0) Este
sistema de ecuaciones, nos permiten encontrar
los valores de β1 y β0.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Resolviendo el sistema de ecuaciones se tiene


que:

Cov ( x, y )
β1 =
S x2

β 0 = y − β1 ⋅ x

Las expresiones anteriores, son válidas para la


ecuación del tipo: y = β 1 ⋅ x + β 0 .

Es decir, en términos generales, siempre se tendrá


que la constante β1 será el cuociente entre la covarianza de las
variables, dividida por la varianza de la variable
independiente.

Es importante destacar que los modelos de


regresión, se utilizan para series largas de datos ( n > 8 ), ya
que, series muy cortas no aseguran un buen grado de
confiabilidad en la estimación.

Ejemplo 4.2

Según cifras de la Dirección General de


Aeronáutica Civil, la evolución del número de pasajeros
internacionales por avión (en miles), en el período 1990-2000,
es la que se muestra en el siguiente cuadro:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Pasajeros
Año
Internacionales
4,000
1990 1.083 3,500
1991 1.260
3,000
1992 1.383

Pax Int (m ile s )


1993 1.609 2,500

1994 2.001 2,000

1995 2.342 1,500


1996 2.520 1,000
1997 3.011 500
1998 3.218
-
1999 3.443 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
2000 3.684

Lo primero que hay que analizar, es si la serie


tiene un comportamiento lineal. En este caso, la serie de
pasajeros internacionales, tiene un comportamiento
aproximadamente lineal y creciente en el tiempo.

Para los cálculos de las constantes β1 y β0, se


utilizarán las variables t (años) y pint (pasajeros
internacionales)

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

T pint t2 pint2 t*pint


1990 1,083 3,960,100 1,172,889 2,155,170
1991 1,260 3,964,081 1,587,600 2,508,660
1992 1,383 3,968,064 1,912,689 2,754,936
1993 1,609 3,972,049 2,588,881 3,206,737
1994 2,001 3,976,036 4,004,001 3,989,994
1995 2,342 3,980,025 5,484,964 4,672,290
1996 2,520 3,984,016 6,350,400 5,029,920
1997 3,011 3,988,009 9,066,121 6,012,967
1998 3,218 3,992,004 10,355,524 6,429,564
1999 3,443 3,996,001 11,854,249 6,882,557
2000 3,684 4,000,000 13,571,856 7,368,000
21,945 25,554 43,780,385 67,949,174 51,010,795

Por lo tanto, la ecuación de regresión, tendrá la


forma de: p int = β 1 ⋅ t + β 0 , donde ’t’ es la variable
independiente y ‘p int’ la variable dependiente.

21 . 945
t = = 1 . 995
11
25 . 554
p int = = 2 . 323 ,1
11

43.780.385
St2 = −1.9952 = 10
11
51.010.795
Cov (t, p int) = −1.995⋅ 2.323,1 = 2.760,5
11

De esta forma, las constantes son:

Cov(t , p ) 2.760,5
β1 = = = 276,1
S 2t 10 ⇒
β 0 = p int − β 1 ⋅ t = 2.323,1 − 276,1 ⋅ 1.995 = −548.496,4

p int = 276,1 ⋅ t − 548.496,4

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Para estimar el número de pasajeros


internacionales que habrá el año 2005, basta con reemplazar
este valor en la variable independiente de la ecuación de
regresión:

p int 2005 = 276,1 ⋅ 2005 − 548.496,4 = 5.084,1 ≈ 5.084

Si cada valor de la variable independiente, de la


serie original, se reemplaza en la ecuación de regresión, se
obtendrá el valor estimado para cada valor real observado.

Pax Int.
Año Pax Int. Miles Pax. Int. Lineal (Miles Pax. Int.)
Estimado
1990 1,083 943 4,000

1991 1,260 1,219 3,500


1992 1,383 1,495 3,000
1993 1,609 1,771 2,500
1994 2,001 2,047
2,000
1995 2,342 2,323
1,500
1996 2,520 2,599
1997 3,011 2,875 1,000

1998 3,218 3,151 500


1999 3,443 3,428 0
2000 3,684 3,704 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

Del cuadro, se observa que existen diferencias


entre los valores reales de la variable dependiente y aquellos
que proyecta la ecuación de regresión. La idea de este modelo
de regresión, es que estas diferencias sean mínimas, lo que se

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

estudiará más adelante con el error estándar y el coeficiente


de correlación.

A continuación desarrolle las actividades de


aprendizaje propuestas, para autoverificar
el nivel de comprensión de los contenidos
tratados.

RECUERDE, consultar siempre con su tutor


cuando se le produzcan dudas o dificultades
en la comprensión de los temas
desarrollados.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N ° 11

1. Para las siguientes series de datos, indique aquellos que


corresponden a una distribución lineal.

(a) (b)
120
250
100

200
P é r d id a s ( M M $ )

80

U t ilid a d e s ( M M U S $ )
150
60

40 100

20 50

-
0
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
0 2 4 6 8 10 12 14 16
Año Gasto (MMUS$)

(c) (d)

900
6,000
800
5,000 700
600
A h o rr o (M $)

4,000
N º S o b r e g ir o s

500
3,000 400

2,000 300
200
1,000
100

- 0
- 200,000 400,000 600,000 800,000 1,000,000 1,200,000 - 500 1,000 1,500 2,000 2,500
Nº Clientes Ingreso (M$)

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2. Consideremos la evolución del número de pasajeros


nacionales por avión (en miles), para el período 1990-2000:

Pasajeros
Año
nacionales
1990 1.759
1991 1.857
1992 2.428
1993 2.990
1994 3.565
1995 4.024
1996 4.684
1997 5.854
1998 6.570
1999 7.030
2000 7.522

Suponiendo un modelo de regresión de la forma;


pnac = β1 ⋅ t + β 0 , estimar el número de pasajeros nacionales
para el año 2005. (Codifique la variable ‘Año’, considerando
1990 como el año 1)

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Respuesta Correcta Pregunta 1:

La gráfica (a) tiene tendencia aproximadamente lineal y la


gráfica (d) tiene tendencia lineal perfecta.

Respuesta Correcta Pregunta 2:

Debemos identificar las variables dependiente y la


independiente, en este caso ’Años’ es la variable independiente ‘x’, y
‘pasajeros nacionales’ es la variable dependiente ‘y’

Año Pasajeros
(x) nacionales(y)
1990 1.759
1991 1.857
1992 2.428
1993 2.990
1994 3.565
1995 4.024
1996 4.684
1997 5.854
1998 6.570
1999 7.030
2000 7.522

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Para obtener las constantes de la ecuación de regresión lineal


solicitada, es necesario agregar las siguientes columnas a los la tabla:

Año Año Pasajeros x*y x2


(x) nacionales (y)
1990 1 1.759 1.759 1
1991 2 1.857 3.714 4
1992 3 2.428 7.284 9
1993 4 2.990 11.960 16
1994 5 3.565 17.825 25
1995 6 4.024 24.144 36
1996 7 4.684 32.788 49
1997 8 5.854 46.832 64
1998 9 6.570 59.130 81
1999 10 7.030 70.300 100
2000 11 7.522 82.742 121
Total 66 48.283 358.478 506

66
x= =6
11

48.283
y= = 4.389,36
11

358.478
Cov( x, y ) = − 6 * 4.389,36 = 6.252,75
11

506
S x2 = − 6 2 = 10
11

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

6.252,75
β1 = = 625,28
10
β 0 = 4.389,36 − 625,28 * 6 = 637,68

Así, la ecuación de regresión será:

pnac = 625,28 * t + 637,68

Lo cual, nos da un pronóstico, para el año 2005 (t = 16) de:

pnac = 625,28 * 16 + 637,68 ≈ 10.642

4.3. Método de regresión exponencial

Se ha establecido en detalle la correlación lineal, pero


también, pueden efectuarse análisis de correlaciones no lineales.

E n este caso se analizarán


aquellas tendencias que tienen un
crecimiento o decrecimiento, explosivo
a partir de un período. Estas series se
denominan tendencias exponenciales,
y su característica principal, es que la
variable dependiente crece o decrece
mucho más rápido que la variable
independiente.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.3.1. Distribución de datos

C uando el diagrama de dispersión


entre las variables queda mejor
representado por una curva
exponencial, se habla de regresión
exponencial.

Gráficamente, correspondería a las siguientes


situaciones:

β1 > 1

x
o:

0 < β1 < 1
3

-
50 100 150 200 250 300 350

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En estos casos, la curva está representada por la expresión:

y = β 0 ⋅ β1 , con β 1 > 0 β1 ≠ 1
x
y

Donde,

y: variable dependiente

x: variable independiente

β0 y β1: constantes a determinar

Ejemplo 4.3

Supongamos las siguientes series de datos:

90
1,200
80
1,000
70
P é r d id a s ( M M $ )

800 60

50
600
40

400 30

20
200
10
-
-
1 2 3 4 5 6 7 2 96 28 89 99 32 76
Minutos de Falla

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En la serie 1 (pérdidas), la distribución de los


datos es exponencial, ya que, las pérdidas crecen muy
rápidamente, a medida que avanzan los tiempos de falla.

En cambio en la serie 2, no se aprecia ningún tipo


de distribución, dado los altos y bajos que toma la variable
dependiente.

4.3.2. Constantes βο y β1 de la ecuación

ara encontrar las constantes βο y


P β1 en la expresión original se
transforman las variables en:

log y = log β 0 + x ⋅ log β 1

Esta expresión constituye una línea recta. Por lo


tanto, se tomará como la ecuación de la curva de
aproximación, en donde ‘x’ es la variable independiente y ‘log
y’ la nueva variable dependiente.

Las constantes βο y β1 se pueden encontrar sobre


la base del sistema de ecuaciones normales:

∑ log y = n ⋅ log β + log β ⋅ ∑ x


0 1

∑ x ⋅ log y = log β ⋅ ∑ x + log β ⋅ ∑ x


0 1
2

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Ambas ecuaciones son similares a las de regresión


lineal, pero con el cambio de variable realizado.

Una vez encontrado los valores de logβ y logβ0 ,


se debe obtener β0 y β1, extrayendo el antilogaritmo de estos
valores, los cuales, permiten obtener la expresión:

y * = β 0 ⋅ β1
x

Todos los demás estadígrafos, se calculan en forma


análoga a la utilizada en la regresión lineal, pero teniendo
siempre presente, el cambio de variable (‘y’ por ‘log y’). Así,
por ejemplo, la desviación estándar s y , será:

∑ (log y)  ∑ log y 
2 2

sy = − 
n  n 
 

En el caso de la covarianza:

Cov( x, log y ) =
∑ x ⋅ log y − x ⋅ ∑ log y
n n

En algunos casos, no es tan clara la tendencia de


la variable, de ser así, se efectúa la regresión lineal y
exponencial y, la curva que mejor se ajuste, será aquella cuyo
coeficiente de correlación r sea más cercano a ± 1 .

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Recordemos que de las ecuaciones normales se


deducen otras expresiones, que permiten calcular βο y β1

En este caso serán:

Cov( x, log y )  Cov( x, log y ) 


log β 1 = 2
⇒ β 1 = log −1  

Sx  S x2 
log β 0 = log y − x ⋅ log β 1 ⇒ β 0 = log −1 (log y − x ⋅ log β 1 )

Ejemplo 4.4

La evolución del número de clientes de un


determinado producto, ha tenido un crecimiento explosivo en
el período 1995-2001, tal como se aprecia en la serie y gráfico
adjunto. Obtener la estimación del número de clientes para el
año 2005.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Nº Clientes

Nº 140,000
Año t
Clientes
120,000
1995 0 2,000
100,000
1996 1 4,000
80,000
1997 2 6,000
1998 3 15,000 60,000

1999 4 40,000 40,000


2000 5 75,000 20,000
2001 6 120,000
-
1995 1996 1997 1998 1999 2000 2001

El modelo, es de la forma: Clientes = β 0 ⋅ β 1t .

Para obtener las constantes de la ecuación de


regresión, es necesario transformar la variable años a una
unidad más pequeña. En este caso, esta unidad de medida se
designó con la letra t.2

Calculando el logaritmo del número de clientes


para aplicar el modelo logarítmico, se tiene:

Año t C t2 log c log2 c t*log c


1995 0 2,000 0 3.3 10.9 0.0
1996 1 4,000 1 3.6 13.0 3.6
1997 2 6,000 4 3.8 14.3 7.6
1998 3 15,000 9 4.2 17.4 12.5
1999 4 40,000 16 4.6 21.2 18.4
2000 5 75,000 25 4.9 23.8 24.4
2001 6 120,000 36 5.1 25.8 30.5
21.0 262,000 91.0 29.4 126.3 96.9

2
Esto se analiza con más detalle en el punto 4.4.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

21 91 2
t= = 3,0 S t2 = − 3 = 4,0
7 7
⇒ ⇒
29,4 126,3
log c = = 4,2 S 2
log c = − 4,2 2 = 0,4
7 7

s t = 4 = 2,0
s log c = 0,4 = 0,6

96,9
Cov(t , log c) = − 3 ⋅ 4,2 = 1,2
7

Las constantes βο y β1 son:

 Cov(t , log c) 
 = log −1   = 2,0
1,2
β 1 = log −1  2 
 St   4 
β 0 = log (log c − t ⋅ log β 1 ) = log −1 (4,2 − 3,0 ⋅ log 2,0) = 1.981,1
−1

Luego, la ecuación de regresión exponencial será:

Clientes = 1.981,1 ⋅ 2 t

Por lo tanto, el valor estimado de clientes al año


2005 es:

Clientes = 1.981,1 ⋅ 210 = 2.028.646

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Si se quiere comparar el valor estimado con la


ecuación de regresión y el valor real observado, se tienen los
siguientes datos:

Nº Clientes Nº Clientes*

Año t Nº Nº 140,000
Clientes Clientes*
120,000
1995 0 2,000 1,981
1996 1 4,000 3,962 100,000

1997 2 6,000 7,924 80,000


1998 3 15,000 15,849
60,000
1999 4 40,000 31,698
2000 5 75,000 63,395 40,000
2001 6 120,000 126,790 20,000

0
1995 1996 1997 1998 1999 2000 2001

A continuación desarrolle la actividad de


aprendizaje propuesta para que puede medir
el nivel de comprensión en su proceso de
autoaprendizaje

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N ° 12

1. Para las siguientes series de datos, indique aquellas que


corresponden a una distribución exponencial.

(a) (b)
35

1,600,000
30
1,400,000
25
1,200,000

20 1,000,000

15 800,000

600,000
10
400,000
5
200,000

- -
5 10 15 20 25 30 35 5 10 15 20 25 30 35

(c) (d)

3
60

2
50

2 40

30
1

20
1
10
-
50 100 150 200 250 300 350 -
0 10 20 30 40 50 60

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2. Ajuste una curva exponencial a los siguientes datos, sobre


el porcentaje de llantas radiales producidas por cierto
fabricante, que aún son útiles, después de haber recorrido
los números de millas indicados. Además, estime el
porcentaje de las llantas que podemos esperar que sea útil,
después que han recorrido 25.000 millas.

Millas Recorridas
% Útil
(Miles)
1 97,2
2 91,8
5 82,5
10 64,4
20 41,0
30 29,9
40 12,6
50 11,3

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Respuesta Correcta Pregunta 1:

La gráfica (b) tiene tendencia exponencial creciente y la gráfica


(c) tiene tendencia, aproximadamente, exponencial decreciente.

Respuesta Correcta Pregunta 2:

Debemos identificar las variables dependiente y la


independiente, en este caso ‘Millas Recorridas’ es la variable independiente
‘x’, y ‘porcentaje útil’ es la variable dependiente ‘y’.

Millas Recorridas % Útil


(Miles) (x) (y)
1 97,2
2 91,8
5 82,5
10 64,4
20 41,0
30 29,9
40 12,6
50 11,3

Para obtener las constantes de la ecuación de regresión


exponencial solicitada, es necesario agregar las siguientes columnas a la
tabla:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Millas Recorridas % Útil x2 logy x*logy


(Miles) (x) (y)
1 97,2 1 1,99 1,99
2 91,8 4 1,96 3,92
5 82,5 25 1,92 9,60
10 64,4 100 1,81 18,10
20 41,0 400 1,61 32,20
30 29,9 900 1,48 44,40
40 12,6 1600 1,10 44,00
50 11,3 2500 1,05 52,50
Total Total Total Total Total
158 430,7 5530 12,92 206,71

158
x= = 19,75
8 5530
⇒ S x2 = − 19,75 2 = 301,19
12,92 8
log y = = 1,62
8

206,71
Cov( x, log y ) = − 19,75 *1,62 = −6,1
8

Las constantes βο y β1 son:

 Cov( x, log y )   − 6,1 


β 1 = log −1  2
 = log −1   = 0,95
 Sx   301,19 
( )
β 0 = log −1 log y − x * log β1 = log −1 (1,62 − 19,75 * log 0,95) = 114,8

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Luego, la ecuación de regresión exponencial será:

y * = 114,8 ⋅ 0,95 x

Lo cual, nos da una estimación para 25.000 millas (x=25) de:

y * = 114,8 ⋅ 0,95 25 = 31,84 ≈ 31,8 % de utilidad

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.4. Varianza residual y error estándar

A través de los ejemplos, se pudo


observar que los valores
estimados difieren de los valores
observados. El grado de confianza que
merezca el ajuste de una recta (o
curva) a un conjunto de puntos se
deberá, en gran parte, a la forma como
se concentren los datos alrededor de
dicha recta (o curva). Las diferencias
que se presentan entre los valores
reales y los estimados se denominan
errores de estimación.

El grado de dispersión se podrá obtener a través de la


varianza residual y corresponde a la media de los cuadrados de las
diferencias entre los valores reales y los estimados.

Para la regresión y = β 1 ⋅ x + β 0 la varianza residual


corresponde a:

∑ (y )
n
2
i − yi*
S r2 = i =1

El valor de yi es el valor real de la variable dependiente


de la serie. En cambio el valor yi* es el valor que se estima a través
de la ecuación de regresión.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Otra forma de obtener la varianza


residual es a través de la siguiente
fórmula:

Cov( x, y ) 2
S r2 = S y2 −
S x2

En general, la varianza residual corresponderá a:

Cov( x, y ) 2
S =S
2
r
2
var dependiente − 2
S var independiente

Observación 1: 0 ≤ S r2 ≤ S y2 ∧
0 ≤ S r2 ≤ S x2

Observación 2: las constantes de una


regresión lineal son aquellas que
minimizan la varianza residual, por
esto, el método se conoce como el
método de mínimos cuadrados.

La varianza residual presenta el mismo inconveniente


que la varianza, o sea, que el grado de dispersión entre los valores
reales y los estimados corresponde a la unidad de medida elevada al
cuadrado, de ahí, la necesidad de trabajar con la raíz cuadrada de la
varianza residual, la cual, se denomina error estándar de estimación.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

s r = + S r2

El error estándar se utiliza para predecir un valor con


mayor confianza, de esta forma, el valor estimado de ‘y’ se
encontrará en el intervalo [ y* − sr , y * + sr ]

Esto es válido, tanto para la regresión lineal como


exponencial, con la diferencia que, en este último, la variable ‘y’
corresponde a ‘log y’.

Un intervalo de confianza entrega un rango de valores,


dentro de los cuales, se encuentra el valor proyectado con una cierta
probabilidad.

Ejemplo 4.5

Para el caso de la evolución del número de pasajeros


internacionales por avión, en el período 1990-2000, se tenía la
siguiente tabla de cálculos:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

t pint t2 pint2 t*pint


1990 1,083 3,960,100 1,172,889 2,155,170
1991 1,260 3,964,081 1,587,600 2,508,660
1992 1,383 3,968,064 1,912,689 2,754,936
1993 1,609 3,972,049 2,588,881 3,206,737
1994 2,001 3,976,036 4,004,001 3,989,994
1995 2,342 3,980,025 5,484,964 4,672,290
1996 2,520 3,984,016 6,350,400 5,029,920
1997 3,011 3,988,009 9,066,121 6,012,967
1998 3,218 3,992,004 10,355,524 6,429,564
1999 3,443 3,996,001 11,854,249 6,882,557
2000 3,684 4,000,000 13,571,856 7,368,000
21,945 25,554 43,780,385 67,949,174 51,010,795

21.945
t= = 1.995
11 ⇒
25.554
p int = = 2.323,1
11

43.780.385
S t2 = − 1.995 2 = 10
11
67.949.174
S p2 int = − 2.323,12 = 780.404,0
11

51.010.795
Cov(t , p int) = − 1.995 ⋅ 2.323,1 = 2.760,5
11

Como el modelo de regresión es de la


forma; p int = β 1 ⋅ t + β 0 , el valor de la varianza residual y el error
estándar será:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2.760,5 2
S r2 = 780.404,0 − = 18.367,9
10
s r = 18.367,9 = 135,5

Por lo tanto, el intervalo de confianza para una


proyección del número de pasajeros internacionales, al año 2005, es:

p int 2005 = 276,1 ⋅ 2005 − 548.496,4 = 5.084,1


⇒ [5.084,1 - 135,5 ; 5.084,1 + 135,5] ≈ [4.949 ; 5.220]

4.5. Coeficiente de correlación y de determinación

4.5.1. Definición

E sta medida es aplicada a fin de


cuantificar en que grado de error
están relacionadas dos variables y,
por lo tanto, entrega el error global de
las estimaciones a partir de una
ecuación de regresión.

Para la regresión y = β 1 ⋅ x + β 0 el coeficiente de


correlación ‘r’ queda definido por:

S r2
r = 1− 2
Sy

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Cov( x, y )
Como Sr2 = S y2 − se tiene;
S x2

Cov( x, y ) 2
S y2 −
S x2
r = 1−
S y2

Cov( x, y ) 2
r = 1 −1+
S x2 ⋅ S y2

Cov( x, y )
r=
sx ⋅ s y

En cambio, el coeficiente de determinación R 2


queda definido por:

S r2
r2 = 1−
S y2

Es decir;

Cov( x, y ) 2
r2 =
S x2 ⋅ S y2

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

El coeficiente de determinación
indica la proporción o porcentaje
de la variación total de la variable
dependiente “y”, que se explica por,
o se debe a, la variación de la
variable independiente x.

4.5.2. Análisis de los valores

E l coeficiente de correlación y de
determinación será un valor que
cumple con la siguiente restricción3:

−1 ≤ r ≤ 1

−1 ≤ r 2 ≤ 1

El grado en que estén correlacionadas las


variables de una regresión, estará dado por el valor del
coeficiente de correlación, mientras este valor sea lo más
cercano a 1 o –1, significará que las variables están muy bien
correlacionadas y el nivel de estimaciones tendrá un buen
grado de ajustabilidad o confiabilidad.4

3
En algunos casos y, por problemas de aproximación de la varianza y desviación estándar, puede
ocurrir que el coeficiente de correlación quede fuera del intervalo, es decir, puede ser menor que
–1 o mayor a 1.
4
No se debe confundir este nivel de confiabilidad de la estimación con los niveles de confianza que
se utilizan en los Test de Hipótesis, que se denotan con la letra α.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

El signo, lo único que representa es la tendencia


(creciente o decreciente) de la serie de datos, por lo tanto, lo
único que importa es su valor absoluto.

Se puede dar una regla para definir que tan


confiable es una regresión en la estimación de datos, pero
básicamente, esto depende del tipo de serie.

En general, coeficientes de correlación sobre el


0,80 arrojarán valores confiables de proyección.

A modo de ejemplo, se pueden dar los siguientes


rangos de ajustes de un modelo de regresión:

Proyección perfecta : r = 1 (ascendente) o, r = −1 (descendente)

Proyección excelente : 0.90 ≤ r < 1 o − 1 < r ≤ −0.90

Proyección aceptable: 0.80 ≤ r < 0.90 o − 0.90 < r ≤ −0.80

Proyección regular: 0.60 ≤ r < 0.80 o − 0.80 < r ≤ −0.60

Proyección mala: 0.30 ≤ r < 0.60 o − 0.60 < r ≤ −0.30

No hay correlación : − 0.30 < r < 0.30

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Observación 1: El porcentaje de error


de una proyección, viene dado por la
expresión e = 1 − r .

Observación 2: Los cálculos para la


regresión exponencial son similares,
considerando el cambio de variables
asociado.

Ejemplo 4.6

Para el caso de la evolución del número de


pasajeros internacionales por avión, en el período 1990-2000,
se tenía la siguiente tabla de cálculos:

t p t2 p2 t*p
1990 1,083 3,960,100 1,172,889 2,155,170
1991 1,260 3,964,081 1,587,600 2,508,660
1992 1,383 3,968,064 1,912,689 2,754,936
1993 1,609 3,972,049 2,588,881 3,206,737
1994 2,001 3,976,036 4,004,001 3,989,994
1995 2,342 3,980,025 5,484,964 4,672,290
1996 2,520 3,984,016 6,350,400 5,029,920
1997 3,011 3,988,009 9,066,121 6,012,967
1998 3,218 3,992,004 10,355,524 6,429,564
1999 3,443 3,996,001 11,854,249 6,882,557
2000 3,684 4,000,000 13,571,856 7,368,000
21,945 25,554 43,780,385 67,949,174 51,010,795

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

51.010.795
Cov(t , p int) = − 1.995 ⋅ 2.323,1 = 2.760,5
11

21.945 43.780.385
t= = 1.995 S t2 = − 1.995 2 = 10
11 ⇒ 11 ⇒
25.554 67.949.174
p int = = 2.323,1 S p int =
2
− 2.323,1 = 780.404,0
2

11 11

s t = 10 = 3,2
s p int = 780.404,0 = 883,4

Por lo tanto, el coeficiente de correlación (r) y de


determinación (r2 )entre las variables es:

2.760 ,5
r= = 0 ,9765
3,2 ⋅ 883,4
2.760 ,5 2
r2 = = 0.9764
10 ⋅ 780.404 ,0

Esto refleja que la serie de datos se ajusta,


bastante bien, a una regresión lineal, ya que su coeficiente de
correlación (r) es cercano a 1.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

A continuación, encontrará una


actividad de aprendizaje que le
permitirá autoverificar el nivel de
comprensión alcanzado, en los
contenidos desarrollados en la unidad

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N° 13

1. Calcular un intervalo de confianza para la predicción


realizada en el Ejercicio 2, de la Actividad de Aprendizaje
N ° 11.

2. Determinar la bondad del ajuste realizado en el Ejercicio 2


de la Actividad de Aprendizaje N ° 12.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Respuesta Correcta Pregunta 1:

Para determinar el intervalo de confianza de esta estimación


debemos calcular el error estándar de estos datos. Por ello es necesario
calcular previamente la varianza residual.

Así, será necesario agregar a la tabla de datos una columna


para calcular la varianza de la variable dependiente y hacer uso de algunos
resultados ya obtenidos:

Año Año Pasajeros y2


(x) nacionales (y)
1990 1 1.759 3.094.081
1991 2 1.857 3.515.625
1992 3 2.428 5.895.184
1993 4 2.990 8.940.100
1994 5 3.565 12.709.225
1995 6 4.024 16.192.576
1996 7 4.684 21.939.856
1997 8 5.854 34.164.025
1998 9 6.570 43.164.900
1999 10 7.030 49.420.900
2000 11 7.522 56.580.484
Total 66 48.283 255.616.956

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

y = 4.389,36

255.616.956
S y2 = − 4.389,36 2 = 3.971.423,88
11

Cov( x, y ) = 6.252,75

S x2 = 10

6.252,75 2
S r2 = 3.971.423,88 − = 61.735,62 ⇒ s r = 61.735,62 = 248,47
10

Con lo cual, el intervalo de confianza para la estimación


*
y =10.642, será:

[ 10.642 − 248,47 ; 10.642 + 248,47 ] ≈ [ 10.393 ; 10.891 ]

Respuesta Correcta Pregunta 2:

Al igual que en el problema anterior, haremos uso de algunos


resultados ya obtenidos y calcularemos otros. En este caso, para determinar
la calidad del ajuste realizado, debemos determinar el coeficiente de
correlación, pero, previamente, necesitamos calcular la varianza de la
variable dependiente (logy). Así, la tabla requiere de la columna adicional
siguiente:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Millas Recorridas % Útil logy (logy)2


(Miles) (x) (y)
1 97,2 1,99 3,96
2 91,8 1,96 3,84
5 82,5 1,92 3,69
10 64,4 1,81 3,28
20 41,0 1,61 2,59
30 29,9 1,48 2,19
40 12,6 1,10 1,21
50 11,3 1,05 1,10
Total Total Total Total
158 430,7 12,92 21,86

log y = 1,62

21,86
y = − 1,62 2 ≈ 0,11
2
S log
8

S x2 = 301,19

Cov( x, log y ) = −6,1

r =
2 (− 6,1)2 = 1,1 ≈ 1,1 ⇒ r = 1,1 ≈ 1,0
301,19 * 0,11

Note que el coeficiente de determinación resulta mayor que 1,0,


esto es, debido a las aproximaciones realizadas en los cálculos anteriores. El
resultado del coeficiente de correlación nos muestra que el ajuste resulta casi
perfecto.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.6. Cambio de variables

L os cambios de variable se utilizan


como una forma de facilitar el
cálculo de estadísticos (o estadígrafos)
de una variable determinada.

En algunos casos, la variable independiente’x’ puede ser


expresada como unidad de tiempo como: años, meses, semestres,
días, etc. En estos casos, especialmente, cuando la variable se
encuentra expresada en meses, semestres, etc, se deberá realizar una
transformación de la variable a un tipo numérico, de manera tal, que
sea consistente con la serie original dada.

Ejemplo 4.7

Se quiere estimar la evolución del número de vehículos,


en la Región Metropolitana, para el año 2005. La serie histórica es
la siguiente:

Vehículos
Años
(miles)
1980 750
1988 760
1992 1.290
1994 1.500

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En este caso, se realizará una transformación de la


variable años (x). Para ello, se debe elegir el menor valor y
asignarle un valor de uno. Los demás datos, estarán en función de la
unidad escogida, considerando la diferencia de períodos.

De esta forma se obtendrá:

Años Vehículos
Años
(transformación) (miles)
1 1980 750
9 1988 760
13 1992 1.290
15 1994 1.500

Así, los valores al cuadrado y todos aquellos necesarios


para determinar los parámetros βο y β se realizarán con este nuevo
valor de los años. De esta forma, se tendrá lo siguiente:

t veh t2 veh2 t*veh


1 750 1 562.500 750
9 760 81 577.600 6.840
13 1.290 169 1.664.100 16.770
15 1.500 225 2.250.000 22.500
38 4.300 476 5.054.200 46.860

Con esto, se tienen los siguientes valores, para algunos


estadígrafos de interés:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

38
t= = 9,5
4
476
S t2 = − 9,5 2 = 28,8
4
s t = 28,8 = 5,4
46.860
Cov = − 9,5 ⋅ 1.075 = 1.502,5
4
1.502,5
β1 = = 52,2
28,8
1.502,5 2
S r2 = 107.925 − = 29.539,4
28,8
4.300
veh = = 1.075
4
5.054.200
2
Sveh = −1.0752 = 107.925
4
sveh = 107.925 = 328,5
1.502,5
r= = 0,85
5,4 ⋅ 328,5
β0 = 1.075− 52,2 ⋅ 9,5 = 579,1
sr = 29.539,4 = 171,9

Se tiene una correlación r de 0,85, lo que implica, que la


proyección para el año 2000 será aceptable.

Como la ecuación de regresión es de la forma


veh = 52,2 ⋅ t + 579,1 , antes de calcular el valor proyectado para el año
2005, se deberá realizar la transformación para dicho año. Por lo
tanto, la proyección para el año 2005 (año 26 transformado) será:

veh = 52,2 ⋅ 26 + 579,1 = 1.936,3 miles de vehículos

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Por lo tanto, para el año 2005 (año 26 transformado) se


esperaría tener 1.936.300 vehículos, con un intervalo de confianza
de [1.936,3-171,9 ; 1.936,3+171,9]

Es decir, la proyección de vehículos para el año 2005, se


encuentra en el rango [1.764.400 ; 2.108.200], con un grado de
ajustabilidad del 85%.

Si se quiere calcular una proyección para años


anteriores a 1980, se deberá realizar la transformación
correspondiente. Ejemplo, si se quiere un valor proyectado para
1970, al calcular la proyección se deberá ingresar como variable x
transformada el valor de –9.

Ejemplo 4.8

Consideremos la evolución del IPC, para algunos meses


del año 1998 y proyectemos el valor para diciembre del mismo año.

Mes IPC
Febrero 96.1
Marzo 96.5
Mayo 97.0
Junio 97.4
Julio 97.8
Septiembre 98.6

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Realicemos la transformación de variables;

Mes Mes IPC Mes2 IPC2 Mes*IPC


(transformado)
1 Febrero 96,1 1 9.235,2 96,1
2 Marzo 96,5 4 9.312,3 193,0
4 Mayo 97,0 16 9.409,0 388,0
5 Junio 97,4 25 9.486,8 487,0
6 Julio 97,8 36 9.564,8 586,8
8 Septiembre 98,6 64 9.722,0 788,8
26 583,4 146 56.730,0 2.539,7

Con esto se tiene:

26
Mes = = 4,3
6
146
2
S Mes = − 4,3 2 = 5,8
6
s Mes = 5,8 = 2,4
2.539,7
Cov = − 4,3 ⋅ 97,2 = 5,3
6
5,3
β1 = = 0,91
5,8
5,3 2
S r2 = 7,2 − = 2,4
5,8
583,4
IPC = = 97,2
6
56.730
2
S IPC = − 97,2 2 = 7,2
6
s IPC = 7,2 = 2,7
5,3
r= = 0,82
2,4 ⋅ 2,7
β 0 = 97,2 − 0,91 ⋅ 4,3 = 93,3
s r = 2,4 = 1,5

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Se tiene un coeficiente de correlación de 0,82, lo que


implica, que las proyecciones serán aceptables.

La ecuación de regresión es de la forma


IPC = 0,91 ⋅ Mes + 93,3 , por lo tanto, antes de proyectar el IPC para
diciembre, se deberá realizar la transformación para dicho mes. La
transformación correspondiente a diciembre es de 11.

Luego, la proyección para diciembre de 1998 es:


IPC = 0,91 ⋅ 11 + 93,3 = 103,3

4.7. Aplicación de regresión en Excel

E
de
n general, la aplicación Excel,
permite establecer cualquier tipo
regresión, ya sea, lineal,
logarítmica, exponencial, etc.

La aplicación, de cada una de ellas, depende de cómo se


encuentren alineados los datos observados. Se debe recordar que
para aplicar una regresión lineal, la tendencia observada debe
aproximarse lo más posible a una línea recta, de manera de
maximizar el coeficiente de correlación y minimizar el error
estándar.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Ejemplo 4.9

Calcular la ecuación regresión del costo en función de


la producción (Costos = β 1 ⋅ Pr oducción + β 0 ) .

Costos V/S Producción


Producción Costo
(MTon) (MM$) MM$

2 4 18
16
5 8
14
8 10 12
10 11 10
12 12 8
6
15 14
4
17 15 2
20 16 0
2 5 8 10 12 15 17 20
MTon

Con los datos, se aprecia una tendencia lineal de los


valores, por lo cual, la ecuación de regresión tendrá un buen nivel de
correlación entre las variables.

Veamos, cómo se aplica Excel en el


cálculo de la ecuación de regresión,
para ello, se deben seguir los
siguientes pasos:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

1. Copiar la tabla de datos, a la cual se quiere


calcular la ecuación de regresión, en una hoja de
cálculo de Excel.

2. Marcar la tabla de datos con el mouse y botón


izquierdo, para luego, dejar el sector ennegrecido.

3. Ir a la barra de menú y apretar con botón izquierdo


del mouse ‘insertar’ y, después ‘gráfico’.

4. Elegir el tipo de gráfico ‘lineal’.

5. Apretar ‘siguiente’.

6. Chequear el rango de valores para su posible


modificación.

7. Elegir la hoja ‘serie’ y realizar los siguientes ajustes:

- En el cuadro ‘serie’ quitar la variable


independiente.

- En ‘valores’ dejar el rango de datos de la


variable dependiente (sólo los valores y no
los encabezados de columna, por ejemplo,
Producción y MTon).

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

- En ‘rótulo del eje de categorías (x)’ apretar


flecha roja hacia arriba para, luego, marcar el
rango de valores de la variable independiente
(sólo valores). Luego, se apreta la flecha roja
hacia abajo y se vuelve a la hoja de ‘datos
origen’.

8. Una vez completada la información en hoja ‘datos


origen’ apretar ‘siguiente’.

9. En esta hoja llamada ‘opciones de gráfico’ se le da


el formato deseado al gráfico. Se pueden colocar
títulos, borrar líneas de división, nombre en los ejes,
etc. Una vez configurado el formato, se apreta
‘siguiente’ para, luego, apretar ‘terminar’.

10. Luego, el gráfico con los valores observados, se


encuentra sobre la hoja de cálculo de Excel.

11. Para agregar la línea de tendencia o ecuación de


regresión, se deberá realizar lo siguiente:

- Con botón izquierdo del mouse, marcar línea de


gráfico con los valores observados.

- Una vez marcado el gráfico, apretar botón


derecho del mouse y elegir la opción ‘agregar
línea de tendencia’

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

- En este paso, se puede elegir el tipo de regresión


que se quiere aplicar. En nuestro caso,
elegiremos la opción lineal. En la hoja opciones,
se deben marcar las opciones: ‘presentar
ecuación en el gráfico’ y ‘presentar el valor R
cuadrado en el gráfico’. Luego, apretar
‘aceptar’

- Con esto, aparecerá en el gráfico la línea de


tendencia lineal con diferente color y la ecuación
de regresión junto al coeficiente de
determinación.

Así, la ecuación de regresión para la producción en


función del costo, será:

Pr oducción = 1,5714 ⋅ Costo + 4,1786 y R 2 = 0,9472


(regresión buena).

Costos V/S Producción

MM$
18
16
14
12
10 y = 1.5714x + 4.1786
8 R2 = 0.9472
6
4
2
0
2 5 8 10 12 15 17 20
MTon

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.8. Series de tiempo

L as series de tiempo son conjuntos


de observaciones que se van
registrando, a medida que van
ocurriendo a través del tiempo (años,
meses, semestres, trimestres, etc.)

Matemáticamente, una serie de tiempo se define por los


valores y1, y2, y3,..., yn de una variable ‘y’ (temperatura, precio al
cierre de una acción, total de ventas mensuales, producción de
cobre, etc.) en los momentos t1, t2, t3,..., tn De esta forma, la variable
‘y’ es una función de la variable ‘t’, simbolizada por y = F (t ) .

En las series cronológicas,


constituidas por sucesivas
observaciones de un mismo
fenómeno durante cierto lapso, es
fundamental estudiar sus
variaciones, más que su valor
absoluto. Son de gran interés,
especialmente, para el economista
dedicado al análisis del desarrollo
actual y futuro de las actividades
económicas.

Previo al análisis de las series de tiempo, que son casos


especiales de distribuciones bidimensionales, conviene efectuar su
representación gráfica en un sistema de coordenadas.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En el eje horizontal, se representa el tiempo (años,


meses, días, etc.) como variable independiente. En el eje vertical, se
consideran los valores de las correspondientes variables
dependientes (producción, índices, población etc.)

4.8.1. Clasificación de movimientos de series de tiempo

L os movimientos característicos de
una serie de tiempo, pueden
clasificarse en cuatro tiempos
principales, llamados, a menudo,
componentes de una serie de tiempo.

Para el análisis de las series de tiempo, pese a que


en ellas influyen numerosos aspectos, se consideran,
principalmente, las variaciones que sufren los fenómenos
estadísticos en estudio, que pueden ser de diferentes grados.

De acuerdo a esto tenemos:

Tendencia: Movimientos seculares o de


larga duración. Se refieren a la dirección
general a la que el gráfico de una serie de
tiempo parece dirigirse en un intervalo
grande de tiempo. Este movimiento secular o
variación secular, se indica por una curva de
tendencia que aparece a trazos. En algunas
series, puede ser apropiada una recta de
tendencia.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Movimientos cíclicos o variaciones


cíclicas: Se refieren a las oscilaciones de
mediano plazo alrededor de la recta o curva
de tendencia. Estos ciclos, como se llaman a
veces, pueden ser o no períodos, es decir,
pueden seguir o no exactamente caminos
análogos, después de intervalos de tiempos
iguales. En negocios y actividades
económicas, los movimientos se consideran
cíclicos, solamente si su período tiene
intervalos de tiempo superior al año.

Un ejemplo importante de
movimientos cíclicos, son los llamados
asuntos cíclicos, que representan los
intervalos de prosperidad, retroceso,
depuración y recuperación.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Movimientos estacionales o variaciones


estacionales: Se refieren a las idénticas o,
casi idénticas, oscilaciones a corto plazo que
una serie de tiempo parece seguir durante los
correspondientes meses de los sucesivos años.
Tales movimientos, se deben a sucesos
recurrentes que se repiten anualmente, como
por ejemplo, los repentinos incrementos de
ventas de un departamento antes de las
navidades o las ventas de helados en verano.

Aunque los movimientos


estacionales se refieren, en general, a una
periodicidad anual en negocios o teoría
económica, las ideas envueltas pueden
extenderse a incluir periodicidad de cualquier
intervalo de tiempo, tal como: diaria, horaria,
semanal etc., dependiendo del tipo de datos
que se utilizan.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Movimientos irregulares o al azar: Se


refieren a movimientos esporádicos de las
series de tiempo, debidos a sucesos
ocasionales, tales como: inundaciones,
huelgas, elecciones, sequías, etc. Aunque,
normalmente, se supone que tales sucesos
producen variaciones que solamente duran un
corto intervalo de tiempo, se concibe que
pueden ser tan intensos que originan un nuevo
ciclo u otros movimientos.

4.8.2. Técnica de suavizamiento: Tendencia

T endencia: Es una variación


sistemática no periódica, que
corresponde a la forma básica en que
varía, suave y constantemente, un
fenómeno en un período relativamente
largo. Esto implica, considerar como
tendencia, sólo aquellas curvas que
presentan pocos máximos o mínimos.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

La forma de determinar la tendencia de una serie


cronológica o de tiempo, es a través de:

El método de los promedios móviles

El método de los semipromedios

4.8.2.1. Método de los promedios móviles

E ste método se utiliza para suavizar


la poligonal que une los datos,
atenuando (o suavizando) las
oscilaciones muy pronunciadas.

Primeramente, se debe determinar el


período, es decir, un conjunto de datos que se designa
por m (de preferencia series impares), luego, se
procede al cálculo del promedio móvil como sigue:

Se suman los primeros m términos (y1, y2, y3,..., ym)

El total se divide por m, resultando así, el primer


promedio móvil.

Para obtener el resultado del segundo promedio


móvil, se suman los m términos a partir del
segundo (y2, y3, y4,..., ym+1) y se divide por m.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Para obtener el tercer promedio móvil, se suman


los m términos a partir del tercero (y3, y4, y5,...,
ym+2) Y así, análogamente, hasta sumar los últimos
m términos, para obtener el último promedio
móvil.

Cuando m es un número par, se presenta una


dificultad, que consiste en que la suma móvil
queda entre dos valores, lo que implica, que el
promedio móvil, también queda entre esos valores.
Para obviar esto, se procede como sigue:

Se forma una columna con una primera suma


móvil de acuerdo al periodo prefijado.

Se forma una columna con una segunda


suma móvil, registrándose en ésta, la suma
de dos valores consecutivos de la primera
suma móvil, de tal manera, que el resultado
(promedio móvil) quede frente a un valor
original.

Se forma una columna en donde se ubicarán


los promedios móviles, en este caso, es el
cuociente que resulte al dividir los valores de
la segunda suma móvil por el doble de m, es
decir 2m.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Ejemplo 4.10

Si m=3, el primer promedio móvil,


incluye los términos y1, y2, y3, con los cuales, se
y1 + y2 + y3
determina el primer valor de la tendencia ,
3
cuya ordenada corresponde a la del valor central y2.

En forma similar se procede con los


tres datos siguientes: y2, y3, y4, los que proporcionan
y2 + y3 + y4
el segundo promedio móvil , cuya
3
ordenada, corresponde a la del valor central y3. Así,
sucesivamente...

Al final, quedan sin ajustar un dato del


comienzo y del final de la serie, para los cuales, no se
obtiene valor de la tendencia.

Ejemplo 4.11

La producción de un bien A durante el


período 1994-2000, se muestra en cuadro adjunto. Se
pide aplicar promedio móvil de tres términos a la

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

serie y graficar la serie cronológica original y la serie


con los datos ‘suavizados’.

Producción m=3 Producción Bien A Promedios Móviles (m=3)


Año Suma
Bien A Promedio Móvil
Móvil 20
1994 8
1995 10 30 10.0 15
1996 12 29 9.7
1997 7 30 10.0 10
1998 11 31 10.3
1999 13 42 14.0 5
2000 18
0
1994 1995 1996 1997 1998 1999 2000

Ejemplo 4.12

Con la información del ejemplo 4-11, se


ajustará la tendencia, considerando m=2, graficando
la serie cronológica original y la serie cronológica
con los datos ‘suavizados’.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Producción m=2
Año
Bien A 1º Suma Móvil 2º Suma Móvil Prom. Móvil
1994 8
1995 10 18 40 10.0
1996 12 22 41 10.3
1997 7 19 37 9.3
1998 11 18 42 10.5
1999 13 24 55 13.8
2000 18 31

Producción Bien A Promedios Móviles (m=2)

20

15

10

0
1994 1995 1996 1997 1998 1999 2000

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.8.2.2. Método de los semipromedios

C onsiste en agrupar los datos en


dos partes (preferentemente
iguales y con un número impar de
datos) y mediar los datos de cada
parte, así, se obtienen dos puntos en el
gráfico de la serie de tiempo. Una recta
de tendencia puede, entonces, trazarse
entre estos dos puntos y los valores de
tendencia pueden así determinarse.

Los valores de tendencia pueden,


también, determinarse directamente, sin necesidad de
un gráfico.

Aunque este método es sencillo de


aplicar, puede conducir a resultados pobres, cuando
se utiliza sin discernimiento.

También, es aplicable, solamente, cuando


la tendencia es lineal o aproximadamente lineal,
aunque puede extenderse su aplicación a casos en los
que los datos pueden ser divididos en varias partes,
teniendo cada una de ellas una tendencia lineal.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Observación 1: Cuando los datos se


refieren a un número impar de años,
no se considera el valor central.

Ejemplo 3.13

La tabla adjunta muestra la producción


media mensual de una línea X, en millones de
toneladas durante los años 1991-2001.

Producción
Año
(MM Ton)
1991 50.0
1992 36.5
1993 43.0
1994 44.5
1995 38.9
1996 38.1
1997 32.6
1998 38.7
1999 41.7
2000 41.1
2001 33.8

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Para obtener los valores de


tendencia, mediante el método de los
semipromedios, se siguen los
siguientes pasos:

Se dividen los datos en dos partes iguales


(omitiendo el año central 1996), como se
muestra en la tabla siguiente y calculando la
media aritmética de los datos de cada parte.

1991 50,0 1997 32,6


1992 36,5 1998 38,7
1993 43,0 1999 41,7
1994 44,5 2000 41,1
1995 38,9 2001 33,8
Total Media 212,9 Total Media 187,9
(correspondiente a (correspondiente a
42,6 37,6
1993) 1999)

De los resultados se deduce que, en


6 años (1993 a 1999), se produce un
decrecimiento de 5,0 millones de toneladas
(37,6-42,6) o un decrecimiento de 0,83 millones
de toneladas por año, 5,0 6 = 0,83 .

Al conocerse esto, se pueden


calcular los valores de tendencia, codificando
el año central del primer grupo (1993) con un
0; los años anteriores con valores enteros

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

negativos y los años posteriores con valores


enteros positivos. Luego, se reemplazan dichos
valores en la expresión 42,6 + año codificado
* (-0,83) Así, para 1994 y 1995, los valores de
tendencia son, respectivamente,
42,6 + 1 ⋅ (−0,83) = 41,8 y 42,6 + 2 ⋅ (−0,83) = 40,9 y,
así sucesivamente

Producción (MM Ton) Tendencia

60.0
Producción
Año Tendencia
(MM Ton) 50.0
1991 50.0 44.3
1992 36.5 43.4 40.0
1993 43.0 42.6
1994 44.5 41.8 30.0
1995 38.9 40.9
20.0
1996 38.1 40.1
1997 32.6 39.3
10.0
1998 38.7 38.5
1999 41.7 37.6 0.0
2000 41.1 36.8 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
2001 33.8 36.0

A continuación, desarrolle la
siguiente actividad de aprendizaje
propuesta

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N° 14

1. El siguiente cuadro muestra la evolución de aperturas de


cuentas corrientes, durante el año 2001 para una sucursal
bancaria:

Nº de Cuentas
Mes
Corrientes
Enero 81
Febrero 29
Marzo 40
Abril 72
Mayo 89
Junio 48
Julio 79
Agosto 96
Septiembre 23
Octubre 78
Noviembre 18
Diciembre 81

A. Aplicar promedio móvil de 3 (m=3) términos a la serie, para


calcular la tendencia.

B. En un mismo gráfico represente la serie cronológica original y


la serie con los datos ‘suavizados’.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2. La tabla adjunta muestra el ingreso medio mensual (miles


de $), de los jefes de sucursales de una Institución
Financiera.

Ingreso
Año
(Miles de $)
1991 656
1992 804
1993 836
1994 765
1995 777
1996 711
1997 755
1998 747
1999 696
2000 677

A. Obtener los valores de tendencia mediante el método de los


semipromedios, donde la media se toma como la media
aritmética.

B. Construir un gráfico con los resultados obtenidos

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Respuesta Correcta Pregunta 1:

A) La tabla siguiente muestra la suma móvil y los promedios móviles


calculados tomando los datos de 3 en 3:

Nº de Cuentas Sumas Móviles Promedios


Mes
Corrientes (m = 3) Móviles
Enero 81
Febrero 29 150 50
Marzo 40 141 47
Abril 72 201 67
Mayo 89 209 69,7
Junio 48 216 72
Julio 79 223 74,3
Agosto 96 198 66
Septiembre 23 197 65,7
Octubre 78 119 40
Noviembre 18 177 59
Diciembre 81

B) La gráfica queda como sigue:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

120

100
Número de CC

80
Datos originales
60
Datos suavizados
40

20

0
o

e
e
o

lio
zo

ay

br
br
er

Ju
ar

m
m
En

M
M

ie
ie
pt

ov
Se

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Respuesta Correcta Pregunta 2:

A) Primero dividiremos los datos en dos grupos con un número impar de


datos cada uno, calcularemos la media aritmética de cada grupo y
veremos la variación que hay entre ambos períodos de tiempo.

Ingreso
Año
(Miles de $)
1991 656
1992 804
1993 836
1994 765 Grupo 1
1995 777

1996 711
1997 755
1998 747
1999 696 Grupo 2
2000 677

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

656 + 804 + 836 + 765 + 777


Media aritmética M 1 = = 767,6
5

711 + 755 + 747 + 696 + 677


Media aritmética M 2 = = 717,2
5

Asignamos estas medias a los años centrales de cada grupo, es


decir, la primera media aritmética al año 1993 y, la segunda media
aritmética, al año 1998.

Se observa que entre 1993 y 1998, es decir, en un lapso de 1998 -


1993 = 5 años ha habido una variación de la media de 717,2-767,6 = -50,4,
− 50,4
lo cual, implica un decrecimiento de = -10,08.
5

Ahora, será necesario codificar los años comenzando con 0 para


el año 1993, números enteros positivos para los años siguientes y números
enteros negativos para los años anteriores. La tendencia se calculará,
entonces, con la siguiente expresión:

Tendencia = 767,6 + Año codificado*(-10,08)

Lo cual nos dará la siguiente tabla:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Año Ingreso Tendencia


Año
codificado (Miles de $)
-1 1991 656 787,8
-2 1992 804 777,7
0 1993 836 767,6
1 1994 765 757,5
2 1995 777 747,4
3 1996 711 737,4
4 1997 755 727,3
5 1998 747 717,2
6 1999 696 707,1
7 2000 677 697,0

B) La gráfica resulta ser:

850

800

750
Ingreso
Tendencia
700

650

600
91

92

93

94

95

96

97

98

99

00
19

19

19

19

19

19

19

19

19

20

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.9. Resumen de la Unidad

Una distribución bidimensional puede representarse,


gráficamente, en un plano cartesiano, de manera de observar la
tendencia de la variable dependiente.

El concepto de regresión es utilizar información


histórica, con el fin de determinar los parámetros de la ecuación de
regresión y estimar el valor de una variable en función de otra.

Existen muchos modelos de regresión: lineal,


exponencial, polinomial, potencial, etc. y, su aplicación, depende de
la tendencia de las variables.

La aplicación de un modelo de regresión lineal será


posible, sólo para aquellas variables que tienen un comportamiento
lineal, donde los crecimientos o decrementos de las variables son
suaves, sin observar que una crece (o decrece) más rápidamente que
otra. Su expresión está dada por: y = β 1 ⋅ x + β 0 , donde β0 y β1 son
las constantes a determinar, a partir de la serie de datos históricos y
x e y son las variables independientes y dependientes de la ecuación
de regresión.

En cambio, un modelo de regresión exponencial, será


aplicable cuando la variable dependiente tiene un crecimiento (o
decrecimiento) mucho más rápido que la variable independiente. Su
expresión está dada por: log y = log β 0 + x ⋅ log β 1 , donde ‘x’ es la
variable independiente y ‘log y’ la variable dependiente.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Es así, como la ecuación de regresión, entrega la mejor


línea recta (o curva), que se ajusta a la mayor parte de los datos
observados (históricos), con un cierto grado de confiabilidad o
ajustabilidad.

Para determinar el grado de ajustabilidad de las


variables, no basta con calcular las varianzas y las desviaciones
estándar de cada variable, pues existe el denominado coeficiente de
correlación, que determina el grado de certeza con el que se están
realizando las estimaciones. Es el valor más importante en un
modelo de regresión, pues determina el grado de error o de
ajustabilidad de las proyecciones.

El valor del coeficiente de correlación (r) se encuentra


en el rango [-1,1], el signo, sólo indica la tendencia decreciente o
creciente de las variables, por lo tanto, lo único que importa es su
valor absoluto. En la medida que este valor sea lo más cercano a ± 1 ,
significa que el grado de ajuste de las proyecciones es excelente. Este
valor dependerá de las tendencias de las variables observadas y el
tipo de regresión a aplicar. Por ejemplo, si la tendencia de
observaciones es curvilínea y se quiere aplicar un modelo de
regresión lineal, el coeficiente de correlación no será cercano a ± 1 .

Por otro lado, si no se quiere dar una valor exacto de la


estimación, sino más bien entregar un rango de valores posibles, se
utiliza el intervalo de confianza, el cual, está definido como un
intervalo entre el valor proyectado menos el error estándar y el valor
proyectado más el error estándar: [ y* − sr , y* + sr ].

Si se tiene dificultad con el modelo de regresión a


aplicar, basta con analizar la serie de datos y aplicar el tipo de
regresión que más se ajuste. Siempre existe la opción de probar

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

diferentes regresiones, siendo la mejor aquella que presente un


coeficiente de correlación lo más cercano a ± 1 .

Las series de tiempo o cronológicas, que son casos


especiales de distribuciones bidimensionales, tienen mucha
importancia en el estudio de tendencias y variaciones.

Previo al análisis de las series, conviene efectuar su


representación gráfica con el objeto de observar el comportamiento
a través del tiempo.

Para el análisis de las series de tiempo se consideran,


principalmente, las variaciones que sufren los fenómenos estadísticos
en estudio, que pueden ser de diferentes grados y, de acuerdo a su
tendencia: movimientos de larga duración, movimientos cíclicos,
movimientos estacionales y movimientos irregulares.

De esta forma, cada tipo de movimiento en el tiempo,


presenta una. La tendencia, se podrá calcular a través del método de
los promedios móviles y el método de los semipromedios.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4.10. Actividad de Autoevaluación

1. La siguiente serie muestra la evolución del número de


eventos (recitales + conciertos) realizados en el país para
el período 1995-2004.

Año Eventos
1995 397
1996 304
1997 460
1998 476
1999 490
2000 548
2001 462
2002 665
2003 603
2004 820

A) Considerando un modelo de regresión de la forma;


eventos = β 1 ⋅ año + β 0 , estimar el número de eventos para el
año 2005 (Codifique la variable “Años” considerando
1995 como Año 1)

B) Calcular el intervalo de confianza para la estimación


realizada en A)

C) Determinar la calidad del ajuste realizado.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2. Los siguientes son datos relacionados con las porciones de


rayos cósmicos medidas en diversas altitudes.

Altitud(Cientos de
Tasa de la Porción
Pies)
0,5 28
4,5 30
7,8 32
12,0 36
45,0 58
53,0 69

A. Ajuste una curva exponencial a los datos

B. Estimar la radiación cósmica a 6.000 pies de altura.

C. Estimar el intervalo de confianza de la estimación realizada


en B).

D. Indicar la calidad del ajuste exponencial.

3. Según el Servicio de Impuestos Internos, la Unidad


Tributaria Mensual (Pesos), para el período 2001-2002, se
muestra en tabla siguiente:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Mes UTM (Pesos)


Enero 2001 27.683
Febrero 27.711
Marzo 27.794
Abril 27.711
Mayo 27.850
Junio 27.989
Julio 28.101
Agosto 28.129
Septiembre 28.073
Octubre 28.298
Noviembre 28.496
Diciembre 28.524
Enero 2002 28.524
Febrero 28.438
Marzo 28.410
Abril 28.410

A. Aplicar promedio móvil, de tres (m=3) términos a la serie

B. Obtener los valores de tendencia, mediante el método de los


semipromedios, donde la media se toma como la media
aritmética.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Autoevaluación

Pauta de Respuestas Correctas

Respuesta Correcta Pregunta 1:

En la tabla siguiente se han agregado las columnas necesarias


para realizar todos los cálculos para la determinación de la ecuación
solicitada:

Año Eventos
Codificado (x) (y) xi*yi xi2 yi2
1 397 397 1 157.609
2 304 608 4 92.416
3 460 1.380 9 211.600
4 476 1.904 16 226.576
5 490 2.450 25 240.100
6 548 3.288 36 300.304
7 462 3.234 49 213.444
8 665 5.320 64 442.225
9 603 5.427 81 363.609
10 820 8.200 100 672.400
Total Total Total Total Total
55 5.225 32.208 385 2.920.283

55 385
x= = 5,5 S x2 = − 5,5 2 = 8,25
10 ⇒ 10
5.225 2.920.283
y= = 522,5 S y2 = − 522,5 2 = 19.022,05
10 10

s x = 8,25 = 2,87

s y = 19.022,05 = 137,92

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

32.208
Cov( x, y ) = − 5,5 * 522,5 = 347,05
10

Cov( x, y ) 347,05
β1 = = = 42,07
S x2 8,25 ⇒
β 0 = y − β1 ⋅ x = 522,5 − 42,07 * 5,5 = 291,12

La ecuación de regresión será:

y * = 42,07 * x + 291,12

B)
347,05 2
S r2 = 19.022,05 − = 4.422,8
8,25
s r = 4.422,8 = 66,50

y * 2006 = 42,07 * 12 + 291,12 ≈ 796 ⇒ [796 − 67 ; 796 + 67]

Así el intervalo de confianza será:

[729 ; 863] eventos

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

C) Para determinar la calidad del ajuste debemos calcular el coeficiente de


correlación.

347,5
r= = 0,876
2,87 *137,92

De acuerdo al valor de coeficiente de correlación obtenido el


ajuste es aceptable.

Respuesta Correcta Pregunta 2:

En la tabla siguiente, se han agregado las columnas necesarias


para realizar todos los cálculos para la determinación de la ecuación
solicitada:

Altitud(Cientos Tasa de la x2 logy x*logy (logy)2


de Pies)(x) Porción(y)
0,5 28 0,25 1,45 0,725 2,10
4,5 30 20,25 1,48 6,66 2,19
7,8 32 60,48 1,51 11,78 2,28
12,0 36 144,00 1,56 18,72 2,43
45,0 58 2.25,00 1,76 79,20 3,10
53,0 69 2.809,00 1,84 97,52 3,39
Total Total Total Total Total Total
122,8 253 5.058,98 9,6 214,61 15,49

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

122,8
x= = 20,47
6

9,6
log y = = 1,6
6

15,49
2
S log y = − 1,6 2 ≈ 0,0217 ⇒ s log y = 0,0217 = 0,15
6

5.058,98
S x2 = − 20,47 2 = 424,14 ⇒ s x = 424,14 = 20,6
6

Cov( x, log y ) =
∑ x ⋅ log y − x ⋅ ∑ log y = 214,61 − 20,47 *1,6 = 3,02
n n 6

 Cov( x, log y )   3,02 


β 1 = log −1  2
 = log −1   = 1,02
 Sx   424,14 
( )
β 0 = log −1 log y − x * log β1 = log −1 (1,6 − 20,47 * log 1,02) = 26,54

La ecuación de regresión será:

y * = 26,54 * 1,02 x

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

B) Para realizar la estimación a 6.000 pies de altura, debemos reemplazar


x=60, en la ecuación de regresión, debido a que los datos están en
cientos de millas. Así:

y * = 26,54 *1,02 60 ≈ 87

C) El intervalo de confianza para esta estimación, requiere del cálculo de la


varianza residual y luego el error estándar.

Cov( x, log y ) 3,02 2


S r2 = S log
2
y − = 0,0217 − = 0,000196
S x2 424,14

s r = S r2 = 0,000196 = 0,014

Con lo cual, el Intervalo de confianza será:

[y *
] [ ] [
− s r ; y * + s r = 87 − 0,014 ;87 + 0,014 = 86,99 ; 87,01]

D) Para indicar la calidad del ajuste, debemos calcular el coeficiente de


correlación. Así:

Cov( x, log y ) 3,02


r= = = 0,98
sx * sy 20,6 * 0,15

Lo cual, nos indica una correlación excelente.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Respuesta Correcta Pregunta 3:

A) Si aplicamos promedios móviles con m = 3, se obtiene la siguiente tabla:

Suma Móvil Promedio


Mes UTM (Pesos)
Móvil(Tendencia)
Enero 2001 27.683
Febrero 27.711 83.188 27.729
Marzo 27.794 83.216 27.739
Abril 27.711 83.355 27.785
Mayo 27.850 83.550 27.850
Junio 27.989 83.940 27.980
Julio 28.101 84.219 28.073
Agosto 28.129 84.303 28.101
Septiembre 28.073 84.500 28.167
Octubre 28.298 84.867 28.289
Noviembre 28.496 85.318 28.439
Diciembre 28.524 85.544 28.515
Enero 2002 28.524 85.486 28.495
Febrero 28.438 85.372 28.457
Marzo 28.410 85.258 28.419
Abril 28.410

B) Si aplicamos método de los semipromedios, será necesario dividir los


datos en dos grupos. Al dividir los datos, nos quedan grupos con un
número par de datos, como ellos deben contener un número impar de
datos, eliminamos los dos valores centrales y cada grupo queda
conformado por:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Grupo 1

Mes UTM (Pesos)


Enero 2001 27.683
Febrero 27.711
Marzo 27.794
Abril 27.711
Mayo 27.850
Junio 27.989
Julio 28.101
Total 194.839

Grupo 2

Mes UTM (Pesos)


Octubre 28.298
Noviembre 28.496
Diciembre 28.524
Enero 2002 28.524
Febrero 28.438
Marzo 28.410
Abril 28.410
Total 199.100

La media aritmética de cada grupo será:

194.839
x1 = = 27.834
7

199.100
x2 = = 28.443
7

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

28.443 − 27.834
Lo cual, indica una variación de: ≈ 68 pesos en
9
nueve meses.

Para calcular la tendencia, debemos codificar los meses y


aplicar la ecuación:

Tendencia = 27.834+ Mes codificado*68

La tendencia queda como se indica en la tabla siguiente:

Mes Mes codificado UTM (Pesos) Tendencia


Enero 2001 -3 27.683 27.630
Febrero -2 27.711 27.698
Marzo -1 27.794 27.766
Abril 0 27.711 27.834
Mayo 1 27.850 27.902
Junio 2 27.989 27.970
Julio 3 28.101 28.038
Agosto 4 28.129 28.106
Septiembre 5 28.073 28.174
Octubre 6 28.298 28.242
Noviembre 7 28.496 28.310
Diciembre 8 28.524 28.378
Enero 2002 9 28.524 28.446
Febrero 10 28.438 28.514
Marzo 11 28.410 28.582
Abril 12 28.410 28.650

PROGRAMA DE FORMACIÓN A DISTANCIA

También podría gustarte