Está en la página 1de 96

Unidad 4

Regresión y Series de Tiempo

Ing. Christian Mejía E., MSc.


cimejia@uce.edu.ec

Universidad Central del Ecuador


Facultad de Ingeniería en Geología, Minas, Petróleos y Ambiental

2021-2022

1
Regresión y Series de Tiempo
Contenido

1 Relación entre variables


1 Importancia
2 Definición
3 Tipos de dependencia: determinista y no determinista
2 Regresión y modelos de regresión
1 Definición
2 Clasificación
3 Regresión lineal simple
4 Cálculo del modelo por mínimos cuadrados
5 Medidas de correlación
1 Coeficiente de covarianza
2 Coeficiente de correlación lineal (Pearson)
3 Coeficiente de determinación
3 Series de Tiempo
1 Definición
2 Componentes de una serie de tiempo
3 Cálculo de tendencia y pronóstico
1 Regresión
2 Medias móviles
3 Suavización exponencial
2
Relación entre variables
Importancia

Los estudios estadísticos consideran varias variables, por lo que se


puede analizar la relación inherente a ellas.

En los capítulos anteriores se ha analizado únicamente una variable.


Sin embargo, es de mucho interés estudiar no sólo las variables por
separado sino cómo se comportan conjuntamente. En la práctica
existen muchos casos en los cuales dos o más variables aleatorias
están relacionadas.

En este capítulo se estudiará la relación que puede haber entre dos o


más variables, analizadas simultáneamente por medio de la
regresión matemática. Para encontrar posibles asociaciones, se
realiza una estadística de tipo bi-variable (regresión simple), donde
una de ellas puede estar influenciada, determinada o explicada por
otra. Puesto que comúnmente la influencia no se debe a un único
factor sino a varios, se lleva a cabo una estadística multi-variable
(regresión múltiple).

3
Relación entre variables
Importancia

Por qué debemos estudiar la relación entre dos o más variables?


El análisis de estas relaciones es parte fundamental de la
Estadística. Si tenemos un modelo que asocie variables, podemos
estimar una en función de otra(s) para una adecuada toma de
decisiones.

Ejemplos:
Producción y consumo
Ingresos y gastos
Peso y estatura
El caudal y las precipitaciones
La ley de Pb y la ley de Zn en una mena
La ley de uranio y la radiactividad
La demanda, oferta y el precio
La temperatura, humedad, el viento y la radiación solar
...
4
Relación entre variables
Definición

¿Qué significa que dos o más variables están relacionadas?

Significa que entre ellas existe una relación funcional de la forma


y = f (x) en el caso de dos variables. Tendremos un modelo
matemático en el cual la variable y está en relación de x; es decir, y
depende de x.
Cuando se tiene más de dos variables, el modelo será
y = f (x1 , x2 , . . . , xn ); donde y se denomina variable dependiente o
explicada; y x1 , x2 , . . . , xn constituyen las variables independientes.
En el modelo, la variable y está en relación de x1 , x2 , ..., xn ; es decir,
y depende de los xi , siendo i = 1, 2, ..., n.
Por tanto, debemos obtener un modelo matemático que nos
permita construir dichas relaciones.

5
Relación entre variables
Tipos de dependencia

Puesto que la relación entre variables se reduce a encontrar


dependencia entre ellas, podemos decir:

Dependencia de variables
Dos variables son dependientes cuando el conocimiento del valor de
una de ellas en un individuo aporta información sobre el valor de la
otra. Se clasifica en:
Determinista
No determinista

Independencia de variables
Cuando dos variables no son dependientes se dice que son
independientes.

6
Relación entre variables
Tipos de dependencia: Determinista

Cuando el conocimiento del valor de una variable permite el cálculo


exacto de otra, se dice que entre ellas hay una relación de
dependencia determinista o funcional.

La ecuación que posibilita este cálculo determina el modelo que


explica la relación entre ambas variables.

En las leyes de la Física, cuando se mida la fuerza o la aceleración,


se conoce con certeza el valor que tomarán pues existe una
ecuación que las calcula y con los mismos datos de entrada se
obtendrá siempre el mismo dato de salida.

7
Relación entre variables
Tipos de dependencia: Determinista

Ejemplo:

Si a un cuerpo de masa m se le aplica una fuerza F, esta fuerza


comunica una aceleración al cuerpo, cuyo módulo viene
expresado por la ecuación:

F
a=
m
Esta ecuación permite calcular con exactitud, el módulo de la
aceleración que una fuerza determinada comunicará a un
cuerpo de masa conocida.

8
Relación entre variables
Tipos de dependencia: Determinista

El siguiente gráfico muestra los distintos valores de las aceleraciones


provocadas sobre un cuerpo de masa 10 Kg, por distintas fuerzas
ejercidas sobre él.

F
La ecuación a = 10
es el modelo que
explica la relación
de dependencia
entre estas
variables.

9
Relación entre variables
Tipos de dependencia: Determinista

Ejemplo:

El espacio recorrido por un cuerpo en caída libre, en el vacío,


viene dado por la expresión:

1 2
e= gt ,
2
donde g representa el valor de la aceleración de la gravedad, y t
es el valor del tiempo transcurrido.

Despejando: s
2e
t=
g

10
Relación entre variables
Tipos de dependencia: Determinista

El siguiente gráfico muestra los distintos valores del tiempo


transcurrido hasta que un cuerpo en caída libre alcanza el suelo, en
función de la distancia entre éste y el punto en el que inicia la caída.

La ecuación
q
t = 2e g es el
modelo que explica
la relación de
dependencia entre
estas variables.
Relación entre variables
Tipos de dependencia: No Determinista

En ocasiones, cuando dos variables son dependientes, NO se puede


calcular con exactitud el valor de una variable cuando el de la otra es
conocido.

En estos casos se dice que la relación de dependencia entre las


variables es no determinista, estadística o aleatoria.

Por ejemplo, cuando se mida una concentración de mineral a través


de un sondaje de perforación de cierta profundidad, no hay regla que
nos indique con certeza ese valor.
Relación entre variables
Tipos de dependencia: No Determinista

El siguiente gráfico representa los diámetros en la base del tronco, y


las alturas, de un conjunto de cerezos.

¿Qué altura le
corresponde a un
cerezo que tenga un
diámetro en la base
de 14 unidades?

13
Relación entre variables
Tipos de dependencia: No Determinista

El siguiente gráfico representa la esperanza de vida en un conjunto


de paises en función de su producto interior bruto, (en el gráfico las
unidades del PIB son miles de millones de dólares).

¿Qué esperanza de
vida le corresponde
a un país que tenga
un PIB de 15
unidades?
¿Y a otro con un
PIB de 5 unidades?
Relación entre variables
Tipos de dependencia: No Determinista

Problema
En los casos de dependencia estadística no existe un modelo
matemático (ecuación) que permita calcular con exactitud el valor de
una variable, cuando la otra es conocida.

Solución
En ocasiones se puede establecer un modelo que permita calcular,
de manera aproximada, el valor de una variable aleatoria, cuando
el de la otra, también aleatoria, es conocida.

15
Relación entre variables
Tipos de dependencia: No Determinista

La recta del gráfico permite el cálculo aproximado de la altura de un


cerezo, conocido su diámetro en la base.

Su ecuación es:
y = 610 55 + 10 066x
La altura aproximada de un
cerezo, cuyo diámetro en la
base sea 14, será: y =
610 55 + 10 066 × 14 = 760 47

16
Relación entre variables
Tipos de dependencia: No Determinista

La curva del gráfico permite el cálculo aproximado de la esperanza


de vida de un país, conocido el número de miles de millones de su
PIB.

Su ecuación es:
y = 20 03 + 70 76 × ln(x)
La esperanza de vida
aproximada en un país de
5000 millones de dólares
de PIB es:
y = 20 03+70 76×ln(5000) =
680 12
Regresión y modelos de regresión
Definición

Regresión
Método estadístico que propone un modelo matemático para
describir la dependencia de una variable Y con respecto a otra
variable X , llamada independiente o regresora.

Modelo de Regresión
Un modelo de regresión es una expresión matemática que permite
calcular, de forma aproximada, el valor de una variable aleatoria en
un individuo, cuando se conoce el valor de una o varias variables en
ese mismo individuo (regresores), que también son aleatorias.

Cuando se contempla únicamente un regresor se trata de un modelo


de regresión simple. En el caso en que se trate más de un regresor
se tratará de un modelo de regresión múltiple.

18
Regresión y modelos de regresión
Clasificación

 

 
 Modelo Lineal
Modelo Potencial

 


 



 Regresión simple: ŷ = f (x) Modelo Exponencial
Modelo Logarítmico

 


 

Modelo Polinómico

Regresión

 




  Lineal



 Regresión múltiple: ŷ = f (x1 , x 2 , ..., xn ) ...
...

 

19
Regresión y modelos de regresión
Cálculo

Para el cálculo de un modelo de regresión es necesario establecer


una metodología que tenga en cuenta:

1 Conjetura del modelo adecuado

2 La estructura matemática de dicho modelo

3 Cálculo de parámetros del modelo

4 Establecer posibles restricciones

20
Regresión y modelos de regresión
Cálculo

¿Qué modelo es el adecuado?


La conjetura de la conveniencia de un modelo de regresión se realiza
mediante un análisis gráfico de dispersión de las variables dos a dos;
entre la variable dependiente y una de las variables independientes.
La forma cómo se muestran los puntos de los datos disponibles en el
diagrama de dispersión nos indicará qué modelo construir.

El diagrama de dispersión se elabora a partir de los datos (en pares)


de las dos variables aleatorias X e Y , según la tabla:

X Y
x1 y1
x2 y2
.. ..
. .
xn yn
Regresión y modelos de regresión
Cálculo

Ejemplo:
La recta del siguiente gráfico describe, de forma aproximada, y
según la información disponible, la relación entre la altura de los
cerezos y su diámetro en la base.

22
Regresión y modelos de regresión
Cálculo

La recta del siguiente gráfico no describe, de forma aproximada, y


según la información disponible, la relación entre la esperanza de
vida en un país y su producto interior bruto.

23
Regresión y modelos de regresión
Cálculo

Gráficamente,

¿Qué tipo de modelo


explicaría esta relación de
dependencia entre X e Y ?
Parece razonable, en este
caso, conjeturar una recta
como el modelo adecuado.

24
Regresión y modelos de regresión
Cálculo

El siguiente gráfico resume la información de un conjunto de datos,


obtenidos para analizar la relación de dependencia entre las
variables aleatorias X e Y .

¿Qué tipo de modelo


explicaría esta relación de
dependencia entre X e Y ?
No parece razonable, en
este caso, conjeturar una
recta como el modelo
adecuado.

25
Regresión y modelos de regresión
Cálculo

Regresión Lineal Simple

En el caso en que la nube de puntos sugiera una relación lineal, con


forma de recta, entre las variables, existen dos coeficientes que
complementan la información gráfica:

Covarianza

Coeficiente de correlación lineal (Pearson)

26
Regresión y modelos de regresión
Cálculo

Covarianza
Sirve para medir la intensidad de la dependencia lineal entre dos
variables X e Y :
P
(xi − x̄)(yi − ȳ )
COV (X , Y ) =
n

Para medir esta relación de dependencia se dispone de una muestra


de datos pareados como los expuestos en la siguiente tabla:

X Y
x1 y1
x2 y2
.. ..
. .
xn yn

Donde x̄ e ȳ representan las medias muestrales de X e Y ,


respectivamente.
Regresión y modelos de regresión
Cálculo

Dos variables aleatorias estarán relacionadas si su covarianza es


diferente de 0.

Si la covarianza es positiva entonces existe una relación directa


positiva; es decir, si una variable aumenta, entonces también
aumenta la otra.

Si la covarianza es negativa entonces existe relación inversa; lo que


significa que cuando una aumenta, la otra disminuye.

Por otro lado, si la covarianza es cero, las dos variables no están


relacionadas; es decir, son variables aleatorias independientes.

28
Regresión y modelos de regresión
Cálculo

Para interpretar el
Y b
significado del coeficiente
de covarianza, considérese b b
bb b
b b

b b
la representación gráfica b b b
b
b bb
b
b bb
b b

b b
b b b
de los datos de la tabla. . b
b
b b
bb bb
b b b
b
b b
b b
b b
b b b b
b b b b b b
b b
b b b b

29
Regresión y modelos de regresión
Cálculo

Considérese una traslación b b b b


bb
de los ejes al punto (x̄, ȳ ): . b
b
b
b
b
b b b b b
b bb b bb
b b
b b b
b b
b
b b
bb
b bbb b
b
b b
b b
b b
b b b b
b b b b b b
b b
b b b b

(x̄, ȳ)

30
Regresión y modelos de regresión
Cálculo

Para todo punto del primer


cuadrante, se observa que: (xi − x̄) > 0
b
(yi − ȳ) > 0

(xi − x̄)(yi − ȳ ) > 0 b

(x̄, ȳ)

31
Regresión y modelos de regresión
Cálculo

Del mismo modo, para los


puntos del segundo (xi − x̄) < 0
cuadrante: b
(yi − ȳ) > 0

b
(xi − x̄)(yi − ȳ ) < 0

(x̄, ȳ)

32
Regresión y modelos de regresión
Cálculo

De forma similar, en el
tercer cuadrante:

(xi − x̄)(yi − ȳ ) > 0 b

(yi − ȳ) < 0

b (x̄, ȳ)

(xi − x̄) < 0

33
Regresión y modelos de regresión
Cálculo

Y en el cuarto cuadrante:

(xi − x̄)(yi − ȳ ) < 0 b

(yi − ȳ) < 0


(x̄, ȳ) b
(xi − x̄) > 0

34
Regresión y modelos de regresión
Cálculo

Por lo tanto, en distribuciones de puntos como las de las figuras


adjuntas cabe esperar un coeficiente de covarianza próximo a cero.

b
(−) (+) (−) (+)
b b b b
bb b b b
b b
b b b
b b b b b b b b
b bb b bb b
b b b b b
b b b b b b b
b b
b
b b
bb
b bbb b
b b
b bb
b
b bb b
b b b b
b b b b
b b b b
b b b b b b b
b b b b b b b b b b
b b b b
(+) b b b b (−) (+) b b (−)

35
Regresión y modelos de regresión
Cálculo

Sin embargo, en distribuciones de puntos como las de las figuras


adjuntas cabe esperar un coeficiente de covarianza alto en valor
absoluto.

b
(−) (+) (−) (+)
b b b b
b b bb
b b
b b b b b b b
b
b b b bb b
b b
b b b b b
b b
b b
b
b
b
bb b
b b
b b bb b
b b b
b b b
b b b b
b b b b
b b b b b b
b b b
(+) b b (−) (+) b b (−)

36
Regresión y modelos de regresión
Cálculo

La covarianza tiene unidades, las de la variable X multiplicadas


por las de la variable Y .

La covarianza no tiene escala y se puede hacer, en valor


absoluto, arbitrariamente grande o pequeña con el mismo
conjunto de datos.

Para corregir los inconvenientes de la covarianza se define el


coeficiente de correlación, que también mide la intensidad de
la dependencia lineal entre dos variables.

37
Regresión y modelos de regresión
Cálculo

Coeficiente de correlación (Pearson)


El coeficiente de correlación entre dos variables es:

COV (X , Y )
ρ=
SX SY
Donde SX y SY representan las desviaciones típicas de X e Y ,
respectivamente.

38
Regresión y modelos de regresión
Cálculo

El coeficiente de correlación tiene las siguientes propiedades:


Es un número adimensional.

Tiene el mismo signo que la pendiente de la ecuación.

En todo caso:

−1 ≤ ρ ≤ 1

|ρ| = 1 implica dependencia lineal exacta entre X e Y .

ρ = 0 implica falta de dependencia lineal entre X e Y .

39
Regresión y modelos de regresión
Cálculo

En situaciones como las que muestran los siguinetes gráficos, cabe


esperar un coeficiente de correlación próximo a cero.

b
(−) (+) (−) (+)
b b b b
bb b b b
b b
b b b
b b b b b b b b
b bb b bb b
b b b b b
b b b b b b b
b b
b
b b
bb
b bbb b
b b
b bb
b
b bb b
b b b b
b b b b
b b b b
b b b b b b b
b b b b b b b b b b
b b b b
(+) b b b b (−) (+) b b (−)

40
Regresión y modelos de regresión
Cálculo

Sin embargo, en los casos que resumen los siguientes gráficos cabe
esperar un coeficiente de correlación próximo a uno en valor
absoluto.

b
(−) (+) (−) (+)
b b b b
b b bb
b b
b b b b b b b
b
b b b bb b
b b
b b b b b
b b
b b
b
b
b
bb b
b b
b b bb b
b b b
b b b
b b b b
b b b b
b b b b b b
b b b
(+) b b (−) (+) b b (−)

41
Regresión y modelos de regresión
Cálculo

Estructura de un modelo
de regresión simple
Para analizar la estructura
de un modelo de regresión,
Y
supóngase que se ha b
ŷ = f (x)
ajustado uno de estos b

modelos a un conjunto de b

datos. b b

b
Sin pérdida de generalidad, b

se supondrá que se analiza b b ρ∼


=1
el caso de dependencia
entre dos variables, y que X
se puede considerar que el
modelo adecuado es una
recta:

42
Regresión y modelos de regresión
Cálculo

Sea (xi , yi ) un punto


correspondiente a un dato
cualquiera del conjunto: . (xi , yi )
Y b
ŷ = f (x)
b

b b

b b

b
xi
X

43
Regresión y modelos de regresión
Cálculo

yi se puede descomponer
como se describe en el
gráfico: . (xi , yi )
Y b
ŷ = f (x)
b
b
b

b b

b b

b
xi X

44
Regresión y modelos de regresión
Cálculo

La parte inferior, ŷi = f (xi ),


representa el valor que el Y
(xi , yi )
b
ŷ = f (x)
modelo prevé para la
variable Y , en un individuo b

b
cuyo valor en X es xi . . b b

b
ŷi = f (xi )
b b

b
xi X

45
Regresión y modelos de regresión
Cálculo

La parte superior, ei , es la
diferencia entre el valor
observado de Y en el Y (xi , yi )
b

individuo yi , y el previsto ŷ = f (x)


ei
por el modelo, ŷi , para ese b

b
individuo. . b b

b b

b
xi
X

46
Regresión y modelos de regresión
Cálculo

En consecuencia, (xi , yi )
Y b
ŷ = f (x)
yi = ŷi + ei . . ei
b

b b

b
ŷi = f (xi )
b b

b
xi X

47
Regresión y modelos de regresión
Cálculo

Calculado el modelo, el
Y b
valor de ŷi queda ŷ = f (x)
determinado para cada xi , b

ŷi = f (xi ) b

b b

b
ŷi = f (xi ) es la parte b b

determinista, o funcional
del modelo. b b
x1 x2
b
xi X

48
Regresión y modelos de regresión
Cálculo

Calculado el modelo, el
valor de ei no queda
determinado por xi Y b
ŷ = f (x)
b
Puede haber dos
b
observaciones con el b b

mismo xi y distinto ei b *
b

b b
ei = yi − ŷi es la parte
aleatoria del modelo.
X
(Error aleatorio.) .

49
Regresión y modelos de regresión
Cálculo

En consecuencia, la estructura de un modelo de regresión simple es:

yi = f (xi ) + ei
|{z} |{z} |{z}
Valor observado Parte determinista, ŷi Error aleatorio

De manera resumida:

y=f(x)+E

50
Regresión y modelos de regresión
Cálculo

Nomenclatura de un modelo de regresión simple:


y = f (x) + E

y es la variable explicada, dependiente o respuesta.

x es la variable explicativa, el regresor o la variable


independiente.

E representa el error aleatorio. Contiene el efecto sobre y de


todas las variables distintas de x.

51
Regresión y modelos de regresión
Cálculo

Cálculo de los parámetros del modelo de regresión lineal por


mínimos cuadrados

El modelo de regresión lineal simple es el modelo de regresión más


sencillo. Se utiliza cuando:
1 La nube de puntos se asemeja a una recta.
2 El coeficiente de correlación lineal es alto en valor absoluto.

El modelo de regresión lineal con una variable independiente tiene la


forma:

y = β0 + β1 x +E
| {z }
Recta

52
Regresión y modelos de regresión
Cálculo

Supóngase que la relación


entre dos variables sugiere
una alta relación lineal. . Y b
|ρ| ∼
=1

b b

b b

53
Regresión y modelos de regresión
Cálculo

Para ajustar una recta por


mínimos cuadrados hay ŷ = β0 + β1 x
que minimizar:
Y b

ei
b
en
n
X b

S(β0 , β1 ) = ei2 b
*
b

b
i=1 *
e1 b

. b

b b

54
Regresión y modelos de regresión
Cálculo

Como S es función de β0 y de β1 , para que S sea mínimo:

∂S
=0
∂β0
y
∂S
=0
∂β1

55
Regresión y modelos de regresión
Cálculo

Ahora bien, como

ei = yi − ŷi , con ŷi = β0 + β1 xi ,

se tiene que:
ei = yi − (β0 + β1 xi )

56
Regresión y modelos de regresión
Cálculo

De donde:

Pn Pn
ei2 − (β0 + β1 xi ))2
 
∂S ∂ i=1 ∂ i=1 (yi
= = =0
∂β0 ∂β0 ∂β0
y
Pn Pn
ei2 − (β0 + β1 xi ))2
 
∂S ∂ i=1 ∂ i=1 (yi
= = =0
∂β1 ∂β1 ∂β1

57
Regresión y modelos de regresión
Cálculo

Operando para resolver el sistema anterior se tiene que:

n
X
ei = 0.
i=1
n
X
ei xi = 0, e
i=1

ȳ = β̂0 + β̂1 x̄

Siendo β̂0 y β̂1 las soluciones del sistema.

58
Regresión y modelos de regresión
Cálculo

Resolviendo el sistema, se tiene que:

COV (X , Y )
β̂1 =
Sx2

Por lo que la ecuación de la recta de regresión es:

COV (X , Y )
(y − ȳ ) = (x − x̄)
Sx2

59
Regresión y modelos de regresión
Cálculo

Interpretación de los parámetros de un modelo de regresión


lineal simple

En el modelo y = β0 + β1 x que relaciona las variables X e Y :

β0 representa el valor medio de la variable Y |X = 0, que en


muchas ocasiones carece de sentido.

β1 representa la variación de la variable Y , cuando X aumenta o


disminuye una unidad.

60
Regresión y modelos de regresión
Cálculo

Si ŷ = β̂0 + β̂1 x es la recta Y


ŷ = β̂0 + β̂1 x
de regresión calculada por
mínimos cuadrados,
asociada a una muestra, .

61
Regresión y modelos de regresión
Cálculo

β̂0 = ŷ (0). Gráficamente,


Y
ŷ = β̂0 + β̂1 x

Obsérvese que β̂0 no


siempre tiene
significado físico.

β̂0

0 X

62
Regresión y modelos de regresión
Cálculo

β̂1 representa la variación


de la variable Y cuando X Y
ŷ = β̂0 + β̂1 x
aumenta o disminuye una
unidad. En efecto: b

β̂1
ŷ (x) = β̂0 + β̂1 x, b
1

ŷ (x + 1) = β̂0 + β̂1 (x + 1),


De donde,
x x+1 X
ŷ (x + 1) − ŷ (x) = β̂1 .

63
Regresión y modelos de regresión
Cálculo

Coeficiente de determinación
El coeficiente de determinación poblacional ρ2 ó muestral r 2 , es la
variación total de la variable dependiente Y , que es explicada, o se
debe a la variación de la variable independiente X .

Propiedades:
0 ≤ ρ2 ≤ 1, en términos porcentuales: 0 % ≤ ρ2 ≤ 100 %
ρ2 da una mejor interpretación de la relación lineal entre y y x
que el coeficiente de relación.

Ejemplo: un valor de ρ = 0,9435 indica una buena relación lineal


entre x y y , lo cual implica un valor de ρ2 = 0,8902 u 89,02 %, lo cual
significa que aproximadamente el 89 % de la variación de los valores
de y se deben al modelo de regresión estimado.

64
Regresión y modelos de regresión
Cálculo

A partir del coeficiente de determinación, se puede definir el


coeficiente de no determinación, el cual mide la proporción de la
variación total de y , que no es explicada por la variación de x y se
calcula como 1 − ρ2 .

Por ejemplo, para un valor de ρ = 0,8, el valor del coeficiente de


determinación es ρ2 = 0, 64 o 64 %, el coeficiente de no
determinación es 1 − ρ2 = 0, 36 o 36 %, es decir, el 36 % de la
variación de y no se debe a la variación de la variable x.

65
Series de tiempo
Definición

Una de las principales inquietudes del ser humano ha sido predecir


el futuro utilizando información del presente y del pasado.

En la vida diaria se va registrando información a medida que se


produce, formando series de datos a lo largo del tiempo.

En diversos ámbitos se requiere conocer el comportamiento futuro


de ciertos fenómenos con el fin de planificar, preveer o prevenir.

La Estadística ha desarrollado teoría y métodos que apuntan a


resolver el problema de predicción.

Esta parte del capítulo trata un caso especial cuando una de las
variables es el tiempo. Todo aquello en función del tiempo puede ser
estudiado o representado como una serie de tiempo.

66
Series de tiempo
Definición

Ejemplos de series de tiempo


Meteorología Cantidad de agua caída, temperatura máxima diaria,
velocidad del viento (energía eólica), energía solar
Geofísica Registros sismológicos y vulcanológicos
Economía Precios de un articulo, desempleo, inflación, precio del
dólar, precio del cobre, precios de acciones, ingreso
nacional bruto, exportaciones e importaciones
Química Viscosidad de un proceso, temperatura de un proceso
Demografía Tasas de natalidad, tasas de mortalidad, accidentes
laborales
Medicina Electro-cardiograma, electro-encéfalograma
Marketing Series de demanda, gastos, utilidades, ventas, ofer-
tas, presupuestos
Telecomunicaciones Análisis de señales
Transporte Tráfico, accidentes de tránsito

67
Series de tiempo
Definición

Datos temporales
Son aquellos que se van registrando a medida que se van
produciendo, en un estricto orden cronológico.

Los modelos de series de tiempo predicen bajo el supuesto de que el


futuro es una función del pasado:

ŷ = f (t)
En otras palabras, observan lo que ha ocurrido durante un período y
usan una serie de datos históricos para hacer un pronóstico.

68
Series de tiempo
Definición

Serie de tiempo, temporal o cronológica


Conjunto de datos con respecto a una variable cuantitativa, que se
toman en diferentes períodos de tiempo (diario, semanal, mensual, etc.)
Representa las variaciones o evolución de un fenómeno a través del
tiempo.

Dado que el tiempo


es continuo, hay
libertad para elegir
cualquier punto
como origen de la
serie (asignación del
valor t = 0).

69
Series de tiempo
Componentes

La representación gráfica de la serie de tiempo permite conocer la


evolución de los valores de la variable. El gráfico de la serie
permitirá detectar los siguientes elementos:
a. Puntos anómalos (outliers)
Se refiere a puntos de la serie que se escapan de lo normal. Por
ejemplo, en un estudio de la producción diaria de cobre se presentó
la siguiente situación:

70
Series de tiempo
Componentes

b. Tendencia
Representa el comportamiento predominante de la serie:
ascendente, descendente, estable.

71
Series de tiempo
Componentes

c. Variaciones estacionales y cíclicas


Representan un movimiento periódico de la serie de tiempo.

Se suele distinguir entre cíclico y estacionario. Esto último ocurre con


períodos identificables, como la estacionalidad del empleo, o de la
venta de ciertos productos, cuyo período es un año. En cambio,
variación cíclica se refiere a ciclos grandes, cuyo período no es
atribuible a alguna causa. Por ejemplo, fenómenos climáticos, que
tienen ciclos que duran varios años.
72
Series de tiempo
Componentes

d. Variaciones aleatorias
Los movimientos irregulares (al azar) representan todos los tipos de
movimientos de una serie de tiempo que no sea tendencia,
variaciones estacionales y fluctuaciones cíclicas.
El análisis de series de tiempo trata de describir su
comportamiento pasado y predecir su comportamiento futuro. El
análisis clásico considera la serie como el resultado de cuatro
efectos o componentes, alguno(s) de los cuales podría no existir.

Tendencia
Estacional
Cíclico
Errático o aleatorio

73
Series de tiempo
Componentes

1 Tendencia (T): variaciones suaves y constantes que se suceden


en un período relativamente largo. Por ejemplo: la tendencia
hacia el aumento de la temperatura en el planeta o la
disminución de la porosidad con el aumento de la profundidad.
2 Estacional (E): oscilaciones con períodos inferiores a un año y
reconocibles todos los años, relacionados con la climatología o
agentes económicos. Por ejemplo: movimiento de pasajeros
urbanos en un día, consumo de energía, etc.
3 Cíclico (C): fluctuaciones periódicas de largo plazo, que se
deben a la alternancia de etapas de prosperidad (crestas) y
depresión (valles).
4 Aleatorio (A): factores que se presentan en forma accidental e
irregular, siendo difíciles de predecir, tales como: huelgas,
terremotos, inundaciones, sequías, etc.

74
Series de tiempo
Componentes

En el gráfico a continuación se muestra la sobreposición de estos


cuatro comportamientos:

75
Series de tiempo
Componentes

Hipótesis aditiva
Es un criterio clásico de composición para dar lugar a la serie
cronológica y supone que los componentes quedan concatenados
por agregación:
Ŷ = T + C + E + A

76
Series de tiempo
Componentes

Existen otros criterios como:

Hipótesis multiplicativa
Cada componente ejerce un efecto proporcional sobre los otros:

Ŷ = T × C × E × A

Hipótesis mixta
Forma multiplicativoaditiva, por ejemplo:

Ŷ = T × (C + E + A)

77
Series de tiempo
Cálculo de tendencia y pronóstico

Cuando existe un patrón de tendencia en la serie de tiempo, se utiliza


la regresión para describir el comportamiento y realizar pronósticos,
mediante una línea recta ascendente o descendente que mejor
represente al conjunto de datos.
Cuando la serie no presenta tendencias pronunciadas ni influencias
estacionales ó cíclicas, sino solamente un comportamiento horizontal
y aleatorio, el componente errático es el responsable de los valores
anómalos o imprevistos de la serie.
En este caso, la relación variable-tiempo es inexistente ya que el
tiempo no explica el comportamiento de la variable; el tiempo es más
bien el soporte o la escala de medida sobre la cual evoluciona la
variable. No existe una relación de causalidad.
Predecir o pronosticar es estimar el futuro utilizando información del
presente y del pasado. El conocimiento del futuro nos capacita para
planificar, prever o prevenir. Los pronósticos o estimaciones futuras
deben hacerse a corto plazo.

78
Series de tiempo
Cálculo de tendencia y pronóstico

Se presentan 3 técnicas estadísticas útiles para determinar la


tendencia y el cálculo del pronóstico:

Ajuste analítico (regresión)


Medias móviles
Suavización exponencial

79
Series de tiempo
Cálculo de tendencia y pronóstico

Ajuste analítico (regresión)


La variable independiente t representa tiempo y los datos dan el
valor de Y en distintos momentos. En este caso, a la recta de
regresión de Y en t se le llama recta de tendencia y se emplea para
hacer predicciones o pronósticos.
Las series de tiempo como el análisis de regresión, corresponden a
distribuciones bidimensionales o bivariantes, es decir, se trabajan
y analizan conjuntamente dos variables, salvo que en este caso una
de ellas corresponde al tiempo que podría considerarse como la
variable independiente y se simboliza por t.
La otra variable, simbolizada por Y , es la que se va a estimar, ya sea
dentro de la serie (interpolar) o su comportamiento futuro
(extrapolar). Es una regresión unilateral, sólo se podrá estimar a Y
en función de t, pero no al contrario.

80
Series de tiempo
Cálculo de tendencia y pronóstico

Se trata de obtener una función matemática que sea capaz de


explicar con una buena aproximación el comportamiento de la serie
en función de la variable tiempo.

Primero será necesario escoger el tipo de función (lineal, polinómica,


exponencial, etc.) y luego habrá que determinar los parámetros de
ajustes, es decir, la función concreta.

Para escoger el tipo de función, la decisión puede basarse en el


análisis visual de la representación gráfica de la serie. Y en cuanto
a la determinación de la función concreta de ajusta lo más habitual
será utilizar el método de mínimos cuadrados ya conocido.

81
Series de tiempo
Cálculo de tendencia y pronóstico

La siguiente tabla contiene los datos de ancho de playa medido


desde la línea de bajamar hasta la base espaldón durante un
muestreo mensual efectuado en el período 2007-2011 en un perfil de
playa de la provincia de Esmeraldas:

82
Series de tiempo
Cálculo de tendencia y pronóstico

El primer paso en el análisis de una serie consiste en graficar los


datos en un sistema cartesiano en el que el tiempo siempre se pone
en las abscisas y los valores de la serie, yt , en las ordenadas. El
diagrama permite conocer las características de la serie: tendencia,
oscilaciones, valores anómalos, etc.

83
Series de tiempo
Cálculo de tendencia y pronóstico

Cálculo de la tendencia:

La ecuación de la recta obtenida por el método de mínimos


cuadrados está dada por:

yt = 222,6 − 1,9t

Cuál será el ancho de playa pronosticado para marzo 2012?

84
Series de tiempo
Cálculo de tendencia y pronóstico

Medias móviles

A partir de la serie observada, se define una nueva serie que filtra o


suaviza los efectos ajenos a la tendencia (estacionalidad, efectos
aleatorios), de manera que podamos visualizar la tendencia.
Consiste en fijar un número de períodos de tiempo k ,
preferentemente impar, como 3, 5, 7, etc., y calcular los promedios
de todos los grupos de k términos consecutivos de la serie. Se
obtiene una nueva serie de orden k .
En el vocabulario geofísico y eléctrico se habla de eliminar el ruido
(noisy ) o aplicar filtros. Es un método útil para analizar registros
sísmicos y otros registros continuos como los difractogramas de
rayos-X o los registros eléctricos de pozo.
Con este procedimiento sólo queda la tendencia ya que elimina los
movimientos de corto y medio plazo y las anomalías debidas a
causas impredecibles, anulando las variaciones aleatorias.

85
Series de tiempo
Cálculo de tendencia y pronóstico

Ejemplo de promedios móviles de longitud 3:

86
Series de tiempo
Cálculo de tendencia y pronóstico

Datos del precio del barril de petróleo (en dólares), de los días miércoles,
entre enero a junio de 2014. En las columnas 3 a 6, se presentan las medias
móviles de orden 3,5,7 y 9, respectivamente.

87
Series de tiempo
Cálculo de tendencia y pronóstico

La serie de tiempo original graficada a continuación:

88
Series de tiempo
Cálculo de tendencia y pronóstico

Tendencia
A medida que aumenta el orden de la media móvil, el efecto del
suavizado es mayor pero se pierden más datos en los extremos.

89
Series de tiempo
Cálculo de tendencia y pronóstico

Pronóstico: Cuál es el precio esperado para la 2da. semana de julio?

90
Series de tiempo
Cálculo de tendencia y pronóstico

Suavización exponencial

El método de medias móviles asigna una ponderación igual a cada


una de las últimas n observaciones. Sin embargo, se puede plantear
que las observaciones más recientes contienen la información más
actualizada acerca de lo que acontecerá en el futuro.
La suavización exponencial puede asignar una ponderación mayor a
los valores observados más recientes, y ponderaciones decrecientes
a los valores más antiguos, mismos que disminuyen
exponencialmente e influyen cada vez menos en el pronóstico.

91
Series de tiempo
Cálculo de tendencia y pronóstico

Si Yt representa la serie original y Zt la suavizada:

Zt = αYt + (1 − α)Zt−1

La constante de suavización α es un número entre 0 y 1:


Si α es cercano a 1, la serie suavizada pondera más
fuertemente el valor original, luego ambas se parecen, y en
consecuencia, el suavizamiento es poco.
Si α se acerca a 1/2, se ponderan moderadamente la serie
original y la suavizada, por lo que el suavizamiento es moderado.
Si α es cercano a cero, 1 − α es cercano a 1, y la serie
suavizada pondera más fuertemente el valor suavizado
inmediatamente anterior, por lo que el suavizado es importante.

92
Series de tiempo
Cálculo de tendencia y pronóstico

El método de suavizamiento exponencial sirve para hacer


predicciones, pero sólo de un valor, siguiente al último valor
observado.
Ejemplo: Pronóstico de la temperatura máxima. La siguiente tabla
indica la temperatura máxima diaria en ◦ C durante el mes de febrero
de 2013. El objetivo es pronosticar la temperatura máxima del 1 de
marzo de 2013.

93
Series de tiempo
Cálculo de tendencia y pronóstico

La forma de calcular es la siguiente, partiendo de t = 1:

Z1 = Y1
Z2 = αY2 + (1 − α)Z1
Z3 = αY3 + (1 − α)Z2
...

Los gráficos de la serie y tres suavizamientos se muestran a


continuación.

94
Series de tiempo
Cálculo de tendencia y pronóstico

Tendencia

95
Series de tiempo
Cálculo de tendencia y pronóstico

Pronóstico
Se dispone de 28 datos. Es posible hacer una predicción del término
de orden 29, que corresponde al 1 de marzo de 2013, mediante:

Y29 = Z28 = αY28 + (1 − α)Z27

En el caso de α = 0,2, se tiene Y29 = 26,8◦ C. Para α = 0,5, se tiene


Y29 = 26,5◦ C; y si α = 0,7, se tiene Y29 = 26,2◦ C.
Estos resultados son sólo una aproximación por medio de datos
históricos y se deja de lado otros factores determinantes del clima
como la presión, la humedad y el viento, variables utilizadas
generalmente para predecir fenómenos meteorológicos.
La temperatura máxima del 1 de marzo de 2013 fue 27,6C, así que el
pronóstico estuvo bastante cercano con α = 0,2.

96

También podría gustarte