Está en la página 1de 33

MINIMOS CUADRADOS

Esta es otra tcnica de tipo cuantitativo que permite el clculo de los pronsticos para
perodos futuros, para lo cual requiere de registros histricos que sean consistentes, reales y
precisos. Esta tcnica como su nombre lo indica se trata de sacar el total de las desviaciones
elevadas al cuadrado a un valor mnimo: su objetivo es determinar los coeficientes a y b, que
son conocidos como coeficientes de regresin, donde x es la variable independiente (tiempo),
y es la variable dependiente (pronstico de la demanda).
En la prctica se pueden utilizar dos mtodos para calcular los pronsticos a travs de mnimos
cuadrados: Frmula general y Mtodos simplificado.
Para aplicar este mtodo en el clculo de pronsticos de la demanda, se deben tener en
cuenta las siguientes expresiones matemticas:

Donde:
n = tamao de la muestra o el nmero de perodos
x = perodo en el que se desea el pronstico
y = el pronstico
El mtodo simplificado como su nombre lo indica, en la prctica es ms simple y se llega al
resultado de forma ms rpida. Las expresiones a usar son:

Donde:
n = tamao de la muestra o el nmero de perodos
x = perodo en el que se desea el pronstico
y = el pronstico
Cundo ser par y cuando ser non?
Pares: Debemos entender por pares el numero de perodos expresados de dos en dos (2, 4, 6,
8...)
Nones: Es cuando los perodos considerados en los clculos son impares (1, 3, 5, 7, 9...)

Ejemplo 1: MINIMOS CUADRADOS

Panasonic, empresa internacional en su rea de pilas desechables, desea calcular el pronstico


de ventas para el ao 2003, teniendo como antecedentes los datos que se muestran en la
tabla. El clculo del pronstico se deber emitir mediante la formula general y corroborarse
con el mtodo simplificado que corresponda.

Periodos
1990
1991
1992
1993
1994
1995
suma

Ventas (miles)
85
89
92
95
93
98
552

X
1
2
3
4
5
6
21

XY
85
178
276
380
465
588
1972

Calculamos los promedios de las variables x y y:

Calculamos la variable y la pendiente:

Clculo del pronstico:

X^2
1
4
9
16
25
36
91

100
98

y = 2.2857x + 84

96
94
Serie1

92

Lineal (Serie1)

90
88
86
84
0

X son los perodos desde el primer dato histrico hasta el pronstico a calcular

Pares porque el nmero de perodos es par (6)


Periodos
1990
1991
1992

Ventas (miles)
85
89
92

1993
1994
1995
suma

95
93
98
552

X
-5
-3
-1
0
1
3
5
0

XY
-425
-267
-92
0
95
279
490
80

X^2
25
9
1
0
1
9
25
70

NOTA: A x se le asignan valore impares por que es un problema par.


Calculamos los promedios de las variables x y y:

Calculamos la

variable y la pendiente:

*los perodos se cuentan a partir de 1993 con nmeros consecutivos impares de los asignados
a x en un principio hasta llegar a 2003:
Periodos
93-1
94-3
95-5
96-7
97-9
98-11
99-13
2000-15
2001-17
2002-19
2003-21
Ejemplo 2: MINIMOS CUADRADOS
Sabritas S.A de C.V. desea elaborar el pronstico de ventas para uno de sus productos en el
ao 2003 y en torno a ste resultado, se har la planeacin de los recursos a utilizar en el
sistema; para lo cual cuenta con el volumen de ventas anuales que se indican en la siguiente
tabla.
El clculo de ste pronstico se deber hacer a travs de Frmula General y Mtodo
Simplificado.
Periodos
1987
1988
1989
1990
1991
1992
1993
1994
1995
suma

Ventas (miles)
120
121
117
118
124
125
120
118
130
1093

X
1
2
3
4
5
6
7
8
9
45

Calculamos los promedios de las variables x y y:

XY
120
242
351
472
620
750
840
944
1170
5509

X^2
1
4
9
16
25
36
49
64
81
285

Calculamos la variable y la pendiente:

Clculo del pronstico

Nones porque el nmero de perodos es impar (9)


Periodos
1987
1988
1989
1990
1991
1992
1993
1994
1995
suma

Ventas (miles)
120
121
117
118
124
125
120
118
130
1093

Aplicando el mtodo simple:

X
-4
-3
-2
-1
0
1
2
3
4
0

XY
-480
-363
-234
-118
0
125
240
354
520
44

X^2
16
9
4
1
0
1
4
9
16
60

*los perodos se cuentan a partir de 1992 con nmeros consecutivos de los asignados a x en un
principio hasta llegar a 2003:
Periodos
93-2
94-3
95-4
96-5
97-6
98-7
99-8
2000-9
2001-10
2002-11
2003-12
PROMEDIO MVIL

E mtodo de promedios mviles es un nmero de valores de datos histricos reales para


generar un pronstico. Los promedios mviles son tiles si podemos suponer que la demanda
del mercado permanecer relativamente estable en el tiempo. Un promedio mvil de 4 meses
se encuentra simplemente sumando la demanda de los ltimos 4 meses y dividindolo entre
cuatro. Al concluir cada mes, los datos del mes ms reciente se agregan a la suma de los meses
anteriores y se elimina el dato del mes ms antiguo. Esta prctica tiende a suavizar las
irregularidades del corto plazo en la serie de datos.
Matemticamente, el promedio mvil simple (que sirve como estimaciones de la demanda del
siguiente periodo) se expresa como.

Donde n es el nmero de periodos que comprende el promedio mvil; por ejemplo,4,5 o 6


meses respectivamente , para un promedio mvil de 4, 5 o 6 periodos

Ejemplo 1: PROMEDIO MOVIL


Las ventas de cobertizos de almacenamiento en Donna`s Garden Supl se muestran en la
columna central siguiente tabla. A la derecha se da el promedio mvil de tres meses.

Mes

Ventas reales de Cobertizos

Enero

10

Promedio mvil de 3 meses

Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

12
13
16
19
23
26
30
28
18
16
14

11.67
13.67
16
19.33
22.67
26.33
28
25.33
20.67
16

Por tanto, vemos que el pronstico para diciembre es .Para proyectar la demanda de
cobertizos en enero prximo, sumamos las ventas de octubre, noviembre y diciembre y divide
dimos entre tres: pronostico para enero = (18+16+14)/3=16

Serie1
Serie2

En
er
Fe o
br
er
o
M
ar
zo
Ab
ril
M
ay
o
Ju
ni
o
Ju
li
Ag o
Se os
to
pt
ie
m
b
O re
ct
u
No bre
vie
m
b
Di
ci r e
em
br
e

35
30
25
20
15
10
5
0

PROBLEMA DE PROMEDIOS MVILES - PRINCIPIO DE ADMINISTRACION DE OPERACIONES


JAY HEIZER [P-109]

Ejemplo 2: PROMEDIO MOVIL


Aplicar el mtodo de promedios mviles para el pronstico de ventas de gasolina a partir de la
siguiente informacin:
Se considerar el promedio mvil a partir de las tres observaciones ms recientes. En este caso
se utilizar la siguiente ecuacin:

Resumen de clculos para promedios mviles de tres semanas:


Semana

1
2
3
4
5
6
7
8
9
10
11
12

Valor de la serie
de tiempo(miles de
galones)
17
21
19
23
18
16
20
18
22
20
15
22

Pronstico de la i-sima
semana con
Promedios mviles

(17+21+19)/3=19
(21+19+23)/3=21
(19+23+18)/3=20
19
18
18
20
20
19

Los promedios mviles tambin se pueden construir tomando en cuenta valores adyacentes
de las observaciones, por ejemplo: En el caso de determinar el promedio mvil para tres
observaciones adyacentes de la tabla anterior, se tiene:

Semana

1
2
3
4
5
6
7
8
9
10
11
12

Valor de la serie
de tiempo(miles de
galones)
17
21
19
23
18
16
20
18
22
20
15
22

Pronstico de la i-sima
semana con
Promedios mviles para 3 aos
(17+21+19)/3=19
(21+19+23)/3=21
(19+23+18)/3=20
(23+18+16)/3=19
18
18
20
20
19
19

Promedios mviles ponderados


Para mostrar el uso de ste mtodo, se utilizar la primera parte del ejemplo anterior de la
venta de gasolina. El mtodo consiste en asignar un factor de ponderacin distinto para cada
dato. Generalmente, a la observacin o dato ms reciente a partir del que se quiere hacer el
pronstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos ms
antiguos. En este caso, para pronosticar las ventas de la cuarta semana, el clculo se realizara
de la siguiente manera:

Puede observarse que el dato ms alejado (correspondiente a la primera semana) tiene el


factor de ponderacin ms pequeo, el siguiente tiene un factor de ponderacin del doble que
el primero y el dato ms reciente (que corresponde a la tercera semana) tiene un factor de
ponderacin del triple del primero. Los pronsticos para las diversas semanas se presentan en
la siguiente tabla. En todos los casos, la suma de los factores de ponderacin debe ser igual a
uno.

-SUAVIZAMIENTO EXPONENCIAL
El suaviza miento exponencial emplea un promedio ponderado de la serie de tiempo pasada
como pronstico; es un caso especial del mtodo de promedios mviles ponderados en el cual
slo se selecciona un peso o factor de ponderacin: el de la observacin ms reciente. En la
prctica comenzamos haciendo que F1, el primer valor de la serie de valores uniformados, sea
igual a Y1, que es el primer valor real de la serie. El modelo bsico de suavizamiento
exponencial es el siguiente:

En base a lo anterior, el pronstico para el perodo dos se calcula de la siguiente manera:

Como se observa, el pronstico para el perodo 2 con suavizamiento exponencial es igual al


valor real de la serie de tiempo en el perodo uno.
Para el perodo 3, se tiene que:

Para el perodo 4 se tiene:

Para mostrar el mtodo de suaviza miento exponencial, retomamos el ejemplo de la gasolina,


utilizando como constante de suaviza miento = 0.2:

REGRESIN LINEAL MLTIPLE


El modelo de regresin mltiple no es ms que una generalizacin a varias variables de un
modelo de regresin simple. La ecuacin de la regresin lineal simple es:
y a bx

Donde y es la variable dependiente y x es la variable independiente. Pero esta ecuacin se


puede generalizar para el caso en que haya ms de una variable independiente. Supongamos
que haya 3 variables independientes: x1, x2, x3. Podemos construir la ecuacin:
y ab x b x b x
1 1
2 2
3 3

Cada variable independiente xi tiene un coeficiente de regresin o pendiente propia bi. Este
coeficiente se interpretar como el cambio en la variable dependiente (y), por unidad de
cambio en cada variable independiente (x1, x2 x3) a igualdad de nivel de las otras variables
independientes. Es imposible interpretar una regresin si no se conocen las unidades de
medida de cada variable. Esto se aplica tanto a la regresin simple como a la mltiple.
Ejemplo 1: REGRESION MULTIPLE:
Supongamos que la Tensin Arterial Sistlica (TAS, mmHg) de una muestra de adultos con alto
riesgo cardiovascular se utiliza como variable dependiente y intentando predecirla a partir

de tres variables independientes, x1, x2 y x3 que corresponden respectivamente a la edad en


aos (EDAD: x1), el ndice de masa corporal en kg/m2 (IMC: x2) y el sexo (SEXO: x2, codificado
como sexo=0 para hombres y sexo=1 para mujeres). Resulta la siguiente ecuacin:
y 85 0,7x 1 0,6x 2 4,9x 3

Y sustituyendo xi por sus nombres, tendremos:


TAS 85 (0,7 EDAD) (0,6 IMC) (- 4,9 SEXO)

La interpretacin ser que por cada ao ms de edad, la TAS aumentar en 0,7 mmHg
por trmino medio, independientemente de cul sea el sexo y el IMC. Por cada kg/m2 ms de
IMC subir la TAS en 0,6 mmHg por trmino medio (en ambos sexos y sea cual sea la edad). La
diferencia entre hombres y mujeres ser de 4,9 mmHg menos en las mujeres, a igualdad de
edad y de IMC. Quizs esto ltimo es ms difcil de entender, se aclarar si construimos dos
ecuaciones, una para hombres y otra para mujeres, sustituyendo la variable "SEXO" por sus
respectivos valores. La variable sexo se codific as:
Hombres: SEXO= 0
Mujeres: SEXO= 1
En los hombres, la ecuacin ser: TAS 85 (0,7 EDAD) (0,6 IMC)
En las mujeres, la ecuacin ser: TAS 85 (0,7 EDAD) (0,6 IMC) - 4,9
Por lo tanto, las mujeres, a igualdad de edad e IMC, tendrn una TAS 4,9 mmHg
inferior. Es posible introducir variables categricas (sexo en el ejemplo) en el modelo.
En la figura se ha asumido un IMC constante (IMC=25 kg/m2) para poder representar
la TAS slo en funcin de la edad y el sexo. Se puede observar que, segn el modelo de
regresin mltiple, las dos ecuaciones (una para hombres y otra para mujeres) son paralelas,
ya que como se ha visto anteriormente nicamente difieren en una constante.

Figura La ecuacin y=a+b1x1+b2x2 da lugar a dos rectas paralelas,


si x2 es una variable dicotmica. En el ejemplo y es la TAS, x1 es la edad y x2 el sexo.

160

TAS pred (mmHg)

155
150
145
140
135
130
55

57

59

61

63

65

67

69

71

73

75

77

79

Edad

(se ha prescindido del IMC, considerndolo fijo en 25 kg/m2)


Estimaciones ajustadas por factores de confusin en regresin mltiple
Un examen atento de la figura conduce a concluir que, sea cual sea la edad, la
diferencia entre la TAS de hombres y mujeres es constante y vale 4,9 mmHg. Se dice que esta
esta diferencia (4,9 mmHg) est ajustada por edad. "Ajustar por" significa equiparar a los
grupos que se comparan en cuanto a la variable por la que se ajusta, en este caso es crear una
comparacin entre hombres y mujeres, igualndolos en cuanto a su edad. Para el ajuste se ha
usado un mtodo multivariable, que es la regresin mltiple.
En cambio si comparsemos la TAS entre hombres y mujeres usando un mtodo
bivariante (t de Student) encontrariamos que la diferencia es slo de 2,4 mmHg. El mtodo
bivariante no tiene en cuenta la edad, pues slo considera las dos variables comparadas (sexo
y TAS)
Cmo es posible que siendo la TAS media de los hombres 2,4 mmHg mayor que la de
las mujeres, sin embargo en la figura 12.1 la diferencia a cualquier edad entre la TAS media de
hombres y mujeres sea casi el doble (4,9 mmHg). Esto se puede explicar con los datos
aportados por la tabla 12.2.

Tabla Comparacin entre hombres y mujeres de tensin arterial (TAS), edad e IMC.
Hombres (n=326)

Mujeres (n=413)

Tensin arterial sistlica


media (DE)
Diferencia de medias en TAS

151,8 (18,2)
149,4 (20,2)
151,8 - 149,4 = 2,4 mmHg
t 737

t de Student (compara medias TAS)


Edad media
IMC medio

151,8 149,4
1,7 p=0,09 (2 colas)
1,43

67,6
28,8

69,9
30,2

Observando la tabla puede apreciarse que los hombres de la muestra son ms jvenes que las
mujeres (diferencia de edad = 2,2 aos) y por eso su TAS es slo 2,4 mmHg superior cuando se
comparan de manera bruta con las mujeres, ya que la TAS aumenta a medida que aumenta la
edad. Si, en la muestra, los hombres son ms jvenes que las mujeres, comparar sus medias en
la muestra (t de Student) infraestimar la verdadera diferencia existente entre hombres y
mujeres. Por eso no basta la comparacin bruta, sino que es necesario igualar por edad a
hombres y mujeres usando un mtodo multivariable para poder realizar una verdadera
comparacin vlida. Esto libera del efecto distorsionador de la edad. Slo mediante el mtodo
multivariable que ajusta por edad se puede realizar una generalizacin cientficamente
rigurosa de las diferencias en TAS entre hombres y mujeres. La verdad es que los hombres
tienen la TAS 4,9 mmHg por encima de las mujeres, sea cual sea su edad. Si esto es verdad a
todas las edades, debe ser verdad tambin para el conjunto.
En este ejemplo, al comparar la TAS segn sexo, se dice que la variable edad acta como factor
de confusin (. Un factor de confusin es una variable que se asocia tanto con la variable
independiente (supuesta "causa") como con el supuesto "efecto" y que hace que la
comparacin bruta o "cruda" (t de Student) sea invlida. Cuando hay factores de confusin se
debe usar el anlisis multivariable. La figura 12.2 representa grficamente el papel de la edad
como factor de confusin:

Figura La edad acta como factor de confusin


al valorar la relacin entre edad y tensin arterial sistlica (TAS)
Sexo
Edad
(factor de confusin)

TAS

Usando terminologa de grficos causales se dira que la edad abre una puerta trasera que
comunica sexo y TAS (Hernn, 2002; de Irala, 2002). Se cierra dicha puerta trasera al "ajustar"
por edad. La comparacin bruta (diferencia = 2,4 mmHg entre hombres y mujeres) no es
vlida. La comparacin ajustada (diferencia = 4,9 mmHg) est libre de confusin por edad. La
figura presenta esto mismo1 segn SPSS.

Tabla Modelos de regresin mltiple con la tensin arterial (TAS), edad, sexo e IMC.

Modelo
1
(Constante)
Sexo1
2
(Constante)
Sexo1
Edad
IMC
1

B
151,827
-2,407
85,000
-4,909
0,741
0,582

Error tp.
1,070
1,431
9,212
1,427
0,109
0,168

Beta
-0,062
-0,126
0,246
0,125

t
141,952
-1,683
9,227
-3,439
6,801
3,455

Sig.
0,000
0,093
0,000
0,001
0,000
0,001

Sexo=0 para hombres y Sexo=1 para mujeres.

IMC = ndice de masa corporal (kg/m2)


Variable dependiente: tensin arterial sistlica (TAS, mmHg).
Interpretacin:
Se han ajustado dos modelos, ambos con TAS como variable dependiente. El primero slo
incluye una variable independiente, que es el sexo. Este primer modelo representa la
comparacin cruda o bruta (bivariante). Su coeficiente de regresin o pendiente (b = -2,407)
corresponde exactamente a la diferencia de medias que se hubiese obtenido usando la t de
Student. En este sentido, puede afirmarse que la t de Student es un caso particular de
regresin.
El segundo modelo usa 3 variables independientes. Adems del sexo, incluye la edad y el ndice
de masa corporal (IMC). Este modelo ha controlado la posible confusin por edad y por IMC en
la comparacin de la tensin arterial sistlica (TAS) entre sexos. La verdadera diferencia, una
vez ajustada por edad e IMC es de 4,9 mmHg (TAS inferior en las mujeres).
Los valores p de significacin estadstica indican que cada una de las tres variables del segundo
modelo se asocia independientemente a la TAS de manera significativa. El valor p del primer
modelo (p = 0,093) no es significativo, pero no sera vlido, ya que est confundido por edad e
IMC. El verdadero valor p para la comparacin entre sexos es el ajustado (p=0,001) que est en
el segundo modelo.

Interaccin o modificacin del efecto en regresin mltiple


En el ejemplo anterior se asume implicitamente que hay una diferencia en la TAS constante
(4,9 mmHg) entre hombres y mujeres, sea cual sea su edad. Pero hay veces que la diferencia
entre hombres y mujeres no es constante para todas las edades. Por ejemplo pudiera pasar
que, a medida que sea mayor la edad, sean menores las diferencias entre hombres y mujeres.
A esto se le llama "modificacin del efecto" o "interaccin", pues significa que la edad modifica
las diferencias entre sexos (o viceversa: que el efecto de la edad sobre la TAS es diferente en
uno y otro sexo). La interaccin puede valorarse introduciendo una nueva variable que es el
producto de las dos que podran interactuar entre s.
Trmino de interaccin = sexo * edad
En el ejemplo, el trmino de producto sexo*edad valdr 0 en varones, ya que la
variable sexo vale 0 para ellos. Pero esta nueva variable equivale a la edad en mujeres (edad*1
= edad). Se debe ajustar un tercer modelo (tabla del modelo 3) incluyendo el trmino de
producto.
Tabla Regresin mltiple con TAS (dependiente), edad, sexo e IMC, aadiendo un trmino de
interaccin (modelo 3) entre sexo y edad.

Modelo
1
(Constante)
Sexo
2
(Constante)
Sexo
edad
IMC
3
(Constante)
sexo
edad
IMC
sexo*edad
1

B
151,827
-2,407
85,000
-4,909
0,741
0,582
96,051
-26,089
0,576
0,584
0,308

Error tp.
1,070
1,431
9,212
1,427
0,109
0,168
12,060
15,000
0,159
0,168
0,217

Beta
-0,062
-0,126
0,246
0,125
-0,670
0,192
0,125
0,559

t
141,952
-1,683
9,227
-3,439
6,801
3,455
7,965
-1,739
3,625
3,470
1,418

Sig.
0,000
0,093
0,000
0,001
0,000
0,001
0,000
0,082
0,000
0,001
0,156

Sexo=0 para hombres y Sexo=1 para mujeres.

IMC = ndice de masa corporal (kg/m2)


sexo*edad = trmino de producto (equivale a la edad en mujeres y a 0 en varones)
Variable dependiente: tensin arterial sistlica (TAS, mmHg).

Interpretacin:
El modelo 3 proporciona dos ecuaciones, una para hombres y otra para mujeres.
Varones: TAS 96,051 (0,576 EDAD) (0,584 IMC)
Mujeres: TAS 96,051 - 26,089 (0,576 EDAD) (0,584 IMC) (0,308 EDAD)
Sumando las constantes y los coeficientes de la edad, la ecuacin en mujeres ser:
Mujeres (simplificada): TAS 69,962 (0,884 EDAD) (0,584 IMC)
Sin embargo, al valorar una interaccin debe comprobarse si su coeficiente tiene un valor p
significativo o no. Si no es significativo debe suprimirse. Aqu el valor p no es significativo
(p=0,156) y preferiremos el modelo sin interaccin, ya que no hay evidencia para rechazar la
hiptesis nula de que su coeficiente (0,308) sea 0 en la poblacin. No obstante, a efectos
demostrativos, representaremos grficamente el modelo con interaccin para interpretar su
significado.
Figura Interaccin. La ecuacin y=a+b1x1+b2x2+ b2(x1*x2) da lugar a dos rectas que ya no son
paralelas. En el ejemplo y es la TAS, x1 es la edad y x2 el sexo.

160

TAS pred (mmHg)

155
150
145
140
135
130
55

57

59

61

63

65

67

69

71

73

75

77

79

Edad

(se ha prescindido del IMC, considerndolo fijo en 25 kg/m2)

Observando la figura se aprecia que las diferencias entre hombres y mujeres ya no son
constantes, sino que dependen de la edad (la edad es un modificador del efecto del sexo).
Tambin puede interepretarse al revs: la pendiente de la recta que relaciona TAS y edad es
diferente en hombres y mujeres, es decir el sexo es un modificador del efecto de la edad.

Variables cualitativas con ms de dos categoras y variables dummy


Cuando se desea introducir como independiente una variable cualitativa que tenga 3 o ms
categoras, se debe elegir primero cul ser la categora de referencia y crear una nueva
variable para cada una de las dems categoras.
Por ejemplo, Estruch et al desean comparar 3 dietas en cuanto a su eficacia para reducir los
niveles de colesterol. Usaron 3 dietas, una rica en aceite de oliva virgen (AOV), otra rica en
frutos secos (FS) y una dieta control baja en grasas (control). La variable cualitativa "dieta "
tendr, por tanto estos 3 niveles o categoras. Se consider el grupo control como categora de
referencia y se crearn dos nuevas variables (AOV y FS). Esto sirve para comparar cada una de
ellas dos frente al grupo control. La nueva variable AOV valdr 1 cuando el participante sea
asignado al grupo de aceite de oliva virgen y 0 en caso contrario (control o FS). La nueva
variable FS valdr 1 cuando el participante sea asignado al grupo de frutos secos y 0 en caso
contrario (control o AOV). Se ha usado este procedimiento para valorar las diferencias en
cuanto al cambio de peso al cabo de 3 meses en ese ensayo.
Tabla Dos variables "dummy" sustituyen a una variable con 3 categoras

CODIFICACIN

Nuevas variables (variables "dummy"")

Variable original
Categoras:

AOV

FS

1 = Aceite de oliva

2 = Frutos secos

3 = control

SPSS
(Constante)
AOV
FS

B
-0,280
0,031
0,161

Error tp. Beta t


Sig.
0,191
-1,461 0,144
0,262
0,005 0,119 0,905
0,267
0,027 0,605 0,546

Variable dependiente: cambio de peso (kg) a 3 meses (DIF_PES.)


Interpretacin:
El listado de salida de SPSS sirve para crear tres ecuaciones de cambio de peso, una
para cada grupo. As, se puede comparar el cambio de peso (kg) predicho por el modelo para
el grupo de dieta rica en aceite de oliva virgen, lo predicho para dieta rica en frutos secos y lo
predicho para el grupo control (baja en grasa).
Modelo para dieta rica en aceite de oliva virgen (AOV=1, FS=0):

DIF_PES = -0,28 + 0,031*1 + 0,161*0


DIF_PES = -0,28 + 0,031 = -0,249
Modelo para dieta rica en frutos secos (AOV=0, FS=1):
DIF_PES = -0,28 + 0,031*0 + 0,161*1
DIF_PES = -0,28 + 0,161 = -0,119
Modelo para dieta baja en grasa (grupo control) (AOV=0, FS=0):
DIF_PES = -0,28 + 0,031*0 + 0,161*0
DIF_PES = -0,28
La interpretacin de los dos coeficientes (0,031 y 0,161) es, por tanto, muy sencilla y
directa. El primero (+0,031) es la diferencia en el cambio de peso entre el grupo de aceite y el
grupo control, el segundo (+0,161) es la diferencia entre el grupo de frutos secos y el grupo
control. Ninguna de estas diferencias result estadsticamente significativa.
Esto se podra haber hecho tambin por ANOVA, con dos contrastes a priori
(coeficientes: 1, 0 y +1 para el primer contraste y coeficientes: 0, -1 y +1 para el segundo). El
resultado sera exactamente idntico al de la regresin, como puede verse debajo.
Contraste Valor del
contraste Error tpico
1
-0,031
0,262
2
-0,161
0,267

t
Sig. (bilateral)
-0,119
0,905
-0,605
0,546

La ventaja de hacerlo por regresin es que basta con introducir tambin otras variables
en el modelo (p. ej. sexo, edad, peso inicial, etc.) para obtener estas mismas estimaciones ya
ajustadas por esos posibles factores de confusin.

Supuestos o condiciones de aplicacin del modelo de regresin mltiple


El procedimiento utilizado para calcular una regresin lineal simple es el ajuste por
mnimos cuadrados El objetivo es encontrar la ecuacin que mejor se ajuste a los puntos
observados. En una regresin mltiple el procedimiento de estimacin es semejante al
utilizado en la regresin lineal simple, se estima la superficie que mejor se ajusta a la nube de
puntos observados. El mtodo se denomina ajuste por mnimos cuadrados. Es un mtodo que
minimiza las distancias desde cada punto observado hasta el plano (residuales)
Cuando se ajusta un modelo de regresin mltiple, el ordenador devuelve coeficientes
bi para cada una de las variables independientes xi que pueden considerarse predictores de la
variable cuantitativa considerada como respuesta (variable dependiente).

Por lo tanto, al igual que en la regresin lineal simple, el modelo se basa unos
supuestos similares,que son los siguientes.
Las variables estn relacionadas linealmente.
La distribucin de la variable dependiente condicionada a cada posible combinacin
de valores de las independientes es una distribucin normal multivariable.
Las variables son independientes unas de otras.
Homogeneidad de las varianzas (homocedasticidad): las varianzas de la variable y
condicionadas a los valores de x son homogneas.
Para comprobar estos supuestos se deben guardar los residuales y valorar si se adaptan a la
normalidad, igual que se hace en regresin simple. Si el tamao muestral es grande,
habitualmente resultarn significativos los test de normalidad de los residuales, pero esto
tiene poca relevancia prctica. En esta situacin un test de normalidad significativo es slo una
consecuencia del tamao muestral. Resulta entonces ms importante valorar la magnitud del
apartamiento de la normalidad usando mtodos grficos. Habitualmente, con tamaos
mustrales grandes (n>500) la regresin suele ser suficientemente robusta.
Cuando haya un apartamiento notorio de la normalidad en los residuales se puede probar un
trmino cuadrtico para alguna de las variables independientes cuantitativas ms importantes.
Esto conducira a modelos polinmicos y permitira incluir relaciones curvilneas. Existen
amplias posibilidades de modelizacin no lineal en regresin.

Ejemplo 2: PRCTICO DEL MODELO DE REGRESIN MLTIPLE


Por ejemplo, con SPSS se obtuvo el listado que aparece en la tabla 1 al predecir el ndice de
masa corporal (IMC) en funcin de diversas caractersticas (edad, hbito tabquico, nivel de
estudios y actividad fsica en el tiempo libre) en los varones de una muestra representativa de
la poblacin adulta (>15 aos) de la Unin Europea.

La codificacin de las variables fue:


Edad: variable cuantitativa (aos)

Estudios:
0 = Estudios medios o superiores

Tabaco:
1 = Estudios primarios
0 = No fumador
1 = Fumador actual
Actividad fsica en el tiempo libre:
2 = Ex-fumador (lo dej hace < 1 ao)
variable cuantitativa medida en
3 = Ex-fumador (lo dej hace >= 1 ao)

METs-horas/semana

Tabla Aspecto parcial de los resultados de SPSS en regresin mltiple.


Coeficientes
Coeficientes no
estandarizados
B
Error tp.
(Constante)
18,767
,287
EDAD
,266
,014
EDAD AL CUADRADO
-2,364E-03
,000
FUMADOR
-,468
,087
EXFUMADOR < 1 AO
,478
,245
EXFUMADOR 1 AO+
,530
,127
ESTUDIOS PRIMARIOS
,534
,091
ACTIV. FISICA (METs-h./sem) -8,501E-03
,002

Coeficientes
estandarizados
Beta
1,229
-,993
-,064
,022
,050
,067
-,049

Sig.

65,448
19,672
-15,872
-5,390
1,956
4,177
5,867
-4,404

,000
,000
,000
,000
,051
,000
,000
,000

Variable dependiente: BMI


Interpretacin:
La edad guardaba en esta base de datos una relacin curvilnea con el IMC (BMI), el
IMC correspondiente a cada edad ser: IMC = 18,767 + (0,266edad) (0,002364edad2). Para
entender mejor esta relacin, es preferible representar la ecuacin grficamente como se hace
en la figura 12.4.

Figura Relacin entre edad e ndice de masa corporal (BMI). Muestra representativa varones

27
26

IMC 25
24
23
22
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Edad
europeos mayores de 15 aos (n=7.375).
Adems, es preciso considerar que este efecto de la edad es independiente de los
otros factores (tabaco, estudios y actividad fsica) incluidos en el modelo.
La variable categrica "tabaco" tena 4 categoras, por lo tanto se han introducido 3
trminos en el modelo (todas las categoras menos una). La categora que no se introduce
(aqu son los nunca fumadores) es la que queda como estrato de referencia frente al cual se
realizan todas las comparaciones. As, los fumadores tenan (independientemente de cul
fuese su edad, estudios y actividad fsica) por trmino medio 0,468 kg/m 2 menos de IMC que
los nunca fumadores. En cambio los ex-fumadores tenan por trmino medio mayor IMC que
los nunca fumadores. Para los que haban dejado de fumar haca menos de un ao esta
diferencia media fue de +0,478 kg/m2, y para los que dejaron de fumar haca ms de un ao
fue de +0,530 kg/m2, en comparacin con los nunca fumadores (siempre independientemente
de cul fuese su edad, estudios y actividad fsica).
Los hombres cuyo nivel de estudios era primario o menor (Estudios=primarios) presentaron
mayor IMC medio que quienes tenan estudios ms elevados. La diferencia media en el IMC
fue de +0,534 kg/m2 (independientemente de cul fuese su edad, hbito tabquico y actividad
fsica).
Cada MET-hora ms a la semana de actividad fsica en el tiempo libre se asoci a una
reduccin del IMC de 0,0085 kg/m2 (independientemente de cul fuese la edad, hbito
tabquico y nivel de estudios de los participantes). Los METs son una medicin de la cantidad
de esfuerzo que se hace en una actividad fsica o deporte. Se suman a lo largo de la semana
multiplicada por las horas que se dedican por trmino medio a esa actividad o deporte (METShoras/semana).
Las 4 variables resultaron ser predictores independientes y estadsticamente significativos de
la variabilidad en el IMC.
La representacin grfica de la figura asume que los sujetos tenan el valor 0 en las otras 3
variables (nivel de estudios, hbito tabquico y actividad fsica). Tener un valor de 0 en estas 3
variables supone no ser fumador, tener estudios superiores o medios y no realizar ninguna
actividad fsica en el tiempo libre.

MTODO DE PROMEDIOS MVILES CON PONDERACIN EXPONENCIAL


Panasonic, empresa internacional en su rea de pilas desechables, desea calcular el pronstico
de ventas para el ao 2003, teniendo como antecedentes los datos que se muestran en la
tabla. El clculo del pronstico se deber emitir mediante la frmula general y corroborarse
con el mtodo simplificado que corresponda.

Perodos
1990
1991
1992
1993
1994
1995

Y Ventas (miles)
85
89
92
95
93
98
552

TENIENDO EN CUENTA QUE:


(

PARA 1996:

Para 1997

Para 1998
(

Para 1999
(

Para 2000
(

Para 2001
(

Para 2002

Para 2003

Luego los pronsticos para los siguientes aos sern :

Perodos
1996
1997
1998
1999
2000
2001
2002
2003

Y Ventas (miles)
96.00
96.80
96.48
96.60
96.55
96.57
96.56
96.56

-MTODO DE REGRESIN EXPONENCIAL


Ejemplo:

Panasonic, empresa internacional en su rea de pilas desechables, desea calcular el pronstico


de ventas para el ao 2003, teniendo como antecedentes los datos que se muestran en la
tabla. El clculo del pronstico se deber emitir mediante la frmula general y corroborarse
con el mtodo simplificado que corresponda.

Perodos
1990
1991
1992
1993
1994
1995

Y Ventas (miles)
85
89
92
95
93
98
552

x2
25
9
1
1
9
25
70

x
-5
-3
-1
1
3
5
0

log y
1,9294
1,9494
1,9638
1,9777
1,9685
1,9912
11,7800

Para esto tenemos que :

Luego hallando b:

x log y
-9,6471
-5,8482
-1,9638
1,9777
5,9054
9,9561
0,3803

Luego la ecuacin de pronstico es:

Luego para el pronstico para el 2003 ser:

Perodos
1996
1997
1998
1999
2000
2001
2002
2003

Y Ventas (miles)
100
103
105
108
111
114
117
120

x
7
9
11
13
15
17
19
21

exponencial
Valor

100
90
Real

80

Pronstico

70
1

Punto de datos

-METODO DE REGRESION PARABOLICA DE PRONOSTICOS


- Ajuste de una funcin parablica: Y* = a + b X + c X2
X
1
2
3
4
5
15

1/5 3

X2
1
4
9
16
25
55
11

Y
1,25
5
11,25
20
30,5
68
13,6

X3
1
8
27
64
125
225

X4
1
16
81
256
625
979

X2Y
1,25
20
101,5
320
762,5
1205

XY
1,25
10
33,75
80
152,5
277,5
55,5

Y*
1,18
5,11
11,32
19,81
30,58
68
13,6

e=Y-Y*
0,07
-0,11
-0,07
0,19
-0,08
0
0

e2
0,0049
0,0121
0,0049
0,0361
0,0064
0,0644
0,0128

Aplicando el mtodo de los mnimos cuadrados se obtiene el siguiente sistema de ecuaciones:

Y Na b X c X
XY a X b X c X
X Y a X b X c X
2

Resolviendo este sistema se obtiene: a= -0,47


*

Y = -0,47 + 0,51 X + 1,14 X

68 5a 15b 55c

277,5 15a 55b 225c


1205 55a 225b 979c

b= 0,51

c= 1,14

Bondad del Ajuste:


2

Coeficiente de determinacin: R =

S e ECM 2
2

S2 *
Y
2
Y

1-

S e2
S

2
Y

1-

0,01288
0,9998
111,715

0,01288

2) Ejemplo de Regresin Parablica


Dadas dos variables, x e y, ajustar a los datos una funcin de tipo parablico.

x2

x3

x4

xy

x2y

1.25

1.25

1.25

16

10

20

11.25

27

81

33.75

101.25

20

16

64

256

80

320

30.5

25

125

625

152.5

762.5

15
68
55
225
979
277.5
1205
Aplicando el mtodo de los mnimos cuadrados se obtiene el siguiente sistema de ecuaciones:

na b x c x 2 y

5a 15b 55 c 68

a x b x 2 c x 3 xy 15 a 55b 225 c 277 .5

a x 2 b x 3 c x 4 x 2 y 55 a 225 b 979 c 1205


Resolviendo este sistema se obtiene:

a 0.47
b 0.51
c 1.14
Por tanto, la ecuacin de la parbola de grado dos que mejor se ajusta a la nube de

puntos es:

y 0.47 0.51x 1.14 x 2

Representacin de los 4 modelos de regresin


40

30

Y (producc in)
X (tiempo)

20

Y*1 lineal
X (tiempo)
Y*2 parbola

10

X (tiempo)
Y*3 potencial
0

X (tiempo)
Y*4 exponencial

-10

X (tiempo)
1

X (tiempo)

-CORRELACION
-COEFICIENTE DE CORRELACIN SIMPLE DE PEARSON (MODELO RECTILNEO)
El coeficiente de correlacin es una medida de asociacin entre dos variables y se simboliza
con la literal r.
Los valores de la correlacin van de + 1 a - 1, pasando por el cero, el cual corresponde a
ausencia de correlacin. Los primeros dan a entender que existe una correlacin directamente
proporcional e inversamente proporcional, respectivamente.
De lo anterior referimos que:

+1 -1 = Correlacin perfecta.
0.95 = Correlacin fuerte.
80% = Correlacin significativa.
70% = Correlacin moderada.
50% = Existe una relacin parcial.

Las 3 grficas en coordenadas cartesianas posteriores, se muestra la variable independiente (X)


se ubica en las abscisas y la dependiente (Y) en el eje de las ordenadas. Los coeficientes de
correlacin significan esa asociacin entre los cambios que se observan en la variable
dependiente con respecto a la variable independiente.
La grfica (a) representa una correlacin positiva, es decir, conforme los valores de X
aumentan, tambin aumentan los valores de Y. A su vez, la grfica (b) muestra una correlacin
negativa, de modo que al incrementarse los valores de la variable independiente, los valores
de la dependiente disminuyen. La grfica (c) no indica correlacin.

El coeficiente de correlacin lineal de Pearson se define matemticamente con la ecuacin


siguiente:

Donde:
r = coeficiente de correlacin de Pearson.

= sumatoria de los valores al cuadrado de la variable independiente.


= sumatoria de los valores al cuadrado de la variable dependiente.
N = tamao de la muestra en funcin de parejas.
2

Este procedimiento estadstico es aplicable cuando las observaciones se miden segn una
escala de intervalo, por otra parte, el fenmeno debe ser lineal.
Al igual que las otras pruebas paramtricas, la varianza de las variables X y Y deben guardar
homogeneidad.

Pasos.
1. Ordenar los valores de la variable dependiente (Y) con respecto a los valores de la
variable independiente (X).
2. Elevar al cuadrado cada valor X y de Y.
3. Obtener los productos de X y Y, para lo cual se deben multiplicar independientemente
ambos valores.
2
2
4.
5. Calcular el tamao de la muestra en funcin de parejas de X y Y.
6. Aplicar la ecuacin.
7. Calcular los grados de libertad (gl): gl = N parejas -1.
8. Comparar el valor de r calculado en la tabla de valores crticos de t de Kendall en
funcin de la probabilidad.
9. Decidir si se acepta o rechaza la hiptesis.
Ejemplo:
Eleccin de la prueba estadstica para medir la asociacin o correlacin. Las edades en das
estn en escala de tipo intervalo, tenemos dos variables, entonces aplicamos esta prueba.
Objetivo: Conocer que grado de asociacin existe entre la edad y peso corporal de nios de
edades desde el nacimiento hasta los 6 meses.

Hiptesis.
Ha. Entre las observaciones de edad de los nios y peso corporal existe correlacin
significativa.
Ho. Entre las observaciones de edad de los nios y pero corporal no existe correlacin
significativa.

gl = 21 - 2 = 19

rc = 0.91
rt = 0.444
rc > rt se rechaza Ho. Entre las variables edad del nio y el peso corporal existe una correlacin
muy significativa. Elevando r al cuadrado obtenemos el error existente r2 = 0.8281 = 0.83,

donde el 83% de los cambios observados en el peso de los nios se debe a los incrementos de
la edad, sin embargo, el 17% se ignora.
Creamos ahora una grfica (hecha con el programa estadstico SPSS) para representar la
correlacin obtenida. Encontramos entonces una correlacin positiva, es decir, conforme la
edad aumenta, tambin aumenta el peso corporal de los nios.

REFERENCIAS BIBLIOGRAFICAS
BIBLIOGRAFIA DEL EJEMPLO DE PRONOSTICOS MOVILES
www.estadistica.mat.uson.mx/.../seriesdetiempo.pdf
BIBLIOGRAFA DEL EJEMPLO DE MINIMOS CUADRADOS
www.monografias.com/.../placo.shtml
BIBLIOGRAFIA DEL EJEMPLO DEL EJEMPLO DE REGRESIN EXPONENCIAL
http://www.monografias.com/trabajos13/placo/placo.shtml
BIBLIOGRAFA DEL EJEMPLO DE CORRELACION

Altman DG, Deeks JJ, Sackett DL (1998). Odds ratios should be avoided when events are
common. BMJ 1998;317:1318.
Altman DG, Goodman SN (1994). Transfer of technology from statistical journals to the
biomedical literature. Past trends and future predictions. JAMA 1994;272:129-32.
Bautista LE (1995). Razn relativa y tasa relativa como traducciones de odds ratio y de
hazard ratio. Bol Ofic Sanit Panam 1995;119:278-80.
BIBLIOGRAFIA DEL EJEMPLO DE REGRESIN PARABOLICO
http://www.google.com/search?hl=es&q=M%C3%A9todo+de+regresi%C3%B3n+parab%C3%B
3lica+de+pron%C3%B3sticos+ejemplo+explicativo%29&aq=f&aqi=&aql=&oq=&gs_rfai=
http://www.scribd.com/doc/41357597/Regresion-Parabolica#