Está en la página 1de 48

Investigando el Mercado

(Pesquisa e Indagación)

Ingeniería Civil Industrial


Análisis de varianza

• El análisis de varianza es una técnica que sirve


para probar la hipótesis de que todos los
paquetes son iguales, es decir, m1 = m2 = m3 =
m4. La técnica de análisis de varianza permite
realizar inferencias respecto de una multitud
de parámetros relacionados con medias
poblacionales.

2
Análisis de varianza de un factor
• Consideremos m muestras independientes,
cada una de tamaño n, donde los miembros
de la muestra i, Xi1, Xi2,…, Xin, son v. a. i. con
media conocida mi y varianza desconocida
s2.Es decir:

Xij tiene distribución normal con media mi y


varianza s2.

3
Análisis de varianza de un factor
Lo que nos interesa probar es:

• H0: m1 = m2 = ….= mm

Contra la hipótesis:
• H1: no todas las medias son iguales

4
Análisis de varianza de un factor
• Como hay, en total, n*m v. a. i. normales Xij,
tenemos que la suma de los cuadrados de sus
versiones estandarizadas serán v. a. chi
cuadrada con n*m grados de libertad. Es
decir:

S S (Xij - mi )2 / s2
tiene distribución chi cuadrada con nm grados
de libertad.
5
Análisis de varianza de un factor
• Sea Xi. igual al promedio de todos los
elementos en la muestra i, es decir:
Xi. = S Xij / n

reemplazando en la ecuación anterior:


S S (Xij - mi )2 / s2 = S S (Xij - Xi. )2 / s2
tendrá distribución chi cuadrada con nm-m
grados de libertad.
6
Análisis de Varianzas Ejemplo

Bencina 1 220 251 226 246 260


Bencina 2 244 235 232 242 225
Bencina 3 252 272 250 238 256

Pruebe la hipótesis de que el tipo de bencina


empleado no afecta el rendimiento promedio
obtenido. Use el nivel de significación de 5 por
ciento.
Técnicas de Predicción
• Uno de los mayores problemas es predecir
el comportamiento de las variables
económicas.
• Sin embargo es vital la información para la
construcción de flujos en la evaluación de
proyectos.
• Considerar, que las condiciones actuales
varían en los años. Es solo una medición.
• Los métodos para predecir, son
complementarios.
Predicciones
• Comportamiento histórico
de la demanda de la
competencia.
• La técnica deberá considerar
estacionalidad, tendencias,
comportamientos,
reacciones a estímulos
publicitarios.
• Considerar en los proyectos
de pdtos nuevos, considerar
el ciclo de vida. 1
exponencial, 2 y 3 lineal, 4
pdte negativa
Técnicas Cualitativas.
• Requieren relación entre los valores de ambas
variables.
• Habitualmente se procesa como una regresión,
predice el comportamiento de la variable
dependiente (y), con una variable independiente
(x).
• Por ejemplo demanda (y), numero de habitantes
(x) , cuando es simple.
• Se agregan más variables, cuando es múltiple.
Ingreso, hogar, cant. Empresas, etc.
Regresión

comuna población ventas


1 14680 3845
2 22930 5450
3 16650 5099
4 35990 8890
5 32480 6681
6 38770 9678
7 10030 4542
8 24260 4557
9 52460 13289
10 36800 10506
11 17340 5134
12 43690 9066
Modelos de Regresión Lineal

Análisis de Regresión

“Es el estudio de la dependencia de una


variable (dependiente) de una o más
variables adicionales (independientes), con
el objetivo de predecir o estimar el valor
medio o promedio de la primera, en
término de valores conocidos o fijos de las
segundas”
Estudio conjunto de dos variables
• A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
en cm. en Kg.
– En cada fila tenemos los datos de un individuo
162 61
– Cada columna representa los valores que toma una variable 154 60
sobre los mismos. 180 78
158 62
– Los individuos no se muestran en ningún orden particular.
171 66

• Dichas observaciones pueden ser representadas en un 169 60


diagrama de dispersión (‘scatterplot’). En ellos, cada 166 54
individuos es un punto cuyas coordenadas son los valores de 176 84
las variables.
163 68
... ...
• Nuestro objetivo será intentar reconocer a partir del mismo
si hay relación entre las variables, de qué tipo, y si es posible
predecir el valor de una de ellas en función de la otra.
Diagramas de dispersión o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Relación entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra.

Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,


el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
Cómo reconocer relación directa e inversa.
330 100

280 Incorrelación 90 Fuerte relación


80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores


tenemos valores de Y por encima y por que la media le corresponden
debajo en proporciones similares. valores de Y mayores también.
Incorrelación.
•Para los valores de X menores
que la media le corresponden
80 valores de Y menores también.
70 Cierta relación
60 inversa •Esto se llama relación directa o
50
creciente entre X e Y.
40
30
20
Para los valores de X mayores que la
10
0
media le corresponden valores de Y
140 150 160 170 180 190 200 menores. Esto es relación inversa o
decreciente.
Cómo reconocer buena o mala relación
330 100

280 Poca relación 90 Fuerte relación

230
o80 directa.
70 o
180
60
130 o 50 o
80 40
30 o30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Dado un valor de X no podemos decir •Conocido X sabemos que Y se mueve


gran cosa sobre Y. Mala relación. por una horquilla estrecha. Buena
Independencia. relación.

•Lo de “horquilla estrecha” hay que


entenderlo con respecto a la dispersión
que tiene la variable Y por si sola,
80
Cierta relación
cuando no se considera X.
70
60 inversa
50
40
30
20
10
0
140 150 160 170 180 190 200
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o inversa.
– Directa: Sxy >0
– Inversa: Sxy <0 1
– Incorreladas: Sxy =0 S xy =  ( xi  x )( yi  y )
n i
• El signo de la covarianza nos dice si el aspecto de la nube
de puntos es creciente o no, pero no nos dice nada sobre el
grado de relación entre las variables.
Coef. de correlación lineal de Pearson

• La coeficiente de correlación lineal de


Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).

• tiene el mismo signo que Sxy por tanto de su


signo obtenemos el que la posible relación
sea directa o inversa.

=
 X  X Y  Y 
i i
2

 X  X   Y  Y 
r 2 2
i i
Propiedades de r

• Sólo toma valores en [-1,1]


• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
– Siempre que no existan observaciones anómalas.
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
Entrenando el ojo: correlaciones positivas

330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y positivas

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Preguntas frecuentes
• ¿Si r=0 eso quiere decir que las variables son independientes?
– En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.

• Me ha salido r=1’2 ¿la relación es “superlineal”[sic]?


– ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un
valor entre -1 y +1.

• ¿A partir de qué valores se considera que hay “buena relación lineal”?


– Es difícil dar un valor concreto (mira los gráficos anteriores). Para
este curso digamos que si |r|>0,7 hay buena relación lineal y que
si |r|>0,4 hay cierta relación (por decir algo... la cosa es un poco
más complicada: observaciones anómalas,...)
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el
coeficiente de determinación R2

• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]


– Para el alumno astuto: ¿por qué?

• Cuando un ajuste es bueno, R2 será cercano a uno.


– ¿por qué?

• Cuando un ajuste es malo R2 será cercano a cero.


– ¿por qué?

• A R2 también se le denomina porcentaje de variabilidad explicado por el


modelo de regresión.
– ¿por qué? Difícil.

• R2 puede ser pesado de calcular en modelos de regresión general, pero en el


modelo lineal simple, la expresión es de lo más sencilla: R2=r2
– ¿Es coherente lo dicho entonces sobre los valores de R2?
Regresión

• El análisis de regresión sirve para predecir una medida


en función de otra medida (o varias).
– Y = Variable dependiente
• predicha
• explicada
– X = Variable independiente
• predictora
• explicativa
– ¿Es posible descubrir una relación?
• Y = f(X) + error
– f es una función de un tipo determinado
– el error es aleatorio, pequeño, y no depende de X
Modelo de regresión lineal simple
• En el modelo de regresión lineal simple, dado dos variables
– Y (dependiente)
– X (independiente, explicativa)

• buscamos encontrar una función de X muy simple (lineal) que


nos permita aproximar Y mediante
– Ŷ = b0 + b1X
• b0 (ordenada en el origen, constante)
• b1 (pendiente de la recta)

• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de


regresión. A la cantidad
– e=Y-Ŷ se le denomina residuo o error residual.
• El modelo lineal de regresión se construye utilizando la
técnica de estimación mínimo cuadrados ordinarios:
– Buscar b0, b1 de tal manera que se minimice la cantidad
• Σ i e i2

• Se comprueba que para lograr dicho resultado basta con


elegir:

 X i  X Yi  Y 
ˆ2 =   = Y
  X
 X i  X 
2 1 2
Interpretación del residuo
El objetivo de los MCO, es minimizar la suma
de los residuos Y

.Cuanto menos dispersos sean los


residuos,
mejor será la bondad del ajuste.

Finalmente la idea es encontrar una


función que modele mejor la nube de datos
Por lo tanto, los errores (e) o residuos son la
diferencia entre los valores reales y los estimados
de Y.

De este modo vamos a elegir la FRM que tenga la


menor sumatoria al cuadrado de los residuos.

 =    
2
e 2

i
Y Y i
Modelos de Regresión Lineal
Coeficiente de Determinación

2
=
 X  X 
i Y  Y  i
2

 X  X   Y  Y 
r 2 2
i i
Otros modelos de regresión

• Se pueden considerar otros tipos ¿recta o parábola?


de modelos, en función del
aspecto que presente el
diagrama de dispersión
(regresión no lineal)

• Incluso se puede considerar el 140 150 160 170 180 190 200
que una variable dependa de
varias (regresión múltiple). ¿recta o cúbica?

140 150 160 170 180 190 200


Modelos de análisis de regresión

1 variable explicativa Modelos de regresión 2+ variables explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal


• EJEMPLO.
• Se intenta predecir el
ausentismo laboral
(horas), en función al
sueldo semanal en
USS.
Principio del Método de MCO

Y = Y  e
i i i

e = Y  Y
i i i

ei = Yi  ˆ1  ˆ 2 X i
Por lo tanto, los errores (e) o residuos son la
diferencia entre los valores reales y los estimados
de Y.

De este modo vamos a elegir la FRM que tenga la


menor sumatoria al cuadrado de los residuos.

 =    
2
e 2

i
Y Y i
Supuestos Fundamentales del Método de
MCO
1. Normalidad de los residuos.
• Gráficos de distribución normal.
• 2.- HOMOGENEIDAD DE VARIANZAS (HOMOCEDASTICIDAD).

var m / X  = s
i i
2

• Establece que los errores o residuos (ei), tienen una varianza común o constante
para los distintos niveles de las variables independientes.

• Cuando no ocurre esto se dice que el modelo no cumple con este supuesto o
tiene Heterocedasticidad.

• Tiene como consecuencia que los estimadores son ineficientes.

• La homocedasticidad se puede analizar gráficamente.


3. Autocorrelación.
Cuando los errores de un modelo de regresión se encuentran
correlacionados entre si.

- Es típico en modelos en donde las observaciones se registran en


forma secuencial con el paso del tiempo.
- Ej. parcelas permanentes en donde se mide periódicamente; las
variables se van registrando para diferentes periodos de tiempo.
residuos

0.0
5 10 15 20

Nº de observaciones
• 4.- Modelo correctamente especificado
Otros modelos de regresión

• Se pueden considerar otros tipos de ¿recta o parábola?


modelos, en función del aspecto que
presente el diagrama de dispersión
(regresión no lineal)

• Incluso se puede considerar el que


una variable dependa de varias
(regresión múltiple).
140 150 160 170 180 190 200

¿recta o cúbica?

140 150 160 170 180 190 200


BONDAD DE PREDICCIÓN

• REMC. (RAIZ DEL ERROR MEDIO CUADRÁTICO).


• Indica exactitud y error total de los modelos.
2
  
  Yi  Yi 
REMC =
n

• DIFA. (DIFERENCIA AGREGADA).


• Es una medida de sesgo probable, si el modelo es insesgado se espera que
la difa sea cercana a cero.

DIFA =
 (Yi  Yi)
n

También podría gustarte