Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA APLICADA
Y ECONOMETRIA
Sara Arancibia C
2012
1
Objetivos
Comprender y aplicar los conceptos bsicos de Econometra y
metodologas de Anlisis Multivariante, fundamentales para el
anlisis de informacin.
Conocer y manejar el software estadstico SPSS, con nfasis en
la resolucin de estudios de casos aplicados a la gestin y
polticas pblicas.
Metodologa
Clases tericas y prcticas.
Apoyo de material; transparencias, guas, lecturas
complementarias
Manejo del software SPSS
En los laboratorios se realizarn estudios de casos apoyados de
guas.
2
Evaluacin
Tareas semanales ( 30%), controles (30%), examen (40%)
Bibliografa:
Introduccin a la Econometra. Un enfoque moderno.
Jeffrey y Wooldridge . Ed Thomson Learning
Econometra. Cuarta Edicin
Gujarati Ed. Mc Graw Hill
Anlisis Multivariable para las Ciencias Sociales.
Lvy y Varela Ed Pearson
Anlisis multivariante
Hair-Anderson-Tatham-Black. Ed Prentice Hall.
Anlisis de datos con SPSS 13 Base
Pardo y Ruiz. Ed Mc Graw Hill.
Anlisis Estadstico con SPSS para windows. Estadstica Multivariante.
Visauta y Martori. Ed Mc Graw Hill. Segunda Edicin
3
Contenidos
Primera sesin
Introduccin a la Econometra
Introduccin al Anlisis Multivariable
Anlisis de varianza
Anlisis no paramtrico de H de Kruskall-Wallis
Gua 1-Estudios de casos
Segunda y Tercera Sesin
Anlisis de regresin lineal simple
Modelos lin-log y log-lin y semilogaritmicos
Gua 2- Estudios de casos
Cuarta y Quinta Sesin
Anlisis de regresin mltiple
Gua 3- Estudios de casos
Contenidos
Sexta Sesin
Modelos de regresin mltiple con variables cualitativas ( dami)
Estimacin ponderada
Gua 4- Estudios de casos
Sptima Sesin
Regresin logstica
Gua 5- Estudios de casos
Octava Sesin
Anlisis Factorial
Gua 6- Estudios de casos
Introduccin
Introduccin a la Econometra
Introduccin al Anlisis Multivariante
Introduccin a la Econometra
Naturaleza de la Econometra
y de los datos econmicos
Qu es la Econometra?
Funciones de la Econometra
La metodologa de la Econometra
La regresin es una herramienta fundamental de la
Econometra.
Estructura de los datos econmicos
Relaciones estadsticas vs. Relaciones determinsticas
Regresin vs. Causalidad
Regresin vs. Correlacin
Terminologa
7
Introduccin
Naturaleza de la econometra y de los datos econmicos
Qu es la
econometra?
Literalmente,
econometra significa
medicin econmica.
Aplicaciones de la econometra
Pronstico de variables macroeconmicas ( inflacin, el producto
interno bruto)
Estudios aplicados a diversos campos de la economa (Ej: estudio de
los efectos de los gastos de las campaas polticas en los resultados
de las votaciones, en el efecto de los gastos en educacin en el
rendimiento de los estudiantes, etc)
La Econometra da
contenido emprico a
gran parte de la teora
econmica
La metodologa de la Econometra
En trminos generales, el anlisis economtrico sigue las
siguientes lneas generales de accin:
1. Enunciado de la teora o hiptesis
2. Especificacin del modelo economtrico dirigido a probar la
teora
3. Estimacin de los parmetros del modelo
4. Verificacin o inferencia estadstica
5. Predicciones o pronsticos
6. Utilizacin del modelo para fines de control o formulacin de
polticas
10
Ejemplo
Consideremos a continuacin la teora keynesiana de la
funcin consumo
Enunciado de la teora o hiptesis
Keynes plantea
La ley sicolgica fundamental consiste en que los hombres
estn dispuestos, por regla general y en promedio, a aumentar
su consumo a medida que aumenta su ingreso, aunque no en la
misma proporcin al incremento en dicho ingreso.
Keynes afirma que la propensin marginal a consumir (PMC),
la tasa de cambio del consumo ante un cambio de una unidad
en el ingreso, es mayor que cero pero menor que uno.
11
0 1 1
(1)
en donde
Y gastos de consumo
X ingreso
13
Y o 1 X u
(2)
Estimacin
Habiendo especificado el modelo economtrico, la tarea
siguiente del econometrista consiste en obtener
estimaciones (valores numricos) de los parmetros del
modelo, a partir de la informacin disponible, generalmente
proporcionada por el estadstico econmico. Estas
estimaciones le confieren un contenido emprico a la teora
econmica. As por ejemplo, si en el estudio de la funcin
de consumo anteriormente expuesta, se encuentra que 1
0,8, este valor no slo proporciona una estimacin
numrica de la PMC sino que corrobora la hiptesis
keynesiana segn la cual la PMC es menor que 1.
Cmo se estiman los parmetros?
La tcnica utilizada para obtener dichas estimaciones es el
anlisis de regresin
15
16
18
Tabla 1.1
sala
educ
exper
sexo
ecivil
3.10
11
3.24
12
22
3.00
11
6.00
44
5.30
12
525
11.56
16
526
3.50
14
20
Tabla 1.2
pas
tpib
Consgob60
Secund60
Argentina
0.89
32
Austria
3.32
16
50
Blgica
2.56
13
69
Bolivia
1.24
18
12
..
..
..
61
Zimbabwe
2.30
17
21
22
Tabla 1.3
ao
salamin
cob
desem
pib
1950
0.20
20.1
15.4
878.7
1951
0.21
20.7
16.0
925.0
1952
0.23
22.6
14.8
1015.9
37
1986
3.35
58.1
18.9
4281.6
38
1987
3.35
58.2
16.8
4496.7
23
Tabla 1.4
ao
precio
imptos
piecuad
habit
Baos
1993
85500
42
1600
2.0
1993
67300
36
1440
2.5
1993
134000
38
2000
2.5
250
1993
243600
41
2600
3.0
251
1995
65000
16
1250
1.0
252
1995
182400
20
2200
2.0
253
1995
97500
15
1540
2.0
520
1995
57200
16
1100
1.5
25
Tabla 1.5
ciudad
ao
homicidi
os
poblaci
n
desem
Polica
1986
350000
8.7
440
1990
359200
7.2
471
1986
64300
5.4
75
1990
65100
5.5
75
297
149
1986
10
260700
9.6
286
298
149
1990
245000
9.8
334
299
150
1986
25
543000
4.3
520
300
150
1990
32
546200
5.2
493
27
28
30
Regresin vs Causalidad
Si bien el anlisis de regresin tiene que ver con la dependencia de
una variable respecto a otras variables, esto no implica causalidad
necesariamente.
En palabras de Kendall y Stuart: "Una relacin estadstica, sin
importar qu tan fuerte y sugestiva sea, nunca podr establecer
una conexin causal: nuestras ideas de causalidad deben venir
de estadsticas externas y, en ltimo trmino, de una u otra
teora."
Por ejemplo si consideramos el producto de una cosecha, no hay una
razn estadstica para suponer que la lluvia no depende del producto
de la cosecha. El hecho de que se trata el producto de la cosecha
como dependiente de la lluvia (entre otras cosas) es debido a
consideraciones no estadsticas: el sentido comn sugiere que la
relacin no puede revertirse, ya que no podemos controlar la lluvia
modificando la produccin de la cosecha.
31
Regresin vs Correlacin
El anlisis de correlacin est estrechamente relacionado con el
de regresin aunque conceptualmente los dos son muy diferentes.
Regresin vs Correlacin
En el anlisis de regresin, como ya se mencion, no
estamos interesados en ese tipo de medicin.
En cambio, se trata de estimar o de predecir el valor
promedio de una variable sobre la base de valores
fijos de otras variables. As, quizs se desee saber si
se puede predecir el promedio de las calificaciones en
un examen de estadstica, conociendo la calificacin
de un estudiante en un examen de matemticas.
33
Terminologa
Yi 1 2 X 2i 3 X 3i .... n X ni i
En la teora econmica los trminos variable dependiente y variable
independiente estn descritos de varias maneras; a continuacin se
presenta una lista representativa de ellas:
Variable dependiente
Variable independiente
Variable explicada
Variable explicativa
Variable de respuesta
Variables de control
Variable predicha
Variables predictora
Regresada
Regresora
34
Qu es el Anlisis Multivariable?
Utilidad del Anlisis Multivariable
Los datos en el Anlisis Multivariable
Variables y escalas de medida
Anlisis inicial de datos
Las tcnicas de Anlisis Multivariable
Tcnicas de anlisis de la dependencia
Tcnicas de anlisis de la interdependencia
35
Qu es el Anlisis Multivariable?
Qu es el Anlisis
Multivariable?
En el anlisis multivariable,
se puede encontrar una
herramienta prctica,
verstil y adaptable a todo
tipo de anlisis, al permitir
extraer informacin
relevante, y eficiente.
37
Datos
Anlisis
Multivariable
Magnitudes que
representan distintos
conceptos o atributos de
individuos u objetos
La precisin de tal
representacin depender
directamente de la escala
de medida
38
Nominal
Ordinal
Intervalo
Razn
39
Categora F1
F2
Autobs
Tren
Avin
0
40
Es fundamental inspeccionar:
Analizar si es relevante para el
Anlisis de datos ausentes
(missing values)
Representaciones grficas
para el anlisis de datos
Tablas
Deteccin de outliers
42
43
De anlisis de la dependencia
De anlisis de la interdependencia
Otras tcnicas
44
De anlisis de la
dependencia
De anlisis de la
interdependencia
Otras tcnicas
Variable
dependiente
Variables
independientes
la Mtrica
No mtricas
Anlisis discriminante
No mtrica
Mtricas
Mtrica
Mtrica
Mtricas
No mtricas
No mtrica
No mtrica
Mtricas
No mtricas
Anlisis conjunto
Mtrica
mtrica
Segmentacin Jerrquica
No
mtrica
mtrica
no No mtricas
o No mtricas
Mtricas o no mtricas
No mtricas observables
No mtrica latente
46
Terminologa
Variable ficticia
Variable binaria que se suele emplear para representar una
categora de una variable no mtrica.
Variable mtrica (o cuantitativa)
Variable medida en escala de intervalo o de razn, capaz de
reflejar, por tanto, diferencias de grado o cantidad entre sus
elementos. La diferencia entre dos elementos consecutivos es
constante a lo largo de toda la escala.
Variable no mtrica (o cualitativa)
Variable medida en escala nominal u ordinal que identifica
categoras o propiedades. Si es ordinal, los nmeros asignados
a cada categora guardan una relacin de orden; pero, por lo
dems, son simples etiquetas sin ningn otro significado.
47
Anlisis discriminante
Tcnica de clasificacin que permite agrupar a los elementos
de una muestra en dos o ms categoras diferentes,
predefinidas en una variable dependiente no mtrica, en
funcin de una serie de variables independientes mtricas
combinadas linealmente.
Regresin lineal mltiple
Tcnica que pretende determinar la combinacin lineal de
variables independientes cuyos cambios son los mejores
predictores de los cambios experimentados por la variable
dependiente. Todas las variables que intervienen en la
regresin son mtricas, aunque admite la posibilidad de
trabajar con variables independientes no mtricas si se
emplean variables ficticias para su transformacin en variables
dami.
49
Modelo logit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de la variable perturbacin
es la funcin logstica.
Modelo logit multinomial
Modelo logit en el que la variable dependiente es
politmica en lugar de dicotmica.
Modelo probit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de b, variable perturbacin
es la funcin normal.
50
Anlisis conjunto
Tcnica que se emplea para entender cmo conforman
los individuos sus preferencias hacia los objetos,
normalmente marcas o productos.
Segmentacin jerrquica
Tcnica de anlisis de la dependencia que tiene por
objeto distinguir grupos de elementos homogneos en
una poblacin a travs de un proceso iterativo
descendente de particin de la muestra total en
sucesivos grupos en virtud del valor adoptado por la
variable dependiente, el cual es funcin de los valores
presentados por las variables independientes.
51
52
Variable
Forma grupos de
Variables
Anlisis
correspondencias
Categoras de variables
de No mtrica
Anlisis de conglomerados
Mtrica y no Objetos
mtrica
Escalamiento
multidimensional
Mtrica y no Objetos
mtrica
No mtricas
Objetos y categoras de
variables
54
Anlisis factorial
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores pueden ser
comunes (captan la variabilidad compartida por todas las variables), o
especficos (captan la variabilidad propia de cada variable, sin relacin
con las dems).
Anlisis por componentes principales
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores o
componentes buscan explicar la mayor proporcin posible de la
variabilidad total, lo que quiere decir que, a diferencia de lo que ocurre
en anlisis factorial. no existen factores especficos.
55
Anlisis de correspondencias
Tcnica basada en el estudio de la asociacin entre las
categoras de mltiples variables no mtricas, que
persigue la elaboracin de un mapa perceptual que ponga
de manifiesto dicha asociacin en modo grfico.
Anlisis de conglomerados (o anlisis cluster)
Tcnica cuyo fin es clasificar sujetos u objetos en funcin
de ciertas caractersticas de
modo que los elementos de cada grupo sean muy
similares entre s.
56
Escalamiento multidimensional
Tcnica cuyo fin es elaborar una representacin grfica
que permita conocer la imagen que los individuos se
crean de un conjunto de objetos por posicionamiento de
cada uno en relacin a los dems.
Anlisis con clases latentes
Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores son
las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
57
Otras tcnicas
Eleccin multicriterio discreta
Conjunto de mtodos de ayuda en la resolucin de problemas de
decisin en los que se han de tener en cuenta diferentes puntos de vista
o criterios y en los que se baraja un nmero finito de alternativas.
Data mining (o minera de datos o extraccin de datos)
Proceso mediante el cual se explora y analiza un gran volumen de datos
con el fin de descubrir relaciones, reglas o patrones de comportamiento
en ellos que sean de utilidad para el usuario en la toma de decisiones.
Anlisis con redes neuronales
Tcnica cuya forma de proceder pretende replicar el funcionamiento del
cerebro humano, intentando aprender de los errores cometidos en aras
de la consecucin del mejor resultado posible.
58
VARIABLE INDEPENDIENTE
Mtrica
No mtrica
VARIABLE DEPENDIENTE
Mtrica
Simple
Regresin
Lineal mltiple
VARIABLE DEPENDIENTE
No mtrica
Mltiple
Anlisis
con ecuaciones
estructurales
Mtrica
Simple
Anlisis
Discriminante
Modelos de
Eleccin discreta
ANOVA,
ANCOVA
Anlisis conjunto
Segmentacin
Jerrquica
Regresin lineal
con variable
ficticias
No mtrica
Mltiple
MANOVA
MANCOCA
Anlisis con
Ecuaciones
estructurales
Modelo de
eleccin discreta
con variable
Ficticias
Anlisis conjunto
Segmentacin
Jerrquica
Anlisis con
Clases latentes
60
No mtrica
Anlisis factorial
Anlisis de correspondencias
Anlisis de conglomerados
Anlisis de conglomerados
Escalamiento multidimensional
Escalamiento multidimensional
OTRAS TCNICAS
61
Tcnicas a estudiar
Anlisis de varianza de
un factor
Regresin lineal simple
Regresin logstica
Anlisis Factorial
De anlisis de la dependencia
En SPSS
men Analizar/Comparar Medias
De anlisis de la dependencia
En SPSS
men Analizar/Regresin
De anlisis de la dependencia
En SPSS
men Analizar/Regresin
De anlisis de la dependencia
En SPSS
men Analizar/Regresin/Logstica
De anlisis de la interdependencia
En SPSS
men Analizar/Reduccin de datos
62
Datos y supuestos
Prueba de homogeneidad de Varianzas.
Comparaciones post-hoc
63
Anlisis de Varianza
Anlisis de varianza de un factor
El anlisis ANOVA de un factor es una generalizacin de la prueba
T para dos muestras independientes al caso de diseos con ms
de dos muestras.
Sirve para comparar varios grupos en una variable cuantitativa.
Variable Independiente (VI)
o factor
Variable categrica
(Nominal u ordinal)
que define los grupos
64
65
H 0 : 1 2 3 ... n
Si las medias poblacionales son iguales, eso significa que
los grupos no difieren en la VD y que, en consecuencia, la
VI o factor es independiente de la VD.
El procedimiento para poner a prueba la Ho consiste en obtener
un estadstico, llamado F, que refleja el grado de parecido
existente entre las medias que se estn comparando.
2
n Y
S
2
j
66
n Y
S
2
j
Si las medias poblacionales son iguales, las medias muestrales de los diferentes
grupos sern parecidas, existiendo entre ellas tan slo diferencias atribuibles al
2
azar. En ese caso, la estimacin ( basada en las diferencias entre las medias
1
2
muestrales) reflejar el mismo grado de variacin que la estimacin
basada
2
en las diferencias entre las puntuaciones individuales dentro de
cada grupo) y el cuociente F tomar un valor prximo a 1
67
n Y
S
2
j
N
Administrativo
Seguridad
Directivo
Total
363
27
84
474
Media
$27,838.54
$30,938.89
$63,977.80
$34,419.57
Desviacin
tpica
$7,567.995
$2,114.616
$18,244.776
$17,075.661
Mnimo
$15,750
$24,300
$34,410
$15,750
Mximo
$80,000
$35,250
$135,000
$135,000
69
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
89438483925,9
48478011510,4
137916495436
gl
2
471
473
Media cuadrtica
44719241962,971
102925714,459
F
434,481
Sig.
,000
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
89438483925,9
48478011510,4
137916495436
gl
2
471
473
Media cuadrtica
44719241962,971
102925714,459
F
434,481
Sig.
,000
Homocedasticidad o
igualdad de varianzas
significa que la J
poblaciones muestreadas
poseen la misma varianza;
con grupos de distinto,
tamao el incumplimiento
de este supuesto debe ser
cuidadosamente vigilado.
72
gl1
2
gl2
471
Sig.
,000
Welch
Brown-Forsythe
Estadstico
162,200
306,810
gl1
2
2
gl2
117,312
93,906
Sig.
,000
,000
a. Distribuidos en F asintticamente.
Comparaciones post-hoc
El estadstico F del ANOVA nicamente permite
contrastar la hiptesis general de que los J promedios
comparados son iguales. Rechazar esa hiptesis
significa que las medias poblacionales comparadas no
son iguales, pero no permite precisar dnde en concreto
se encuentran las diferencias detectadas.
Para saber qu media difiere de qu otra se debe utilizar
un tipo particular de contrastes denominados
comparaciones mltiples post-hoc
Asumiendo varianzas iguales
Existen varios mtodos , el ms utilizado es la opcin Tukey
75
Diferencia de
medias (I-J)
-$3,100.349*
-$36,139.258*
$3,100.349*
-$33,038.909*
$36,139.258*
$33,038.909*
Error tpico
$568.679
$2,029.912
$568.679
$2,031.840
$2,029.912
$2,031.840
Sig.
,000
,000
,000
,000
,000
,000
Anlisis no paramtrico
Prueba de H de Kruskal-Wallis
La prueba de Mann- Whitney para dos muestras independientes
fue extendida al caso de ms de dos muestras por Kruskal y Wallis
(1952). La situacin experimental que permite resolver esta prueba
es similar a la estudiada a propsito del ANOVA de un factor
completamente aleatorizado: J muestras son aleatoria e
independientemente extradas de J poblaciones para averiguar si
las J poblaciones son idnticas o alguna de ellas presenta
promedios mayores que otra.
Las ventajas fundamentales de esta prueba frente al estadstico F del
ANOVA de un factor son dos:
(1) no necesita establecer supuestos sobre las poblaciones originales
tan exigentes como los del estadstico F (normalidad,
homocedasticidad); y
(2) permite trabajar con datos ordinales.
Si se cumplen los supuestos en los que se basa el estadstico F, la
potencia de ste es mayor que la que es posible alcanzar con el
estadstico H de Kruskal- Wallis.
77
Ejemplo:
Pruebas no paramtricas /Varias muestras independientes
H de Kruskal-Wallis
Rangos
Salario actual
Categora laboral
Administrativo
Seguridad
Directivo
Total
Estadsticos de contrastea,b
N
363
27
84
474
Rango
promedio
190,37
278,98
427,85
Chi-cuadrado
gl
Sig. asintt.
Salario actual
207,679
2
,000
a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: Categora laboral
79
81
240
260
137
145
155
165
175
150
152
175
178
180
185
191
1211
173
777
155
Se tienen 10 valores
medios para las 10
subpoblaciones de Y.
85
Gasto de consumo
140
120
100
80
60
40
0
20
40
60
80
100 120
Ingreso semanal
140
160 180
200
220 240
260
280
A pesar de la
variabilidad del
gasto para cada
ingreso, en
promedio el
consumo semanal
se incrementa en
la misma medida
que el ingreso
86
87
E (Y / X i ) 1 2 X i
88
E (Y / X i ) 1 2 X i
Ecuacin de
regresin
poblacional FRP
(2)
E (Y / X i ) 1 2 X i
es lineal en Xi.
Geomtricamente la curva de regresin es una lnea recta
Linealidad en los parmetros
Se dice que una funcin es lineal en el parmetro, 1 por ejemplo
90
ui Yi E (Y / X i )
Yi E (Y / X i ) ui
(3)
91
Yi E (Y / X i ) ui
La media del gasto
de consumo de
todas las familias
con el mismo nivel
de ingresos.
(4)
Componente aleatorio .
Es un sustituto para todas
aquellas variables que son
omitidas del modelo pero que
colectivamente afectan a Y
92
Yi E (Y / X i ) ui 1 2 X i ui
(5)
Y1 55 1 2 80 u2
Y2 60 1 2 80 u2
Y3 65 1 2 80 u3
Y4 70 1 2 80 u4
Y5 75 1 2 80 u5
93
Yi E (Y / X i ) ui
(5)
E (Yi / X i ) E E (Y / X i ) E (ui / X i )
E (Y/X i ) E (ui / X i )
Puesto que E (Yi / X i ) es lo mismo que E (Y / X i )
Implica que E (ui / X i ) 0
(6)
Yi E (Y / X i ) ui 1 2 X i ui
(7)
95
70
65
90
95
110
115
120
140
155
150
80
100
120
140
160
180
200
220
240
260
96
X
55
88
90
80
118
120
145
135
145
175
80
100
120
140
160
180
200
220
240
260
97
Yi 1 2 X i
Donde
Yi estimador de E(Y/X)
Es la contraparte de
E (Y / X i ) 1 2 X i
1 estimador de 1
2 estimador de 2
Un estimador, conocido tambin como estadstico (muestral) es
simplemente una regla, o mtodo que dice cmo estimar el
parmetro poblacional a partir de la informacin suministrada por la
muestra disponible. Un valor numrico particular obtenido por el
estimador en una aplicacin es conocido como estimado.
98
Yi 1 2 X i i
Donde
(8)
Yi 1 2 X i i
Yi 1 2 X i i
99
Yi Yi i
Y en trminos de la FRP, puede ser expresada como
Yi E (Y / X i ) i
Dado que la FRM es apenas una aproximacin de la FRP, se
puede disear un mtodo que haga que esta aproximacin
sea lo ms ajustada posible?
101
Primero se estima ui Yi 1 2 X i
(9)
ui Yi Y i
104
105
Y
i
i i
Yi 1 2 X i
(10)
tales como u1 y u4
que a los residuos
u 2 y u3
El procedimiento de MCO genera las siguientes ecuaciones
para estimar 1 y 2 donde n es el tamao de la muestra
106
Y n X
Y X X X
i
2
i
Ecuaciones
normales
xy
x
i
2
i
1 Y - 2 X
Estimadores
de mnimos
cuadrados
107
Yi 1 2 X i i
modelo simple
E (ui / X i ) 0
E (Y / X i ) 1 2 X i
109
var(ui / Xi )
Homocedasticidad
Heterocedasticidad
110
cov(ui, uj / Xi, X j ) 0
111
cov(ui, X i ) 0
Supuesto 7: El nmero de observaciones n debe ser mayor
que el nmero de parmetros por estimar.
Supuesto 8: Variabilidad en los valores de X.
No todos los valores de X en una muestra dada deben ser
iguales.
var( X ) 0
var( X )
n 1
112
de los estimadores
1 y 2
. En estadstica la precisin de un
2
var( 2 )
2
x
i
ee( 2 )
2
i
(11)
Donde
.
2
i
Suma de residuos
al cuadrado (SRC)
n2
Nmero de
grados de libertad
(12)
significa el nmero
2
i
(13)
n2
116
118
Teorema de Gauss-Markov
En el contexto del anlisis de regresin se puede demostrar
que los estimadores de MCO son MELI
119
Coeficiente de determinacin r2
Una medida de la bondad del ajuste
120
Coeficiente de determinacin r2
Para calcular r2 , para cada i se escribe:
yi y i i
Elevando la expresin al cuadrado en ambos lados y
sumando sobre la muestra, se obtiene
(14)
puesto que y i ui 0
y i 2 xi
121
Coeficiente de determinacin r2
Las diversas sumas de cuadrados que aparecen en la expresin
anterior pueden describirse de la manera siguiente
2
yi Yi Y
(STC)
y i Yi Y Y Y 2 xi
(SEC)
122
Coeficiente de determinacin r2
2
i
(SRC)
As, (14) es
STC = SEC + SRC
123
Coeficiente de determinacin r2
muestra que la variacin total en
los valores Y observados
alrededor del valor de su media
puede ser dividida en dos partes,
una atribuible a la recta de
regresin y la otra a fuerzas
aleatorias, puesto que no todas
las observaciones Y caen sobre
la recta ajustada. Ahora
dividiendo por la STS en ambos
lados, se obtiene
Ahora, se define r2 como
r2
Y
Y
SEC
STC
124
Coeficiente de determinacin r2
O en forma alterna
2
r 1
2
Coeficiente de
SRC
(15) determinacin
1
STC
125
r r 2
O a partir de su definicin
xy
x y
i
2
i
2
i
x y
n x x n y y
n xi yi
(16)
126
Propiedades de r
Puede tener signo positivo o negativo, dependiendo del signo del
trmino en el numerador de (16), el cual mide la covariacin
muestral de dos variables.
Cae entre los lmites de -1 y 1
Es simtrico por naturaleza; es decir, el coeficiente de correlacin
entre X y Y (rxy) es el mismo que entre Y y X (ryx).
128
Interpretacin de la pendiente:
Puesto que el coeficiente de la pendiente es
simplemente la tasa de cambio, se mide en
las unidades de la siguientes proporcin
unidades de la variable dependiente (Y)
unidades de la variable explicativa (X)
129
X
70
65
90
95
110
115
120
140
155
150
80
100
120
140
160
180
200
220
240
260
1 24,4545
2 0,5091
r 2 0,9621
se( 1 ) 6,4138
se( 2 ) 0,0357
r 0,9809
Yi 24,4545 0,5091X i
130
R
,981a
R cuadrado
,962
R cuadrado
corregida
,957
Error tp. de la
estimacin
6,493
Coeficientesa
Modelo
1
(Constante)
X
Coeficientes no
estandarizados
B
Error tp.
24,455
6,414
,509
,036
Coeficientes
estandarizad
os
Beta
,981
t
3,813
14,243
Sig.
,005
,000
a. Variable dependiente: Y
131
El valor de
0,5091 que mide la pendiente de la lnea, muestra
que dentro del rango de la muestra de X comprendido entre $80 y
$260 semanales, a medida que X aumenta, digamos en $1, el
aumento estimado en el promedio de gastos de consumo semanales
es de aproximadamente 51 centavos. El valor
, el cual
de
24,45
corresponde a la interseccin de la lnea, indica el nivel promedio de
los gastos de consumo semanales cuando el ingreso semanal es
cero. No obstante, esta es una interpretacin mecnica de la
interseccin. En el anlisis de regresin esta interpretacin literal del
intercepto no es siempre significativa, aunque en el ejemplo que
estamos considerando se puede argumentar que una familia sin
ingreso alguno( ya sea por desempleo, despido, etc.) puede
mantener algn nivel mnimo de gastos de consumo, ya sea
tomando dinero prestado o utilizando sus ahorros.
132
133
134
sala
137
138
Media :
Varianza :
Cov (ui , u j ) :
E(ui ) 0
E ui E (ui ) E (ui2 ) 2
2
E ui E (ui ) u j E (u j ) E (ui u j ) 0 i j
ui ~ N(0, 2 )
139
El supuesto de normalidad
La regresin lineal normal clsica supone que la distribucin
probablistica de ui es normal.
La suposicin de normalidad permite utilizar las pruebas
estadsticas t, F, 2
Consideremos el ejemplo consumo e ingreso.
Yi 24,4545 0,5091X i
valor verdadero
E ( 2 ) 2
140
Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador
puntual se mide por su error estndar. Por consiguiente,
en lugar de depender de un solo estimador puntual, se
puede construir un intervalos alrededor del estimador
puntual, por ejemplo, dentro de dos o tres errores
estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir
el verdadero valor del parmetro. Esta es la idea bsica
de la estimacin de intervalos.
141
Estimacin de intervalos
Yi 24,4545 0,5091X i
Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador puntual se
mide por su error estndar. Por consiguiente, en lugar de depender
de un solo estimador puntual, se puede construir un intervalo
alrededor del estimador puntual, por ejemplo, dentro de dos o tres
errores estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir el verdadero
valor del parmetro. sta es, a grandes rasgos, la idea bsica de la
estimacin de intervalos.
Para ser ms especfico, supngase que se desea encontrar qu tan"
2 - , 2 -
intervalo aleatorio
Estimacin de intervalos
Simblicamente
Pr 2 - 2 2 1
144
- t /2 se(
2 0,5091
se( 2 ) 0,0357
Utilizando
Se tiene
- t /2 se(
24,4545 - 2,306(6,4138)
Prueba de hiptesis.
Prueba t
t 1 1
se( 1 )
148
1 0,5091
Si Ho: 1=0,3
0,5091 0,3
5,86
0,0357
Si 5%, , , gl 8 entonces
se( 1 ) 0,0357
H1: 10,3
Yi 24,4545 0,5091X i
150
histrica
Yi 24,4545 0,5091X i
siguiente forma:
Y0 1 2 X 0
1 2 X 0
y con una
X X
2 1
var(Y0 )
0 2
n
xi
ee(Y 0 )
1 2 X 0
- /2
ee(Y 0 )
152
10.4759
33000
10
ee(Y0 ) 3.2366
Prediccin individual
Si nuestro inters est en predecir un valor individual Y, Y0
correspondiente a un valor dado X, digamos X0, entonces el mejor
estimador lineal insesgado de Y0 est dado tambin por
Y0 1 2 X 0
24.4545 0.5091(100) 75.3645
(17)
1 X X
var(Y0 Y 0 ) E (Y0 Y 0 ) 2 1 0 2
n
xi
(18)
2
Sustituyendo 2 desconocida por
se cumple que
Y0 Y0
ee(Y0 Y0 )
Prediccin individual
Por consiguiente, la distribucin t puede utilizarse para hacer
inferencia sobre la verdadera Yo. Al continuar con nuestro ejemplo
consumo-ingreso, se ve que la prediccin puntual de Yo es
156
157
Yi 1 X i 2 e i
ln Yi ln 1 2 ln X i i
Si escribimos como
ln Yi 2 ln X i i
Donde
159
Cantidad demandada
Yi 1 X i 2 e i
Precio
ln de cantidad demandada
ln Y ln 1 2 ln X i
lnX
Ln del Precio
160
Ejemplo
Gasto en bienes duraderos respecto al gasto de
consumo personal total
Consideremos datos sobre el gasto de consumo personal total
(GCPERT), el gasto en bienes duraderos (GASBD), el gasto en
bienes perecederos (GASBPER) y el gasto en servicios
(GASERV), todos medidos en millones de dlares de 1992.
(tabla 6.3-Anexo 1)
Su pngase que se desea calcular la elasticidad del gasto en
bienes durables respecto al gasto de consumo personal total. Al
graficar el logaritmo del gasto en bienes durables en comparacin
con el logaritmo del gasto de consumo personal total, se observar
que la relacin entre las dos variables es lineal. Por tanto, el
modelo del doble logaritmo podra resultar adecuado. Los
resultados de la regresin son:
161
162
ln sala 0 1 ln vtas u
163
Yi Y0 (1 r) t
(1)
ln Yi ln Y0 t ln(1 r)
Ahora sea
1 lnY0
(2)
2 ln(1 r)
ln Yi 1 2 t
(3)
ln Yi 1 2 t i
(4)
165
ln Yi 1 2 t i
cambio relativo en Y
2
cambio absoluto en X
166
167
=
ee =
t =
GES T
7.7890
(0.0023)
(3.387.619)*
0.00743t
(0.00017)
(44.2826)*
r2
= 0.9894
168
171
El modelo Lin-Log
A diferencia del modelo de crecimiento recin
estudiado, en el cual se estaba interesado en
encontrar el crecimiento porcentual en Y, ante un
cambio unitario absoluto en X, ahora hay inters en
encontrar el cambio absoluto en Y debido a un
cambio porcentual en X. Un modelo que puede lograr
este propsito puede escribirse como
Yi 1 2 lnX i i
Para fines descriptivos, llamamos a este modelo un
modelo lin-Iog.
172
El modelo Lin-Log
Interpretacin de la pendiente
cambio en Y
cambio en Y
2
cambio relativo en X
cambio en ln X
Simblicamente, se tiene
En forma equivalente
Y
X / X
Y 2 X / X
El modelo Lin-Log
Si este ltimo es multiplicado por 100 entonces
Y 2 X / X
da el cambio absoluto en Y ocasionado por un cambio porcentual
en X. As, si X/X cambia en 0.01 unidades (o 1%), el cambio
absoluto en Y es 0.01(2).
Por tanto, si en una aplicacin se encuentra que 2 = 500,
entonces el cambio absoluto en Y es (0.01)(500), o 5.0.
Por consiguiente, cuado se utiliza MCO para estimar regresiones
como en
Yi 1 2 lnX i i
El modelo Lin-Log
Ejemplo:
Como ejemplo del modelo lin-Iog,
consideremos el gasto alimenticio
en India, (tabla 2.8-Anexo 1). Si
se grafican los datos, se obtiene la
grfica de la figura . Tal y como
esta figura sugiere, el gasto
alimenticio se incrementa en
forma ms lenta, conforme el
gasto total aumenta, lo cual quiz
proporcione sustento a la ley de
Engels.
Nota:Cundo resulta til un modelo lin-log ? Se ha encontrado una
interesante aplicacin en los as conocidos modelos de gasto Engel
[nombrados en honor del estadstico alemn Emst Engel (1821-1896).
Engel postul que "el gasto total que se dedica a los alimentos tiende a
incrementarse en progresin aritmtica, mientras que el gasto total aumenta
175
en progresin geomtrica.
El modelo Lin-Log
Los resultados de ajustar el modelo lin-Iog a los datos son los
siguientes:
GASAL I = -1 283.912
t = (-4.3848)*
+ 257.2700 ln
(5.6625)*
GASTOTi
r2
= 0.3769
176
Notacin y supuestos
Interpretacin de la ecuacin de regresin mltiple
Significado de los coeficientes de regresin parcial
Estimacin MCO de los coeficientes de regresin parcial
El coeficiente de determinacin mltiple R2
El coeficiente de correlacin mltiple R
177
Yi 1 2 X 2i 3 X 3i i
donde Y es la variable dependiente, X2 y X3 las variables
explicativas (o regresoras). ui es el trmino de perturbacin
estocstica, e i la isima observacin.
Los coeficientes se denominan coeficientes de regresin parcial
Se contina operando dentro del marco del modelo clsico de
regresin lineal (MCRL).
179
para cada i
No correlacin serial
cov(ui , u j ) 0
i j
Homocedasticidad
var(ui ) 2
180
Supuestos
181
Yi 1 2 X 2i 3 X 3i i
se obtiene
E (Yi / X 2i , X 3i ) 1 2 X 2i 3X 3i
2
i
2
i
u
SRC
R 1
1
STC
y
2
MI i 1 2 PIBPCi 3TAM i ui
186
R 2 0,6981
187
Interpretacin
El coeficiente de regresin parcial -0,0056 del PIBPC indica que
si la influencia de la TAM se mantiene constante, conforme el
PIBPC se incrementa, digamos en un dlar, en promedio, la
mortalidad infantil disminuye en 0.0056 unidades. Para hacerlo
interpretable desde el punto de vista econmico, si el PIB per
cpita se incrementara mil dlares, en promedio, el nmero de
muertes de nios menores de 5 aos se reducira a 5.6 por cada
1000 nacimientos vivos.
El coeficiente -2.2316 seala que si la influencia del PIBPC se
mantiene constante, el nmero de muertes de nios menores de 5
aos disminuira, en promedio, 2.23 por cada mil nacimientos
vivos, en tanto que la tasa de alfabetizacin en las mujeres subira
un punto porcentual. El valor de la interseccin de casi 263, si se
interpretara de una forma mecanicista, significara que si los
valores del PIBPC y de la TAM fuesen cero, la mortalidad infantil
promedio sera de aproximadamente 263 muertes por cada mil
nacimientos vivos.
188
189
El supuesto de normalidad
Consideremos nuevamente el ejemplo de la regresin de la
mortalidad infantil (MI) sobre el PIB per cpita (PIBP) y la tasa
de analfabetismo en las mujeres (TAM) para una muestra de
64 pases. Los resultados de la regresin se reproducen a
continuacin.
R 2 0,6981
H0 : 2 0
H1 : 2 0
192
0.0056
2.8187
0.0020
193
- t /2 se( )
0.0096 2 0.0016
H 0 : 2 3 0
Esta hiptesis nula es conjunta de que 2 y 3 son iguales a
cero en forma conjunta o simultnea. Una prueba de tal
hiptesis se denomina prueba de significancia global de la recta
de regresin observada o estimada, es decir, si
Y est relacionada o no linealmente con X2 y X3 a la vez..
196
k 1, n k
(1 R 2 ) /( n k )
198
200
Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
201
202
Ejemplo:
Ingresos promedio por hora en comparacin con la escolaridad,
sexo y raza
Los resultados de la regresin basados en el modelo
Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
son
206
(9.9095)**
R 2 0.2032 n 528
donde * indica los valores p menores que el 5%, y ** seala los
valores p mayores que 5%.
Como se observa las dos variables dicotmicas aditivas siguen
siendo estadsticamente significativas, pero la variable dicotmica
interactiva no est al nivel convencional del 5%
207
209
Heteroscedasticidad
210
Autocorrelacin:
Cuando el trmino de error en un perodo est correlacionado
positivamente con el trmino de error en el perodo anterior,
enfrentamos el problema de autocorrelacin (de primer orden
positiva). Esto es comn en anlisis de series de tiempo.
La presencia de autocorrelacin de primer orden se prueba
utilizando la tabla del estadstico de Durbin- Watson a los
niveles de significacin del 5% o 1% para n observaciones y k,
variables explicatorias
211
212
Regresin Logstica
Consideraciones sobre los datos
Fases fundamentales
Fundamentos Funcin logstica
Clculo de las probabilidades pronosticadas
Interpretacin de los coeficientes
El problema de clasificacin
Estadsticos: Puntuacin de Rao, Chi cuadrado, Wald
Regresin logstica versus anlisis discriminante
215
Regresin Logstica
La regresin logstica resulta til para los casos en los
que se desea predecir la presencia o ausencia de una
caracterstica o resultado segn los valores de un
conjunto de variables predictoras.
Es similar a un modelo de regresin lineal pero est
adaptado para modelos en los que la variable
dependiente es dicotmica.
Los coeficientes de regresin logstica pueden
utilizarse para estimar la razn de las ventajas (odds
ratio) de cada variable independiente del modelo.
La regresin logstica se puede aplicar a un rango ms
amplio de situaciones de investigacin que el anlisis
discriminante.
216
Regresin Logstica
El anlisis de regresin logstica tiene como finalidad principal
pronosticar la pertenencia a un grupo a partir de una serie de
variables independientes.
Grupo 1
Variables independientes
Grupo 2
Variable dependiente
dicotmica
218
Regresin Logstica
Grupo 1
Variables independientes
o predictoras (covariables)
Grupo 2
Variable dependiente
dicotmica
La variable dicotmica es la
variable dependiente del anlisis,
es decir, la variable cuyos
valores se desea pronosticar.
219
Fases fundamentales
Un anlisis de regresin logstica consta de cuatro fases
fundamentales:
La seleccin de las variables de anlisis.
La estimacin de los pesos o coeficientes de las variables
seleccionadas.
La clasificacin de los casos.
El anlisis de los residuos.
La seleccin de las variables puede realizarse a partir de criterios
tericos o puede obedecer a criterios estadsticos
La estimacin de los pesos o coeficientes asociados a cada variable se
realiza mediante una algoritmo iterativo de mxima verosimilitud.
La clasificacin de los casos se realiza a partir de los pronsticos del
modelo estimado.
El anlisis de los residuos permite detectar posibles casos atpicos o
predicciones anmalas.
220
1
1 e
( B0 B1 X )
0<Y<1
1 e ( B0 B1 B2 X 2 L Bk X k )
222
Ejemplo
Supongamos que interesa explicar y predecir si una persona
ha votado o no en las ltimas elecciones a partir de un
conjunto de caractersticas socio-demogrficas.
La variable que distingue a los sujetos que manifiestan haber
votado de aquellos que manifiestan no haber votado es la
variable voto.
Vot en 1992?
Vlidos
Perdidos
Total
S vot
No vot
Total
Sistema
Frecuencia
1032
420
1452
48
1500
Porcentaje
68,8
28,0
96,8
3,2
100,0
Porcentaje
vlido
71,1
28,9
100,0
Porcentaje
acumulado
71,1
100,0
223
Ejemplo
Consideremos en primer lugar la variable lee como variable
independiente (Lee el peridico?)
Lee el peridico?
Vlidos
Perdidos
Total
S lee
No lee
Total
Sistema
Frecuencia
862
148
1010
490
1500
Porcentaje
57,5
9,9
67,3
32,7
100,0
Porcentaje
vlido
85,3
14,7
100,0
Porcentaje
acumulado
85,3
100,0
Ejemplo
Tabla de contingencia Vot en 1992? * Lee el peridico?
Vot en
1992?
S vot
No vot
Total
Recuento
% de Lee el peridico?
Recuento
% de Lee el peridico?
Recuento
% de Lee el peridico?
Lee el peridico?
S lee
No lee
624
68
74,9%
47,6%
209
75
25,1%
52,4%
833
143
100,0%
100,0%
Total
692
70,9%
284
29,1%
976
100,0%
225
Ejemplo
Se sabe que aproximadamente una tercera parte de los sujetos
encuestados se abstiene y que, por tanto, cabe esperar que una de
cada tres personas no acuda a las urnas; pero no se sabe nada
acerca de las caractersticas de las personas que se abstienen.
226
Ecuacin logstica
Si existen variables capaces de predecir la abstencin, entonces es
posible incluirlas en un modelo de regresin y utilizarlas para
corregir las estimaciones de proporcin de votantes y no votantes.
El problema que surge en una situacin de estas caractersticas es
que, al tener que pronosticar una probabilidad (es decir, un valor
comprendido entre 0 y 1), un modelo de regresin lineal puede
plantear serios problemas de prediccin por no tener mximo ni
mnimo tericos en los pronsticos que arroja. Por esta razn es
ms apropiado recurrir a un modelo de tipo logstico. Considrese
la siguiente ecuacin logstica:
P (Y 1)
1
1 e ( B0 B1 X )
227
228
229
0,5
1
Los sujetos con un pronstico
mayor que 0,5 son clasificados
como abstencionista
230
LEE
Constante
B
1,192
-1,094
E.T.
,186
,080
Wald
41,258
187,316
gl
1
1
Sig.
,000
,000
Exp(B)
3,293
,335
P (Y 1)
Donde
1
1 e
Y=0 S vot
Y=1 No vot
B0 B1 X
1
1 e
( 1,094 1,192 X )
X=0 S lee
X=1 No lee
231
P(Y 1 X 1)
1
1 e
1,094 1,192 1
0,5245
0,098
1 e
P Y 1 X 0 =
1
1 e
1,094 1,192 0
0, 2509
1,094
1 e
232
1/ 1 e
B0 B1 X
P Y 1
B B X
P Y 0
11/ 1 e 0 1
e B0 B1 X
234
P Y 1
ln
B
X
0
1
P
Y
ln
X 0
P Y 0 X 0
0, 2509
ln 0,335 1, 094
1
0,
2509
B0 ln
ln
X
P Y 0 X
1
0,5245
B0 B1 ln
ln 1,103 0, 098
1
1 0,5245
Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del
coeficiente:
B1 0, 098 1, 094 1,192
236
P Y 1
P Y 0
e B0 B1 X e B0 e B1 X
El problema de la clasificacin
Una ecuacin de regresin logstica raramente arroja pronsticos
con valores 0 y 1, es decir, raramente genera una curva en forma
de escaln Lo habitual es encontrar que la probabilidades
pronosticadas adoptan valores comprendidos entre 0 y 1.
Este es el motivo que obliga a tener que establecer un punto
de corte para poder tomar la decisin de clasificar a los
sujetos en uno u otro grupo a partir de las probabilidades
pronosticadas.
Cuando la variable independiente es dicotmica, como en el
ejemplo, establecer el punto de corte es una tarea bastante
sencilla. Puesto que una variable dicotmica slo adopta dos
valores (en el ejemplo: 0 = Si lee el peridico y 1 = No lee el
peridico), slo es posible obtener dos pronsticos. (0,2509 y
0,5245).
239
0
0,291
Los sujetos con un pronstico
menor o igual que el punto de
corte son clasificados en el
grupo que s votan
1
Los sujetos con un pronstico
mayor que el punto de corte
son clasificados en el grupo
que no votan
240
241
Paso 1
Observado
Vot en 1992?
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje global
Porcentaje
correcto
90,2
26,4
71,6
Tabla de clasificacina
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje
correcto
90,2
26,4
71,6
242
Tabla de clasificacina
Pronosticado
Paso 1
Observado
Vot en 1992?
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje global
Porcentaje
correcto
90,2
26,4
71,6
Tabla de clasificacina
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
0
692
0
284
Porcentaje
correcto
,0
100,0
29,1
243
Leer
Edad
Hijos
Educ
Ingfam91
Variables
Estadsticos globales
LEE
EDAD
EDUC
INGFAM91
HIJOS
Puntuacin
45,137
20,956
60,910
53,935
,188
136,954
gl
1
1
1
1
1
5
Sig.
,000
,000
,000
,000
,664
,000
245
El estadstico chi-cuadrado
Pruebas omnibus sobre los coeficientes del modelo
Paso 1
Paso
Bloque
Modelo
Chi-cuadrado
143,754
143,754
143,754
gl
5
5
5
Sig.
,000
,000
,000
Paso
1
-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
a
970,392
,143
R cuadrado
de
Nagelkerke
,205
Matriz de confusin
Tabla de clasificacina
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
615
54
189
76
Porcentaje
correcto
91,9
28,7
74,0
248
Variables en la ecuacin
Paso
a
1
LEE
EDAD
EDUC
INGFAM91
HIJOS
Constante
B
,671
-,034
-,192
-,056
,018
3,636
E.T.
,207
,006
,032
,016
,051
,526
Wald
10,468
36,188
35,276
12,722
,125
47,706
gl
1
1
1
1
1
1
Sig.
,001
,000
,000
,000
,723
,000
Exp(B)
1,956
,967
,825
,945
1,018
37,957
Estadstico de Wald
Estadstico de Wald
Coeficiente
E.estndar
Anlisis discriminante
Datos. La variable de agrupacin debe tener un nmero limitado de
categoras distintas, codificadas como nmeros enteros. Las
variables independientes que sean nominales deben ser
recodificadas a variables dummy o de contraste.
Supuestos. Los casos deben ser independientes. Las variables
predictoras deben tener una distribucin normal multivariada y las
matrices de varianzas-covarianzas intra-grupos deben ser iguales en
todos los grupos. Se asume que la pertenencia al grupo es
mutuamente exclusiva (es decir, ningn caso pertenece a ms de un
grupo) y exhaustiva de modo colectivo (es decir, todos los casos son
miembros de un grupo). El procedimiento es ms efectivo cuando la
pertenencia al grupo es una variable verdaderamente categrica; si
la pertenencia al grupo se basa en los valores de una variable
continua (por ejemplo, un cociente de inteligencia alto respecto a
uno bajo), deber considerar el uso de la regresin lineal para
aprovechar la informacin ms rica ofrecida por la propia variable
255
continua.
Anlisis Factorial
Datos y supuestos
Tcnica del anlisis factorial
Fases del anlisis factorial
Matriz de correlaciones
Extraccin de factores
Mtodos de Rotacin
Puntuaciones factoriales
256
Anlisis Factorial
El anlisis factorial es una tcnica de reduccin de datos que
sirve para encontrar grupos homogneos de variables a partir
de un conjunto numeroso de variables.
v1, v5,v7
v2,v8,v10.
V3,v4,v9..
257
Datos y supuestos
Objetivo
Buscar el nmero mnimo de dimensiones capaces de explicar el
mximo de informacin contenida en los datos.
Variables
En el anlisis factorial no existe variable dependiente. Todas las
variables del anlisis tienen el mismo rango: todas ellas son
independientes en el sentido de que no existe a priori una
dependencia conceptual de unas variables sobre otras.
Las variables deberan ser cuantitativas a nivel de intervalo o
de razn. Los datos categricos (como la religin o el pas de
origen) no son adecuados para el anlisis factorial.
258
Datos y supuestos
Supuestos
Los datos han de tener una distribucin normal bivariada para
cada pareja de variables, y las observaciones deben ser
independientes.
Ejemplo
Qu actitudes subyacentes hacen que las personas
respondan a las preguntas de una encuesta poltica de la
manera en que lo hacen? Con el anlisis factorial, se puede
investigar el nmero de factores subyacentes y, en muchos
casos, se puede identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las
puntuaciones factoriales para cada encuestado, que pueden
utilizarse en anlisis subsiguientes.
259
F j W j1 X 1 W j 2 X 2 W j 3 X 3 ..... Wip X p
Wj son los coeficientes de las puntuaciones factoriales
P es el nmero de variables
260
261
Ejemplo
Analicemos, por ejemplo, la pregunta del cuestionario cuyos
datos recoge el archivo trabajo.sav y referida a la evaluacin
por parte de los encuestados de la importancia que segn su
opinin pueden tener cada una de las causas que se
enumeran, en el alto ndice de paro en un pas.
B13: La crisis econmica.
B14: La poltica de empleo del gobierno.
B15: La mala gestin de los empresarios.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B17: La falta de preparacin del trabajador.
B18: Las pocas ganas de trabajar de la gente.
B19: El no saber buscar trabajo.
B20: Que hay mucho pluriempleo.
B21: Que el trabajo que hay no se reparte bien socialmente.
262
Descriptivos
Estadsticos descriptivos
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Media
3,93
3,91
3,53
3,02
2,92
2,85
2,77
3,57
3,87
Desviacin
tpica
,882
,933
1,005
1,133
1,086
1,203
1,099
1,005
,877
N del anlisis
1009
1009
1009
1009
1009
1009
1009
1009
1009
Figura 1
264
Matriz de correlaciones
Matriz de correlacionesa
Correlacin
Sig. (Unilateral)
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
1,000
,397
,185
-,120
-,003
-,157
-,101
,019
,084
,000
,000
,000
,457
,000
,001
,273
,004
Poltica de
empleo
,397
1,000
,202
-,077
-,050
-,104
-,078
,054
,103
,000
,000
,007
,057
,000
,006
,044
,001
Empresarios
,185
,202
1,000
,028
-,010
-,024
,044
,101
,161
,000
,000
,185
,373
,221
,082
,001
,000
Comodidad
-,120
-,077
,028
1,000
,336
,559
,387
,214
,043
,000
,007
,185
,000
,000
,000
,000
,087
Preparacin
-,003
-,050
-,010
,336
1,000
,425
,345
,115
,045
,457
,057
,373
,000
,000
,000
,000
,077
Ganas de
trabajar
-,157
-,104
-,024
,559
,425
1,000
,451
,195
,071
,000
,000
,221
,000
,000
,000
,000
,012
Bsqueda
-,101
-,078
,044
,387
,345
,451
1,000
,231
,134
,001
,006
,082
,000
,000
,000
,000
,000
Pluriempleo
,019
,054
,101
,214
,115
,195
,231
1,000
,376
,273
,044
,001
,000
,000
,000
,000
Reparto
,084
,103
,161
,043
,045
,071
,134
,376
1,000
,004
,001
,000
,087
,077
,012
,000
,000
,000
a. Determinante = ,240
Figura 2
Es importante que todas las variables tengan al menos un coeficiente de
correlacin significativo en la matriz.
265
El ndice KMO
Inversa de la matriz de correlaciones
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Figura 3
Crisis
1,239
-,441
-,134
,061
-,115
,138
,059
-,008
-,049
Poltica de
empleo
-,441
1,223
-,153
,014
,034
,024
,048
-,043
-,059
Empresarios
-,134
-,153
1,086
-,063
,032
,054
-,058
-,038
-,128
Comodidad
,061
,014
-,063
1,548
-,148
-,674
-,207
-,160
,080
Preparacin
-,115
,034
,032
-,148
1,290
-,376
-,231
,005
,005
Ganas de
trabajar
,138
,024
,054
-,674
-,376
1,740
-,361
-,067
-,027
Bsqueda
,059
,048
-,058
-,207
-,231
-,361
1,380
-,144
-,086
Pluriempleo
-,008
-,043
-,038
-,160
,005
-,067
-,144
1,247
-,427
Reparto
-,049
-,059
-,128
,080
,005
-,027
-,086
-,427
1,201
Chi-cuadrado
aproximado
gl
Sig.
,712
1434,418
36
,000
Figura 4
En la tabla tenemos la inversa de la matriz de correlaciones, los KMO
(Kaiser-Meyer-Olkin) y el test de Bartlett. Este ltimo, es decir, el test de
Bartlett, se utiliza para verificar si la matriz de correlaciones es una matriz de
identidad, es decir, si todos los coeficientes de la diagonal son iguales a la
unidad y los externos a la diagonal iguales a O.
266
El ndice KMO
Este estadstico se obtiene a partir de la transformacin X2 del
determinante de la matriz de correlaciones y cuanto mayor sea y
por
tanto menor el grado de significacin, ms improbable que la
matriz sea una matriz de identidad. En el ejemplo, con un valor
1434,418 y un grado de significacin p = 0,000 resulta evidente
que no se trata de una matriz de identidad.
En el supuesto de que no se pudiese rechazar esta
hiptesis, se desaconseja proceder a realizar un anlisis
factorial con los datos.
267
El ndice KMO
El ndice KMO nos compara los coeficientes de correlacin de
Pearson obtenidos en la Figura 2 con los coeficientes de
correlacin parcial entre variables. Se obtiene
KMO
2
r
ij
i j
2
ij
r a
i j
i j
2
ij
268
El ndice KMO
Si la suma de los coeficientes de correlacin parcial al cuadrado es
muy pequea, KMO ser un ndice muy prximo a la unidad y por
tanto el anlisis factorial un procedimiento adecuado. En cambio,
valores pequeos en este ndice nos dan a entender todo lo
contrario. De hecho para Kaiser :
1 KMO > 0,90 son considerados excelentes.
0,90 KMO > 0,80 son considerados buenos.
0,80 KMO > 0,70 son considerados aceptables.
0,70 KMO > 0,60 son considerados mediocres o regulares.
0,60 KMO > 0,50 son considerados malos.
KMO < 0,50 son considerados inaceptables o muy malos.
En el ejemplo este valor es de 0,712 y por tanto se puede
considerar como aceptable y continuar con el anlisis
factorial.
269
Matrices anti-imagen
Poltica de
empleo
Empresarios
Comodidad
Preparacin
Ganas de
trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Correlacin anti-imagen
Covarianza anti-imagen
Matrices anti-imagen
,807
-,291
-,100
,032
-,072
,064
,034
-,005
-,033
,601a
-,358
-,116
,044
-,091
,094
,045
-,006
-,040
-,291
,818
-,115
,007
,022
,011
,028
-,028
-,040
-,358
,609a
-,132
,010
,027
,016
,037
-,034
-,048
-,100
-,115
,921
-,038
,023
,029
-,039
-,028
-,098
-,116
-,132
,690a
-,049
,027
,039
-,047
-,033
-,112
,032
,007
-,038
,646
-,074
-,250
-,097
-,083
,043
,044
,010
-,049
,744a
-,104
-,411
-,142
-,115
,058
-,072
,022
,023
-,074
,775
-,168
-,130
,003
,003
-,091
,027
,027
-,104
,791a
-,251
-,173
,004
,004
,064
,011
,029
-,250
-,168
,575
-,151
-,031
-,013
,094
,016
,039
-,411
-,251
,721a
-,233
-,046
-,019
,034
,028
-,039
-,097
-,130
-,151
,725
-,083
-,052
,045
,037
-,047
-,142
-,173
-,233
,816a
-,109
-,067
-,005
-,028
-,028
-,083
,003
-,031
-,083
,802
-,285
-,006
-,034
-,033
-,115
,004
-,046
-,109
,669a
-,349
-,033
-,040
-,098
,043
,003
-,013
-,052
-,285
,833
-,040
-,048
-,112
,058
,004
-,019
-,067
-,349
,591a
Figura 5
270
Extraccin de factores
Mtodo. Permite especificar el mtodo de extraccin factorial. Los
mtodos disponibles son: Componentes principales, Mnimos
cuadrados no ponderados, Mnimos cuadrados generalizados,
Mxima verosimilitud, factorizacin de Ejes principales, factorizacin
Alfa y factorizacin Imagen.
En SPSS el sistema coge por defecto el mtodo de componentes
principales que es el que hemos utilizado en esta primera parte del
ejemplo.
272
Comunalidades
Comunalidades
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Inicial
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Extraccin
,644
,620
,329
,592
,523
,684
,519
,646
,693
Figura 6
Valores propios
La decisin respecto al nmero de factores que deseamos para
representar los datos puede adoptarse desde una doble va que
es la que aparece en el subcuadro de dilogo Extraction. Por
defecto el sistema extraer tantos factores como haya en la
solucin inicial con valores propios (eigenvalues) superiores a la
unidad. En la Figura 7 vemos que hay tres factores con valores
propios superiores a 1 y que en definitiva ser el nmero que
extraer el sistema. Evidentemente, podemos cambiar el valor
por defecto correspondiente al eigenvalue. La segunda
posibilidad corresponde al botn de radio Number of factors y
consiste sencillamente en fijar un nmero entero determinado de
factores, siempre inferior, lgicamente, al nmero de variables.
Los autovalores (o valores propios) expresan la cantidad de
la varianza total que est explicada por cada factor; y los
porcentajes de varianza explicada asociados a cada factor se
obtienen dividiendo su correspondiente autovalor por la
suma de los autovalores (la cual coincide con el nmero de
variables
275
Componente
1
2
3
4
5
6
7
8
9
Autovalores iniciales
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
,848
9,426
67,747
,705
7,834
75,580
,616
6,842
82,422
,597
6,629
89,051
,568
6,314
95,365
,417
4,635
100,000
Figura 7
276
Grfico de sedimentacin
El grfico de sedimentacin
sirve para determinar el
nmero ptimo de factores.
Consiste simplemente en una
representacin grfica del
tamao de los autovalores.
Segn se ha sealado ya, los
autovalores indican la
cantidad de varianza que est
explicada por cada
componente principal
Figura 8
Tanto la tabla de porcentajes de varianza explicada como el grfico de
sedimentacin muestran los autovalores ordenados de mayor a menor: el
primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor
de los restantes, y as sucesivamente. Si un autovalor se aproxima a cero, esto
significa que el factor correspondiente a ese autovalor es incapaz de explicar
una cantidad relevante de la varianza total. Por tanto, un factor al que
corresponde un autovalor prximo a cero se considera un factor residual y
277
carente de sentido en el anlisis.
Matriz de componentes
Matriz de componentesa
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
1
-,229
-,185
,020
,748
,629
,804
,718
,436
,236
Componente
2
,640
,668
,569
-,036
,002
-,085
,045
,437
,551
3
,426
,373
,070
,177
,357
,174
,040
-,515
-,577
En la Figura 9 tenemos
los coeficientes
utilizados para expresar
cada variable
estandarizada en
trminos de los tres
factores del modelo.
Figura 9
Estos coeficientes se conocen tambin con el nombre de pesos factoriales,
cargas, ponderaciones factoriales o saturaciones factoriales ya que nos indican
la carga de cada variable en cada factor, de modo que los factores con unos
pesos factoriales ms elevados en trminos absolutos nos indican una relacin
estrecha con las variables.
278
Matriz de componentes
El ideal desde el punto de vista del anlisis factorial es encontrar un
modelo en el que todas las variables saturen en algn factor, es
decir, pesos factoriales altos en uno y bajos en el resto. Por ejemplo
la variable B18 (Ganas de trabajar como posible explicacin del alto
ndice de desempleo en el pas) es una variable con una elevada
carga factorial en el primero de los factores y mucho ms pequea
en los dos restantes. Podramos expresar la variable B18 como:
B18 = 0,80408 F1 - 0,08519 F2 + 0,17407 F3
donde F1, F2 y F3 son los tres factores del modelo.
279
Matriz de componentes
Matriz de componentesa
1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo
,804
,748
,718
,629
-,185
-,229
,020
,236
,436
Componente
2
-,085
-,036
,045
,002
,668
,640
,569
,551
,437
Matriz de componentesa
3
,174
,177
,040
,357
,373
,426
,070
-,577
-,515
Componente
2
1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo
,804
,748
,718
,629
-,185
-,229
,236
,436
3
,174
,177
,668
,640
,569
,551
,437
,357
,373
,426
-,577
-,515
Matriz de componentes
Para determinar en qu medida los tres factores son capaces de
explicar las variables originales, podemos sumar la proporcin de
variancia de la variable explicada por cada uno de ellos (es decir, los
coeficientes al cuadrado) y de este modo obtener las comunalidades
que aparecen en la diagonal de la Figura 10. Cojamos de nuevo la
variable B18 (Ganas de trabajar) y calculemos este sumatoria:
B 18 = 0,804082 + 0,085192 + 0,174072 = 0,68410
Casi el 70 por 100 de la variabilidad de B18 es explicada por los tres
factores
del modelo, en tanto que por ejemplo en la variable BI5 (Empresarios)
los mismos nicamente explican en torno al 33 por 100. Reiteramos
que esta proporcin de la variabilidad de cada variable explicada por
los factores del modelo es lo que se conoce con el nombre de
comunalidad de la variable. Obviamente su valor oscila entre 0 y 1 y
la parte de variancia no explicada por el modelo factorial, es decir, 1comunalidad, es lo que se conoce con el nombre de factor nico o
281
unicidad.
Rotacin
La finalidad de la rotacin es la de ayudamos a interpretar.
En el subcuadro de dilogo Rotacin existen varios
procedimientos.
VARIMAX, EQUAMAX y QUARTlMAX son procedimientos
ortogonales es decir que los factores se mantienen
incorrelacionados y los ejes forman ngulos rectos.
El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de
los denominados oblicuos o no ortogonales.
La rotacin no afecta a la comunalidad y al porcentaje de
variancia explicada por el modelo, aunque s puede
cambiar la de cada factor.
282
Mtodos de Rotacin
Varimax. Mtodo de rotacin ortogonal que minimiza el
nmero de variables que tienen saturaciones altas en cada
factor. Simplifica la interpretacin de los factores opti
mizando la solucin por columna.
Quartimax. Mtodo de rotacin ortogonal que minimiza el
nmero de factores necesarios para explicar cada variable.
Simplifica la interpretacin de las variables observadas
optimizando la interpretacin por filas.
Equamax. Mtodo de rotacin que es combinacin del
mtodo Varimax, que simplifica los factores, y del mtodo
Quartimax, que simplifica las variables. Se minimiza tanto el
nmero de variables que saturan alto en un factor como el
nmero de factores necesarios para explicar una variable.
283
Mtodos de Rotacin
Oblimin directo. Mtodo para la rotacin oblicua (no
ortogonal). Cuando delta es igual a cero (el valor por
defecto), las soluciones son las ms oblicuas. A medida que
delta se va haciendo ms negativo, los factores son menos
oblicuos. Para anular el valor por defecto de delta, puede
introducirse un nmero menor o igual que 0,8.
Delta. El valor de delta permite controlar el grado de
oblicuidad que pueden llegar a alcanzar los factores de la
solucin.
Promax. Rotacin oblicua que permite que los factores
estn correlacionados. Puede calcularse ms rpidamente
que una rotacin oblimin directa, por lo que es til para
grandes conjuntos de datos.
Kappa. Parmetro que controla el clculo de la rotacin
Promax. El valor por defecto es 4. Este valor es adecuado
284
para la mayora de los anlisis.
Matriz factorial
En resumen, todos los mtodos tratan de obtener una matriz
factorial que se aproxime al principio de estructura simple.
Segn este principio, la matriz factorial debe reunir las
siguientes caractersticas:
Matriz factorial
Factor 1 Variables:
B18: Pocas ganas de trabajar de la gente.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B19: El no saber buscar trabajo.
B17: La falta de preparacin del trabajador.
Factor 2 Variables:
B 14: La poltica de empleo del gobierno.
B 13: La crisis econmica.
B15: La mala gestin de los empresarios.
Factor 3 Variables:
B21: Que el trabajo que hay no se reparte bien socialmente.
B22: Que hay mucho pluriempleo.
286
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,818
,765
,712
,688
-,090
-,067
,027
,014
,226
Componente
2
-,111
-,058
,085
-,056
,795
,784
,512
,129
,033
3
,055
,062
-,095
,205
-,059
,010
,257
,822
,771
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,813
,761
,716
,678
-,077
-,057
,023
-,019
,194
Componente
2
-,122
-,069
,077
-,068
,797
,785
,508
,117
,019
3
,088
,094
-,063
,233
-,051
,019
,265
,824
,780
Matriz de configuracin.a
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,815
,762
,715
,682
-,081
-,061
,024
-,008
,205
Componente
2
-,118
-,065
,080
-,064
,796
,785
,509
,120
,023
3
,076
,083
-,074
,224
-,053
,017
,263
,823
,777
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,813
,762
,740
,664
-,026
-,013
,028
-,091
,124
Componente
2
-,085
-,035
,122
-,048
,806
,790
,496
,056
-,028
3
-,014
-,021
,146
-,172
,106
,036
-,229
-,834
-,775
287
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,815
,765
,751
,663
-,006
,005
,034
-,111
,105
Componente
2
-,068
-,019
,136
-,034
,804
,789
,497
,057
-,022
3
-,002
,009
-,154
,161
-,080
-,010
,246
,841
,776
288
289
290
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
Componente
2
,815
-,118
,762
,715
,682
,796
,785
,509
,120
,205
,224
,263
,823
,777
293
Puntuaciones factoriales
Puesto que la finalidad ltima del anlisis factorial es
reducir un gran nmero de variables a un pequeo
nmero de factores, es a veces aconsejable estimar
las puntuaciones factoriales de cada sujeto.
Matriz de coeficientes para el clculo de las
puntuaciones en las componentes
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
1
-,093
-,076
,008
,305
,257
,328
,293
,178
,096
Componente
2
,380
,397
,338
-,021
,001
-,051
,027
,259
,327
3
,382
,335
,063
,159
,320
,156
,036
-,462
-,518
294
295