Presentaci N Cursomultivariable 2012

UNIVERSIDAD DE CHILE
MAGISTER EN GESTION Y POLITICAS PUBLICAS
ESTADISTICA APLICADA
Y ECONOMETRIA
Sara Arancibia C
2012
1
Objetivos
Comprender y aplicar los conceptos bsicos de Econometra y
metodologas de Anlisis Multivariante, fundamentales para el
anlisis de informacin.
Conocer y manejar el software estadstico SPSS, con nfasis en
la resolucin de estudios de casos aplicados a la gestin y
polticas pblicas.
Metodologa
Clases tericas y prcticas.
Apoyo de material; transparencias, guas, lecturas
complementarias
Manejo del software SPSS
En los laboratorios se realizarn estudios de casos apoyados de
guas.
2
Evaluacin
Tareas semanales ( 30%), controles (30%), examen (40%)
Bibliografa:
Introduccin a la Econometra. Un enfoque moderno.
Jeffrey y Wooldridge . Ed Thomson Learning
Econometra. Cuarta Edicin
Gujarati Ed. Mc Graw Hill
Anlisis Multivariable para las Ciencias Sociales.
Lvy y Varela Ed Pearson
Anlisis multivariante
Hair-Anderson-Tatham-Black. Ed Prentice Hall.
Anlisis de datos con SPSS 13 Base
Pardo y Ruiz. Ed Mc Graw Hill.
Anlisis Estadstico con SPSS para windows. Estadstica Multivariante.
Visauta y Martori. Ed Mc Graw Hill. Segunda Edicin
3
Contenidos
Primera sesin
Introduccin a la Econometra
Introduccin al Anlisis Multivariable
Anlisis de varianza
Anlisis no paramtrico de H de Kruskall-Wallis
Gua 1-Estudios de casos
Segunda y Tercera Sesin
Anlisis de regresin lineal simple
Modelos lin-log y log-lin y semilogaritmicos
Gua 2- Estudios de casos
Cuarta y Quinta Sesin
Anlisis de regresin mltiple
Contenidos
Sexta Sesin
Modelos de regresin mltiple con variables cualitativas ( dami)
Estimacin ponderada
Sptima Sesin
Regresin logstica
Octava Sesin
Anlisis Factorial
Introduccin
Introduccin al Anlisis Multivariante
Naturaleza de la Econometra
y de los datos econmicos
Qu es la Econometra?
Funciones de la Econometra
La metodologa de la Econometra
La regresin es una herramienta fundamental de la
Econometra.
Estructura de los datos econmicos
Relaciones estadsticas vs. Relaciones determinsticas
Regresin vs. Causalidad
Regresin vs. Correlacin
Terminologa
7
Introduccin
Naturaleza de la econometra y de los datos econmicos
Qu es la
econometra?
Literalmente,
econometra significa
medicin econmica.
La econometra se basa en mtodos

estadsticos para estimar las relaciones
econmicas, poner a prueba teoras
econmicas y evaluar y poner en prctica
polticas gubernamentales y comerciales.
Aplicaciones de la econometra
Pronstico de variables macroeconmicas ( inflacin, el producto
interno bruto)
Estudios aplicados a diversos campos de la economa (Ej: estudio de
los efectos de los gastos de las campaas polticas en los resultados
de las votaciones, en el efecto de los gastos en educacin en el
rendimiento de los estudiantes, etc)
Cules son las funciones de la econometra?

La econometra tiene bsicamente tres funciones estrechamente
interrelacionadas.
1) Probar teoras econmicas o hiptesis.
Por ejemplo, est el consumo
directamente relacionado con el ingreso?,
est la cantidad demandada de un artculo
inversamente relacionada con su precio?.
2) Dar estimaciones numricas de los
coeficientes de las relaciones econmicas.
Estos son esenciales en la toma de
decisiones. Por ejemplo, un asesor
gubernamental necesita tener una
estimacin exacta del coeficiente de la
relacin entre consumo e ingreso con el fin
de determinar el efecto estimulante de una
reduccin de impuestos propuesta.
3) La prediccin de sucesos econmicos
La Econometra da
contenido emprico a
gran parte de la teora
econmica
La metodologa de la Econometra
En trminos generales, el anlisis economtrico sigue las
siguientes lneas generales de accin:
1. Enunciado de la teora o hiptesis
2. Especificacin del modelo economtrico dirigido a probar la
teora
3. Estimacin de los parmetros del modelo
4. Verificacin o inferencia estadstica
5. Predicciones o pronsticos
6. Utilizacin del modelo para fines de control o formulacin de
polticas
10
Ejemplo
Consideremos a continuacin la teora keynesiana de la
funcin consumo
Enunciado de la teora o hiptesis
Keynes plantea
La ley sicolgica fundamental consiste en que los hombres
estn dispuestos, por regla general y en promedio, a aumentar
su consumo a medida que aumenta su ingreso, aunque no en la
misma proporcin al incremento en dicho ingreso.
Keynes afirma que la propensin marginal a consumir (PMC),
la tasa de cambio del consumo ante un cambio de una unidad
en el ingreso, es mayor que cero pero menor que uno.
11
Especificacin del modelo economtrico

Para simplificar, un economista matemtico puede sugerir la
siguiente forma para la funcin de consumo de Keynes:
Y 0 1 X
0 1 1
(1)
en donde
Y gastos de consumo
X ingreso
0 int er sec cin con el eje Y

1 pendiente
El coeficiente de la pendiente 1 representa la propensin marginal

a consumir (PMC)
12
La ecuacin (1), que afirma que el consumo est relacionado

linealmente con el ingreso, es un ejemplo de un modelo
matemtico.
Si el modelo, como del ejemplo anterior, consta de una sola
ecuacin, recibe el nombre de modelo uniecuacional; si tiene
ms de una ecuacin, se denomina modelo multiecuacional o
modelo de ecuaciones simultneas.
El modelo matemtico de la funcin de consumo (1) es de
limitado inters para el econometrista, por cuanto supone una
relacin exacta o determinstica entre el consumo y el ingreso.
Sin embargo, las relaciones existentes entre las variables
econmicas son generalmente inexactas
13
Para tener en cuenta la existencia de una relacin

inexacta entre las variables econmicas, el
econometrista debe modificar la funcin de consumo
determinstica de (1), de la siguiente manera
Y o 1 X u
(2)
En la que u representa el trmino de perturbacin o de

error, que es una variable aleatoria ( estocstica) con
propiedades probabilsticas bien definidas.
El trmino perturbacin, u, suele representar todas
aquellas fuerzas que afectan el consumo pero que no se
tienen en cuenta de manera explcita en la ecuacin
14
Estimacin
Habiendo especificado el modelo economtrico, la tarea
siguiente del econometrista consiste en obtener
estimaciones (valores numricos) de los parmetros del
modelo, a partir de la informacin disponible, generalmente
proporcionada por el estadstico econmico. Estas
estimaciones le confieren un contenido emprico a la teora
econmica. As por ejemplo, si en el estudio de la funcin
de consumo anteriormente expuesta, se encuentra que 1
0,8, este valor no slo proporciona una estimacin
numrica de la PMC sino que corrobora la hiptesis
keynesiana segn la cual la PMC es menor que 1.
Cmo se estiman los parmetros?
La tcnica utilizada para obtener dichas estimaciones es el
anlisis de regresin
15
Verificacin ( inferencia estadstica)

Habiendo obtenido ya estimaciones de los parmetros, la tarea
siguiente consiste en desarrollar criterios apropiados dirigidos
a establecer si las estimaciones obtenidas estn de acuerdo
con lo que se espera de la teora que se est verificando.
La refutacin o confirmacin de las teoras econmicas,
basndose en la evidencia emprica, se fundamenta en la
inferencia estadstica ( prueba de hiptesis)
Predicciones o pronsticos
Si el modelo escogido confirma la hiptesis o teora que se
est investigando, se puede entonces proceder a predecir
el (los) valor(es) futuro(s) de la variable dependiente Y con
base en valores futuros, conocidos o esperados, para la(s)
variable(s) explicativa(s) X.
16
Utilizacin de los modelos para fines de control o

formulacin de polticas
Supngase que un economista del gobierno estima la funcin de
consumo keynesiana, obteniendo los siguientes resultados
Y= 5+0,7X
donde el gasto de consumo Y y el ingreso X se miden en miles de
millones de dlares. Adicionalmente se supone que el gobierno
cree que un nivel de gastos de 1060 ( miles de millones de
dlares) mantendr la tasa de desempleo a un nivel relativamente
bajo, del orden del 5%. Qu nivel de ingresos (X) garantizar
que se obtenga la cantidad presupuestada inicialmente de gastos
de consumo?.
Suponiendo que el modelo es aceptable, se tiene que:
1060=5+0,7X o
X=1055/ 0,7 =1507
Lo anterior implica que un nivel de ingresos de 1507 (miles de
mill de dlares), dada una PMC=0,7, generar un gasto de
1060 (miles de millones de dlares)
17
La regresin es una herramienta

fundamental de la econometra.
Interpretacin moderna de la regresin
El anlisis de regresin est relacionado con el estudio de la
dependencia de una variable, la variable dependiente, de una
o ms variables adicionales, las variables explicativas con la
perspectiva de estimar y/ o predecir el valor (poblacional)
medio o promedio de la primera en trminos de valores
conocidos o fijos ( en muestreos repetidos) de las segundas.
Debe tenerse siempre en mente que el xito del anlisis de
regresin depende de la disponibilidad de informacin adecuada.
18
Estructura de los datos econmicos

Las estructuras de datos ms comunes en la econometra
aplicada son las de los datos de corte transversal, de series de
tiempo, de combinacin de cortes transversales, y de panel.
Datos de corte transversal
Un conjunto de datos de corte transversal consta de una muestra
de individuos, hogares, empresas, ciudades, estados, pases u
otras diversas unidades, tomada en un momento determinado. A
veces, los datos de todas las unidades no corresponden con
exactitud al mismo periodo; por ejemplo, es posible entrevistar a
varias familias durante semanas distintas del ao. En un anlisis
de seccin cruzada pura, ignoraramos cualquier diferencia de
tiempo mnima en la recopilacin de los datos. Si se entrevist a un
grupo de familias en semanas distintas del mismo ao, an
veramos esta informacin como un conjunto de datos de corte
transversal.
19
Tabla 1.1
Conjunto de datos de corte transversal sobre salario

y otras caractersticas individuales
Obs
sala
educ
exper
sexo
ecivil
3.10
11
3.24
12
22
3.00
11
6.00
44
5.30
12
525
11.56
16
526
3.50
14
20
Tabla 1.2
Conjunto de datos sobre las tasas de crecimiento

econmico y caractersticas de los pases
obs
pas
tpib
Consgob60
Secund60
Argentina
0.89
32
Austria
3.32
16
50
Blgica
2.56
13
69
Bolivia
1.24
18
12
..
..
..
61
Zimbabwe
2.30
17
21
Datos de series de tiempo

Un conjunto de datos de series de tiempo (o datos de series
temporales) consta de observaciones, de una o ms variables,
hechas en el tiempo.
Entre los ejemplos de este tipo de informacin se encuentran los
precios de las acciones, el ndice de precios al consumidor, el
producto interno bruto, los ndices anuales de homicidios y las
cifras de venta de automviles. Como los hechos del pasado
pueden tener influencia en los del futuro y los rezagos en el
comportamiento son comunes en las ciencias sociales, el tiempo
es un factor importante en los datos de series de tiempo. A
diferencia del ordenamiento de los datos de corte transversal, la
disposicin cronolgica de las observaciones en una serie
temporal proporciona informacin potencialmente importante.
22
Tabla 1.3
Salario mnimo, desempleo y datos relacionados

para Puerto Rico
obs
ao
salamin
cob
desem
pib
1950
0.20
20.1
15.4
878.7
1951
0.21
20.7
16.0
925.0
1952
0.23
22.6
14.8
1015.9
37
1986
3.35
58.1
18.9
4281.6
38
1987
3.35
58.2
16.8
4496.7
23
Combinacin de cortes transversales

Algunos conjuntos de datos tienen caractersticas tanto de corte
transversal como de series temporales.
Por ejemplo, supongamos que se realizaron a escala nacional dos
encuestas transversales de hogares, una en 1985 y otra en 1990. En
1985 se entrevist a una muestra aleatoria de hogares sobre
variables como ingreso, ahorro, tamao de la familia, etc. En 1990 se
realiz una nueva muestra aleatoria con las mismas preguntas. Con el
objeto de aumentar el tamao de nuestra muestra, podemos formar
una combinacin de cortes transversales para los dos aos. Como las
muestras aleatorias se tomaron cada ao, sera mera casualidad que
el mismo hogar apareciera en la muestra de ambos aos. (Por lo
regular, el tamao de la muestra ser muy pequeo, en comparacin
con el de todos los hogares del pas). Este importante factor distingue
a la combinacin de cortes transversales de los conjuntos de datos de
panel.
24
Tabla 1.4
Combinaciones de cortes transversales:

dos aos de precios de la vivienda
obs
ao
precio
imptos
piecuad
habit
Baos
1993
85500
42
1600
2.0
1993
67300
36
1440
2.5
1993
134000
38
2000
2.5
250
1993
243600
41
2600
3.0
251
1995
65000
16
1250
1.0
252
1995
182400
20
2200
2.0
253
1995
97500
15
1540
2.0
520
1995
57200
16
1100
1.5
25
Datos de panel o longitudinales

Un conjunto de datos de panel (o longitudinales) consta de una
serie temporal para cada miembro del corte transversal en el
conjunto de datos. Como ejemplo, supongamos que tenemos
salario, educacin y antecedentes de empleo de un grupo de
individuos a los que se ha dado seguimiento durante 10 aos; o
tambin podramos reunir informacin, como datos financieros y
de inversiones, sobre el mismo conjunto de empresas durante un
periodo de cinco aos. De igual forma es posible recopilar datos
de panel en unidades geogrficas. Por ejemplo, podemos reunir
datos de los mismos municipios de un pas sobre flujos de
migracin, tasas impositivas, niveles de salarios, gastos
gubernamentales, etc., para los aos 1980, 1985 Y 1990.
La caracterstica fundamental de los datos de panel, que los
distinguen de las combinaciones de cortes transversales, es el
hecho de que se da seguimiento a las mismas unidades
26
Tabla 1.5
Conjunto de datos de panel de dos aos sobre

estadsticas de delincuencia urbana
obs
ciudad
ao
homicidi
os
poblaci
n
desem
Polica
1986
350000
8.7
440
1990
359200
7.2
471
1986
64300
5.4
75
1990
65100
5.5
75
297
149
1986
10
260700
9.6
286
298
149
1990
245000
9.8
334
299
150
1986
25
543000
4.3
520
300
150
1990
32
546200
5.2
493
27
Nota: Los conjuntos de datos que incluyen la

dimensin del tiempo, como los de series
temporales y de panel, exigen un tratamiento
especial por la correlacin con el paso del
tiempo de la mayor parte de las series de tiempo
econmicas. Otros temas, como las tendencias
y la estacionalidad, surgen en el anlisis de los
datos de series temporales, pero no en los de
corte transversal.
28

En el anlisis de regresin nos interesa lo que se conoce como
dependencia estadstica entre variables, pero no la funcional o
determinstica propia de la fsica clsica.
En las relaciones estadsticas entre variables tratamos esencialmente

con variables aleatorias o estocsticas, esto es variables que tienen
distribuciones de probabilidad.
Por otra parte, en la dependencia funcional o determinstica tambin

manejamos variables, pero stas no son aleatorias o estocsticas.
NOTA: La palabra estocstica viene de la palabra griega stokhos
que significa "centro del blanco". El resultado de lanzar dardos
sobre un tablero es un proceso estocstico, esto es, un proceso
que permite errores.
29

La dependencia del producto de una cosecha respecto a la
temperatura ambiente, la lluvia, el sol y los fertilizantes, por ejemplo, es
de naturaleza estadstica en el sentido que las variables explicativas, si
bien son importantes, no permitirn al agrnomo predecir en forma
exacta el producto de la cosecha debido a los errores involucrados en
la medicin de estas variables y en razn de otra serie de factores
(variables), que afectan colectivamente la produccin pero pueden ser
difciles de identificar individualmente. De esta manera habr alguna
variabilidad "intrnseca" o aleatoria en la variable dependiente, producto
de la cosecha, que no puede ser explicada en su totalidad sin importar
cuntas otras variables explicativas consideremos.
30
Regresin vs Causalidad
Si bien el anlisis de regresin tiene que ver con la dependencia de
una variable respecto a otras variables, esto no implica causalidad
necesariamente.
En palabras de Kendall y Stuart: "Una relacin estadstica, sin
importar qu tan fuerte y sugestiva sea, nunca podr establecer
una conexin causal: nuestras ideas de causalidad deben venir
de estadsticas externas y, en ltimo trmino, de una u otra
teora."
Por ejemplo si consideramos el producto de una cosecha, no hay una
razn estadstica para suponer que la lluvia no depende del producto
de la cosecha. El hecho de que se trata el producto de la cosecha
como dependiente de la lluvia (entre otras cosas) es debido a
consideraciones no estadsticas: el sentido comn sugiere que la
relacin no puede revertirse, ya que no podemos controlar la lluvia
modificando la produccin de la cosecha.
31
Regresin vs Correlacin
El anlisis de correlacin est estrechamente relacionado con el
de regresin aunque conceptualmente los dos son muy diferentes.
En el anlisis de correlacin el objetivo principal es medir la

fuerza o el grado de asociacin lineal entre dos variables.
El coeficiente de correlacin, mide esta fuerza de asociacin
(lineal).
Por ejemplo, se puede estar interesado en encontrar la
correlacin (el coeficiente) entre el hbito de fumar y el cncer del
pulmn; entre las calificaciones obtenidas en exmenes de
estadstica y las obtenidas en exmenes de matemticas; entre
las altas calificaciones obtenidas en la escuela secundaria y en la
universidad, y as sucesivamente.
32
Regresin vs Correlacin
En el anlisis de regresin, como ya se mencion, no
estamos interesados en ese tipo de medicin.
En cambio, se trata de estimar o de predecir el valor
promedio de una variable sobre la base de valores
fijos de otras variables. As, quizs se desee saber si
se puede predecir el promedio de las calificaciones en
un examen de estadstica, conociendo la calificacin
de un estudiante en un examen de matemticas.
33
Terminologa
Yi 1 2 X 2i 3 X 3i .... n X ni i
En la teora econmica los trminos variable dependiente y variable
independiente estn descritos de varias maneras; a continuacin se
presenta una lista representativa de ellas:
X1, X2, X3, . Xk
Variable dependiente
Variable independiente
Variable explicada
Variable explicativa
Variable de respuesta
Variables de control
Variable predicha
Variables predictora
Regresada
Regresora
34
Introduccin al Anlisis Multivariante

Conceptos y tcnicas del Anlisis Multivariable
Qu es el Anlisis Multivariable?
Utilidad del Anlisis Multivariable
Los datos en el Anlisis Multivariable
Variables y escalas de medida
Anlisis inicial de datos
Las tcnicas de Anlisis Multivariable
Tcnicas de anlisis de la dependencia
Tcnicas de anlisis de la interdependencia
35
Qu es el Anlisis Multivariable?
Qu es el Anlisis
Multivariable?
El anlisis multivariable puede

definirse como el conjunto de
mtodos o tcnicas, diseados
con el fin de maximizar e
interpretar la informacin
contenida en un conjunto de
variables, sin perder la
interaccin o grado en que se
afectan unas con otras
El anlisis multivariable permite llevar a cabo la

resolucin de problemas y la toma de decisiones con
un enfoque analtico sobre todas las variables que
llegan a influir sobre el o los problemas en cuestin.
36
Utilidad del Anlisis Multivariable

La complejidad de la realidad socioeconmicoempresarial y el hecho de que en su conocimiento
confluyan disciplinas cientficas de origen diverso hacen
que el contenido de los mtodos multivariables se
proyecte como un cuerpo de conocimientos de
naturaleza interdisciplinaria.
Las necesidades de
informacin de los
investigadores y
decidores para la
planificacin, ejecucin
de acciones o el control
de resultados son cada
vez mayores.
En el anlisis multivariable,
se puede encontrar una
herramienta prctica,
verstil y adaptable a todo
tipo de anlisis, al permitir
extraer informacin
relevante, y eficiente.
37

Variables y escalas de medida
Datos
Anlisis
Multivariable
Valores que toman

las Variables
Magnitudes que
representan distintos
conceptos o atributos de
individuos u objetos
La precisin de tal
representacin depender
directamente de la escala
de medida
38

Escalas de medida
La tipologa de escalas de medida distingue cuatro bsicas
Nominal
Ordinal
Escalas no mtricas o cualitativas
Intervalo
Razn
Escalas mtricas o cuantitativas
39

Escalas de medida
Una variable no mtrica puede ser convertida en variable
ficticias binarias (dummy). Sera necesario contar con un
nmero de ellas igual al nmero de categoras de la variable
no mtrica menos uno.
Ejemplo:
Supngase que se pretende
transformar la variable medios de
transporte ms comunes de tres
categoras: 1=autobs, 2=tren y
3=avin.
La conversin podra efectuarse por
medio de dos variables ficticias, F1 y
F2. Los valores que stas tomaran
para representar cada categora seran
los siguientes:
Categora F1
F2
Autobs
Tren
Avin
0
40

Antes de comenzar con el anlisis multivariable, es esencial
realizar un examen exhaustivo de los datos.
La deteccin de problemas ocultos en las matrices de datos
supondr un gran avance en la consecucin de resultados
lgicos y consistentes.
Es fundamental inspeccionar:
Analizar si es relevante para el
Anlisis de datos ausentes
(missing values)
anlisis obtener los datos

perdidos.
Determinar si la informacin que
falta puede ser completada.
Sustituir los datos por valores
estimados
41

Representaciones grficas
para el anlisis de datos
Tablas
Deteccin de outliers
Histogramas de cada variable

Grficos de dispersin
Grfico de cajas ( Boxplot)
Tablas de frecuencia
Tablas de contingencia
Estudiar los casos atpicos
42

Supuestos
subyacentes en
los mtodos
multivariables
Normalidad de las variables

Linealidad ( existencia de
asociaciones lineales entre
variables)
Homocedasticidad
(Varianza de los errores es
constante)
43
Las tcnicas del Anlisis Multivariable

Tipologa de las tcnicas
De anlisis de la dependencia
De anlisis de la interdependencia
Otras tcnicas
44
Las tcnicas del Anlisis Multivariable
De anlisis de la
dependencia
De anlisis de la
interdependencia
Otras tcnicas
Tcnicas aplicables cuando una o varias

variables dependientes van a ser explicadas por un conjunto de variables independientes que actan como predictoras
Tcnicas que otorgan la misma
consideracin a todas las variables objeto
de estudio, sin distinguir entre dependientes e independientes, y que tienen como
fin descubrir las interrelaciones entre ellas.
Son tcnicas de clasificacin.
Tcnicas novedosas que permiten un
tratamiento ms eficaz y eficiente en
grandes cantidades de datos, como
anlisis con redes neuronales, data
mining.
45
Tcnicas de anlisis de la dependencia

Tcnica
Anlisis de la varianza y
covarianza
Variable
dependiente
Variables
independientes
la Mtrica
No mtricas
Anlisis discriminante
No mtrica
Mtricas
Regresin lineal mltiple

dem con variables ficticias
Mtrica
Mtrica
Mtricas
No mtricas
Modelos de eleccin discreta

dem con variables ficticias
No mtrica
No mtrica
Mtricas
No mtricas
Anlisis conjunto
Mtrica
mtrica
Segmentacin Jerrquica
No
mtrica
mtrica
no No mtricas
o No mtricas
Anlisis de ecuaciones estructurales Mtrica
Mtricas o no mtricas
Anlisis con clases latentes
No mtricas observables
No mtrica latente
46
Terminologa
Variable ficticia
Variable binaria que se suele emplear para representar una
categora de una variable no mtrica.
Variable mtrica (o cuantitativa)
Variable medida en escala de intervalo o de razn, capaz de
reflejar, por tanto, diferencias de grado o cantidad entre sus
elementos. La diferencia entre dos elementos consecutivos es
constante a lo largo de toda la escala.
Variable no mtrica (o cualitativa)
Variable medida en escala nominal u ordinal que identifica
categoras o propiedades. Si es ordinal, los nmeros asignados
a cada categora guardan una relacin de orden; pero, por lo
dems, son simples etiquetas sin ningn otro significado.
47
ANOVA (o anlisis de la varianza)

Mtodo para contrastar si diversas muestras proceden
de poblaciones con igual media.
ANCOVA (o anlisis de la covarianza)
Proceso que comienza por emplear la regresin para
eliminar la variacin experimentada por la variable
dependiente producida por una variable independiente
no controlada (covariable) cuyos efectos se consideran
indeseados, y sigue con un ANOVA sobre la variable
dependiente ajustada.
48
Tcnica de clasificacin que permite agrupar a los elementos
de una muestra en dos o ms categoras diferentes,
predefinidas en una variable dependiente no mtrica, en
funcin de una serie de variables independientes mtricas
combinadas linealmente.
Tcnica que pretende determinar la combinacin lineal de
variables independientes cuyos cambios son los mejores
predictores de los cambios experimentados por la variable
dependiente. Todas las variables que intervienen en la
regresin son mtricas, aunque admite la posibilidad de
trabajar con variables independientes no mtricas si se
emplean variables ficticias para su transformacin en variables
dami.
49
Modelo logit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de la variable perturbacin
es la funcin logstica.
Modelo logit multinomial
Modelo logit en el que la variable dependiente es
politmica en lugar de dicotmica.
Modelo probit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de b, variable perturbacin
es la funcin normal.
50
Anlisis conjunto
Tcnica que se emplea para entender cmo conforman
los individuos sus preferencias hacia los objetos,
normalmente marcas o productos.
Segmentacin jerrquica
Tcnica de anlisis de la dependencia que tiene por
objeto distinguir grupos de elementos homogneos en
una poblacin a travs de un proceso iterativo
descendente de particin de la muestra total en
sucesivos grupos en virtud del valor adoptado por la
variable dependiente, el cual es funcin de los valores
presentados por las variables independientes.
51

Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores
son las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
Anlisis con ecuaciones estructurales (o anlisis de
estructuras de covarianzas)
Tcnica que permite analizar varias relaciones de
dependencia que se presentan simultneamente.
52
Tcnicas de anlisis de la interdependencia

Se incluyen en esta categora las siguientes: el
anlisis factorial y por componentes principales, el
anlisis de correspondencias, el anlisis de
conglomerados, el escalamiento multidimensional y el
anlisis con clases latentes.
En el cuadro siguiente se observan algunas
caractersticas diferenciadoras entre ellas, como son
el tipo de variables que permiten manejar y qu clase
de elementos componen los grupos que resultan de la
aplicacin de cada una.
53
Tcnicas de anlisis de la interdependencia.

Tcnica
Variable
Forma grupos de
Anlisis factorial y por Mtrica

componentes principales
Variables
Anlisis
correspondencias
Categoras de variables
de No mtrica
Anlisis de conglomerados
Mtrica y no Objetos
mtrica
Escalamiento
multidimensional
Mtrica y no Objetos
mtrica
No mtricas
Objetos y categoras de
variables
54
Anlisis factorial
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores pueden ser
comunes (captan la variabilidad compartida por todas las variables), o
especficos (captan la variabilidad propia de cada variable, sin relacin
con las dems).
Anlisis por componentes principales
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores o
componentes buscan explicar la mayor proporcin posible de la
variabilidad total, lo que quiere decir que, a diferencia de lo que ocurre
en anlisis factorial. no existen factores especficos.
55
Anlisis de correspondencias
Tcnica basada en el estudio de la asociacin entre las
categoras de mltiples variables no mtricas, que
persigue la elaboracin de un mapa perceptual que ponga
de manifiesto dicha asociacin en modo grfico.
Anlisis de conglomerados (o anlisis cluster)
Tcnica cuyo fin es clasificar sujetos u objetos en funcin
de ciertas caractersticas de
modo que los elementos de cada grupo sean muy
similares entre s.
56
Escalamiento multidimensional
Tcnica cuyo fin es elaborar una representacin grfica
que permita conocer la imagen que los individuos se
crean de un conjunto de objetos por posicionamiento de
cada uno en relacin a los dems.
Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores son
las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
57
Otras tcnicas
Eleccin multicriterio discreta
Conjunto de mtodos de ayuda en la resolucin de problemas de
decisin en los que se han de tener en cuenta diferentes puntos de vista
o criterios y en los que se baraja un nmero finito de alternativas.
Data mining (o minera de datos o extraccin de datos)
Proceso mediante el cual se explora y analiza un gran volumen de datos
con el fin de descubrir relaciones, reglas o patrones de comportamiento
en ellos que sean de utilidad para el usuario en la toma de decisiones.
Anlisis con redes neuronales
Tcnica cuya forma de proceder pretende replicar el funcionamiento del
cerebro humano, intentando aprender de los errores cometidos en aras
de la consecucin del mejor resultado posible.
58
La eleccin de una tcnica concreta
A la luz de lo expuesto en este apartado se deduce que la eleccin

de una determinada tcnica de anlisis multivariable pasa por dar
respuesta previa a preguntas como
Sigue un fin predictivo o clasificatorio?

Se puede distinguir entre variables dependiente e
independientes?
Cuntas variables dependientes hay?
Qu tipo de escalas de medida presentan las
variables?
Estas se distribuyen normalmente?
59
TECNICAS DE ANLISIS DE LA DEPENDENCIA
VARIABLE INDEPENDIENTE
Mtrica
No mtrica
VARIABLE DEPENDIENTE
Mtrica
Simple
Regresin
Lineal mltiple
VARIABLE DEPENDIENTE
No mtrica
Mltiple
Anlisis
con ecuaciones
estructurales
Mtrica
Simple
Anlisis
Discriminante
Modelos de
Eleccin discreta
ANOVA,
ANCOVA
Anlisis conjunto
Segmentacin
Jerrquica
Regresin lineal
con variable
ficticias
No mtrica
Mltiple
MANOVA
MANCOCA
Anlisis con
Ecuaciones
estructurales
Modelo de
eleccin discreta
con variable
Ficticias
Anlisis conjunto
Segmentacin
Jerrquica
Anlisis con
Clases latentes
60
TCNICAS DE ANLISIS DE LA INTERDEPENCIA

VARIABLES
Mtricas
No mtrica
Anlisis factorial
Anlisis de correspondencias
Anlisis por componentes principales
Anlisis con clase latentes
OTRAS TCNICAS
Eleccin multicriterio discreta

Redes neuronales
Data mining
61
Tcnicas a estudiar
Anlisis de varianza de
un factor
Regresin lineal simple
Regresin logstica
Anlisis Factorial
En SPSS
men Analizar/Comparar Medias
En SPSS
men Analizar/Regresin
En SPSS
men Analizar/Regresin
En SPSS
men Analizar/Regresin/Logstica
De anlisis de la interdependencia
En SPSS
men Analizar/Reduccin de datos
62
Anlisis de Varianza de un factor
El anlisis ANOVA de un factor
Datos y supuestos
Prueba de homogeneidad de Varianzas.
Comparaciones post-hoc
Prueba no parmetrica H de Kruskal-Wallis
63
Anlisis de Varianza
Anlisis de varianza de un factor
El anlisis ANOVA de un factor es una generalizacin de la prueba
T para dos muestras independientes al caso de diseos con ms
de dos muestras.
Sirve para comparar varios grupos en una variable cuantitativa.
Variable Independiente (VI)
o factor
Variable categrica
(Nominal u ordinal)
que define los grupos
Variable Dependiente (VD)
Variable cuantitativa en la que

se desea comparar los grupos
64

Datos. Los valores de la variable de factor deben ser
enteros y la variable dependiente debe ser cuantitativa
(nivel de medida de intervalo).
Supuestos. Cada grupo es una muestra aleatoria
independiente procedente de una poblacin normal. El
anlisis de varianza es robusto a las desviaciones de la
normalidad, aunque los datos debern ser simtricos.
Los grupos deben proceder de poblaciones con
varianzas iguales. Para contrastar este supuesto, utilice
la prueba de Levene de homogeneidad de varianzas.
65

La hiptesis que se pone a prueba en el ANOVA de un
factor es que las medias poblacionales ( las medias de la
VD en cada nivel de la VI) son iguales.
H 0 : 1 2 3 ... n
Si las medias poblacionales son iguales, eso significa que
los grupos no difieren en la VD y que, en consecuencia, la
VI o factor es independiente de la VD.
El procedimiento para poner a prueba la Ho consiste en obtener
un estadstico, llamado F, que refleja el grado de parecido
existente entre las medias que se estn comparando.
2
n Y
S
2
j
66
n Y
S
2
j
El numerador del estadstico F es una

estimacin de la varianza poblacional
basada en la variabilidad existente
entre las medias de cada grupo
El denominador del estadstico F es
una estimacin de la varianza
poblacional, basada en la variabilidad
existente dentro de cada grupo ( j se
refiere a los distintos grupos o niveles
del factor)
Si las medias poblacionales son iguales, las medias muestrales de los diferentes
grupos sern parecidas, existiendo entre ellas tan slo diferencias atribuibles al
2
azar. En ese caso, la estimacin ( basada en las diferencias entre las medias
1
2
muestrales) reflejar el mismo grado de variacin que la estimacin
basada
2
en las diferencias entre las puntuaciones individuales dentro de
cada grupo) y el cuociente F tomar un valor prximo a 1
67

Por el contrario, si las medias muestrales son distintas, la estimacin 2
1
reflejar mayor grado de variacin que la estimacin 2 , en cuyo
2
caso el cuociente F tomar un valor mayor que 1. Cuanto ms
diferentes sean las medias muestrales, mayor ser el valor de F.
2
n Y
S
2
j
Si las poblaciones muestreadas

son normales y sus varianzas
iguales, el estadstico F se
distribuye segn el modelo de
probabilidad F de Fisher
Snedecor
Los grados de libertad del numerador son el nmero de

grupos menos 1;los del denominador el nmero total de
observaciones menos el nmero de grupos.
68

Ejemplo: ANOVA de un factor
Consideremos el archivo de Datos de empleados
Variable dependiente: Salario actual (salario)
Factor: Categora laboral (catlab)
Descriptivos
Salario actual
N
Administrativo
Seguridad
Directivo
Total
363
27
84
474
Media
$27,838.54
$30,938.89
$63,977.80
$34,419.57
Desviacin
tpica
$7,567.995
$2,114.616
$18,244.776
$17,075.661
Mnimo
$15,750
$24,300
$34,410
$15,750
Mximo
$80,000
$35,250
$135,000
$135,000
69

ANOVA
Salario actual
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
89438483925,9
48478011510,4
137916495436
gl
2
471
473
Media cuadrtica
44719241962,971
102925714,459
F
434,481
Sig.
,000
La tabla ANOVA muestra el resultado del estadstico F ( cuociente entre

dos estimadores diferentes de la varianza poblacional. Uno de los
estimadores se obtiene a partir de la variacin existente entre las medias
de los grupos (variacin Inter-grupos). El otro estimador se obtiene a
partir de la variacin existente entre las puntuaciones dentro de cada
grupo (variacin Intra-grupos)
La tabla ofrece una cuantificacin de ambas fuentes de variacin (Suma
de cuadrados), los grados de libertad asociados a cada suma de
cuadrados (gl) y el valor concreto que adopta cada estimador de la
varianza poblacional (medias cuadrticas, que se obtienen dividiendo
las sumas de cuadrados entre sus correspondientes grados de libertad)
70

ANOVA
Salario actual
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
89438483925,9
48478011510,4
137916495436
gl
2
471
473
Media cuadrtica
44719241962,971
102925714,459
El cuociente entre las dos medias

cuadrticas (la inter-grupos y la
intra-grupos) proporciona el valor
del estadstico F, el cual aparece
acompaado de su correspondiente
nivel de significacin observado
(Sig)
F
434,481
Sig.
,000
Puesto que el nivel

crtico (Sig=0,000)
es menor que 0,05,
debe rechazarse la
hiptesis de
igualdad de medias
Puede concluirse que las poblaciones definidas por la variable

catlab no poseen el mismo salario medio: hay al menos una
poblacin cuyo salario medio difiere del de al menos otra.
71

Prueba de homogeneidad de las varianzas
El estadstico F del ANOVA de un factor se basa en el cumplimiento
de dos supuestos fundamentales:
normalidad
y
homocedasticidad
Normalidad significa que la variable
dependiente se distribuye normalmente
en la J poblaciones muestreadas
(tantas como grupos definidos por la
variable factor); si los tamaos de los
grupos son grandes, el estadstico F se
comporta razonablemente bien incluso
con distribuciones poblacionales
sensiblemente alejadas de la
normalidad
Homocedasticidad o
igualdad de varianzas
significa que la J
poblaciones muestreadas
poseen la misma varianza;
con grupos de distinto,
tamao el incumplimiento
de este supuesto debe ser
cuidadosamente vigilado.
72
Prueba de homogeneidad de las varianzas.

Prueba de Levene
La prueba de Levene permite contrastar el supuesto de homogeneidad
de varianzas, es decir permite contrastar la hiptesis de que los grupos
definidos por la variable factor proceden de poblaciones con las misma
varianza
Prueba de homogeneidad de varianzas
Salario actual
Estadstico
de Levene
59,733
gl1
2
gl2
471
Sig.
,000
La tabla contiene el estadstico de Levene. Puesto que el nivel crtico es

menor que 0,05, se debe rechazar la hiptesis de igualdad de varianzas
y concluir, que en las poblaciones definidas por las tres categoras
laborales, las varianzas de la variable salario no son iguales.
73
Pruebas robustas de igualdad de las medias

Salario actual
a
Welch
Brown-Forsythe
Estadstico
162,200
306,810
gl1
2
2
gl2
117,312
93,906
Sig.
,000
,000
a. Distribuidos en F asintticamente.
El estadstico de Welch y el de Brown-Forsythe contrasta

la igualdad de las medias de grupo. Este estadstico es
preferible al estadstico F cuando no se puede mantener
el supuesto de igualdad de varianzas.
Puesto que el nivel crtico asociado a ambos estadsticos
es menor que 0,05, se puede rechazar la hiptesis de
igualdad de medias y concluir que los promedios
salariales de las poblaciones no son iguales
74
Comparaciones post-hoc
El estadstico F del ANOVA nicamente permite
contrastar la hiptesis general de que los J promedios
comparados son iguales. Rechazar esa hiptesis
significa que las medias poblacionales comparadas no
son iguales, pero no permite precisar dnde en concreto
se encuentran las diferencias detectadas.
Para saber qu media difiere de qu otra se debe utilizar
un tipo particular de contrastes denominados
comparaciones mltiples post-hoc
Asumiendo varianzas iguales
Existen varios mtodos , el ms utilizado es la opcin Tukey
75
No asumiendo varianzas iguales

Existen varios mtodos , el ms utilizado es la opcin Games -Howell
En nuestro ejemplo por la prueba de Levene, no podemos
asumir que las varianzas poblacionales sean iguales por tanto
debe prestarse atencin a la opcin de Games- Howell
Comparaciones mltiples
Variable dependiente: Salario actual
Games-Howell
(I) Categora laboral

Administrativo
Seguridad
Directivo
(J) Categora laboral

Seguridad
Directivo
Administrativo
Directivo
Administrativo
Seguridad
Diferencia de
medias (I-J)
-$3,100.349*
-$36,139.258*
$3,100.349*
-$33,038.909*
$36,139.258*
$33,038.909*
Error tpico
$568.679
$2,029.912
$568.679
$2,031.840
$2,029.912
$2,031.840
Sig.
,000
,000
,000
,000
,000
,000
Intervalo de confianza al 95%

Lmite
Lmite inferior
superior
-$4,454.82
-$1,745.88
-$40,977.01 -$31,301.51
$1,745.88
$4,454.82
-$37,881.37 -$28,196.45
$31,301.51
$40,977.01
$28,196.45
$37,881.37
*. La diferencia entre las medias es significativa al nivel .05.
Puede concluirse que todos los promedios comparados

difieren significativamente.
76
Anlisis no paramtrico
Prueba de H de Kruskal-Wallis
La prueba de Mann- Whitney para dos muestras independientes
fue extendida al caso de ms de dos muestras por Kruskal y Wallis
(1952). La situacin experimental que permite resolver esta prueba
es similar a la estudiada a propsito del ANOVA de un factor
completamente aleatorizado: J muestras son aleatoria e
independientemente extradas de J poblaciones para averiguar si
las J poblaciones son idnticas o alguna de ellas presenta
promedios mayores que otra.
Las ventajas fundamentales de esta prueba frente al estadstico F del
ANOVA de un factor son dos:
(1) no necesita establecer supuestos sobre las poblaciones originales
tan exigentes como los del estadstico F (normalidad,
homocedasticidad); y
(2) permite trabajar con datos ordinales.
Si se cumplen los supuestos en los que se basa el estadstico F, la
potencia de ste es mayor que la que es posible alcanzar con el
estadstico H de Kruskal- Wallis.
77
Ejemplo:
Pruebas no paramtricas /Varias muestras independientes
H de Kruskal-Wallis
Rangos
Salario actual
Categora laboral
Administrativo
Seguridad
Directivo
Total
Estadsticos de contrastea,b
N
363
27
84
474
Rango
promedio
190,37
278,98
427,85
Chi-cuadrado
gl
Sig. asintt.
Salario actual
207,679
2
,000
a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: Categora laboral
La primera tabla ofrece el tamao de cada grupo (N) y los rangos

promedios resultantes de la asignacin de rangos a las
puntuaciones de los tres grupos.
En la segunda tabla, puesto que el nivel crtico es menor que 0,05,
se puede rechazar la hiptesis de igualdad de medias
poblacionales y concluir que las poblaciones comparadas difieren
en salario actual.
78
Anlisis de regresin lineal

Anlisis de regresin lineal mltiple
79

Anlisis de regresin con dos variables: Algunas ideas bsicas
Concepto de funcin de regresin poblacional
Significado del trmino lineal
Especificacin estocstica de la FRP
Funcin de regresin muestral (FRM)
Anlisis de regresin con dos variables: problema de estimacin.
Mtodo de Mnimos cuadrados ordinarios (MCO)

Modelo clsico: Supuestos detrs del mtodo MCO
Precisin o errores estndar de MCO
Propiedades de los estimadores de MCO
Coeficiente de determinacin r2:una medida de bondad de ajuste
Coeficiente de correlacin muestral y propiedades de r
Interpretacin de la pendiente
80

Modelo clsico de regresin lineal normal (MCRLN)
Regresin con dos variables: estimacin de intervalos
y pruebas de hiptesis.
Intervalos de confianza
Pruebas t
Aplicacin problemas de prediccin
Prediccin del valor de la media condicional
Prediccin de un valor individual
Formas funcionales de los modelos de regresin

Modelo log-lineal
Modelos semilogaritmicos
81

Algunas ideas bsicas
El anlisis de regresin se relaciona en gran
medida con la estimacin y/o prediccin de la
media (de la poblacin) o valor promedio de la
variable dependiente, con base en los valores
conocidos o fijos de las variables explicativas.
Consideremos los datos de la tabla siguiente, la que se
refiere a la poblacin total de 60 familias de una
comunidad hipottica, as como a su ingreso semanal (X)
y a su gasto de consumo semanal (Y), dados en dlares.
82

Tabla 1
Gastos de consumo familiar semanal Y,$. Ingreso familiar semanal X,$

Y\X
80 100 120 140 160 180 200 220
55
65
79
80 102 110 120
135
60
70
84
93 107 115 136
137
65
74
90
95 110 120 140
140
70
80
94 103 116 130 144
152
75
85
98 108 118 135 145
157
88
113 125 140
160
115
162
Total
325 462 445 707 678 750 685 1043
Medias
65
77
89 101 113 125 137
149
240
260
137
145
155
165
175
150
152
175
178
180
185
191
1211
173
777
155
Las 60 familias se dividen en 10 grupos de ingresos

(de $80 a $260). Se tienen 10 valores fijos de X y los
correspondientes valores de Y para cada uno de los valores X;
as que hay 10 subpoblaciones Y
83
Se tienen 10 valores
medios para las 10
subpoblaciones de Y.
A estos valores medios se les

denomina valores esperados
condicionales, en vista de que
dependen de los valores
dados a la variable condicional
X. Se denota por E(Y/X)
Resulta importante distinguir dichos valores condicionales

esperados del valor esperado incondicional del gasto de
consumo semanal, E(Y).
E(Y)=7272/60=121,2
Es incondicional en el sentido de que para obtener esta cifra
se omiten los niveles de ingresos de las diversas familias
84

Cul es el valor esperado del gasto de consumo semanal
de una familia?
La media incondicional: $121,20
Cul es el valor esperado del gasto de consumo semanal
de una familia cuyo ingreso mensual es, digamos, $140?
La media condicional: $101
Saber el nivel de ingreso nos permite predecir mejor
el valor medio del gasto de consumo
85

Se puede observar en l grfico de dispersin, al unir las
medias condicionales la recta de regresin poblacional (RRP).
( o regresin de Y sobre X).
El adjetivo poblacional se debe al hecho de que en este
ejemplo se consider una poblacin de 60 familias.
Grfico de dispersin
Gasto de consumo v/s Ingreso
200
180
160
Gasto de consumo
140
120
100
80
60
40
0
20
40
60
80
100 120
Ingreso semanal
140
160 180
200
220 240
260
280
A pesar de la
variabilidad del
gasto para cada
ingreso, en
promedio el
consumo semanal
se incrementa en
la misma medida
que el ingreso
86
Curva de regresin poblacional

Desde el punto de vista geomtrico, una curva de
regresin poblacional es simplemente el lugar geomtrico
de las medias condicionales de la variable dependiente para los
valores fijos de la (s) variables explicativa(s).
Es la curva que conecta las

medias de las
subpoblaciones de Y que
corresponden a los valores
del regresor X
87
Concepto de funcin de regresin poblacional (FRP)

Es claro que cada media condicional E(Y/Xi) es funcin de Xi,
donde Xi es un valor dado de X.
E(Y/Xi)=f(Xi) (1)
y f(Xi) denota alguna funcin de la variable explicativa X.
Qu forma toma la funcin f(Xi)?

En una situacin real no tenemos la totalidad de la poblacin
para efectuar el anlisis.
La forma funcional de la FRP es, una pregunta emprica, aunque
en casos especficos la teora puede tener algo que decir. Por
ejemplo, un economista podra plantear que el gasto de
consumo est relacionado linealmente con el ingreso.
Por tanto, como una primera aproximacin podemos suponer
que la FRP es una funcin lineal de Xi
E (Y / X i ) 1 2 X i
88
Ecuacin de regresin poblacional FRP
E (Y / X i ) 1 2 X i
Ecuacin de
regresin
poblacional FRP
(2)
Donde 1 y 2 son parmetros no conocidos pero

fijos que se denominan coeficientes de regresin.
En el anlisis de regresin el inters es estimar la FRP,
es decir estimar los valores de 1 y 2
no
conocidos con base en las observaciones de Y y X
89
Significado del trmino lineal

Linealidad en las variables
Se dice que una funcin Y=f(X) es lineal en X si X aparece
elevado a una potencia o ndice de 1 solamente y dicha
variable no est multiplicada ni dividida por alguna otra variable
E (Y / X i ) 1 2 X i
es lineal en Xi.
Geomtricamente la curva de regresin es una lnea recta
Linealidad en los parmetros
Se dice que una funcin es lineal en el parmetro, 1 por ejemplo
si 1 aparece elevado a una potencia o ndice de 1 solamente y

no est multiplicado ni dividido por ningn otro parmetro.
Es lineal en los parmetros pero no
E (Y / X i ) 1 2 X i2
es lineal en la variable X
90

Qu podemos decir sobre la relacin entre el gasto de
consumo de una familia individual y un nivel dado de ingresos?
Se observa en la figura , que dado el nivel de ingresos de Xi, el
gasto de consumo de una familia individual est agrupado alrededor
del consumo promedio de todas las familias en ese nivel de Xi, esto
es, alrededor de su esperanza condicional. Por consiguiente,
podemos expresar la desviacin de un Yi individual alrededor de su
valor esperado de la siguiente manera:
ui Yi E (Y / X i )
Yi E (Y / X i ) ui
(3)
Donde la desviacin ui es una variable aleatoria no observable

que toma valores positivos o negativos. Tcnicamente , ui es
conocida como perturbacin estocstica o trmino de error
estocstico.
91

Se puede decir que el gasto de una familia individual,
dado su nivel de ingresos, puede ser expresado como la
suma de dos componentes
Yi E (Y / X i ) ui
La media del gasto
de consumo de
todas las familias
con el mismo nivel
de ingresos.
(4)
Componente aleatorio .
Es un sustituto para todas
aquellas variables que son
omitidas del modelo pero que
colectivamente afectan a Y
92

Si se supone que E (Y / X i ) es lineal en Xi como en la ec (2)
la ecuacin (3) puede escribirse como
Yi E (Y / X i ) ui 1 2 X i ui
(5)
La ecuacin plantea que el gasto de consumo de una familia

est relacionado linealmente con su ingreso, ms el trmino de
perturbacin. As los gastos de consumo individual, dado
X=US$80, pueden ser expresados como
Y1 55 1 2 80 u2
Y2 60 1 2 80 u2
Y3 65 1 2 80 u3
Y4 70 1 2 80 u4
Y5 75 1 2 80 u5
93

Ahora, si se toma el valor esperado de (5), obtenemos
Yi E (Y / X i ) ui
(5)
E (Yi / X i ) E E (Y / X i ) E (ui / X i )
E (Y/X i ) E (ui / X i )
Puesto que E (Yi / X i ) es lo mismo que E (Y / X i )
Implica que E (ui / X i ) 0
(6)
As, el supuesto de que la recta de regresin pasa a travs de las

medias condicionales de Y implica que los valores de la media
condicional de ui son cero.
94

La especificacin estocstica
Yi E (Y / X i ) ui 1 2 X i ui
(7)
Tiene la ventaja que muestra claramente otras variables adems del

ingreso, que afectan el gasto de consumo y que un gasto de
consumo de familias individuales no puede ser explicado en su
totalidad solamente por la(s) variable(s) incluida(s) en el modelo de
regresin.
95

En la prctica lo que se tiene al alcance no es ms que una
muestra de valores de Y que corresponden a algunos valores fijos
de X. Por consiguiente la labor ahora es estimar la FRP con base
en informacin muestral.
Supngase que no se conoca la poblacin de la tabla 1 y que la
nica informacin que se tena era una muestra de valores de Y
seleccionada aleatoriamente para valores dados de X tal como se
presenta en la tabla 2
Y
X
De la muestra de la tabla 2,
se puede predecir el gasto de
consumo semanal promedio Y para
la poblacin correspondiente a los
valores de X seleccionados?
Se puede estimar la forma FRP a
partir de la informacin muestral?
70
65
90
95
110
115
120
140
155
150
80
100
120
140
160
180
200
220
240
260
Tabla 2 Primera muestra
96

Consideremos otra muestra tomada de la poblacin de la tabla 1.
Las rectas de la figura se conocen como rectas de regresin
muestral. En general, se podran obtener N FRM diferentes para N
muestras diferentes y estas FRM no necesariamente son iguales
Y
X
55
88
90
80
118
120
145
135
145
175
80
100
120
140
160
180
200
220
240
260
Tabla 3 Segunda muestra
97
Ahora, en forma anloga a la FRP en la cual se basa la recta de

regresin poblacional, se puede desarrollar el concepto de funcin
de regresin muestral.
La contraparte muestral de (1) puede escribirse como
Yi 1 2 X i
Donde
Yi estimador de E(Y/X)
Es la contraparte de
E (Y / X i ) 1 2 X i
1 estimador de 1
2 estimador de 2
Un estimador, conocido tambin como estadstico (muestral) es
simplemente una regla, o mtodo que dice cmo estimar el
parmetro poblacional a partir de la informacin suministrada por la
muestra disponible. Un valor numrico particular obtenido por el
estimador en una aplicacin es conocido como estimado.
98

en su forma estocstica
La FRM en su forma estocstica se puede
expresar como
Yi 1 2 X i i
Donde
(8)
i denota el trmino residual (muestral)
Conceptualmente es anlogo a ui y puede ser considerado

como un estimado de ui
El objetivo principal en el anlisis de regresin
es estimar la FRP
Yi 1 2 X i i
Con base en la FRM
Yi 1 2 X i i
99
Rectas de regresin muestral y poblacional
Debido a fluctuaciones muestrales el estimado de la FRP basado

en FRM es, en el mejor de los casos, una aproximacin.
100
Rectas de regresin muestral y poblacional

Para X=Xi, se tiene una observacin muestral Y=Yi. En trminos de
la FRM, la Yi observada puede ser expresada como
Yi Yi i
Y en trminos de la FRP, puede ser expresada como
Yi E (Y / X i ) i
Dado que la FRM es apenas una aproximacin de la FRP, se
puede disear un mtodo que haga que esta aproximacin
sea lo ms ajustada posible?
101
Funcin de regresin simple:

problema de estimacin
La tarea consiste en estimar la funcin de regresin
poblacional (FRP) con base en la funcin de regresin
muestral (FRM) en la forma ms precisa posible.
Los dos mtodos de estimacin que suelen utilizarse
son:
1) Los mnimos cuadrados ordinarios (MCO)
2) La mxima verosimilitud (MV).
El mtodo de MCO es el que ms se emplea en el
anlisis de regresin por ser en gran medida ms
intuitivo y matemticamente ms simple.
102
Mtodo de mnimos cuadrados ordinarios (MCO)

El mtodo MCO se atribuye a Carl Friedrich Gauss un matemtico
alemn. Bajo ciertos supuestos el mtodo tiene algunas
propiedades estadsticas muy atractivas que lo han convertido en
uno de los ms eficaces y populares del anlisis de regresin.
Primero se estima ui Yi 1 2 X i
(9)
que muestra que los residuos son simplemente las

diferencias entre los valores observados y los
estimados de Y.
Ahora, dados n pares de observaciones de Y y X, se
est interesado en determinar la FRM de tal manera
que est lo ms cerca posible a la Y observada.
103

Con este fin se puede adoptar el siguiente criterio: seleccionar
la FRM de tal manera que la suma de los residuos :
sea la menor posible.

Este criterio, no es muy bueno
porque a todos los residuos se les
da la misma importancia sin
considerar qu tan cerca o qu
tan dispersas estn las
observaciones individuales de la
FRM. Debido a lo anterior, es muy
posible que la suma algebraica de
los residuos sea pequea (aun
cero) a pesar de que las u estn

i
bastante dispersas alrededor de
FRM.
ui Yi Y i
104
Valores ajustados y residuos
105

Se puede evitar este problema si se adopta el criterio de
mnimos cuadrados, el cual establece que la FRM puede
determinarse en forma tal que
2
Y
i
i i
Yi 1 2 X i
(10)
sea la menor posible. Este mtodo da ms peso a los residuos
tales como u1 y u4
que a los residuos
u 2 y u3
El procedimiento de MCO genera las siguientes ecuaciones
para estimar 1 y 2 donde n es el tamao de la muestra
106
Y n X
Y X X X
i
2
i
Ecuaciones
normales
Resolviendo las ecuaciones normales simultneamente se obtiene
xy
x
i
2
i
1 Y - 2 X
Estimadores
de mnimos
cuadrados
107
Modelo clsico de regresin lineal:

supuestos detrs del mtodo MCO
El modelo de Gauss, modelo clsico o estndar de regresin
lineal (MCRL) el cual es el cimiento de la mayor parte de la
teora economtrica, plantea 10 supuestos.
Supuesto 1: Modelo de regresin lineal
El modelo de regresin es lineal en los parmetros
Yi 1 2 X i i
modelo simple
Supuesto 2: Los valores de X son fijos en muestreo

repetido.
Significa que el anlisis de regresin es un anlisis de
regresin condicional, esto es, condicionado a los valores
dados del (los) regresor X.
108
Supuesto 3: El valor medio de la perturbacin ui es igual

a cero.
Dado el valor de X, el valor esperado del trmino aleatorio de
perturbacin ui es cero.
E (ui / X i ) 0
Ntese que el supuesto

E(ui/Xi)=0 implica que
E (Y / X i ) 1 2 X i
109
Supuesto 4: Homocedasticidad o igual varianza de ui.

Dado el valor de X, la varianza de ui es la misma para todas
las observaciones, es decir, las varianzas condicionales de ui
son idnticas.
2
var(ui / Xi )
Homocedasticidad
Heterocedasticidad
110
Supuesto 5: No existe auto correlacin entre las

perturbaciones.
Dados dos valores cualquiera de X, Xi y Xj , la correlacin entre
dos ui y uj es cero.
cov(ui, uj / Xi, X j ) 0
111
Supuesto 6: La covarianza entre ui y Xi es cero o E(uiXi)=0
cov(ui, X i ) 0
Supuesto 7: El nmero de observaciones n debe ser mayor
que el nmero de parmetros por estimar.
Supuesto 8: Variabilidad en los valores de X.
No todos los valores de X en una muestra dada deben ser
iguales.
var( X ) 0
Recordar que la varianza muestral de X es
var( X )
n 1
112
Supuesto 9: El modelo de regresin est correctamente

especificado.
Supuesto 10:No hay multicolinealidad perfecta.

No hay relaciones perfectamente lineales entre las variables
explicativas.
113
Precisin o errores estndar de los mnimos

cuadrados estimados
Lo que se requiere es alguna medida de confiabilidad o precisin
de los estimadores
1 y 2
. En estadstica la precisin de un
valor estimado es medida por su error estndar (ee). Los errores

estndar de los MCO estimados pueden obtenerse de la siguiente
manera
2
var( 2 )
2
x
i
ee( 2 )
2
i
(11)
Nota: El error estndar es la desviacin estndar de la distribucin

muestral del estimador, y la distribucin muestral es una distribucin
del conjunto de valores del estimador obtenidos de todas las
muestras posibles de igual tamao de una poblacin dada.
114
Precisin o errores estndar de los mnimos

cuadrados estimados
Nota:
2 es estimada mediante la frmula
Donde
.
2
i
Suma de residuos
al cuadrado (SRC)
n2
Nmero de
grados de libertad
es el estimador de MCO de la verdadera
El trmino nmero de grados de libertad
(12)
significa el nmero
total de observaciones n menos el nmero de restricciones

puestas en ellas.
115
Error estndar de la regresin
2
i
(13)
n2
Es la desviacin estndar de los valores de Y

alrededor de la recta de regresin estimada, la cual
es utilizada como una medida resumen de la
bondad del ajuste de dicha recta
116
Propiedades de los estimadores de mnimos

cuadrados: Teorema de Gauss-Markov
Dados los supuestos del modelo de regresin lineal
clsica, los estimativos de mnimos cuadrados
poseen propiedades ideales u ptimas, las cuales se
encuentran resumidas en el teorema de Gauss
Markov
Un estimador 2 de MCO es el mejor estimador

lineal insesgado (MELI) de 2 si:
1. Es lineal, es decir, una funcin lineal de una
variable aleatoria tal como la variable dependiente Y
en el modelo de regresin.
117
Propiedades de los estimadores de mnimos

cuadrados: Teorema de Gauss-Markov
2. Es insesgado, es decir, su valor promedio o
esperado, E ( 2 ) es igual al valor verdadero, E ( )

2
2
3. Tiene varianza mnima entre la clase de todos los
estimadores lineales insesgados; a un estimador
insesgado con varianza mnima se le conoce como
estimador eficiente
118
Teorema de Gauss-Markov
En el contexto del anlisis de regresin se puede demostrar
que los estimadores de MCO son MELI
Teorema de Gauss-Markov: Dados los supuestos

del modelo clsico de regresin lineal, los
estimadores de mnimos cuadrados, en la clase
de estimadores lineales insesgados, tienen
varianza mnima; es decir son MELI
119
Coeficiente de determinacin r2
Una medida de la bondad del ajuste
La cantidad r2 se conoce como coeficiente de

determinacin (muestral) y es la medida ms
frecuente utilizada de la bondad del ajuste de
una recta de regresin.
Mide la proporcin o el porcentaje de la variacin total

en Y explicada por el modelo de regresin
120
Para calcular r2 , para cada i se escribe:
yi y i i
Elevando la expresin al cuadrado en ambos lados y
sumando sobre la muestra, se obtiene
(14)
puesto que y i ui 0
y i 2 xi
121
Las diversas sumas de cuadrados que aparecen en la expresin
anterior pueden describirse de la manera siguiente
2
yi Yi Y
(STC)
variacin total de los valores reales de y con respecto a su media

muestral, los cuales pueden ser llamados suma total de cuadrados
(STC)
2
2
2
2
2
y i Yi Y Y Y 2 xi
(SEC)
variacin de los valores Y estimados alrededor de su media Y

que apropiadamente puede llamarse la suma de los cuadrados
debida a la regresin [es decir, debida a la(s) variable(s)
explicativa(s)], o explicada por sta, o simplemente la suma
explicada de cuadrados (SEC).
122
2
i
(SRC)
As, (14) es
STC = SEC + SRC
la variacin residual o no explicada

de los valores de Y alrededor de la
recta de regresin, o simplemente
la suma de residuos al cuadrado
(SRC).
123
muestra que la variacin total en
los valores Y observados
alrededor del valor de su media
puede ser dividida en dos partes,
una atribuible a la recta de
regresin y la otra a fuerzas
aleatorias, puesto que no todas
las observaciones Y caen sobre
la recta ajustada. Ahora
dividiendo por la STS en ambos
lados, se obtiene
Ahora, se define r2 como
STC = SEC + SRC
r2
Y
Y
SEC
STC
124
O en forma alterna
2
r 1
2
Coeficiente de
SRC
(15) determinacin
1
STC
La cantidad r2 as definida se conoce como el coeficiente de

determinacin (muestral) y es la medida ms frecuentemente
utilizada de la bondad del ajuste de una recta de regresin
r2 mide la proporcin o el porcentaje de la variacin total
en Y explicada por el modelo de regresin.
125
Coeficiente de correlacin muestral

Una cantidad estrechamente relacionada con r 2 pero
conceptualmente muy diferente de sta es el coeficiente de
correlacin, el cual, es una medida del grado de asociacin entre
dos variables. Puede ser calculado a partir de
r r 2
O a partir de su definicin
xy
x y
i
2
i
2
i
x y
n x x n y y
n xi yi
(16)
126
Propiedades de r
Puede tener signo positivo o negativo, dependiendo del signo del
trmino en el numerador de (16), el cual mide la covariacin
muestral de dos variables.
Cae entre los lmites de -1 y 1
Es simtrico por naturaleza; es decir, el coeficiente de correlacin
entre X y Y (rxy) es el mismo que entre Y y X (ryx).
Es independiente del origen y de la escala

Si X y Y son estadsticamente independientes, el coeficiente de
correlacin entre ellos es cero; pero si r = O, esto no significa que las
dos variables sean independientes. En otras palabras, una
correlacin igual a cero no necesariamente implica independencia.
Es una medida de asociacin lineal o dependencia lineal
solamente; su uso en la descripcin de relaciones no lineales no
tiene significado.
127
Coeficiente de correlacin muestral
128
Interpretacin de la pendiente:
Puesto que el coeficiente de la pendiente es
simplemente la tasa de cambio, se mide en
las unidades de la siguientes proporcin
unidades de la variable dependiente (Y)
unidades de la variable explicativa (X)
La interpretacin del coeficiente de la pendiente

2 es que si X cambia en una unidad , la Y
cambia en promedio en 2 unidades
129
Ejemplo; Gasto de consumo familiar e ingreso familiar

Considerando una muestra de una poblacin donde X representa
ingreso familiar por semana e Y gastos de consumo familiar por
semana, se obtienen los siguientes clculos
Y
X
70
65
90
95
110
115
120
140
155
150
80
100
120
140
160
180
200
220
240
260
1 24,4545
2 0,5091
r 2 0,9621
se( 1 ) 6,4138
se( 2 ) 0,0357
r 0,9809
Por tanto la lnea de regresin estimada es
Yi 24,4545 0,5091X i
130

Resultados en SPSS
Resumen del modelo
Modelo
1
R
,981a
R cuadrado
,962
R cuadrado
corregida
,957
Error tp. de la
estimacin
6,493
a. Variables predictoras: (Constante), X
Coeficientesa
Modelo
1
(Constante)
X
Coeficientes no
estandarizados
B
Error tp.
24,455
6,414
,509
,036
Coeficientes
estandarizad
os
Beta
,981
t
3,813
14,243
Sig.
,005
,000
a. Variable dependiente: Y
131

Interpretacin:
El valor de
0,5091 que mide la pendiente de la lnea, muestra
que dentro del rango de la muestra de X comprendido entre $80 y
$260 semanales, a medida que X aumenta, digamos en $1, el
aumento estimado en el promedio de gastos de consumo semanales
es de aproximadamente 51 centavos. El valor
, el cual
de
24,45
corresponde a la interseccin de la lnea, indica el nivel promedio de
los gastos de consumo semanales cuando el ingreso semanal es
cero. No obstante, esta es una interpretacin mecnica de la
interseccin. En el anlisis de regresin esta interpretacin literal del
intercepto no es siempre significativa, aunque en el ejemplo que
estamos considerando se puede argumentar que una familia sin
ingreso alguno( ya sea por desempleo, despido, etc.) puede
mantener algn nivel mnimo de gastos de consumo, ya sea
tomando dinero prestado o utilizando sus ahorros.
132

Sin embargo en general, se debe apelar al sentido comn para
interpretar la interseccin puesto que es muy comn que el rango
que ha tomado la muestra de valores de X no haya incluido el
valor cero como uno de los valores observados.
Quiz sea mejor interpretar la interseccin como el efecto medio
o promedio que tienen todas las variables omitidas del modelo de
regresin sobre el valor de Y. El valor de 0,9621 para r cuadrado
significa que cerca del 96% de la variacin en los gastos de
consumo semanales se explica por la variable ingreso; puesto
que r cuadrado puede tener un valor mximo de 1 solamente, el r
cuadrado observado sugiere que la lnea de regresin muestral
se ajusta muy bien a la informacin. El coeficiente de correlacin
de 0,9809 muestra que las dos variables, gastos de consumo e
ingreso, estn muy positivamente correlacionadas.
133
Ejemplo: Salario y educacin

De la poblacin de trabajadores en 1976, sea y = sala, en la que
sala se mide, en dlares por hora. As, para una persona
cualquiera, si sala = 6.75, el salario por hora es de 6.75 dlares.
Sea x = educ los aos de escolaridad; por ejemplo, educ = 12
corresponde a la educacin preparatoria completa. Puesto que el
salario promedio de la muestra es de 5.90 dlares, el ndice de
precios al consumidor indica que esta suma es equivalente a 16.64
dlares de 1997.
Con los datos de SALA 1.RAW, en los que n = 526 individuos,
obtenemos la siguiente lnea de regresin de MCO (o funcin de
regresin muestra!):
sala 0.90 0.54 educ.
134

Debemos interpretar con cuidado la ecuacin. La intercepcin
-0.90 significa literalmente que una persona sin instruccin
recibe un salario pronosticado de -90 centavos de dlar por
hora, lo que, desde luego, es una tontera. Resulta que ningn
miembro de la muestra tiene menos de ocho aos de
educacin, lo que explica el pronstico descabellado de una
escolaridad de 0 aos.
Para una persona con ocho aos de escolaridad, el salario
pronosticado es
sala
= -0.90 + 0.54(8) = 3.42, o 3.42 dlares por hora

(en dlares de 1976).
La estimacin de la pendiente implica que un ao ms de

educacin aumenta el salario promedio en 54 centavos de
dlar por hora.
135
Ejemplo: Resultados electorales y gastos de campaa

El archivo VOTE 1.RAW contiene datos sobre los resultados
electorales y los gastos de campaa de 173 contiendas
bipartidistas para la Cmara de los Representantes
estadounidense en 1988.
En cada contienda hay dos candidatos, A y B.
Sea votoA el porcentaje de los votos recibidos por el
candidato A y partA el porcentaje de participacin de los
gastos de su campaa, ambos en el total correspondiente.
Adems de partA, muchos otros factores influyen en los
resultados electorales (entre ellos la calidad de los
candidatos y posiblemente las sumas gastadas por A y B).
No obstante, podemos estimar un modelo de regresin
simple para averiguar si gastar ms que el contrario produce
un porcentaje mayor en la votacin.
136
Ejemplo: Resultados electorales y gastos de campaa

La ecuacin estimada con las 173 observaciones es
votoA = 40.90 + 0.306 partA.

Esto significa que, si la participacin de los gastos del
candidato A aumenta un punto porcentual, ste casi obtiene
un tercio de punto porcentual ms de R
la2 votacin total.
En la ecuacin de los resultados electorales
= 0.505.
As, la participacin en los gastos de campaa explica algo
ms de 50 por ciento de la variacin en los resultados de
esta muestra, lo cual es una proporcin bastante
considerable.
137
El supuesto de normalidad: El modelo clsico de

regresin lineal normal
Recordemos que con los supuestos vistos anteriormente los
estimadores de MCO 1 , 2 , 2 satisfacan diferentes propiedades

estadsticas muy deseables, tales como insesgamiento y varianza
mnima . Si nuestro objetivo es nicamente la estimacin puntual el
mtodo de MCO ser suficiente, sin embargo la estimacin puntual
es slo la formulacin de un aspecto de la inferencia estadstica.
Nuestro inters no consiste solamente en estimar la funcin muestral
de regresin (FRM), sino tambin en utilizarla para obtener
inferencias respecto a la funcin de regresin poblacional (FRP).
138
El supuesto de normalidad: El modelo clsico de

regresin lineal normal
La regresin lineal normal clsica supone que cada ui,
est normalmente distribuida con
Media :
Varianza :
Cov (ui , u j ) :
E(ui ) 0
E ui E (ui ) E (ui2 ) 2
2
E ui E (ui ) u j E (u j ) E (ui u j ) 0 i j
Estos supuestos pueden expresarse en forma ms compacta como
ui ~ N(0, 2 )
139
El supuesto de normalidad
La regresin lineal normal clsica supone que la distribucin
probablistica de ui es normal.
La suposicin de normalidad permite utilizar las pruebas
estadsticas t, F, 2
Consideremos el ejemplo consumo e ingreso.
Yi 24,4545 0,5091X i
Obtuvimos que la PMC estimada es de 0,5091,

correspondiente a una sola estimacin puntual de la PMC de
la poblacional desconocida.
Qu tan confiable es esta estimacin?.

Debido a fluctuaciones muestrales, es posible que una sola
estimacin difiera del valor verdadero, aunque en un
muestreo repetido se espera que su valor medio sea igual al
valor verdadero
E ( 2 ) 2
140
Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador
puntual se mide por su error estndar. Por consiguiente,
en lugar de depender de un solo estimador puntual, se
puede construir un intervalos alrededor del estimador
puntual, por ejemplo, dentro de dos o tres errores
estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir
el verdadero valor del parmetro. Esta es la idea bsica
de la estimacin de intervalos.
141
Consideremos el ejemplo hipottico consumo-ingreso. La ecuacin
Yi 24,4545 0,5091X i
muestra que la propensin marginal a consumir (PMC) estimada es

0,5091, la cual constituye una nica estimacin (puntual) de la PMC
poblacional desconocida 2 que es un (punto) estimado de la
poblacin desconocida PMC 2 .
Qu tan confiable es esta estimacin?

Debido a las fluctuaciones muestrales, es probable que una sola
estimacin difiera del valor verdadero, aunque en un muestreo
repetido se espera que el valor de su media sea igual al valor
verdadero (Nota: E ( 2 ) 2
)
142
Ahora, en estadstica, la confiabilidad de un estimador puntual se
mide por su error estndar. Por consiguiente, en lugar de depender
de un solo estimador puntual, se puede construir un intervalo
alrededor del estimador puntual, por ejemplo, dentro de dos o tres
errores estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir el verdadero
valor del parmetro. sta es, a grandes rasgos, la idea bsica de la
estimacin de intervalos.
Para ser ms especfico, supngase que se desea encontrar qu tan"
cerca" est por ejemplo, 2 de 2

Con este fin, tratamos de encontrar dos nmeros positivos, y ,
este ltimo situado
entre 0 y 1, tal que la probabilidad de que el
2 - , 2 -
intervalo aleatorio
contenga el verdadero 2 sea 1 - .

143
Simblicamente
Pr 2 - 2 2 1
Tal intervalo, si existe, se conoce como intervalo de confianza;

a 1 - se le denomina coeficiente de confianza; y (0 < < 1)
se conoce como el nivel de significancia.
Los puntos extremos del intervalo de confianza se conocen como
lmites de confianza (tambin denominados valores crticos),
siendo 2 - el lmite de confianza inferior y 2

el lmite de confianza superior.
Obsrvese que en la prctica y 1 - son expresados
frecuentemente en forma porcentual como 100 y 100(1 - )%.
144
Intervalos de confianza para los

coeficientes de regresin 1 y 2
Intervalo de confianza de 100(1-) por ciento para
- t /2 se(
Al regresar a nuestro ejemplo ilustrativo de consumo e ingreso

encontramos que
2 0,5091
se( 2 ) 0,0357
Si suponemos que que =5%, es decir un coeficiente de

confianza del 95% entonces la tabla t muestra que para 8 gl, el t
crtico es t 0,025 2.306
145

Al sustituir esos valores se obtiene que el intervalo de confianza
del 95% para 2 es el siguiente:
0,4268 2 0,5914
La interpretacin de este intervalo de confianza es: dado un

coeficiente de confianza del 95%, a largo plazo, en 95 de cada cien
casos, intervalos como (0,4268 ; 0,5914) contendrn el verdadero
2 .
Como se advirti antes, obsrvese que no se puede decir que la
probabilidad de que el intervalo especfico (0,4268 ; 0,5914)
contenga el verdadero 2 . de 95% porque este intervalo es ahora fijo
y no aleatorio;por consiguiente 2 se encontrar o no dentro de l.
146

Para el ejemplo consumo-ingreso, el intervalo de confianza para
1 al 95% es:
9,6643 1 39,2448
Utilizando
Se tiene
- t /2 se(
24,4545 - 2,306(6,4138)
Se debe ser cauteloso al interpretar el intervalo de confianza

( 9,6643; 39,2448). A largo plazo, en 95 de cada 100 casos, intervalos
como ( 9,6643; 39,2448) contendrn el verdadero 1; la probabilidad de
que este intervalo fijo incluya el verdadero 1 es 1 o 0
147
Prueba de hiptesis.
Prueba t
La idea fundamental detrs de las pruebas de significancia consiste

en utilizar un estadstico de prueba ( estimador).
Bajo el supuesto de normalidad la variable

t 1 1
se( 1 )
sigue la distribucin t con N-2 grados de libertad. Si el valor

verdadero de 1 se especifica en la hiptesis nula, el valor t puede
calcularse fcilmente a partir de la muestra disponible, pudiendo
servir por tanto como estadstico de prueba
148
Prueba de hiptesis. Prueba t

Consideremos nuevamente el ejemplo de
consumo -ingreso. Sabemos que
1 0,5091
Si Ho: 1=0,3
0,5091 0,3
5,86
0,0357
Si 5%, , , gl 8 entonces
se( 1 ) 0,0357
H1: 10,3
t0, 025 2.306
luego el t calculado es mayor al t de tabla y por lo tanto se rechaza la hiptesis nula
El procedimiento anterior se denomina prueba t. En el lenguaje

de pruebas de significancia, se dice que un estadstico es
estadsticamente significativo si el valor del estadstico de
prueba se encuentra en la regin crtica. En nuestro ejemplo, el
estadstico t es significativo y procedemos a rechazar la
hiptesis nula.
149
Aplicacin problema de prediccin

Con base en los datos muestrales, se obtuvo la siguiente
regresin muestral.
Yi 24,4545 0,5091X i
Donde Y es el estimador del verdadero E (Yi ) correspondiente

t
a X dada. Qu uso se puede dar a esta regresin histrica?
Uno es predecir o pronosticar el gasto de consumo futuro Y
correspondiente a algn nivel dado de ingreso X.
Ahora, hay dos clases de predicciones:
1) la prediccin del valor de la media condicional de Y
correspondiente a un valor escogido X, por ejemplo, que es el
punto sobre la recta de regresin poblacional misma, y
2) prediccin de un valor individual Y correspondiente a X 0 .
Se llamarn estas dos predicciones de prediccin media y la
prediccin individual.
150

Supngase que Xo = 100 y se desea predecir
E(Y I Xo = 100). Ahora, puede demostrarse que la regresin
histrica
Yi 24,4545 0,5091X i
proporciona la estimacin puntual de esta prediccin media de la
siguiente forma:
Y0 1 2 X 0
24.4545 0.5091(100) 75.3645
Donde Y0 = estimador de E(Y I Xo). Puede demostrarse que este

predictor puntual es el mejor estimador lineal e insesgado (MELI).
Puesto que Y0 es un estimador, es probable que ste sea diferente

de su verdadero valor. La diferencia entre los dos valores dar
alguna idea sobre el error de prediccin o de pronstico.
151
se demuestra que en la ecuacin Y0 1 2 X 0
Y0 est normalmente distribuida con media
varianza dada por la siguiente frmula:
1 2 X 0
y con una
X X
2 1
var(Y0 )
0 2
n
xi
Al reemplazar 2 desconocida por su estimador insesgado se
cumple que la variable

Y X
0
ee(Y 0 )
sigue una distribucin t con n - 2 g de l. La distribucin t

puede ser utilizada por consiguiente para construir intervalos
de confianza para el verdadero E(Yo I Xo) y para hacer
pruebas de hiptesis acerca de tal valor de la manera usual,
a saber,
1 2 X 0
- /2
ee(Y 0 )
152

Para los datos del ejemplo (tabla 3.3 anexo 1)
1 100 170 2
var(Y0 ) 42.159
10.4759
33000
10
ee(Y0 ) 3.2366
Por consiguiente, el intervalo de confianza al 95% para el

verdadero
E (Y / X 0 ) 1 2 X 0
es
67.9010 E (Y / X 100) 82.8381
Por tanto, dada X0 =100, en muestreo repetido, en 95 de cada 100

intervalos como el anterior estar incluido el verdadero valor medio;
la mejor estimacin del verdadero valor medio es, por supuesto, la
estimacin puntual 75.3645
153
Prediccin individual
Si nuestro inters est en predecir un valor individual Y, Y0
correspondiente a un valor dado X, digamos X0, entonces el mejor
estimador lineal insesgado de Y0 est dado tambin por
Y0 1 2 X 0
24.4545 0.5091(100) 75.3645
Pero su varianza es la siguiente
(17)
1 X X
var(Y0 Y 0 ) E (Y0 Y 0 ) 2 1 0 2
n
xi
(18)
Puede demostrarse adems que Y0 tambin sigue una distribucin

normal con media
y varianza dadas por (17) y (18), respectivamente.
2
Sustituyendo 2 desconocida por
se cumple que
Y0 Y0
ee(Y0 Y0 )
tambin sigue una distribucin t

154
Prediccin individual
Por consiguiente, la distribucin t puede utilizarse para hacer
inferencia sobre la verdadera Yo. Al continuar con nuestro ejemplo
consumo-ingreso, se ve que la prediccin puntual de Yo es
75.3645, igual a Y0 y su varianza es 52.6349. Por consiguiente, el

intervalo de confianza al 95% para Yo correspondiente a Xo =100
es
(58.6345 Y0 / X 0 100) 92.0945)
Comparando este intervalo con

67.9010 E (Y / X 100) 82.8381
Se ve que el intervalo de confianza para el Y0 individual es ms

amplio que el intervalo para el valor medio de Y0
155
Intervalos de confianza para Y media y

para valores individuales de Y
156
Formas funcionales de los modelos de regresin

Consideremos algunos modelos de regresin que
pueden ser no lineales en las variables pero que son
lineales en los parmetros o que pueden serIo
mediante transformaciones apropiadas de las
variables.
En particular, consideremos los modelos de regresin:
1. El modelo log-lineal
2. Modelos semilogartmicos
157
Cmo medir la elasticidad: Modelo Log-Lineal

Considrese el siguiente modelo, conocido como el
modelo de regresin exponencial:
Yi 1 X i 2 e i
El cual puede ser expresado alternativamente
ln Yi ln 1 2 ln X i i
Si escribimos como
ln Yi 2 ln X i i
Donde
ln 1 este modelo es lineal en los parmetros y 2
y lineal en los logaritmos de las variables Y y X y puede ser

estimado por regresin MCO
158
Cmo medir la elasticidad: Modelo Log-Lineal

Una caracterstica importante del modelo log-Iog, que
lo ha hecho muy popular en el trabajo emprico, es
que el coeficiente de la pendiente 2 mide la
elasticidad de Y con respecto a X, es decir, el cambio
porcentual en Y ante un pequeo cambio porcentual
en X dado. As, si Yrepresenta la cantidad
demandada de un bien y X su precio unitario, 2 mide
la elasticidad-precio de la demanda, un parmetro de
gran inters en economa.
159
Modelo de elasticidad constante
Cantidad demandada
Yi 1 X i 2 e i
Precio
ln de cantidad demandada
Si la relacin entre la cantidad demandada y el precio es como

se muestra en la figura (a ) la transformacin doble-Iog
presentada en la figura ( b) dar entonces la estimacin de la
elasticidad-precio (-2 )
lnY
ln Y ln 1 2 ln X i
lnX
Ln del Precio
160
Ejemplo
Gasto en bienes duraderos respecto al gasto de
consumo personal total
Consideremos datos sobre el gasto de consumo personal total
(GCPERT), el gasto en bienes duraderos (GASBD), el gasto en
bienes perecederos (GASBPER) y el gasto en servicios
(GASERV), todos medidos en millones de dlares de 1992.
(tabla 6.3-Anexo 1)
Su pngase que se desea calcular la elasticidad del gasto en
bienes durables respecto al gasto de consumo personal total. Al
graficar el logaritmo del gasto en bienes durables en comparacin
con el logaritmo del gasto de consumo personal total, se observar
que la relacin entre las dos variables es lineal. Por tanto, el
modelo del doble logaritmo podra resultar adecuado. Los
resultados de la regresin son:
161
In GASBD = -9.6971 + 1.9056 In GCPERT,

ee = (0.4341)
(0.0514)
t =
(-22.3370)*
(37.0962)*
r = 0.9849
donde * indica que el valor p es extremadamente pequeo.
Todos estos resultados muestran que la elasticidad de GASBD
respecto a GCPERT es de casi 1.90, lo que sugiere que si el gasto
personal total aumenta 1 %, en promedio, el gasto en bienes
duraderos se incrementa casi 1.90%. En consecuencia, el gasto en
bienes duraderos es muy sensible a los cambios en el gasto de
consumo personal. sta es una razn por la que los productores de
bienes duraderos siguen muy de cerca los cambios en el ingreso
personal y el gasto de consumo personal.
162
Ejemplo: Salario y ventas

Podemos estimar un modelo de elasticidad constante que relacione
el salario del director ejecutivo con las ventas de la empresa. Sea
vtas las ventas anuales de la compaa, medidas en millones de
dlares. Un modelo de elasticidad constante es
ln sala 0 1 ln vtas u
en el que es la elasticidad de sala en relacin con vtas. Este

modelo se encuentra entre los de regresin simple, al definir la
variable dependiente como y = log(sala) y la independiente como
x = log(vtas). La estimacin de esta ecuacin mediante MCO da
ln sala 4.822 0.257 ln vtas

n 209, R 2 0.211.
El coeficiente de ln(vtas) es la elasticidad estimada de sala con

respecto a vtas. Implica que un incremento de uno por ciento en
las ventas de la compaa aumenta el salario del director ejecutivo
en alrededor de 0.257 por ciento, que es la interpretacin usual de
elasticidad.
163
Cmo medir la tasa de crecimiento: Modelo Log-Lin

Los economistas, la gente de negocios y los gobiernos
frecuentemente estn interesados en encontrar la tasa de
crecimiento de ciertas variables econmicas. tales como
poblacin, PNB, oferta monetaria, empleo, productividad, dficit
comercial. etc.
Supngase que se desea saber la tasa de crecimiento del gasto
de consumo personal en servicios.
Sea Y, el gasto real en servicios en el tiempo t, y Yo el valor inicial
del gasto en servicios.
Recordemos la muy conocida frmula del inters compuesto, vista
en los cursos bsicos de economa.
Yi Y0 (1 r) t
(1)
Donde r es la tasa de inters compuesta de Y

164

Tomando el logaritmo natural, podemos escribir
ln Yi ln Y0 t ln(1 r)
Ahora sea
1 lnY0
(2)
2 ln(1 r)
Se puede escribir (2) as
ln Yi 1 2 t
(3)
Agregando el trmino de perturbacin, se obtiene
ln Yi 1 2 t i
(4)
Este modelo es igual a cualquier otro modelo de regresin

lineal en el sentido de que los parmetros 1 y 2 son lineales.
La nica diferencia es que la variable dependiente o regresada
es el logaritmo de Y y el regresor o variable explicativa es el
"tiempo", que adquiere valores de 1 ,2,3, etc.
165

Modelos como
ln Yi 1 2 t i
se denominan modelos semilog porque solamente una variable (en

este caso la regresada) aparece en forma logartmica.
Para fines descriptivos, un modelo en el cual la variable regresada
es logartmica se denominar modelo log-lin.
En este modelo el coeficiente de la pendiente mide el

cambio proporcional constante o relativo en Y para un
cambio absoluto dado en el valor del regresor (en este
caso la variable t ), es decir;
cambio relativo en Y
2
cambio absoluto en X
166

Si se multiplica el cambio relativo en Y por 100, 2 nos dar
entonces el cambio porcentual, o la tasa de crecimiento, en Y
ocasionada por un cambio absoluto en X, el regresor.
Es decir, 100 por 2 da como resultado la tasa de crecimiento en Y;
100 por 2 se conoce en la literatura como la semielasticidad de Y
respecto a X.
167

Ejemplo: Para ilustrar el modelo de crecimiento
ln Yi 1 2 t i
consideremos los datos sobre el gasto en servicios

proporcionados en (tabla 6.3-Anexo 1). Los resultados de
la regresin son los siguientes:
ln
=
ee =
t =
GES T
7.7890
(0.0023)
(3.387.619)*
0.00743t
(0.00017)
(44.2826)*
r2
= 0.9894
Nota: GES significa gasto en servicios y el asterisco (*)

denota que el valor p es extremadamente pequeo.
168

La interpretacin de la ecuacin es
que durante un periodo de un
trimestre, el gasto en servicios se
increment a una tasa (trimestral)
de 0.743%. Aproximadamente esto
es igual a un crecimiento anual de
2.97%. Puesto que
7.7890 = ln(GES) al comienzo del
periodo de anlisis, si se toma su
antilogaritmo se tiene 2.41390
(billones de dlares), como el valor
inicial de GES (es decir, el valor al
final del ltimo trimestre de 1992).
169

Recuerde el ejemplo del salario y la educacin, en el que hicimos la
regresin del salario por hora sobre los aos de escolaridad.
Obtuvimos una estimacin de la pendiente de 0.54, que significa
que pronosticamos que cada ao adicional de instruccin aumenta
. promedio el salario por hora en 54 centavos de dlar.
en
A causa del carcter lineal de
sala 0.90 0.54 educ.
0, 54 centavos es el incremento tanto para el primer ao como para

el vigsimo, lo que acaso no sea razonable.
Ahora, consideremos ln(sala) como la variable dependiente,
obtenemos la siguiente relacin:
ln sala 0.584 0.083 educ

n 526, R 2 0.186
170

El coeficiente de educ tiene una interpretacin porcentual cuando se
multiplica por 100: sala aumenta 8.3 por ciento por cada ao
adicional de escolaridad. Es lo que entienden los economistas
cuando se refieren al "rendimiento de otro ao de estudios".
Es importante recordar que la principal razn para tomar el logaritmo
de sala es imponer un efecto porcentual constante de la educacin
en sala.
La intercepcin no es muy significativa, ya que da el log(sala)
pronosticado cuando educ = 0. La R cuadrada muestra que educ
explica alrededor de 18.6 por ciento de la variacin en log(sala) (que
no es sala).
171
El modelo Lin-Log
A diferencia del modelo de crecimiento recin
estudiado, en el cual se estaba interesado en
encontrar el crecimiento porcentual en Y, ante un
cambio unitario absoluto en X, ahora hay inters en
encontrar el cambio absoluto en Y debido a un
cambio porcentual en X. Un modelo que puede lograr
este propsito puede escribirse como
Yi 1 2 lnX i i
Para fines descriptivos, llamamos a este modelo un
modelo lin-Iog.
172
El modelo Lin-Log
Interpretacin de la pendiente
cambio en Y
cambio en Y
2
cambio relativo en X
cambio en ln X
Simblicamente, se tiene
En forma equivalente
Y
X / X
Y 2 X / X
Esta ecuacin plantea que el cambio absoluto en Y

(= Y) es igual a la pendiente multiplicada por el
cambio relativo en X.
173
El modelo Lin-Log
Si este ltimo es multiplicado por 100 entonces
Y 2 X / X
da el cambio absoluto en Y ocasionado por un cambio porcentual
en X. As, si X/X cambia en 0.01 unidades (o 1%), el cambio
absoluto en Y es 0.01(2).
Por tanto, si en una aplicacin se encuentra que 2 = 500,
entonces el cambio absoluto en Y es (0.01)(500), o 5.0.
Por consiguiente, cuado se utiliza MCO para estimar regresiones
como en
Yi 1 2 lnX i i
se debe multiplicar el valor del coeficiente de la pendiente

estimado, 2 por 0.01 o, dividido entre 100.
174
El modelo Lin-Log
Ejemplo:
Como ejemplo del modelo lin-Iog,
consideremos el gasto alimenticio
en India, (tabla 2.8-Anexo 1). Si
se grafican los datos, se obtiene la
grfica de la figura . Tal y como
esta figura sugiere, el gasto
alimenticio se incrementa en
forma ms lenta, conforme el
gasto total aumenta, lo cual quiz
proporcione sustento a la ley de
Engels.
Nota:Cundo resulta til un modelo lin-log ? Se ha encontrado una
interesante aplicacin en los as conocidos modelos de gasto Engel
[nombrados en honor del estadstico alemn Emst Engel (1821-1896).
Engel postul que "el gasto total que se dedica a los alimentos tiende a
incrementarse en progresin aritmtica, mientras que el gasto total aumenta
175
en progresin geomtrica.
El modelo Lin-Log
Los resultados de ajustar el modelo lin-Iog a los datos son los
siguientes:
GASAL I = -1 283.912
t = (-4.3848)*
+ 257.2700 ln
(5.6625)*
GASTOTi
r2
= 0.3769
Interpretado de la forma antes descrita, el coeficiente de la

pendiente, que vale casi 257, significa que un incremento en el
gasto total en alimentos de 1%, en promedio, propicia un
incremento de casi 2.57 rupias en el gasto en alimento de las 55
familias incluidas en la muestra. (Nota: se dividi el coeficiente
estimado de la pendiente entre 100.)
176

Anlisis de regresin mltiple: problema de la estimacin
Notacin y supuestos
Interpretacin de la ecuacin de regresin mltiple
Significado de los coeficientes de regresin parcial
Estimacin MCO de los coeficientes de regresin parcial
El coeficiente de determinacin mltiple R2
El coeficiente de correlacin mltiple R
Anlisis de regresin mltiple: el problema de la inferencia

Prueba de hiptesis en regresin mltiple
Prueba t para coeficientes individuales
Prueba F de significacin global
Modelos de regresin con variables dicotmicas

Problemas en el anlisis de regresin
Estimacin ponderada
177

El modelo de dos variables, con frecuencia es
inadecuado en la prctica. Es el caso del ejemplo
consumoingreso, en donde se supuso implcitamente que
solamente el ingreso X afecta el consumo Y. Pero la teora
econmica rara vez es tan simple, ya que, adems del
ingreso, existen muchas otras variables que
probablemente afectan el gasto de consumo.
Por consiguiente, se necesita ampliar el modelo simple de
regresin con dos variables para considerar modelos que
contengan ms de dos variables.
La adicin de variables conduce al anlisis de los modelos
de regresin mltiple, es decir, a modelos en los cuales la
variable dependiente, o regresada, Y, depende de dos o
ms variables explicativas, o regresoras.
178
Modelo de tres variables

Generalizando la funcin de regresin poblacional (FRP) de
dos variables se puede escribir la FRP de tres variables as:
Yi 1 2 X 2i 3 X 3i i
donde Y es la variable dependiente, X2 y X3 las variables
explicativas (o regresoras). ui es el trmino de perturbacin
estocstica, e i la isima observacin.
Los coeficientes se denominan coeficientes de regresin parcial
Se contina operando dentro del marco del modelo clsico de
regresin lineal (MCRL).
179
Modelo de tres variables

Supuestos
Especficamente. se supone lo siguiente
Valor medio de ui, igual a cero

E (ui / X 2i , X 3i ) 0
para cada i
No correlacin serial
cov(ui , u j ) 0
i j
Homocedasticidad
var(ui ) 2
180
Supuestos
Covarianza entre ui y cada variable X igual a cero

cov(ui , X 2i ) cov(ui , X 3i ) 0
No hay sesgo de especificacin

El modelo est especificado correctamente
No hay colinealidad exacta entre las variables X

No hay relacin lineal exacta entre X2 y X3
Adicionalmente, se supone que el modelo de regresin mltiple
es lineal en los parmetros, que los valores de las regresoras
son fijos en muestreos repetido y que hay suficiente variabilidad
en dichos valores..
181
Interpretacin de la ecuacin de regresin mltiple

Dados los supuestos del modelo de regresin clsico, se
cumple que, al tomar la esperanza condicional de Y a ambos
lados de
Yi 1 2 X 2i 3 X 3i i
se obtiene
E (Yi / X 2i , X 3i ) 1 2 X 2i 3X 3i
Expresado en palabras, de la expresin anterior se obtiene la media

condicional o el valor esperado de Y condicionado a los valores dados o
fijos de las variables X2 y X3. Por consiguiente, igual que en el caso de
dos variables, el anlisis de regresin mltiple es el anlisis de regresin
condicional, sobre los valores fijos de las variables explicativas, y lo que
obtenemos es el valor promedio o la media de Y, o la respuesta media
de Y a valores dados de las regresoras X.
Nota: Las propiedades de los estimadores MCO del modelo de
regresin mltiples son similares a aquellas del modelo con dos
variables
182
Significado de los coeficientes de regresin parcial

Los coeficientes de regresin 2 y 3 se denominan
coeficientes de regresin parcial.
2 mide el cambio en el valor de la media de Y,

E(Y) por unidad de cambio en X2 permaneciendo X3
constante.
3 mide el cambio en el valor medio de Y, E(Y) por
unidad de cambio en X3 cuando el valor de X2 se
conserva constante.
183
El coeficiente de determinacin mltiple R2

En el caso de tres variables nos gustara conocer la
proporcin de la variacin en Y explicada por las variables X
y X conjuntamente. La medida que da esta informacin es
conocida como el coeficiente de determinacin mltiple y se
denota por R2;conceptualmente se asemeja a r2.
2
i
2
i
u
SRC
R 1
1
STC
y
2
R2, al igual que r2, se encuentra entre 0 y 1.

Se dice que el ajuste del modelo es mejor entre ms cerca
est R2 de 1
184
El coeficiente de correlacin mltiple R

Recurdese que en el caso de dos variables, se
defini r como el coeficiente de correlacin y se indic
que ste mide el grado de asociacin (lineal) entre las
dos variables.
El anlogo de r para tres o ms variables es el
coeficiente de correlacin mltiple, denotado por R, el
cual es una medida del grado de asociacin entre Y y
todas las variables explicativas conjuntamente.
Aun cuando r puede ser positivo o negativo, R
siempre se considera positivo. En la prctica, sin
embargo, R tiene poca importancia. La medida de
mayor significado es R2.
185
Ejemplo: Mortalidad Infantil respecto al PIB

per cpita y a la tasa de alfabetizacin en las mujeres
Consideremos como ejemplo el comportamiento de la mortalidad
infantil (MI) en relacin con el PIB per cpita (PIBPC) y el
alfabetismo femenino medido por la tasa de alfabetizacin en las
mujeres (TAM). A priori. se espera que la TAM tambin ejerza un
impacto negativo en la MI al igual que el PIBPC. cuando se
introducen ambas variables en el modelo, se requiere eliminar la
influencia neta de cada regresora. Es decir. se necesita estimar los
coeficientes de regresin (parcial) de cada regresora. Por lo tanto.
el modelo es:
MI i 1 2 PIBPCi 3TAM i ui
186
Ejemplo: Mortalidad Infantil respecto al PIB

per cpita y a la tasa de alfabetizacin en las mujeres
Tngase en cuenta que MI es el nmero de muertes de nios menores
de 5 aos por cada 1 000 nacimientos vivos. el PIBPC es el PIB per
cpita en 1980 y que la TAM se mide en porcentaje. La muestra se
realiz en 64 pases.
Utilizando un paquete estadstico se obtienen los siguientes resultados:
MI i 263,6416 0,0056 PIBPCi 2,2316TAM i

ee (11,5932) (0,0019)
R 2 0,7077
R 2 0,6981
187
Interpretacin
El coeficiente de regresin parcial -0,0056 del PIBPC indica que
si la influencia de la TAM se mantiene constante, conforme el
PIBPC se incrementa, digamos en un dlar, en promedio, la
mortalidad infantil disminuye en 0.0056 unidades. Para hacerlo
interpretable desde el punto de vista econmico, si el PIB per
cpita se incrementara mil dlares, en promedio, el nmero de
muertes de nios menores de 5 aos se reducira a 5.6 por cada
1000 nacimientos vivos.
El coeficiente -2.2316 seala que si la influencia del PIBPC se
mantiene constante, el nmero de muertes de nios menores de 5
aos disminuira, en promedio, 2.23 por cada mil nacimientos
vivos, en tanto que la tasa de alfabetizacin en las mujeres subira
un punto porcentual. El valor de la interseccin de casi 263, si se
interpretara de una forma mecanicista, significara que si los
valores del PIBPC y de la TAM fuesen cero, la mortalidad infantil
promedio sera de aproximadamente 263 muertes por cada mil
nacimientos vivos.
188
El valor de la interseccin de casi 263, si se interpretara de una

forma mecanicista, significara que si los valores del PIBPC y de la
TAM fuesen cero, la mortalidad infantil promedio sera de
aproximadamente 263 muertes por cada mil nacimientos vivos.
Por supuesto, tal interpretacin debera tomarse con mucho
cuidado.
El valor de R2 de casi 0.71 significa que casi 71 % de la variacin
en la mortalidad infantil se explica mediante el PIBPC y la TAM, lo
cual es un gran porcentaje si se considera que el valor mximo
que puede tener R2 es 1l. De todo lo dicho hasta aqu, los
resultados de la regresin tienen sentido.
189
Anlisis de regresin mltiple: el problema de la

inferencia
Como ya se sabe, si el nico objetivo es la estimacin puntual de
los parmetros de los modelos de regresin, ser suficiente el
mtodo de mnimos cuadrados ordinarios (MCO), el cual no hace
supuestos sobre la distribucin de probabilidad de las
perturbaciones u. Pero si el objetivo no slo es la estimacin sino
adems la inferencia, entonces, como se analiz para el modelo de
regresin simple, se debe suponer que las u siguen alguna
distribucin de probabilidad.
Se supuso que las u seguan la distribucin normal con media cero
y varianza constante. Se mantiene el mismo supuesto para los
modelos de regresin mltiple. Con el supuesto de normalidad , se
halla que los estimadores MCO de los coeficientes de regresin
parcial, son los mejores estimadores lineales insesgados (MELI)..
190
Consideremos nuevamente el ejemplo de la regresin de la
mortalidad infantil (MI) sobre el PIB per cpita (PIBP) y la tasa
de analfabetismo en las mujeres (TAM) para una muestra de
64 pases. Los resultados de la regresin se reproducen a
continuacin.
MI i 263,6416 0,0056 PIBPCi 2,2316TAM i

ee (11,5932) (0,0019)
R 2 0,7077
R 2 0,6981
Qu hay respecto a la significancia estadstica de los

resultados observados? Considrese por ejemplo el coeficiente del
PIBP (-0.0056). Es estadsticamente significativo este coeficiente;
es decir, es estadsticamente diferente de cero? Ambos coeficientes
son estadsticamente significativos?
191
Prueba de hiptesis sobre coeficientes

individuales de regresin parcial
Bajo el supuesto de que ui ~ N (0, 2 ) entonces, se puede
utilizar la prueba t para demostrar una hiptesis sobre cualquier
coeficiente de regresin parcial individual .
Para ilustrar el procedimiento, considrese la regresin sobre la
mortalidad infantil.
La hiptesis nula establece que, manteniendo X3 constante
(la tasa de alfabetismo en las mujeres), el ingreso personal
disponible no tiene influencia (lineal) sobre el gasto personal de
consumo. Para probar la hiptesis nula, se utiliza la prueba t
donde:
H0 : 2 0
H1 : 2 0
192

Para el ejemplo considerado se tiene
0.0056
2.8187
0.0020
193

Puesto que el valor t calculado de 2.8187 (en trminos absolutos)
excede el valor crtico t de 2, se puede rechazar la hiptesis nula de
que el PIBP no tiene ningn efecto sobre la mortalidad infantil. Para
expresarlo en trminos ms positivos, si se mantiene la tasa de
analfabetismo para las mujeres constante, el PIB per cpita tiene un
efecto significativo (negativo) sobre la mortalidad infantil, como se
podra esperar a priori. De forma grfica, la situacin es la que se
muestra en la figura anterior.
En la prctica, no se tiene que suponer un valor particular de para
llevar a cabo la prueba de hiptesis. Uno simplemente utiliza el valor
p dado, que en el caso actual es de 0.0065. La interpretacin de
este valor p (es decir, el nivel exacto de significancia) es que si la
hiptesis nula fuese verdadera, la probabilidad de obtener un valor t
igual a 2.8187 o mayor (en trminos absolutos ) es de slo 0.0065 o
0.65%. que de hecho es una probabilidad pequea, mucho menor
que el valor artificial mente adoptado de = 5%.
194

Existe una conexin muy estrecha entre la prueba de hiptesis
y la estimacin del intervalo de confianza. Para este ejemplo, el
intervalo de 95% de confianza para es
- t /2 se( )
que para 2 de este ejemplo se convierte en
0.0096 2 0.0016
o sea, el intervalo de -0.0096 a -0.0016 incluye al verdadero

coeficiente 2 con un coeficiente de confianza del 95%. Por tanto,
si 100 muestras de tamao 64 se seleccionan y 100 intervalos de
confianza como el anterior se forman, entonces se espera que 95
de ellos contengan el verdadero parmetro de poblacin 2 .Puesto
que el intervalo no incluye el valor cero de la hiptesis nula, se
puede rechazar tal hiptesis (que el verdadero 2 es cero con 95%
195
de confianza).
Prueba de la significacin global de la regresin

La prueba t hace referencia a la prueba de significancia
individual de los coeficientes de regresin parcial estimados, es
decir, bajo la hiptesis separada de que cada uno de los
verdaderos coeficientes de regresin parcial de la poblacin era
cero. Pero ahora considrese la siguiente hiptesis:
H 0 : 2 3 0
Esta hiptesis nula es conjunta de que 2 y 3 son iguales a
cero en forma conjunta o simultnea. Una prueba de tal
hiptesis se denomina prueba de significancia global de la recta
de regresin observada o estimada, es decir, si
Y est relacionada o no linealmente con X2 y X3 a la vez..
196
Prueba de la significacin global de la regresin

La significacin global de la regresin se puede probar con la
relacin de la varianza explicada a la varianza no explicada: Esta
sigue una distribucin F con k-1 y n-k grados de libertad, donde n
es el nmero de observaciones y k es el nmero de parmetros
R 2 /( k 1)
estimados.
F
k 1, n k
(1 R 2 ) /( n k )
Si la relacin F calculada excede el valor tabulado de F al

nivel especificado de significacin y grados de libertad, se
acepta la hiptesis de que los parmetros de la regresin no
son todos iguales a cero y que R cuadrado es
significativamente diferente de cero.
H 0 : 1 2 3 .... n 0
H1 : No todas las son cero
197
Modelos de regresin con variables

dicotmicas
En el anlisis de regresin, la variable dependiente o regresada,
est influida frecuentemente no slo por variables de razn de
escala (por ejemplo: ingreso, produccin, precios, costos,
estatura y temperatura), sino tambin por variables que son
esencialmente cualitativas por naturaleza, o de escala nominal
(por ejemplo, sexo, raza, color, religin, nacionalidad, regin
geogrfica, trastornos polticos y afiliacin a un partido).
Por ejemplo, manteniendo los dems factores constantes, se ha
encontrado que las trabajadoras ganan menos que sus colegas
masculinos y que las personas de color ganan menos que las
blancas. Este patrn puede resultar de la discriminacin sexual o
racial, pero cualquiera que sea la razn, las variables cualitativas
tales como sexo y raza s influyen sobre la variable
dependiente y es claro que deben ser incluidas dentro de las
explicativas, o regresoras.
198

dicotmicas
Puesto que tales variables usualmente indican la presencia o
ausencia de una "cualidad" o atributo, tal como femenino o
masculino, negro o blanco, catlico o no catlico, demcrata o
republicano son variables de escala nominal esencialmente.
Se podran "cuantificar" tales atributos mediante la elaboracin de
variables artificiales que tomaran los valores 0 y 1, donde 1
indicara la presencia (o la posesin) de ese atributo y 0 la
ausencia de tal atributo. Por ejemplo, el 1 puede indicar que una
persona es de sexo masculino y 0 puede designar una de sexo
femenino; o el 1 puede indicar que una persona se ha graduado
en la universidad y 0 que no lo ha hecho y as sucesivamente. Las
variables que adquieren tales valores 0 y 1 se llaman variables
dictomas. Tales variables son, por tanto, esencialmente un
recurso para clasificar datos en categoras mutuamente
excluyentes, como masculino o femenino.
199

dicotmicas
Las variables ficticias se pueden usar para establecer
cambios en la ordenada en el origen, cambios en la
pendiente y cambios tanto en la ordenada en el origen
como en la pendiente.
Y b0 b1 X b2 D u
Y b0 b1 X b2 XD u
Y b0 b1 X b2 D b2 DX u
200

dicotmicas
Si una variable cualitativa tiene m categoras, slo hay
que agregar (m-1) variables dicotmicas
Ejemplo: Considrese el siguiente modelo:
Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
201

dicotmicas
En este modelo el sexo y la raza son regresoras cualitativas y la
escolaridad es cuantitativa. Est implcita en este modelo la
suposicin de que el efecto diferencial de la variable dictoma sexo,
D2, es constante en las dos categoras de raza y el efecto diferencial
de la variable dictoma raza, D3, tambin es constante en los dos
sexos. Es decir, si el salario medio es mayor para los hombres que
para las mujeres, se debe a que pertenezcan o no pertenezcan a la
categora de no hispanos ni blancos. De igual forma, si por ejemplo
los no blancos ni hispanos tienen salarios medios menores, se debe
a que son hombres o mujeres.
202

dicotmicas
En muchas aplicaciones, dicha suposicin puede ser
insostenible. Una mujer no blanca ni hispana tal vez gane menor
salario que un hombre de esa misma categora. En otras
palabras, quiz haya una interaccin entre las dos variables
cualitativas D2 y D3. Por tanto, su efecto sobre la media quiz
no sea simplemente aditivo, sino multiplicativo, como en el
siguiente modelo:
Yi 1 2 D2i 3 D3i 4 D2i D3i X i ui

de donde
E (Yi / D2i 1, D3i 1, X i ) 1 2 3 4 X i

Que es la funcin salario medio por hora para las trabajadoras
no blancas ni hispanas.
203

dicotmicas
Obsrvese que
2 = efecto diferencial de ser mujer
3 = efecto diferencial de ser no blanco ni hispano

4 = efecto diferencial de ser mujer no blanca ni hispana
lo cual muestra que el salario medio por hora de las mujeres no
blancas ni hispanas es diferente (en una cantidad igual a 4 ) del
salario medio por hora de las mujeres blancas o hispanas. Si por
ejemplo los tres coeficientes de las variables dictomas son
negativos, implicara que las trabajadoras no blancas ni hispanas
ganan un salario medio por hora mucho ms bajo que las
trabajadoras blancas o hispanas, si se compara con la categora
base, la cual en el ejemplo presente es la de hombres blancos o
hispanos.
204

dicotmicas
Ejemplo:
Ingresos promedio por hora en comparacin con la escolaridad,
sexo y raza
Los resultados de la regresin basados en el modelo
Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
son
Y i 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i

t (0.2357)** (-5.4873)* (-2.1803)* (9.9094)*
R 2 0.2032 n 528
205

dicotmicas
donde * indica los valores p menores que el 5%, y ** seala los
valores p mayores que 5%.
Los coeficientes diferenciales de la interseccin son
estadsticamente significativos y tienen los signos que se esperaban
y la escolaridad tiene un gran efecto positivo sobre el salario por
hora.
Como lo muestra la ecuacin, ceteris paribus, los ingresos promedio
por hora de las mujeres son inferiores por casi $2.36;adems, los
ingresos promedio por hora de los trabajadores no blancos ni
hispanos tambin son menores por $1.73.
206

dicotmicas
Ahora consideremos los resultados del modelo
Yi 1 2 D2i 3 D3i 4 D2i D3i X i ui
Que incluye la variable dicotmica de interaccin.
Y i 0.2610 2.3606 D2i 1.7327 D3i 2.1289 D2i D3i 0.8028 X i

t (0.2357)** (-5.4873)* (-2.1803)* (1.7420)**
(9.9095)**
R 2 0.2032 n 528
donde * indica los valores p menores que el 5%, y ** seala los
valores p mayores que 5%.
Como se observa las dos variables dicotmicas aditivas siguen
siendo estadsticamente significativas, pero la variable dicotmica
interactiva no est al nivel convencional del 5%
207
Si se considera estadsticamente significativa

entonces se interpreta de la siguiente manera. Si se
mantiene constante el nivel de educacin y si se
aaden los tres coeficientes de las variables
dicotmicas entonces se obtendr
-1,964=-2,3605-1,732+2,128
Lo cual significa que los salarios medios por hora de
las trabajadoras no blancas ni hispanas es menor
por casi $1,96, valor que est entre -2,3605
(diferencia slo debida a sexo) y -1,7327 ( diferencia
slo debida a la raza)
208
Problemas en el anlisis de regresin

Multicolinealidad:
Se refiere al caso en el cual dos o ms variables
explicatorias en el modelo de regresin estn altamente
correlacionadas, haciendo difcil o imposible aislar sus
efectos individuales sobre la variable dependiente. Con
multicolinealidad, los coeficientes de MCO estimados
pueden ser estadsticamente insignificantes (y an tener el
signo contrario) aunque R cuadrado puede ser alto. La
multicolinealidad puede ser superada a veces o reducirse
coleccionando ms datos, usando informacin a priori,
transformando la relacin funcional, o reduciendo una de las
variables altamente colineales.
209
Heteroscedasticidad
Si no se mantiene la suposicin de MCO de que la

varianza del trmino de error es constante para todos los
valores de las variables independientes, enfrentamos el
problema de la heterocedasticidad. Esto conduce a
estimaciones sesgadas e ineficientes (es decir, con
varianza mayor que la mnima) de los errores estndar
( y as pruebas estadsticas incorrectas e intervalos de
confianza tambin incorrectos)
210
Autocorrelacin:
Cuando el trmino de error en un perodo est correlacionado
positivamente con el trmino de error en el perodo anterior,
enfrentamos el problema de autocorrelacin (de primer orden
positiva). Esto es comn en anlisis de series de tiempo.
La presencia de autocorrelacin de primer orden se prueba
utilizando la tabla del estadstico de Durbin- Watson a los
niveles de significacin del 5% o 1% para n observaciones y k,
variables explicatorias
211
Estimacin ponderada ( MCP- WLS)

Los modelos de regresin lineal tpicos asumen
que la varianza es constante en la poblacin objeto de
estudio. Cuando ste no es el caso (por ejemplo cuando
los casos con puntuaciones mayores en un atributo
muestran ms variabilidad que los casos con
puntuaciones menores en ese atributo), la regresin
lineal mediante mnimos cuadrados ordinarios (MCO,
OLS) deja de proporcionar estimaciones ptimas para el
modelo.
212

Si las diferencias de variabilidad se pueden pronosticar a
partir de otra variable, el procedimiento Estimacin
ponderada permite calcular los coeficientes de un
modelo de regresin lineal mediante mnimos cuadrados
ponderados (MCP, WLS), de forma que se les d mayor
ponderacin a las observaciones ms precisas (es decir,
aqullas con menos variabilidad) al determinar los
coeficientes de regresin.
Ejemplo.
Cules son los efectos de la inflacin y el paro sobre los cambios en
el precio de las acciones? Debido a que los valores con mayor valor
de cotizacin suelen mostrar ms variabilidad que aquellos con menor
valor de cotizacin, la estimacin de mnimos cuadrados ordinarios no
generar estimaciones que sean ptimas. El mtodo de Estimacin
ponderada permite capturar el efecto del precio de cotizacin sobre la
variabilidad de los cambios en el precio, al calcular el modelo lineal. 213

Consideraciones sobre los datos
Datos. Las variables dependiente e independientes deben ser
cuantitativas. Las variables categricas, como la religin, la edad o
el lugar de residencia, han de recodificarse como variables binarias
(dummy) . La variable de ponderacin deber ser cuantitativa y
estar relacionada con la variabilidad de la variable dependiente
Supuestos. Para cada valor de la variable independiente, la
distribucin de la variable dependiente debe ser normal. La relacin
entre la variable dependiente y cada variable independiente debe ser
lineal y todas las observaciones deben ser independientes. La
varianza de la variable dependiente puede cambiar segn los niveles
de la variable o variables independientes, pero las diferencias se
deben poder pronosticar en funcin de la variable de ponderacin.
214
Regresin Logstica
Consideraciones sobre los datos
Fases fundamentales
Fundamentos Funcin logstica
Clculo de las probabilidades pronosticadas
Interpretacin de los coeficientes
El problema de clasificacin
Estadsticos: Puntuacin de Rao, Chi cuadrado, Wald
Regresin logstica versus anlisis discriminante
215
Regresin Logstica
La regresin logstica resulta til para los casos en los
que se desea predecir la presencia o ausencia de una
caracterstica o resultado segn los valores de un
conjunto de variables predictoras.
Es similar a un modelo de regresin lineal pero est
adaptado para modelos en los que la variable
dependiente es dicotmica.
Los coeficientes de regresin logstica pueden
utilizarse para estimar la razn de las ventajas (odds
ratio) de cada variable independiente del modelo.
La regresin logstica se puede aplicar a un rango ms
amplio de situaciones de investigacin que el anlisis
discriminante.
216
Regresin logstica: Consideraciones sobre los datos

Datos. La variable dependiente debe ser dicotmica. Las variables
independientes pueden estar a nivel de intervalo o ser categricas; si
son categricas, deben ser variables dummy o estar codificadas como
indicadores (existe una opcin en el procedimiento para recodificar
automticamente las variables categricas).
Supuestos. La regresin logstica no se basa en supuestos
distribucionales en el mismo sentido en que lo hace el anlisis
discriminante. Sin embargo, la solucin puede ser ms estable si los
predictores tienen una distribucin normal multivariante.
Adicionalmente, al igual que con otras formas de regresin, la
multicolinealidad entre los predictores puede llevar a estimaciones
sesgadas y a errores tpicos inflados.
El procedimiento es ms eficaz cuando la pertenencia a grupos es una
variable categrica autntica.
217
Regresin Logstica
El anlisis de regresin logstica tiene como finalidad principal
pronosticar la pertenencia a un grupo a partir de una serie de
variables independientes.
Grupo 1
Variables independientes
Grupo 2
dicotmica
Para llevar a cabo un anlisis de regresin logstica binaria es

necesario disponer de una variable categrica que defina dos grupos:
Los clientes que devuelven un crdito y los que no
Los ciudadanos que votan y los que no
Los pacientes que tienen una determinada enfermedad y los que no
218
Regresin Logstica
Grupo 1
o predictoras (covariables)
Las variables en las que

se supone que se
diferencian los grupos
Grupo 2
dicotmica
La variable dicotmica es la
variable dependiente del anlisis,
es decir, la variable cuyos
valores se desea pronosticar.
El anlisis de regresin logstica genera una serie de pesos o

coeficientes que:
(1) Informan sobre la capacidad individual de cada variable
independiente para diferenciar entre los grupos.
(2) Permiten obtener pronsticos que sirven para clasificar a los
sujetos
219
Fases fundamentales
Un anlisis de regresin logstica consta de cuatro fases
fundamentales:
La seleccin de las variables de anlisis.
La estimacin de los pesos o coeficientes de las variables
seleccionadas.
La clasificacin de los casos.
El anlisis de los residuos.
La seleccin de las variables puede realizarse a partir de criterios
tericos o puede obedecer a criterios estadsticos
La estimacin de los pesos o coeficientes asociados a cada variable se
realiza mediante una algoritmo iterativo de mxima verosimilitud.
La clasificacin de los casos se realiza a partir de los pronsticos del
modelo estimado.
El anlisis de los residuos permite detectar posibles casos atpicos o
predicciones anmalas.
220
Fundamentos Funcin Logstica
1
1 e
( B0 B1 X )
El coeficiente Bo representa la posicin de la curva sobre el eje horizontal

o las abscisas (ms hacia la izquierda o ms hacia la derecha). Y el
coeficiente B1 representa la pendiente de la curva medida en la zona de
inflexin de la curva.
0<Y<1
1 e ( B0 B1 B2 X 2 L Bk X k )
El exponente del nmero e es una ecuacin lineal mltiple en la que cada

variable independiente recibe una ponderacin proporcional a su capacidad
221
para predecir Y.
Fundamentos Funcin Logstica

Si dos sucesos son exclusivos entre s (no se solapan) y exhaustivos
(agotan el espacio muestral de posibles sucesos), la probabilidad de
aparicin de cualquiera de ellos es igual a 1 menos la probabilidad de
aparicin del otro.
Supongamos que la variable Y puede tomar slo dos valores (0 y 1)
Sea P(Y = 1) la probabilidad de que la variable Y tome el valor 1,
entonces la probabilidad de que Y tome el valor 0 ser:
P(Y = 0) = 1-P (Y = 1).
222
Ejemplo
Supongamos que interesa explicar y predecir si una persona
ha votado o no en las ltimas elecciones a partir de un
conjunto de caractersticas socio-demogrficas.
La variable que distingue a los sujetos que manifiestan haber
votado de aquellos que manifiestan no haber votado es la
variable voto.
Vot en 1992?
Vlidos
Perdidos
Total
S vot
No vot
Total
Sistema
Frecuencia
1032
420
1452
48
1500
Porcentaje
68,8
28,0
96,8
3,2
100,0
Porcentaje
vlido
71,1
28,9
100,0
Porcentaje
acumulado
71,1
100,0
223
Ejemplo
Consideremos en primer lugar la variable lee como variable
independiente (Lee el peridico?)
Lee el peridico?
Vlidos
Perdidos
Total
S lee
No lee
Total
Sistema
Frecuencia
862
148
1010
490
1500
Porcentaje
57,5
9,9
67,3
32,7
100,0
Porcentaje
vlido
85,3
14,7
100,0
Porcentaje
acumulado
85,3
100,0
En el ejemplo propuesto, el fenmeno que interesa estudiar es la

abstencin, es decir, el hecho de que una persona no acuda a
votar.
Una buena estimacin de la probabilidad de este fenmeno es la
frecuencia relativa de abstencin observada en la muestra.
224
Ejemplo
Tabla de contingencia Vot en 1992? * Lee el peridico?
Vot en
1992?
S vot
No vot
Total
Recuento
% de Lee el peridico?
Recuento
Recuento
Lee el peridico?
S lee
No lee
624
68
74,9%
47,6%
209
75
25,1%
52,4%
833
143
100,0%
100,0%
Total
692
70,9%
284
29,1%
976
100,0%
En las frecuencias marginales de la tabla puede apreciarse que se

ha abstenido de votar el 29,1% de los encuestados. La estimacin
de la probabilidad del suceso No vot ser P(Y = 1) = 0,291. Por
tanto, la probabilidad del suceso S vot ser P(Y = 0) = 0,709.
225
Ejemplo
Se sabe que aproximadamente una tercera parte de los sujetos
encuestados se abstiene y que, por tanto, cabe esperar que una de
cada tres personas no acuda a las urnas; pero no se sabe nada
acerca de las caractersticas de las personas que se abstienen.
La pregunta que interesa responder en este momento es:

es posible utilizar alguna otra variable, previa a la votacin,
que permita pronosticar adecuadamente la probabilidad de
que un sujeto no vote?.
Es decir, es posible construir un modelo de regresin que
permita pronosticar la probabilidad de abstencin a partir de
una o varias variables independiente?.
226
Ecuacin logstica
Si existen variables capaces de predecir la abstencin, entonces es
posible incluirlas en un modelo de regresin y utilizarlas para
corregir las estimaciones de proporcin de votantes y no votantes.
El problema que surge en una situacin de estas caractersticas es
que, al tener que pronosticar una probabilidad (es decir, un valor
comprendido entre 0 y 1), un modelo de regresin lineal puede
plantear serios problemas de prediccin por no tener mximo ni
mnimo tericos en los pronsticos que arroja. Por esta razn es
ms apropiado recurrir a un modelo de tipo logstico. Considrese
la siguiente ecuacin logstica:
P (Y 1)
1
1 e ( B0 B1 X )
227
Definida la ecuacin que puede utilizarse, el objetivo consiste en

encontrar una variable que discrimine bien entre los dos posibles
valores de Y.
La figura muestra cuatro curvas logsticas correspondientes a
cuatro posibles variables independientes o predictoras.
228
Las curvas se encuentran ordenadas por orden creciente de

capacidad discriminativa. Puesto que el coeficiente que controla la
pendiente de la curva es B1, una buena variable predictora ser
aquella que genere una curva con mucha pendiente (es decir, una
variable que tenga asociado un coeficiente muy alto, en valor
absoluto), mientras que una mala variable predictora ser aquella
que genere una curva sin pendiente o con muy poca pendiente (es
decir, que tenga asociado un coeficiente B1 prximo a 0, en valor
absoluto).
El objeto de anlisis de regresin logstica es encontrar las

variables con mayor (en valor absoluto) coeficiente asociado.
229
Supongamos, por simplicidad, que para clasificar a un sujeto

como votante o abstencionista se decide establecer como
punto de corte el valor de probabilidad 0,5.
0,5
Los sujetos con un pronstico

menor o igual que 0,5 son
clasificados como votantes
1
mayor que 0,5 son clasificados
como abstencionista
Una buena variable predictora (podra decirse ptima) ser aquella

que permita obtener pronsticos (probabilidades) iguales a 0 para el
suceso Y=0 y pronsticos iguales a 1 para el suceso Y=1 .
230

Utilizando los datos de la tabla ( software SPSS) del ejemplo;
Variables en la ecuacin
Paso
a
1
LEE
Constante
B
1,192
-1,094
E.T.
,186
,080
Wald
41,258
187,316
gl
1
1
Sig.
,000
,000
Exp(B)
3,293
,335
a. Variable(s) introducida(s) en el paso 1: LEE.
la ecuacin de regresin logstica toma la forma :
P (Y 1)
Donde
1
1 e
Y=0 S vot
Y=1 No vot
B0 B1 X
1
1 e
( 1,094 1,192 X )
X=0 S lee
X=1 No lee
231

En el caso de que un encuestado no lea el peridico , la
probabilidad pronosticada por la ecuacin de regresin
logstica para la categora No vot vale:
P(Y 1 X 1)
1
1 e
1,094 1,192 1
0,5245
0,098
1 e
Y en el caso de que un encuestado lea el peridico, la probabilidad

pronosticada para la categora No vot vale:
P Y 1 X 0 =
1
1 e
1,094 1,192 0
0, 2509
1,094
1 e
232

Por tanto, a partir de los pronsticos derivados de la ecuacin de
regresin logstica, se puede afirmar que, entre los sujetos que
manifiestan no leer el peridico, la probabilidad de abstencin en las
elecciones es mayor (aproximadamente el doble) que entre los
sujetos que manifiestan leer el peridico.
Es muy importante tener en cuenta que los pronsticos

obtenidos con la ecuacin de regresin logstica siempre
se refieren a una de las dos categoras de la variable
dependiente: aquella codificada con el valor mayor y que
es la que el procedimiento Regresin logstica codifica
internamente con el valor 1. En el ejemplo, la categora
No vot.
233

Cmo interpretar los coeficientes de un modelo de regresin logstica? Ya se
ha dicho que
P(Y 0) 1 P (Y 1)
Dividiendo la probabilidad de uno de los sucesos por su probabilidad
complementaria y simplificando se obtiene el cuociente denominado la ventaja
(odds) del suceso Y=1 frente al suceso Y=0 :
1/ 1 e
B0 B1 X
P Y 1
B B X
P Y 0
11/ 1 e 0 1
e B0 B1 X
La ventaja de un suceso es el cuociente entre la

probabilidad de que el suceso ocurra y la probabilidad
de que no ocurra
234

Tomando el logaritmo neperiano de la ventaja se obtiene la
transformacin logit:
P Y 1
ln
B
X
0
1
P
Y
Este modelo se ajusta a un modelo de regresin lineal. Por tanto, el

coeficiente de regresin de un modelo logstico puede interpretarse
como el cambio que se produce en la transformacin logit (en el
logaritmo de la ventaja del suceso Y = 1) por cada unidad de
cambio que se produce en la variable independiente.
Un coeficiente positivo debe interpretarse como un incremento
en la probabilidad que el individuo tome el valor 1 debido a una
variacin unitaria en la variable, mientras que un valor negativo
debe interpretarse como una disminucin en la misma
235
probabilidad

Con los datos del ejemplo, la transformacin logit del suceso No
vot (Y = 1), cuando el encuestado Lee el peridico (X = 0) vale:
P Y 1
ln
X 0
P Y 0 X 0
0, 2509
ln 0,335 1, 094
1
0,
2509
B0 ln
Y la transformacin logit del suceso No vot cuando el encuestado

No lee el peridico (X = 1) vale:
P Y 1
ln
X
P Y 0 X
1
0,5245
B0 B1 ln
ln 1,103 0, 098
1
1 0,5245
Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del
coeficiente:
B1 0, 098 1, 094 1,192
236

As, en el modelo de regresin logstica, el coeficiente de regresin
asociado a una variable independiente representa el cambio
producido en la transformacin logit por unidad de cambio en
la variable independiente.
Es preferible interpretar directamente el cambio en las ventajas y no
en los logaritmos de las ventajas. Volviendo a la expresin de la
ventaja:
P Y 1
P Y 0
e B0 B1 X e B0 e B1 X
Se ve claramente que una ventaja se puede expresar en trminos

de potencias del nmero e. Por ello se suele informar del valor
exponencial de los coeficientes de regresin.
237

En los resultados de la regresin logstica se incluye tanto el valor del
coeficiente de regresin (B) como el de Exp(B) . En el ejemplo, la ventaja
del suceso No vot cuando el encuestado No lee el peridico vale
1,103, mientras que la ventaja de ese mismo suceso cuando el encuestado
S lee el peridico vale 0,335.
Si se expresa el cambio proporcional de la ventaja en trminos

de un cociente (como una razn) se obtiene
1,103/0,335 = 3,293, que es justamente el valor de Exp(B). A
este cambio proporcional se le denomina razn de las ventajas
(odds ratio en ingls), dado que es el resultado de dividir dos
ventajas. Y se interpreta en trminos del cambio
proporcional (ya sea aumento o disminucin) que se
produce en la ventaja del suceso o evento de inters (No
vota en el ejemplo) por cada unidad de cambio que se
produce en la variable independiente (VI).
238
El problema de la clasificacin
Una ecuacin de regresin logstica raramente arroja pronsticos
con valores 0 y 1, es decir, raramente genera una curva en forma
de escaln Lo habitual es encontrar que la probabilidades
pronosticadas adoptan valores comprendidos entre 0 y 1.
Este es el motivo que obliga a tener que establecer un punto
de corte para poder tomar la decisin de clasificar a los
sujetos en uno u otro grupo a partir de las probabilidades
pronosticadas.
Cuando la variable independiente es dicotmica, como en el
ejemplo, establecer el punto de corte es una tarea bastante
sencilla. Puesto que una variable dicotmica slo adopta dos
valores (en el ejemplo: 0 = Si lee el peridico y 1 = No lee el
peridico), slo es posible obtener dos pronsticos. (0,2509 y
0,5245).
239
Tambin se ha visto que la probabilidad del suceso No vot

vale 0,291 As parece razonable pensar que el punto del corte
debera encontrarse entre las dos probabilidades pronosticadas;
ese punto de corte bien podra ser, por ejemplo 0,291.
0
0,291
menor o igual que el punto de
corte son clasificados en el
grupo que s votan
1
mayor que el punto de corte
son clasificados en el grupo
que no votan
240
En los modelos con ms de una variable independiente se

incrementa el nmero de valores distintos que es posible
pronosticar
Existen dos caminos alternativos para determinar el punto de
corte ptimo, es decir, para encontrar cul es el valor (la
probabilidad) a partir del cual se consigue diferenciar al mximo a
los sujetos de uno y otro grupo y, consecuentemente, para
efectuar la mejor clasificacin posible.
El primero de estos caminos

consiste en generar mltiples
tablas de clasificacin variando
en cada una de ellas el punto de
corte hasta optimizar el
porcentaje de casos
correctamente clasificados.
El segundo camino para

determinar el punto de corte
ptimo consiste en utilizar la
curva COR.
241
Tablas de clasificacin con distintos valores de corte

Tabla de clasificacina
Pronosticado
Paso 1
Observado
Vot en 1992?
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje global
Porcentaje
correcto
90,2
26,4
71,6
a. El valor de corte es ,500
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje
correcto
90,2
26,4
71,6
242
Pronosticado
Paso 1
Observado
Vot en 1992?
S vot
No vot
Vot en 1992?
S vot
No vot
624
68
209
75
Porcentaje global
Porcentaje
correcto
90,2
26,4
71,6
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
0
692
0
284
Porcentaje
correcto
,0
100,0
29,1
243
Regresin logstica mltiple

Nos interesa interpretar un anlisis de regresin logstica utilizando ms de
una variable independiente.
Voto
Leer
Edad
Hijos
Educ
Ingfam91
Consideremos la misma variable dependiente que en el primer

ejemplo (voto) y, adems de la variable independiente all utilizada
(leer), otras cuatro nuevas: edad (Edad del encuestado), hijos
(Nmero de hijos), educ (Aos de escolarizacin) e ingfam91
(Ingresos familiares en 1991)
244
Estadstico de puntuacin de Rao

La tabla siguiente contiene los valores del estadstico de
puntuacin de Rao. Este estadstico mide la contribucin
individual de cada variable a la mejora del ajuste global del modelo.
El nivel crtico (Sig) asociado a cada estadstico indica qu variables
contribuyen significativamente al ajuste. Puede verse que,
exceptuando la variable hijos, todas las variables incluidas en el
anlisis son significativas; por tanto, buenas candidatas para formar
parte del modelo de regresin. La ltima lnea, Estadsticos
globales, contiene una valoracin global de todas las variables
independientes tomadas juntas.
Variables que no estn en la ecuacin
Paso
0
Variables
Estadsticos globales
LEE
EDAD
EDUC
INGFAM91
HIJOS
Puntuacin
45,137
20,956
60,910
53,935
,188
136,954
gl
1
1
1
1
1
5
Sig.
,000
,000
,000
,000
,664
,000
245
El estadstico chi-cuadrado
Pruebas omnibus sobre los coeficientes del modelo
Paso 1
Paso
Bloque
Modelo
Chi-cuadrado
143,754
143,754
143,754
gl
5
5
5
Sig.
,000
,000
,000
El estadstico chi-cuadrado permite contrastar la hiptesis de

que el incremento obtenido en el ajuste global del modelo es
nulo. Este estadstico sirve para determinar si, al introducir las
cinco variables independientes en el modelo, se consigue un
incremento significativo del ajuste global. Este incremento se
valora tomando como punto de referencia el modelo nulo.
Puesto que el modelo se construye en un nico paso (pues se
est utilizando el mtodo introducir; ver siguiente apartado),
todas las secciones de tabla informan del mismo valor; la mejora
respecto al modelo nulo, es decir, respecto al modelo del paso 0
(Chi-cuadrado = 143,754). En el ejemplo, esta mejora es
significativa:
246
Resumen de los modelos
Paso
1
-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
a
970,392
,143
R cuadrado
de
Nagelkerke
,205
a. La estimacin ha finalizado en el nmero de

iteracin 5 porque las estimaciones de los
parmetros han cambiado en menos de ,001.
La tabla ofrece un resumen del modelo. Contiene tres

estadsticos que permiten valorar el ajuste global del modelo en
el paso 1, es decir, del modelo que incluye todas las variables.
Los parmetros estn estimados a travs del mtodo de mxima
verosimilitud (-2LL), de modo que sus valores tendern a 0 si la
verosimilitud tiende a mxima y al revs si sta es baja.En el
ejemplo se observa un un bajo ajuste del modelo a los datos.
Este resultado queda corroborado con el estadstico de Cox y
Snell, que se interpreta de la misma forma que el coeficiente de
determinacin de un modelo de regresin lineal.
247
Matriz de confusin
Pronosticado
Paso 1
Observado
Vot en 1992?
Porcentaje global
S vot
No vot
Vot en 1992?
S vot
No vot
615
54
189
76
Porcentaje
correcto
91,9
28,7
74,0
La tabla muestra la matriz de confusin con los resultados de la

clasificacin.
Aunque no es posible mejorar el porcentaje global de
clasificacin correcta sin incluir nuevas variables independientes,
si es posible equilibrar la tasa de aciertos en los dos grupos
manipulando el punto de corte utilizado en la clasificacin.
248
Variables en la ecuacin
Paso
a
1
LEE
EDAD
EDUC
INGFAM91
HIJOS
Constante
B
,671
-,034
-,192
-,056
,018
3,636
E.T.
,207
,006
,032
,016
,051
,526
Wald
10,468
36,188
35,276
12,722
,125
47,706
gl
1
1
1
1
1
1
Sig.
,001
,000
,000
,000
,723
,000
Exp(B)
1,956
,967
,825
,945
1,018
37,957
a. Variable(s) introducida(s) en el paso 1: LEE, EDAD, EDUC, INGFAM91, HIJOS.
La tabla muestra las estimaciones de los coeficientes (B) del

modelo y los datos necesarios para valorar su significacin e
interpretarlos.
La significacin de cada coeficiente se evala a partir del
estadstico de Wald. Este estadstico permite contrastar la
hiptesis nula de que el coeficiente vale cero en la
poblacin y se obtiene elevando al cuadrado el cociente
entre el valor estimado del coeficiente (B) y su error tpico
(error tip).
249
Estadstico de Wald
Estadstico de Wald
Coeficiente
E.estndar
Es un estadstico similar a una t2. Cuando el nivel crtico

(Sig.) asociado al estadstico de Wald es menor que 0,05, se
puede rechazar la hiptesis nula y, por tanto, concluir que la
correspondiente variable independiente est
significativamente relacionada con la variable dependiente.
Un inconveniente de este estadstico es que es demasiado
sensible al tamao de los coeficientes; en general, cuando el
valor de un coeficiente es muy grande (en valor absoluto) el
estadstico de Wald es poco fiable. En estos casos es
preferible evaluar la significacin de las variables utilizando
un mtodo por pasos
250
Razn de las ventajas

La columna de la razn de las ventajas, Exp(B), permite
cuantificar en qu grado aumenta la abstencin cuando los
sujetos no leen el peridico (y se mantienen constantes las
restantes variables). Puesto que el punto de comparacin es el
valor 1 y el Exp(B) de la variable leer vale 1,956, se puede
concluir que la ventaja de la abstencin entre los sujetos que no
leen el peridico es aproximadamente el doble que entre los que
s lo leen.
El signo negativo del resto de los coeficientes indica que el
incremento en cualquiera de las dems variables disminuye la
probabilidad de que un sujeto no vote: la abstencin es menos
probable a medida que aumentan la edad, los ingresos familiares
y los aos de escolarizacin.
251
Anlisis de regresin logstica por pasos

Cuando, se dispone de ms de una variable independiente,
existen varios mtodos para seleccionar la variable o
variables que deben formar parte del modelo final.
El mtodo de introduccin forzosa hace que el modelo de regresin

incluya todas las variables independientes seleccionadas.
Los mtodos de seleccin por pasos permiten utilizar criterios
estadsticos para, de forma automtica, incluir en el modelo las
variables que son significativas y dejar fuera las que no lo son.
Los mtodos de seleccin por bloques permiten al usuario manipular
la inclusin y/o exclusin de variables mediante la combinacin
secuenciada de distintos procedimientos, pudiendo generar modelos
jerrquicos.
252
Regresin logstica multinomial

La opcin Regresin logstica multinomial resulta til en aquellas
situaciones en las que desee poder clasificar a los sujetos segn
los valores de un conjunto de variables predictoras. Este tipo de
regresin es similar a la regresin logstica, pero ms general, ya
que la variable dependiente no est restringida a dos categoras.
Ejemplo. Para conseguir una produccin y distribucin de
pelculas ms eficaz, los estudios de cine necesitan predecir qu
tipo de pelculas es ms probable que vayan a ver los
aficionados. Mediante una regresin logstica multinomial, el
estudio puede determinar la influencia que la edad, el sexo y las
relaciones de pareja de cada persona tienen sobre el tipo de
pelcula que prefieren. De esta manera, el estudio puede orientar
la campaa publicitaria de una pelcula concreta al grupo de la
poblacin que tenga ms probabilidades de ir a verla.
253
Regresin logstica versus anlisis discriminante

La regresin logstica se puede aplicar a un rango ms amplio de
situaciones de investigacin que el anlisis discriminante.
El anlisis discriminante resulta til para las situaciones en las que
se desea construir un modelo predictivo para pronosticar el grupo de
pertenencia de un caso a partir de las caractersticas observadas de
cada caso. El procedimiento genera una funcin discriminante (o,
para ms de dos grupos, un conjunto de funciones discriminantes)
basada en combinaciones lineales de las variables predictoras que
proporcionan la mejor discriminacin posible entre los grupos. Las
funciones se generan a partir de una muestra de casos para los que
se conoce el grupo de pertenencia; posteriormente, las funciones
pueden ser aplicadas a nuevos casos que dispongan de medidas
para las variables predictoras pero de los que se desconozca el
grupo de pertenencia.
254
Datos. La variable de agrupacin debe tener un nmero limitado de
categoras distintas, codificadas como nmeros enteros. Las
variables independientes que sean nominales deben ser
recodificadas a variables dummy o de contraste.
Supuestos. Los casos deben ser independientes. Las variables
predictoras deben tener una distribucin normal multivariada y las
matrices de varianzas-covarianzas intra-grupos deben ser iguales en
todos los grupos. Se asume que la pertenencia al grupo es
mutuamente exclusiva (es decir, ningn caso pertenece a ms de un
grupo) y exhaustiva de modo colectivo (es decir, todos los casos son
miembros de un grupo). El procedimiento es ms efectivo cuando la
pertenencia al grupo es una variable verdaderamente categrica; si
la pertenencia al grupo se basa en los valores de una variable
continua (por ejemplo, un cociente de inteligencia alto respecto a
uno bajo), deber considerar el uso de la regresin lineal para
aprovechar la informacin ms rica ofrecida por la propia variable
255
continua.
Anlisis Factorial
Datos y supuestos
Tcnica del anlisis factorial
Fases del anlisis factorial
Matriz de correlaciones
Extraccin de factores
Mtodos de Rotacin
Puntuaciones factoriales
256
Anlisis Factorial
El anlisis factorial es una tcnica de reduccin de datos que
sirve para encontrar grupos homogneos de variables a partir
de un conjunto numeroso de variables.
v1, v2, v3,.vn
v1, v5,v7
v2,v8,v10.
V3,v4,v9..
Esos grupos homogneos se forman con las variables que

correlacionan mucho entre s y procurando, inicialmente, que
unos grupos sean independientes de otros.
257
Datos y supuestos
Objetivo
Buscar el nmero mnimo de dimensiones capaces de explicar el
mximo de informacin contenida en los datos.
Variables
En el anlisis factorial no existe variable dependiente. Todas las
variables del anlisis tienen el mismo rango: todas ellas son
independientes en el sentido de que no existe a priori una
dependencia conceptual de unas variables sobre otras.
Las variables deberan ser cuantitativas a nivel de intervalo o
de razn. Los datos categricos (como la religin o el pas de
origen) no son adecuados para el anlisis factorial.
258
Datos y supuestos
Supuestos
Los datos han de tener una distribucin normal bivariada para
cada pareja de variables, y las observaciones deben ser
independientes.
Ejemplo
Qu actitudes subyacentes hacen que las personas
respondan a las preguntas de una encuesta poltica de la
manera en que lo hacen? Con el anlisis factorial, se puede
investigar el nmero de factores subyacentes y, en muchos
casos, se puede identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las
puntuaciones factoriales para cada encuestado, que pueden
utilizarse en anlisis subsiguientes.
259
Tcnica del anlisis factoriaI.

Cada variable aparece como combinacin lineal de una serie
de factores
X i Ai1 F1 Ai 2 F2 Ai 3 F3 ..... Aik Fk U i

donde F son los factores comunes a todas las variables y U es el factor
nico referido a la parte de la variable i que no puede ser explicada por
los factores comunes. Las A, son los coeficientes de cada uno de los
factores. Los factores nicos se asume que estn incorrelacionados con
el resto de factores nicos y con los factores comunes.
Cada factor es una combinacin lineal de las variables originales
F j W j1 X 1 W j 2 X 2 W j 3 X 3 ..... Wip X p
Wj son los coeficientes de las puntuaciones factoriales
P es el nmero de variables
260
Fases del Anlisis factorial

El anlisis factorial consta de cuatro fases caractersticas:
El clculo de una matriz capaz de expresar la variabilidad conjunta de
todas las variable.
La extraccin del nmero ptimo de factores.
La rotacin de la solucin para facilitar su interpretacin.
La estimacin de las puntuaciones de los sujetos en las nuevas
dimensiones.
Para ejecutar correctamente un anlisis factorial es necesario tomar
algunas decisiones en cada una de estas fases.
261
Ejemplo
Analicemos, por ejemplo, la pregunta del cuestionario cuyos
datos recoge el archivo trabajo.sav y referida a la evaluacin
por parte de los encuestados de la importancia que segn su
opinin pueden tener cada una de las causas que se
enumeran, en el alto ndice de paro en un pas.
B13: La crisis econmica.
B14: La poltica de empleo del gobierno.
B15: La mala gestin de los empresarios.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B17: La falta de preparacin del trabajador.
B18: Las pocas ganas de trabajar de la gente.
B19: El no saber buscar trabajo.
B20: Que hay mucho pluriempleo.
B21: Que el trabajo que hay no se reparte bien socialmente.
262
El modelo matemtico que subyace a esta tcnica es similar

al de la regresin simple y en l cada variable aparece como
combinacin lineal de una serie de factores que no son en
este momento observables. Por ejemplo, B13 (la crisis
econmica) puede aparecer expresada como:
B13 = a(sujeto) + b(externos al sujeto) + c(entorno) + UB13
donde sujeto, externos al sujeto y entorno no son variables
independientes sino grupos de variables desconocidas por
nosotros a priori, que pueden ser los factores subyacentes y
que hemos denominado sujeto como factor que puede
englobar las variables referidas a causas del paro inherentes
al propio sujeto, externas al sujeto, en donde estaran como
causantes del paro el gobierno y los empresarios, por ejemplo,
y el entorno en donde bien podran estar la crisis econmica
y el reparto del trabajo.
263
Descriptivos
Estadsticos descriptivos
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Media
3,93
3,91
3,53
3,02
2,92
2,85
2,77
3,57
3,87
Desviacin
tpica
,882
,933
1,005
1,133
1,086
1,203
1,099
1,005
,877
N del anlisis
1009
1009
1009
1009
1009
1009
1009
1009
1009
Figura 1
264
Matriz de correlaciones
Matriz de correlacionesa
Correlacin
Sig. (Unilateral)
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
1,000
,397
,185
-,120
-,003
-,157
-,101
,019
,084
,000
,000
,000
,457
,000
,001
,273
,004
Poltica de
empleo
,397
1,000
,202
-,077
-,050
-,104
-,078
,054
,103
,000
,000
,007
,057
,000
,006
,044
,001
Empresarios
,185
,202
1,000
,028
-,010
-,024
,044
,101
,161
,000
,000
,185
,373
,221
,082
,001
,000
Comodidad
-,120
-,077
,028
1,000
,336
,559
,387
,214
,043
,000
,007
,185
,000
,000
,000
,000
,087
Preparacin
-,003
-,050
-,010
,336
1,000
,425
,345
,115
,045
,457
,057
,373
,000
,000
,000
,000
,077
Ganas de
trabajar
-,157
-,104
-,024
,559
,425
1,000
,451
,195
,071
,000
,000
,221
,000
,000
,000
,000
,012
Bsqueda
-,101
-,078
,044
,387
,345
,451
1,000
,231
,134
,001
,006
,082
,000
,000
,000
,000
,000
Pluriempleo
,019
,054
,101
,214
,115
,195
,231
1,000
,376
,273
,044
,001
,000
,000
,000
,000
Reparto
,084
,103
,161
,043
,045
,071
,134
,376
1,000
,004
,001
,000
,087
,077
,012
,000
,000
,000
a. Determinante = ,240
Figura 2
Es importante que todas las variables tengan al menos un coeficiente de
correlacin significativo en la matriz.
265
El ndice KMO
Inversa de la matriz de correlaciones
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Figura 3
Crisis
1,239
-,441
-,134
,061
-,115
,138
,059
-,008
-,049
Poltica de
empleo
-,441
1,223
-,153
,014
,034
,024
,048
-,043
-,059
Empresarios
-,134
-,153
1,086
-,063
,032
,054
-,058
-,038
-,128
Comodidad
,061
,014
-,063
1,548
-,148
-,674
-,207
-,160
,080
Preparacin
-,115
,034
,032
-,148
1,290
-,376
-,231
,005
,005
Ganas de
trabajar
,138
,024
,054
-,674
-,376
1,740
-,361
-,067
-,027
Bsqueda
,059
,048
-,058
-,207
-,231
-,361
1,380
-,144
-,086
Pluriempleo
-,008
-,043
-,038
-,160
,005
-,067
-,144
1,247
-,427
Reparto
-,049
-,059
-,128
,080
,005
-,027
-,086
-,427
1,201
KMO y prueba de Bartlett

Medida de adecuacin muestral de
Kaiser-Meyer-Olkin.
Prueba de esfericidad
de Bartlett
Chi-cuadrado
aproximado
gl
Sig.
,712
1434,418
36
,000
Figura 4
En la tabla tenemos la inversa de la matriz de correlaciones, los KMO
(Kaiser-Meyer-Olkin) y el test de Bartlett. Este ltimo, es decir, el test de
Bartlett, se utiliza para verificar si la matriz de correlaciones es una matriz de
identidad, es decir, si todos los coeficientes de la diagonal son iguales a la
unidad y los externos a la diagonal iguales a O.
266
El ndice KMO
Este estadstico se obtiene a partir de la transformacin X2 del
determinante de la matriz de correlaciones y cuanto mayor sea y
por
tanto menor el grado de significacin, ms improbable que la
matriz sea una matriz de identidad. En el ejemplo, con un valor
1434,418 y un grado de significacin p = 0,000 resulta evidente
que no se trata de una matriz de identidad.
En el supuesto de que no se pudiese rechazar esta
hiptesis, se desaconseja proceder a realizar un anlisis
factorial con los datos.
267
El ndice KMO
El ndice KMO nos compara los coeficientes de correlacin de
Pearson obtenidos en la Figura 2 con los coeficientes de
correlacin parcial entre variables. Se obtiene
KMO
2
r
ij
i j
2
ij
r a
i j
i j
2
ij
rij el coeficiente de correlacin de Pearson entre las variables i y j y

aij es el coeficiente de correlacin parcial entre las variables i y j.
268
El ndice KMO
Si la suma de los coeficientes de correlacin parcial al cuadrado es
muy pequea, KMO ser un ndice muy prximo a la unidad y por
tanto el anlisis factorial un procedimiento adecuado. En cambio,
valores pequeos en este ndice nos dan a entender todo lo
contrario. De hecho para Kaiser :
1 KMO > 0,90 son considerados excelentes.
0,90 KMO > 0,80 son considerados buenos.
0,80 KMO > 0,70 son considerados aceptables.
0,70 KMO > 0,60 son considerados mediocres o regulares.
0,60 KMO > 0,50 son considerados malos.
KMO < 0,50 son considerados inaceptables o muy malos.
En el ejemplo este valor es de 0,712 y por tanto se puede
considerar como aceptable y continuar con el anlisis
factorial.
269
Matrices anti-imagen
Poltica de
empleo
Empresarios
Comodidad
Preparacin
Ganas de
trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Crisis
Correlacin anti-imagen
Covarianza anti-imagen
Matrices anti-imagen
,807
-,291
-,100
,032
-,072
,064
,034
-,005
-,033
,601a
-,358
-,116
,044
-,091
,094
,045
-,006
-,040
-,291
,818
-,115
,007
,022
,011
,028
-,028
-,040
-,358
,609a
-,132
,010
,027
,016
,037
-,034
-,048
-,100
-,115
,921
-,038
,023
,029
-,039
-,028
-,098
-,116
-,132
,690a
-,049
,027
,039
-,047
-,033
-,112
,032
,007
-,038
,646
-,074
-,250
-,097
-,083
,043
,044
,010
-,049
,744a
-,104
-,411
-,142
-,115
,058
-,072
,022
,023
-,074
,775
-,168
-,130
,003
,003
-,091
,027
,027
-,104
,791a
-,251
-,173
,004
,004
,064
,011
,029
-,250
-,168
,575
-,151
-,031
-,013
,094
,016
,039
-,411
-,251
,721a
-,233
-,046
-,019
,034
,028
-,039
-,097
-,130
-,151
,725
-,083
-,052
,045
,037
-,047
-,142
-,173
-,233
,816a
-,109
-,067
-,005
-,028
-,028
-,083
,003
-,031
-,083
,802
-,285
-,006
-,034
-,033
-,115
,004
-,046
-,109
,669a
-,349
-,033
-,040
-,098
,043
,003
-,013
-,052
-,285
,833
-,040
-,048
-,112
,058
,004
-,019
-,067
-,349
,591a
Figura 5
a. Medida de adecuacin muestral
En la Figura 5 tenemos las matrices anti-imagen de covariancias y

correlaciones entre todas las variables del ejemplo. Sern los negativos
de los coeficientes de correlacin parcial entre cada par de variables,
neutralizando el efecto de todas las restantes. Interesan por tanto
coeficientes cuanto ms pequeos, mejor.
270
En la diagonal de esta ltima tenemos los coeficientes MSA

(Measures of Sampling Adequacy) que vienen a ser los KMO
pero en este caso para cada variable por separado. La
interpretacin de sus valores es idntica a la realizada para los
KMO.
En resumen, tenemos:
Coeficientes de correlacin de Pearson que en la mayora de los casos son

altamente significativos.
El determinante de la matriz de correlaciones (0,240) relativamente bajo.
El ndice KMO = 0,712 bastante aceptable.
El resultado del test de Bartlett con un 2 = 1434,418 Y p = 0,000.
Valores muy bajos en la matrices anti-imagen,
MSA bastante altos en la diagonal de la matriz de correlaciones anti-imagen.
Todo ello nos lleva a concluir que el anlisis factorial que sigue a continuacin
resulta a priori pertinente y puede proporcionamos conclusiones satisfactorias.
271
Extraccin de factores
Mtodo. Permite especificar el mtodo de extraccin factorial. Los
mtodos disponibles son: Componentes principales, Mnimos
cuadrados no ponderados, Mnimos cuadrados generalizados,
Mxima verosimilitud, factorizacin de Ejes principales, factorizacin
Alfa y factorizacin Imagen.
En SPSS el sistema coge por defecto el mtodo de componentes
principales que es el que hemos utilizado en esta primera parte del
ejemplo.
272
Componentes principales (PC)

Consiste bsicamente en llevar a cabo una combinacin
lineal de todas las variables de modo que el primer
componente principal sea una combinacin que explique
la mayor proporcin de variancia de la muestra, el
segundo la segunda mayor y que a su vez est
incorrelacionado con el primero, y as sucesivamente
hasta tantos componentes como variables.
El mtodo de extraccin de componentes principales,
es el que acta por defecto, asume que es posible
explicar el 100% de la varianza observada y, por ello,
todas las comunalidades iniciales son iguales a la
unidad (que es justamente la varianza de una variable
en puntuaciones tpicas).
273
Comunalidades
Comunalidades
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
Inicial
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Extraccin
,644
,620
,329
,592
,523
,684
,519
,646
,693
La comunalidad de una variable es

la proporcin de su varianza que
puede ser explicada por el modelo
factorial obtenido.
Mtodo de extraccin: Anlisis de Componentes principales.
Figura 6
En la Figura 6 tenemos las comunalidades iniciales de la solucin

de componentes principales. Estos resultados se obtienen si en el
subcuadro de dilogo Descriptives de la Figura 2 y dentro de
Statistics seleccionamos Initial Solution. Si utilizamos tantos
componentes principales como variables, cada variable puede ser
explicada por ella misma y por tanto toda la variabilidad de cada
variable, que expresada en unidades de desviacin estandarizadas
es igual a la unidad, explicada a su vez por los factores comunes.
Esta es la razn por la que en la Figura 6 la comunalidad inicial es
274
igual a la unidad para todas las variables.
Valores propios
La decisin respecto al nmero de factores que deseamos para
representar los datos puede adoptarse desde una doble va que
es la que aparece en el subcuadro de dilogo Extraction. Por
defecto el sistema extraer tantos factores como haya en la
solucin inicial con valores propios (eigenvalues) superiores a la
unidad. En la Figura 7 vemos que hay tres factores con valores
propios superiores a 1 y que en definitiva ser el nmero que
extraer el sistema. Evidentemente, podemos cambiar el valor
por defecto correspondiente al eigenvalue. La segunda
posibilidad corresponde al botn de radio Number of factors y
consiste sencillamente en fijar un nmero entero determinado de
factores, siempre inferior, lgicamente, al nmero de variables.
Los autovalores (o valores propios) expresan la cantidad de
la varianza total que est explicada por cada factor; y los
porcentajes de varianza explicada asociados a cada factor se
obtienen dividiendo su correspondiente autovalor por la
suma de los autovalores (la cual coincide con el nmero de
variables
275
Matriz Varianza total explicada

Varianza total explicada
Componente
1
2
3
4
5
6
7
8
9
Autovalores iniciales
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
,848
9,426
67,747
,705
7,834
75,580
,616
6,842
82,422
,597
6,629
89,051
,568
6,314
95,365
,417
4,635
100,000
Sumas de las saturaciones al cuadrado

de la extraccin
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
Suma de las saturaciones al cuadrado

de la rotacin
% de la
Total
varianza
% acumulado
2,274
25,265
25,265
1,553
17,252
42,518
1,422
15,802
58,320
Mtodo de extraccin: Anlisis de Componentes principales.
Figura 7
La Figura 7 recoge, en porcentajes individuales y acumulados, la

proporcin de variancia total explicada por cada factor, tanto para la
solucin no rotada como para la rotada. En concreto, qu porcentaje
supone 2,449 sobre el total de variabilidad (nueve en el ejemplo) de
toda la muestra. Los tres factores incluidos en el modelo son capaces
de explicar exactamente un 58,32 por 100 de la variabilidad total, lo
que puede interpretarse como un porcentaje aceptable.
276
Grfico de sedimentacin
El grfico de sedimentacin
sirve para determinar el
nmero ptimo de factores.
Consiste simplemente en una
representacin grfica del
tamao de los autovalores.
Segn se ha sealado ya, los
autovalores indican la
cantidad de varianza que est
explicada por cada
componente principal
Figura 8
Tanto la tabla de porcentajes de varianza explicada como el grfico de
sedimentacin muestran los autovalores ordenados de mayor a menor: el
primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor
de los restantes, y as sucesivamente. Si un autovalor se aproxima a cero, esto
significa que el factor correspondiente a ese autovalor es incapaz de explicar
una cantidad relevante de la varianza total. Por tanto, un factor al que
corresponde un autovalor prximo a cero se considera un factor residual y
277
carente de sentido en el anlisis.
Matriz de componentes
Matriz de componentesa
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
1
-,229
-,185
,020
,748
,629
,804
,718
,436
,236
Componente
2
,640
,668
,569
-,036
,002
-,085
,045
,437
,551
3
,426
,373
,070
,177
,357
,174
,040
-,515
-,577
Mtodo de extraccin: Anlisis de componentes principales.

a. 3 componentes extrados
En la Figura 9 tenemos
los coeficientes
utilizados para expresar
cada variable
estandarizada en
trminos de los tres
factores del modelo.
Figura 9
Estos coeficientes se conocen tambin con el nombre de pesos factoriales,
cargas, ponderaciones factoriales o saturaciones factoriales ya que nos indican
la carga de cada variable en cada factor, de modo que los factores con unos
pesos factoriales ms elevados en trminos absolutos nos indican una relacin
estrecha con las variables.
278
El ideal desde el punto de vista del anlisis factorial es encontrar un
modelo en el que todas las variables saturen en algn factor, es
decir, pesos factoriales altos en uno y bajos en el resto. Por ejemplo
la variable B18 (Ganas de trabajar como posible explicacin del alto
ndice de desempleo en el pas) es una variable con una elevada
carga factorial en el primero de los factores y mucho ms pequea
en los dos restantes. Podramos expresar la variable B18 como:
B18 = 0,80408 F1 - 0,08519 F2 + 0,17407 F3
donde F1, F2 y F3 son los tres factores del modelo.
279
1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo
,804
,748
,718
,629
-,185
-,229
,020
,236
,436
Componente
2
-,085
-,036
,045
,002
,668
,640
,569
,551
,437
3
,174
,177
,040
,357
,373
,426
,070
-,577
-,515

Componente
2
1
Ganas de trabajar
Comodidad
Bsqueda
Preparacin
Poltica de empleo
Crisis
Empresarios
Reparto
Pluriempleo
,804
,748
,718
,629
-,185
-,229
,236
,436
3
,174
,177
,668
,640
,569
,551
,437
,357
,373
,426
-,577
-,515

En la Figura 9 aparecen ordenadas las variables tal y como estn en la base

de datos. La segunda tabla de esta figura es la que corresponde a la opcin
que hemos seleccionado en el subcuadro de dilogo Options al seleccionar
Sorted by size el sistema ordena las variables en la matriz de mayor a
menor peso o carga factorial y siempre comenzando por el primer factor,
posteriormente el segundo, y as sucesivamente. Finalmente la opcin del
mismo subcuadro de dilogo Suppress absolute values less than nos
permite una lectura todava ms clara de la matriz puesto que permite
eliminar de la misma aquellos coeficientes con valores inferiores a uno dado
(0,10 por defecto).
280
Para determinar en qu medida los tres factores son capaces de
explicar las variables originales, podemos sumar la proporcin de
variancia de la variable explicada por cada uno de ellos (es decir, los
coeficientes al cuadrado) y de este modo obtener las comunalidades
que aparecen en la diagonal de la Figura 10. Cojamos de nuevo la
variable B18 (Ganas de trabajar) y calculemos este sumatoria:
B 18 = 0,804082 + 0,085192 + 0,174072 = 0,68410
Casi el 70 por 100 de la variabilidad de B18 es explicada por los tres
factores
del modelo, en tanto que por ejemplo en la variable BI5 (Empresarios)
los mismos nicamente explican en torno al 33 por 100. Reiteramos
que esta proporcin de la variabilidad de cada variable explicada por
los factores del modelo es lo que se conoce con el nombre de
comunalidad de la variable. Obviamente su valor oscila entre 0 y 1 y
la parte de variancia no explicada por el modelo factorial, es decir, 1comunalidad, es lo que se conoce con el nombre de factor nico o
281
unicidad.
Rotacin
La finalidad de la rotacin es la de ayudamos a interpretar.
En el subcuadro de dilogo Rotacin existen varios
procedimientos.
VARIMAX, EQUAMAX y QUARTlMAX son procedimientos
ortogonales es decir que los factores se mantienen
incorrelacionados y los ejes forman ngulos rectos.
El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de
los denominados oblicuos o no ortogonales.
La rotacin no afecta a la comunalidad y al porcentaje de
variancia explicada por el modelo, aunque s puede
cambiar la de cada factor.
282
Mtodos de Rotacin
Varimax. Mtodo de rotacin ortogonal que minimiza el
nmero de variables que tienen saturaciones altas en cada
factor. Simplifica la interpretacin de los factores opti
mizando la solucin por columna.
Quartimax. Mtodo de rotacin ortogonal que minimiza el
nmero de factores necesarios para explicar cada variable.
Simplifica la interpretacin de las variables observadas
optimizando la interpretacin por filas.
Equamax. Mtodo de rotacin que es combinacin del
mtodo Varimax, que simplifica los factores, y del mtodo
Quartimax, que simplifica las variables. Se minimiza tanto el
nmero de variables que saturan alto en un factor como el
nmero de factores necesarios para explicar una variable.
283
Mtodos de Rotacin
Oblimin directo. Mtodo para la rotacin oblicua (no
ortogonal). Cuando delta es igual a cero (el valor por
defecto), las soluciones son las ms oblicuas. A medida que
delta se va haciendo ms negativo, los factores son menos
oblicuos. Para anular el valor por defecto de delta, puede
introducirse un nmero menor o igual que 0,8.
Delta. El valor de delta permite controlar el grado de
oblicuidad que pueden llegar a alcanzar los factores de la
solucin.
Promax. Rotacin oblicua que permite que los factores
estn correlacionados. Puede calcularse ms rpidamente
que una rotacin oblimin directa, por lo que es til para
grandes conjuntos de datos.
Kappa. Parmetro que controla el clculo de la rotacin
Promax. El valor por defecto es 4. Este valor es adecuado
284
para la mayora de los anlisis.
Matriz factorial
En resumen, todos los mtodos tratan de obtener una matriz
factorial que se aproxime al principio de estructura simple.
Segn este principio, la matriz factorial debe reunir las
siguientes caractersticas:
Cada factor debe tener unos pocos pesos altos y el resto

prximos a 0.
Cada variable no debe estar saturada mas que en un solo
factor.
No deben existir factores con la misma distribucin.
El mtodo utilizado en todos los casos ha sido el de
componentes principales. Todos ellos coinciden a grandes
rasgos en la siguiente asignacin:
285
Matriz factorial
Factor 1 Variables:
B18: Pocas ganas de trabajar de la gente.
B19: El no saber buscar trabajo.
Factor 2 Variables:
B 14: La poltica de empleo del gobierno.
B 13: La crisis econmica.
Factor 3 Variables:
286
Matriz de pesos factoriales

Matriz de componentes rotadosa
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,818
,765
,712
,688
-,090
-,067
,027
,014
,226
Componente
2
-,111
-,058
,085
-,056
,795
,784
,512
,129
,033
3
,055
,062
-,095
,205
-,059
,010
,257
,822
,771
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,813
,761
,716
,678
-,077
-,057
,023
-,019
,194
Componente
2
-,122
-,069
,077
-,068
,797
,785
,508
,117
,019
3
,088
,094
-,063
,233
-,051
,019
,265
,824
,780
Mtodo de rotacin: Normalizacin Quartimax con Kaiser.

a. La rotacin ha convergido en 5 iteraciones.
Mtodo de rotacin: Normalizacin Equamax con Kaiser.

Matriz de configuracin.a
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,815
,762
,715
,682
-,081
-,061
,024
-,008
,205
Componente
2
-,118
-,065
,080
-,064
,796
,785
,509
,120
,023
3
,076
,083
-,074
,224
-,053
,017
,263
,823
,777

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,813
,762
,740
,664
-,026
-,013
,028
-,091
,124
Componente
2
-,085
-,035
,122
-,048
,806
,790
,496
,056
-,028
3
-,014
-,021
,146
-,172
,106
,036
-,229
-,834
-,775

Metodo de rotacin: Normalizacin Oblimin con Kaiser.
287
Matriz de pesos factoriales

Matriz de configuracin.a
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
,815
,765
,751
,663
-,006
,005
,034
-,111
,105
Componente
2
-,068
-,019
,136
-,034
,804
,789
,497
,057
-,022
3
-,002
,009
-,154
,161
-,080
-,010
,246
,841
,776

Mtodo de rotacin: Normalizacin Promax con Kaiser.
Analizando someramente estos resultados, bien podra tratarse

de tres factores claramente diferenciados y referidos:
1) Al trabajador
2) Gobierno y empresarios
3) Reparto o redistribucin del trabajo
288
Grfico de componentes en espacio rotado

Grficamente podemos ver estos mismos resultados en la
Figura que corresponde al grfico tridimensional de la
solucin rotada VARIMAX y componentes principales.
289
290

Los valores de cada variable en las coordenadas
corresponden a los pesos factoriales de las mismas en
los ejes de cada factor. Pueden ser valores
comprendidos entre -1 y 1,(cuanto mayor sea esta
coordenada, ms contribuye a la formacin del eje, a la
inercia del mismo).
En realidad los planos factoriales estn situados en el
interior de un crculo de radio la unidad, y en ese
sentido lo ideal es que los puntos variables del
estudio no estn concentrados en torno al origen del
espacio bidimensional en este caso (0,0) sino prximos
al borde del crculo o de los ejes factoriales.
291

En concreto y referido a los resultados del ejemplo en el grfico de las dos
primeras dimensiones:
Las variables:
B18: Las pocas ganas de trabajar de la gente.
B 19: El no saber buscar trabajo.
BI3: La crisis econmica.
B14: La poltica de empleo del gobierno
Son las variables que estn mejor representadas sobre el plano.
En peor posicin estn las variables:
B 16, B 17, B 18 y B19 estn altamente correlacionadas entre si y a su vez
correlacionadas positivamente con el factor1 (estn situadas
B 13 y B14 lo mismo pero para el factor 2. Es negativa en cambio la relacin
con el primer factor.
292
Matriz de componentes rotados

El primer factor contrapone variables inherentes al propio
trabajador con variables referidas a la redistribucin del trabajo.
En el factor 2 son polticas de empleo y crisis econmica versus
reparto.
1
Ganas de trabajar
Comodidad
Preparacin
Bsqueda
Crisis
Poltica de empleo
Empresarios
Reparto
Pluriempleo
Componente
2
,815
-,118
,762
,715
,682
,796
,785
,509
,120
,205
,224
,263
,823
,777

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
Siguiendo con la idea de identificar

del mejor modo posible las
variables que en cualquier caso
tienen pesos factoriales ms
elevados o saturan ms en cada
uno de los factores , el sistema nos
posibilita eliminar de la matriz de
pesos factoriales y en las columnas
de los diversos factores, los pesos
de aquellas variables con un valor
inferior a uno determinado y que
por defecto es 0,10.
293
Puntuaciones factoriales
Puesto que la finalidad ltima del anlisis factorial es
reducir un gran nmero de variables a un pequeo
nmero de factores, es a veces aconsejable estimar
las puntuaciones factoriales de cada sujeto.
Matriz de coeficientes para el clculo de las
puntuaciones en las componentes
Crisis
Poltica de empleo
Empresarios
Comodidad
Preparacin
Ganas de trabajar
Bsqueda
Pluriempleo
Reparto
1
-,093
-,076
,008
,305
,257
,328
,293
,178
,096
Componente
2
,380
,397
,338
-,021
,001
-,051
,027
,259
,327
3
,382
,335
,063
,159
,320
,156
,036
-,462
-,518

Puntuaciones de componentes.
294
Nota: Aunque en la prctica el anlisis factorial

(AF) y el mtodo de componentes principales
(PC) se utilizan indistintamente y dan resultados
similares, conviene sealar que as como en el
anlisis de componentes principales el objetivo
consiste en encontrar una serie de
componentes que expliquen el mximo de
variancia total de las variables originales, el
objetivo del anlisis factorial es encontrar una
serie de factores que expliquen el mximo de
variancia comn de las variables originales.
295

Presentaci N Cursomultivariable 2012

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentaci N Cursomultivariable 2012

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE CHILE

MAGISTER EN GESTION Y POLITICAS PUBLICAS

La econometra se basa en mtodos

Cules son las funciones de la econometra?

Especificacin del modelo economtrico

0 int er sec cin con el eje Y

El coeficiente de la pendiente 1 representa la propensin marginal

La ecuacin (1), que afirma que el consumo est relacionado

Para tener en cuenta la existencia de una relacin

En la que u representa el trmino de perturbacin o de

Verificacin ( inferencia estadstica)

Utilizacin de los modelos para fines de control o

La regresin es una herramienta

Estructura de los datos econmicos

Conjunto de datos de corte transversal sobre salario

Conjunto de datos sobre las tasas de crecimiento

Datos de series de tiempo

Salario mnimo, desempleo y datos relacionados

Combinacin de cortes transversales

Combinaciones de cortes transversales:

Datos de panel o longitudinales

Conjunto de datos de panel de dos aos sobre

Nota: Los conjuntos de datos que incluyen la

Relaciones estadsticas vs. Relaciones determinsticas

En las relaciones estadsticas entre variables tratamos esencialmente

Por otra parte, en la dependencia funcional o determinstica tambin

Relaciones estadsticas vs. Relaciones determinsticas

En el anlisis de correlacin el objetivo principal es medir la

X1, X2, X3, . Xk

Introduccin al Anlisis Multivariante

El anlisis multivariable puede

El anlisis multivariable permite llevar a cabo la

Utilidad del Anlisis Multivariable

Los datos en el Anlisis Multivariable

Valores que toman

Los datos en el Anlisis Multivariable

Escalas no mtricas o cualitativas

Escalas mtricas o cuantitativas

Los datos en el Anlisis Multivariable

Los datos en el Anlisis Multivariable

anlisis obtener los datos

Los datos en el Anlisis Multivariable

Histogramas de cada variable

Los datos en el Anlisis Multivariable

Normalidad de las variables

Las tcnicas del Anlisis Multivariable

Las tcnicas del Anlisis Multivariable

Tcnicas aplicables cuando una o varias

Tcnicas de anlisis de la dependencia

Regresin lineal mltiple

Modelos de eleccin discreta

Anlisis de ecuaciones estructurales Mtrica

Anlisis con clases latentes

ANOVA (o anlisis de la varianza)

Anlisis con clases latentes

Tcnicas de anlisis de la interdependencia

Tcnicas de anlisis de la interdependencia.

Anlisis factorial y por Mtrica

Anlisis con clases latentes

La eleccin de una tcnica concreta

A la luz de lo expuesto en este apartado se deduce que la eleccin

Sigue un fin predictivo o clasificatorio?

TECNICAS DE ANLISIS DE LA DEPENDENCIA