SPSS 11.5 guía estadística y econométrica

UNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS

UNIDAD DE INFORMÁTICA
Director: Henry Martínez
Coordinadores: Mauricio Vergara Bravo

Oscar Javier Silva Romero
Analista de Sistemas: Peter Fonseca Buitrago
Programador: Álvaro Enrique Palacios Villamil
Trabajo presentado por:

LEONARDO ANDRÉS BAENA LEAL
PEDRO JULIÁN RAMÍREZ
Este trabajo es resultado del esfuerzo de todo el equipo perteneciente a la Unidad de Informática.
Se prohíbe la reproducción parcial o total de este documento, por cualquier tipo de método
fotomecánico y/o electrónico, sin previa autorización de la Universidad Nacional de Colombia.
UNIVERSIDAD NACIONAL COLOMBIA

1
SPSS 11.5, es un sistema amplio y flexible de análisis
estadístico y gestión de información que es capaz de trabajar
con datos procedentes de distintos formatos, generando desde
sencillos gráficos de distribuciones y estadísticos
descriptivos hasta análisis estadísticos complejos que nos
permitirán descubrir relaciones de dependencia e
interdependencia, establecer clasificaciones de sujetos y
variables, predecir comportamientos y otras cosas más. Su
aplicación fundamental, está orientada al análisis
multivariante de datos experimentales.
En el mundo de hoy, los análisis estadísticos y
econométricos, son la base fundamental de estudios
relacionados con diferentes áreas como el mercadeo, las
finanzas, la salud, la economía y otras ciencias aplicadas.
En este sentido, es de vital importancia contar con
herramientas computacionales capaces de soportar estudios
empíricos de gran envergadura y que se adapten a las
necesidades del investigador y del tipo de investigación que
se realiza. SPSS 11.5 es una de esas herramientas, capaz de
cubrir un gran espectro de información, y que además cuenta
con una completa serie de módulos especializados adaptando su
capacidad a la del investigador.
Como estudiantes de Ciencias Económicas, es realmente
importante el que no sólo conozcamos sino que también
aprendamos a utilizar de manera óptima este programa, ya que
en algún momento de nuestra formación académica o de nuestra
vida laboral será necesario: además, esto nos pone a la
vanguardia en sistemas informáticos y estadísticos que
actualmente se emplean en el mercado, lo que amplía nuestras
posibilidades de empleo. Por esta razón, el presente
documento constituye una guía no sólo para los estudiantes de
la Facultad de Ciencias Económicas sino también para aquellos
que estén interesados en aprender más sobre el programa en su
parte ESTADÍSTICA Y ECONOMÉTRICA, constituyendo además una
importante guía del conferencista en la enseñanza de un curso
libre.

2
En el presente trabajo, pretendemos abordar desde la parte
teórica relacionada a la Estadística y la Econometría, hasta
la parte operativa del programa en la que se empezará por una
explicación del módulo básico y los conocimientos necesarios
que los usuarios del programa deben adquirir antes de empezar
con el aprendizaje estadístico y econométrico.
Para cumplir con este objetivo, hemos decidido dividir la
investigación a partir de la creación de dos modelos
empíricos, uno Estadístico y otro Econométrico, a través de
los cuáles, se emplearán todas las herramientas analíticas
del programa, para posteriormente elaborar una guía de pasos,
con los cuáles el usuario aprenderá a emplear el programa en
sus investigaciones. Esperamos pues que este trabajo les sea
de gran utilidad y ayude en parte a su formación académica.

3
1 INTRODUCCIÓN ......................................................................................................... 2
2 TABLA DE CONTENIDO ............................................................................................ 4
3 MARCO TEÓRICO....................................................................................................... 7
ESTADÍSTICA DESCRIPTIVA............................................................................................. 7
Distribuciones de frecuencias: .................................................................................................................. 8
Medidas de tendencia central:................................................................................................................... 9
Medidas de dispersión............................................................................................................................. 10
Probabilidades......................................................................................................................................... 11
Medición de la probabilidad............................................................................................................... 13
ESTADÍSTICA INFERENCIAL ...........................................................................................15
Distribuciones de muestreo..................................................................................................................... 15
Intervalos de confianza ........................................................................................................................... 18
MODELO DE REGRESIÓN LINEAL..................................................................................23
Tomado de: ............................................................................................................................................. 23
www.uesiglo21.edu.ar/pdfs%20dpto%20economia/ microeconomia_Mirta_Santana/UNIDAD07.pdf 35
Expresión del modelo básico de regresión lineal:................................................................................... 23
Ejemplos de modelos econométricos ...................................................................................................... 24
Importancia de los parámetros en el modelo básico de regresión lineal ................................................. 25
Utilidades de los modelos econométricos ............................................................................................... 26
Clasificación de los modelos econométricos .......................................................................................... 27
En función de la aleatoriedad ............................................................................................................. 27
Según el tipo de datos de las variables utilizadas en el modelo: ........................................................ 28
Según el momento del tiempo al que hacen referencia se distingue entre: ........................................ 28
Según el número de variables endógenas que se desee explicar: ....................................................... 29
Según la transformación de los datos que se realice: ......................................................................... 29
Fases para la elaboración de un modelo econométrico ........................................................................... 30
Tipología de variables y datos en la modelación econométrica .............................................................. 31
REGRESIÓN LINEAL SIMPLE...........................................................................................33
MODELO DE REGRESIÓN LINEAL SIMPLE:.................................................................35
Supuestos básicos para el modelo de regresión lineal simple: ........................................................... 37
Consecuencias:................................................................................................................................... 37
Estimación puntual de los parámetros .................................................................................................... 38
Método de Mínimos Cuadrados: ........................................................................................................ 39
Propiedades de los estimadores por Mínimos Cuadrados: ............................................................ 41
Método de Máxima Verosimilitud: .................................................................................................... 43
Distribución de los parámetros α y β estimados..................................................................................... 44
Intervalos de confianza para los parámetros ........................................................................................... 45
Caso donde la varianza de los errores es desconocida: ...................................................................... 46
Caso en el que la varianza de los errores es conocida:....................................................................... 47
Predicción de un valor de Y para un valor dado de X............................................................................. 47
Predicción de un valor esperado......................................................................................................... 48
Descomposición de la variación muestral de Y: ..................................................................................... 50
4
Error estándar de la estimación: ......................................................................................................... 51
Coeficiente de determinación............................................................................................................. 51
Correlación......................................................................................................................................... 52
Test de hipótesis acerca de los parámetros ............................................................................................. 55
Test acerca de la pendiente................................................................................................................. 55
Caso de varianza conocida: ........................................................................................................... 56
Caso en que la varianza es desconocida: ....................................................................................... 56
Prueba F ............................................................................................................................................. 56
REGRESIÓN LINEAL MULTIPLE .....................................................................................57
Planteamiento del modelo....................................................................................................................... 58
Estimaciones por Mínimos Cuadrados.................................................................................................... 59
Medidas de Bondad del Ajuste: .............................................................................................................. 62
Error estándar de la estimación: ......................................................................................................... 62
Coeficiente de determinación múltiple: ............................................................................................. 62
Coeficiente de correlación múltiple: .................................................................................................. 62
Coeficiente de correlación parcial:..................................................................................................... 63
Inferencia acerca de los parámetros del modelo de regresión múltiple................................................... 64
Predicción ............................................................................................................................................... 66
Incumplimiento de los supuestos ............................................................................................................ 66
Multicolinealidad: .............................................................................................................................. 66
Heterocedasticidad: ............................................................................................................................ 68
Autocorrelación.................................................................................................................................. 69
Prueba de Durbin-Watson: ................................................................................................................. 71
4 MODELO ESTADÍSTICO.......................................................................................... 73
En SPSS, la mayoría de los cálculos estadísticos que se pueden realizar están basados en el proceso de
sintaxis. Para especificar los procesos que se pueden realizar mediante el editor de datos, solo
hablaremos de las Pruebas de Hipótesis, las cuales envuelven además algunos otros temas estadísticos
como los intervalos de confianza y las medidas de tendencia central..................................................... 73
ESTADÍSTICA DESCRIPTIVA............................................................................................................ 73
Análisis de Frecuencias...................................................................................................................... 74
Análisis Exploratorio ......................................................................................................................... 75
Tablas................................................................................................................................................. 78
Tablas básicas................................................................................................................................ 78
Tablas de Frecuencias ........................................................................................................................ 80
Medias................................................................................................................................................ 80
Comparación con una Media Empírica. ............................................................................................. 81
Prueba de Levene de Homogeneidad de Varianzas ........................................................................... 83
Comparación de muestras dependientes............................................................................................. 84
ANÁLISIS DE VARIANZA .................................................................................................................. 84
Anova de un factor............................................................................................................................. 84
5 MODELO ECONOMÉTRICO ................................................................................... 86
Caso 1 ..................................................................................................................................................... 86
Modelo de regresión lineal simple: ......................................................................................................... 87
Regresión Lineal Múltiple: ..................................................................................................................... 89
Caso 2 ..................................................................................................................................................... 92
Proceso de regresión en SPSS11.5 ..........................................................................................98
Correlación en SPSS:.............................................................................................................................. 98
Regresión: ............................................................................................................................................... 99
6 GLOSARIO ................................................................................................................ 104
7 CONCLUSIONES ..................................................................................................... 113
5
8 BIBLIOGRAFÍA ....................................................................................................... 114
9 WEBGRAFIA ............................................................................................................ 115

6
ESTADÍSTICA DESCRIPTIVA
En esta parte se pretende hacer un pequeño repaso de algunos

conceptos básicos desarrollados en los cursos Estadística I y
II; que son de gran utilidad para la mayor explotación de la
herramienta en que se constituye SPSS 11.5.
Como base del amplio campo de la Estadística, se deben
tratar los conceptos más básicos de la estadística
descriptiva. La estadística descriptiva una serie de técnicas
que permite analizar series de datos y trata de extraer
conclusiones sobre el comportamiento de variables, las cuales
pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir
numéricamente.
Variables cuantitativas: tienen valor numérico.
Las variables también se pueden clasificar en:
Variables unidimensionales: sólo recogen información
sobre una característica.
Variables bidimensionales: recogen información sobre dos
características de la población.
Variables pluridimensionales: recogen información sobre
tres o más características.
Por su parte, las variables cuantitativas se pueden
clasificar en discretas y continuas:
Variables Discretas: sólo pueden tomar valores enteros.
Por ejemplo, puede ser 1, 2, 3...., etc., pero nunca
podrá ser 3,45 por ejemplo.
Variables Continuas: pueden tomar cualquier valor real
dentro de un intervalo. Por ejemplo, cualquier número
decimal o fraccionario, como 80,3; 94,57.
Cuando se estudia el comportamiento de una variable hay que
distinguir los siguientes conceptos:
Individuo: cualquier elemento que porte información
sobre el fenómeno que se estudia. Así, si estudiamos la
altura de los niños de una clase, cada alumno es un
individuo; si estudiamos el precio de la vivienda, cada
vivienda es un individuo.
7
Población: conjunto de todos los individuos (personas,
objetos, animales, etc.) que porten información sobre el
fenómeno que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la población será
el total de las viviendas de dicha ciudad.
Muestra: subconjunto que seleccionamos de la población.
Así, si se estudia el precio de la vivienda de una
ciudad, lo normal será no recoger información sobre
todas las viviendas de la ciudad (sería una labor muy
compleja), sino que se suele seleccionar un subgrupo
(muestra) que se entienda que es suficientemente
representativo.
Distribuciones de frecuencias:
Las distribuciones de frecuencias son una herramienta que

facilita el análisis de un conjunto de datos y variables de
una muestra, que constituyen un conjunto de información.
El análisis de frecuencias emplea dos aspectos, conocidos
como frecuencias absolutas y relativas, las cuáles son
simples y acumuladas. Para facilitar la comprensión de estos
conceptos, se puede visualizar la siguiente tabla:
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
x X x x X
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...
n1 + n2 +...+ fn-1 = nn-1 f1 + f2
Xn-1 nn-1
nn-1 / n +...+fn-1
Xn Nn S n fn = nn / n S f
Siendo X los distintos valores que puede tomar la

variable.
Siendo n el número de veces que se repite cada valor.
Siendo f el porcentaje que la repetición de cada valor
supone

8
Cuando los datos suelen ser muy dispersos, se utiliza la
agrupación por intervalos, todo con el fin de inferir con
mayor facilidad.
Medidas de tendencia central:
Estas medidas, también conocidas como medidas descriptivas

univariadas informan sobre los valores medios de la serie de
datos y permiten un análisis más detallado y resumido de los
datos. La utilización de estas medidas es de alta importancia
también en la inferencia estadística, ya que permiten estimar
y deducir aspectos de las estadísticas de manera precisa.
Las medidas de tendencia central de mayor importancia son:
Media: es el valor medio ponderado de la serie de datos.
Se pueden calcular diversos tipos de media, siendo las
más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por

el número de veces que se repite. La suma de todos estos
productos se divide por el total de datos de la muestra:
(X1 * n1)+(X2 * n2)+(X3 * n3)+...+(Xn-1 * nn-1)+(Xn * nn)

Xm = ---------------------------------------------------------
N
b) Media geométrica: se eleva cada valor al número de veces

que se ha repetido. Se multiplican todo estos resultados y
al producto final se le calcula la raíz "n" (siendo "n" el
total de datos de la muestra).
n1 n2 n3 nn -1 nn
Xn =
n
(X1 ) * (X2 ) * (X3 ) * ... * (Xn -1 ) * (Xn )
Según el tipo de datos que se analice será más apropiado

utilizar la media aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como
tipos de interés anuales, inflación, etc., donde el valor de
cada año tiene un efecto multiplicativo sobre el de los años
anteriores. En todo caso, la media aritmética es la medida de
posición central más utilizada.

9
Lo más positivo de la media es que en su cálculo se utilizan
todos los valores de la serie, por lo que no se pierde
ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en
el caso de la media aritmética como geométrica) se puede ver
muy influido por valores extremos, que se aparten en exceso
del resto de la serie. Estos valores anómalos podrían
condicionar en gran medida el valor de la media, perdiendo
ésta representatividad.
Mediana: es el valor de la serie de datos que se sitúa

justamente en el centro de la muestra (un 50% de valores
son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores
extremos, pero en cambio no utiliza en su cálculo toda la
información de la serie de datos (no pondera cada valor por
el número de veces que se ha repetido).
Moda es el valor que más se repite en la muestra.
Medidas de dispersión
Estudia la distribución de los valores de la serie,

analizando si estos se encuentran más o menos concentrados, o
más o menos dispersos.
Existen diversas medidas de dispersión, entre las más
utilizadas están las siguientes:
Rango: Mide la amplitud de los valores de la muestra y
se calcula por diferencia entre el valor más elevado y
el valor más bajo.
Varianza: Mide la distancia existente entre los valores
de la serie y la media. Se calcula como sumatoria de las
diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido
cada valor. La sumatoria obtenido se divide por el
tamaño de la muestra.
n
( Xi − Xm ) 2
Var ( x ) = i =1
n −1
La varianza siempre será mayor que cero. Mientras más se
aproxima a cero, más concentrados están los valores de la

10
serie alrededor de la media. Por el contrario, mientras mayor
sea la varianza, más dispersos están:
Desviación estándar: Se calcula como raíz cuadrada de la
varianza.
Coeficiente de variación de Pearson: se calcula como
cociente entre la desviación típica y la media.
El interés del coeficiente de variación es que al ser un
porcentaje permite comparar el nivel de dispersión de dos
muestras. Esto no ocurre con la desviación típica, ya que
viene expresada en las mismas unidas que los datos de la
serie.
Por ejemplo, para comparar el nivel de dispersión de una
serie de datos medida en centímetros y otra en kilogramos, no
se puede utilizar las desviaciones estándar (una viene
expresada en cm. y la otra en Kg.). En cambio, sus
coeficientes de variación son ambos porcentajes, por lo que
sí se pueden comparar.
Probabilidades
La probabilidad es un área muy importante para el análisis

estadístico, ya que permite calcular la posibilidad de la
ocurrencia de un evento dado, conocido como experimento. Para
su estudio es necesario el conocimiento de la teoría de
conjuntos, ya que algunas técnicas están basadas en su
conocimiento. Se han logrado desarrollar algunas técnicas,
apoyadas esencialmente en la teoría matemática, que permiten
deducir la ocurrencia de esos eventos con mayor facilidad.
Una de las condiciones y de gran importancia para el estudio
probabilístico es que El experimento tiene que ser aleatorio,
es decir, que pueden presentarse diversos resultados, dentro
de un conjunto posible de soluciones, y esto aún realizando
el experimento en las mismas condiciones. Otros conceptos
necesarios para la probabilidad son:
Suceso elemental: hace referencia a cada una de las
posibles soluciones que se pueden presentar. Ejemplo: al
lanzar una moneda al aire, los sucesos elementales son
la cara y el sello.
Suceso compuesto: es un subconjunto de sucesos
elementales, por ejemplo; lanzamos un dado y queremos
que salga un número par. El suceso "numero par" es un
suceso compuesto, integrado por 3 sucesos elementales:
el 2, el 4 y el 6.

11
Al conjunto de todos los posibles sucesos elementales lo
denominamos espacio muestral. Cada experimento aleatorio
tiene definido su espacio muestral (es decir, un conjunto con
todas las soluciones posibles). Ejemplo: si tiramos una
moneda al aire una sola vez, el espacio muestral será cara o
sello. Si el experimento consiste en lanzar una moneda al
aire dos veces, entonces el espacio muestral estaría formado
por (cara-cara), (cara-sello), (sello-cara) y (sello-sello),
etc.
Relación entre sucesos (Propiedades de las

probabilidades):
Entre los sucesos compuestos se pueden establecer distintas
relaciones:
a) Un suceso puede estar contenido en otro: las posibles
soluciones del primer suceso también lo son del segundo, pero
este segundo suceso tiene además otras soluciones suyas
propias. Ejemplo: lanzamos un dado y analizamos dos sucesos:
a) que salga el número 6, y b) que salga un número par. Vemos
que el suceso a) está contenido en el suceso b).
Siempre que se da el suceso a) se da el suceso b), pero no al
contrario. Por ejemplo, si el resultado fuera el 2, se
cumpliría el suceso b), pero no el a).
b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre
que se cumple uno de ellos se cumple obligatoriamente el otro
y viceversa. Ejemplo: lanzamos un dado al aire y analizamos
dos sucesos: a) que salga número par, y b) que salga múltiplo
de 2. Vemos que las soluciones coinciden en ambos casos.
c) Unión de dos o más sucesos: la unión será otro suceso
formado por todos los elementos de los sucesos que se unen.
Por ejemplo: lanzamos un dado al aire y analizamos dos
sucesos
a) que salga número par y b) que el resultado sea mayor que
3. El suceso unión estaría formado por los siguientes
resultados: el 2, el 4, el 5 y el 6.
d) Intersección de sucesos: es aquel suceso compuesto por los
elementos comunes de dos o más sucesos que se interceptan.
Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos:
a) que salga número par, y b) que sea mayor que 4. La
intersección de estos dos sucesos tiene un sólo elemento, el
número 6 (es el único resultado común a ambos sucesos: es
mayor que 4 y es número par).
e) Sucesos incompatibles: son aquellos que no se pueden dar
al mismo tiempo ya que no tienen elementos comunes (su
intersección es el conjunto vacío). Ejemplo: lanzamos un dado

12
al aire y analizamos dos sucesos: a) que salga un número
menor que 3, y b) que salga el número 6. Es evidente que
ambos no se pueden dar al mismo tiempo.
f) Sucesos complementarios: son aquellos que si no se da uno,
obligatoriamente se tiene que dar el otro. Ejemplo: lanzamos
un dado al aire y analizamos dos sucesos: a) que salga un
número par, y b) que salga un número impar. Vemos que si no
se da el primero se tiene que dar el segundo (y viceversa).
g) La probabilidad toma valores entre 0 y 1 (o expresados
porcentualmente, entre 0% y 100%):
El valor cero corresponde al suceso imposible: lanzamos un
dado al aire y la probabilidad de que salga el número 7 es
cero, dado que ningún dado (normal) tiene siete lados. El
valor uno corresponde al suceso seguro: lanzamos un dado al
aire y la probabilidad de que salga cualquier número del 1 al
6 es igual a uno (100%). El resto de sucesos tendrá
probabilidades entre cero y uno: que será tanto mayor cuanto
más probable sea que dicho suceso tenga lugar.
Medición de la probabilidad
Uno de los métodos más utilizados es aplicando la Regla de

Laplace: define la probabilidad de un suceso como el cociente
entre casos favorables y casos posibles.
P(A) = Casos favorables / casos posibles
Por ejemplo, calcular la Probabilidad de que al lanzar un

dado salga el número 2: el caso favorable es tan sólo uno
(que salga el dos), mientras que los casos posibles son seis
(puede salir cualquier número del uno al seis). Por lo tanto:
P(A) = 1 / 6 = 0,166 (o lo que es lo mismo, 16,6%)
Para poder aplicar la Regla de Laplace el experimento
aleatorio tiene que cumplir dos requisitos:
a) El número de resultados posibles (sucesos) tiene que ser
finito. Si hubiera infinitos resultados, al aplicar la regla
"casos favorables / casos posibles" el cociente siempre sería
cero.
b) Todos los sucesos tienen que tener la misma probabilidad.
Si al lanzar un dado, algunas caras tuvieran mayor
probabilidad de salir que otras, no podríamos aplicar esta
regla.

13
Para aplicar la regla de Laplace hay que conocer antes de
realizar el experimento cuales son los posibles resultados y
saber que todos tienen las mismas probabilidades.
Si el experimento aleatorio no cumple los dos requisitos
indicados podemos acudir a otro modelo de cálculo de
probabilidades que se basa en la experiencia (modelo
empírico):
Cuando se realiza un experimento aleatorio un número muy
elevado de veces, las probabilidades de los diversos posibles
sucesos empiezan a converger hacia valores determinados, que
son sus respectivas probabilidades, por ejemplo: si se lanza
una vez una moneda al aire y sale "cara", quiere decir que el
suceso "cara" ha aparecido el 100% de las veces y el suceso
"sello" el 0%.Si se lanza diez veces la moneda al aire, es
posible que el suceso "cara" salga 7 veces y el suceso
"sello" las 3 restantes. En este caso, la probabilidad del
suceso "cara" ya no sería del 100%, sino que se habría
reducido al 70%. Si se repite este experimento un número
elevado de veces, lo normal es que las probabilidades de los
sucesos "cara" y "sello" se vayan aproximando al 50% cada
una. Este 50% será la probabilidad de estos sucesos según el
modelo empírico.
En este modelo ya no será necesario que el número de
soluciones sea finito, ni que todos los sucesos tengan la
misma probabilidad. Por ejemplo; si la moneda que utilizamos
en el ejemplo anterior fuera defectuosa (o estuviera
trucada), es posible que al repetir dicho experimento un
número elevado de veces, la "cara" saliera con una
frecuencia, por ejemplo, del 65% y la "sello" del 35%. Estos
valores serían las probabilidades de estos dos sucesos según
el modelo empírico.
La aplicación de este modelo es posible tan sólo repitiendo
un experimento un número elevado de veces podremos saber cual
es la probabilidad de cada suceso.
Probabilidad condicional
Las probabilidades condicionales se calculan una vez que se
ha incorporado información adicional a la situación de
partida Por ejemplo; se tira un dado y sabemos que la
probabilidad de que salga un 2 es 1/6 (probabilidad a
priori). Si incorporamos nueva información (por ejemplo,
alguien nos dice que el resultado ha sido un número par)
entonces la probabilidad de que el resultado sea el 2 ya no
es 1/6.
Las probabilidades condicionadas se calculan aplicando las
siguientes expresiones:

14
P (B/A) es la probabilidad de que se de el suceso B
condicionada a que se haya dado el suceso A.
P (B L A) es la probabilidad del suceso simultáneo de A
y de B
P (A) es la probabilidad a priori del suceso A
En el ejemplo que hemos visto:
P (B/A) es la probabilidad de que salga el número 2
(suceso B) condicionada a que haya salido un número par
(suceso A).
P (B L A) es la probabilidad de que salga el dos y
número par.
P (A) es la probabilidad a priori de que salga un número
par.
La probabilidad condicionada es superior a la probabilidad a
priori. No siempre esto es así, a veces la probabilidad
condicionada es igual a la probabilidad a priori o menor.
ESTADÍSTICA INFERENCIAL
La estadística inferencial consiste en analizar y deducir

resultados obtenidos mediante la aplicación de técnicas
estadísticas. Para simplificar el análisis se incluyen
ciertos conceptos muy utilizados en esta parte de la
estadística, como parámetro, estimador y estimación. Esta
parte se subdivide en distribuciones de muestreo, intervalos
de confianza y pruebas de hipótesis.
Distribuciones de muestreo
Las distribuciones de muestreo son herramientas muy útiles

para el análisis de un conjunto de datos. Permiten, a partir
de una muestra, obtener una aproximación a una medida
poblacional. Se pueden elaborar distribuciones para medias
muestrales, proporciones muestrales, varianzas muestrales y
poblacionales.
Para hallar distribuciones de muestreo eficientes existen
técnicas de muestreo que se utilizan para no tener que
trabajar con toda la población. Estas técnicas pueden ser:

15
Muestreo no probabilístico: no se usa el azar, sino el
criterio del investigador, suele presentar grandes
sesgos y es poco fiable.
Muestreo probabilístico: se utilizan las leyes del azar.
Puede ser:
Muestreo aleatorio simple (es el más importante): cada
elemento de la población tiene la misma probabilidad de
ser elegido, las observaciones se realizan con
emplazamiento, de manera que la población es idéntica en
todas las extracciones, o sea, que la selección de un
individuo no debe afectar a la probabilidad de que sea
seleccionado otro cualquiera aunque ello comporte que
algún individuo pueda ser elegido más de una vez.
Muestreo sistemático: es cuando los elementos de la
población están ordenados por listas. Se elige un
individuo al azar y a continuación a intervalos
constantes se eligen todos los demás hasta completar la
muestra. Si el orden de los elementos es tal que los
individuos próximos tienden a ser más semejantes que
los alejados, el muestreo sistemático tiende a ser más
preciso que el aleatorio simple, al cubrir más
homogéneamente toda la población.
Muestreo estratificado: es cuando nos interesa que la
muestra tenga la misma composición a la de la población
la cual se divide en clases o estratos. Si por ejemplo
en la población el 20% son mujeres y el 80% hombres, se
mantendrá la misma proporción en la muestra.
Las distribuciones de muestreo mas comúnmente utilizadas son

asociadas a la distribución de probabilidad Normal, la
distribución Chi-cuadrado, la distribución T-Student y la
distribución F de Fisher. Para analizar los estimadores y
parámetros con su respectiva distribución de muestreo, aunque
de manera resumida; proponemos utilizar la siguiente tabla:
ESTIMADOR PARAMETRO CONDICIONES DISTRIBUCION ASOCIADA

x (media (media Si 2 Normal N( , 2
/n)
muestral) poblacion conocida
al) Si 2 T (n-1) grados de libertad.
desconocida
s2 2
Chi cuadrado: (n-1) grados
(varianza (varianza libertad
muestral) poblacion
al)
16
p P Normal N(P, (P(1-P)/n))
(proporci (propor.
ón poblacion
muestral) al)
x1-x2 1- 2 Si 21 y 22 Normal N( 1- 2,
(diferenc (diferenc conocida ( 21/n1)+( 22/n2))
ia de ia de Si 21 y 22 T(n1-n2-2) grados de libertad
medias medias desconocidas
muestrale poblacion (*)
s) al) (*) En intervalos de confianza se debe asumir igualdad o
desigualdad de varianzas.
s21 y s22 2 2
1/ 2 F(n1-1; n2-2) grados de
(cociente (cociente libertad
de de
varianzas varianzas
muestrale poblacion
s) ales)
p1-p2 p1-p2 N (p1-p2 ; (p1 (1-p1)/n1) +
(diferenc (diferenc (p2 (1-p2)/n2)
ia de ia de
proporcio proporcio
nes nes
muestrale poblacion
s) ales)
También podemos emplear otras pruebas para identificar como

se distribuyen los conjuntos de datos, para esto emplearemos
la muestra de Kolmogorov-Smirnov
Prueba de Kolmogorov-Smirnov
La Prueba de Kolomogorov-Smirnov sirve para comprobar si la

distribución de los datos de la muestra sigue alguna
distribución teórica conocida. La forma de proceder es la
siguiente:
-Sean
FS(x) la función de distribución acumulada de la muestra.
FT(x) la función de distribución acumulada teórica.
La función de distribución se define como:
F(x) = P(X <= x)
La muestra es una muestra aleatoria de una población con
función de distribución acumulada F(x).
Entonces se pretende contrastar:
H0: F(x)=FT(x), para todo - < x <
H1: F(x) FT(x), para al menos un x
Y el estadístico que se utiliza es:
D = sup F ( x ) − FT ( x )
s
x 17
donde los valores de Fs(x) son las frecuencias relativas acumuladas de los valores.
Intervalos de confianza
Los intervalos de confianza son una herramienta muy útil en

la estimación estadística, esta puede ser de dos tipos:
Puntual: es aquella que se realiza sobre un parámetro
dado, mediante a transformación de algunos estimadores.
Para evaluar este tipo de estimación es necesario
conocer las propiedades deseables de los estimadores,
las cuales son:
a) Insesgamiento: Esta propiedad se puede evaluar de la
siguiente manera, si la esperanza del estimador T es igual al
parámetro, es decir:
E(T)=
Aunque también se puede realizar empleando el sesgo del

estimador:
E(T)- = sesgo(T)
Si el sesgo es = 0 el estimador es insesgado.
b) Eficiencia: Se tienen dos estimadores, llamados T1 y T2,

que cumplen con la propiedad del insesgamiento. Se puede
decir que T1 es mas eficiente que T2 si su varianza es menor
que la de T2, es decir:
V(T1) ‹ V(T2)
También se puede medir mediante la eficiencia relativa, la
cual se expresa así:
Eficiencia Relativa = V(T1)

V(T2)
c) Concentración: Mide la proximidad del estimador al

parámetro. Esta propiedad se evalúa a través del Error
Cuadrático Medio (ECM):
ECM(T) = E(T- )2
O lo que es igual:
ECM(T) = V(T) + (E(T- ))2
= V(T) + sesgo(T)2

18
d) Consistencia: Un estimador de es consistente si el
estimador T se acerca a 0 cuando
aumenta el tamaño de la muestra.
Para esto se emplea un conocido límite llamado la desigualdad

de Chebyshev. Se expresa como:
Limn--inf P(T- )‹ )
Si el límite es igual a uno, el estimador es consistente, o

expresado en términos estadísticos, T converge a en
probabilidad.
Existen además otras propiedades muy importantes de los

estimadores, como Suficiencia y Robustez, los cuales son muy
tediosos y de poca aplicación a las Ciencias Económicas.
Podemos mencionar también métodos de encontrar estimadores,

netamente matemáticos, como el método de mínimos cuadrados,
el método de máxima verosimilitud, el método de momentos y el
método bayesiano, pero no los explicaremos dado que su
aplicación en esta investigación no es tan alta.
Estimación por intervalo: es aquella estimación en que,

basados en un estimador, podemos utilizar ciertas técnicas
estadísticas para aproximarnos al valor de un parámetro o
para estimar con un nivel de confianza dado un suceso
probable.
En la estimación por intervalo es necesario tener en cuenta

las expresiones escritas en la tabla de distribución de
muestreo que se halla mas atrás de este documento, ya que,
dependiendo el estimador, debemos utilizar la distribución
asociada a ese estimador para hallar la aproximación al
parámetro dado con un nivel de confianza también dado. Ese
nivel de confianza, comúnmente denominado , es utilizado
frecuentemente como 0.9 ó 0.95 dado el caso.
Los intervalos de confianza para sus respectivos estimadores

están construidos de la siguiente manera:
ESTIMADOR PARAMETRO INTERVALO DE CONFIANZA

x(media (media (x ± Z1- Si 2 conocida
muestral poblacional /2( / n))
) (x ± Z1- Si 2 desconocida
19
/2(s/ n))
s2 (varianza 2 (((n-1)*s2)/ /2); ((n-1)*s2)/ 1- /2))
muestral) (varianza
poblacional
)
p(proporción P(proporció (p ± Z1- /2( P(1-P)/n))
muestral) n
poblacional
)
x1-x2 1- 2 (x1-x2±Z1- /2( 21/n)+( Si 21 y 22
(diferencia de (diferencia 2 conocida
2/n2)
medias de medias (x1-x2±t(n1+n2- Si 21 y 22
muestrales) poblacional 2
2)* s c((1/n1)+( desconocid
) 1/n2)(*) as y
supuestas
iguales.
(x1-x2±t(v)* s2c((1/n1) Si 21 y 22
+ ( 1/n2)(*) desconocid
as y
supuestas
diferentes
s21 y s22 21/ 22 ((s21)/((s22)*F(v1-v2)1-
(cociente de (cociente 2 2
/2);((s 1)/((s 2)*F(v1-
varianzas de v2) /2)
muestrales) varianzas
poblacional
es)
p1-p2 p1-p2 (p1-p2±Z1- /2( P1(1-

(diferencia de (diferencia P1)/n1)))+( P2(1-
proporciones de P2)/n2))
muestrales) proporcione
s
poblacional
es)
Prueba de Hipótesis.
Una hipótesis estadística es una asunción relativa a una o

varias poblaciones, que puede ser cierta o no. Las hipótesis
estadísticas se pueden contrastar con la información extraída
de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error

20
Las pruebas de hipotésis estadísticas estan basadas en la
distribuciones de muestreo y se basan en un criterio de
decisión. La mayoria de los calculos estadísiticos de SPSS
depende en gran parte de las pruebas de hipotésis, con las
cuales se pueden obtener resultados como los vistos
anteriormente en los intervalos de confianza, pero que
desarrollaremos mas ampliamente en el modelo estadístico. Los
tipos de pruebas de hipotésis solo corresponden a los mas
utilizados, pero es neceario que existe una gran variedad de
pruebas, las cuales se pueden clasificar entre paramétricas y
no parametricas.
La hipótesis formulada con intención de rechazarla se llama

hipótesis nula y se representa por H0. Rechazar H0 implica
aceptar una hipótesis alternativa (H1).
La situación se puede esquematizar de la siguiente manera:

H0 cierta H0falsa
H0 rechazada Error tipo I Decisión

( ) correcta
H0 no Decisión Error tipo II

rechazada correcta ( )
=p(rechazar H0|H0 cierta)
=p(aceptar H0|H0 falsa)
Potencia=1- =p(rechazar H0|H0 falsa)
Donde representa la probabilidad de error tipo I, y se

relaciona con los intervalos de confianza en que representa
un nivel de significancía para la prueba, es decir, la
confiabilidad que se tiene en cuenta par no cometer errores;
y representa la probabilidad de error tipo II, es decir,
la probabilidad de no rechazar una hipótesis nula que es
falsa. Algunos detalles para tener en cuenta son:
1 y están inversamente relacionadas.

2 Sólo pueden disminuirse las dos, aumentando n = tamaño de
muestra.

21
Generalmente, las hipótesis están representadas como sigue:
H0: =
H1: <
>
donde representa la estimación hecha para la hipótesis.
Procedimiento para la realización de pruebas de hipótesis:
1. Establecer la hipótesis nula en términos de igualdad
H0: =
2. Establecer la hipótesis alternativa, que puede hacerse de

tres maneras, dependiendo del resultado que se desea obtener:
H1:
<
>
en el primer caso se habla de contraste de una prueba

bilateral o de dos colas, y en los otros dos de unilateral
(derecho en el 2º caso, o izquierdo en el 3º) o prueba de una
cola.
3. Elegir un nivel de significación: nivel crítico para a
4. Elegir un estadístico de contraste: estadístico cuya

distribución muestral se conozca en H0 y que esté relacionado
con q y establecer, en base a dicha distribución, la región
crítica: región en la que el estadístico tiene una
probabilidad menor que a si H0 fuera cierta y, en
consecuencia, si el estadístico cayera en la misma, se
rechazaría H0.
Hay que tener en cuenta que de esta manera se está más seguro
cuando se rechaza una hipótesis que cuando no. Por eso se
fija como H0 lo que se quiere rechazar. Cuando no se rechaza,
no se ha demostrado nada, simplemente no se ha podido
rechazar. Por otro lado, la decisión se toma en base a la
distribución muestral en H0, por eso es necesario que tenga
la igualdad.

22
5. Calcular el estadístico para una muestra aleatoria y
compararlo con la región crítica, o equivalentemente,
calcular el " p-valor " del estadístico (probabilidad de
obtener ese valor, u otro más alejado de la H0, si H0 fuera
cierta) y compararlo con a.
El estadístico de contraste sigue exactamente las mismas

formulaciones que las distribuciones de muestreo, si
necesitamos probar una estimación basada en la media
muestral, utilizamos la distribución de muestro asociada para
la media poblacional, la cual puede ser la Normal o la T-
Student, según sea el caso. Para mayor claridad podemos
consultar al tabla que elaboramos unas páginas atrás, en
donde explicamos las distribuciones de muestreo asociadas.
Las pruebas de hipótesis estadísticas no parámetricas

Para una mayor profundidad en estos aspectos, sugerimos
consultar al bibliografía de este documento.
MODELO DE REGRESIÓN LINEAL
Tomado de:
Medina, Eva: “Modelos Econométrico E Información
Estadística”, Febrero 2002
Expresión del modelo básico de regresión lineal:
La expresión formal del modelo básico de regresión lineal,

que es el modelo básico en econometría queda formulada como
se expresa a continuación:
Yi = β1 + β2Xi + … + βkXki + Ui
Donde:
Y: Es la variable endógena o explicada cuyo comportamiento se
quiere analizar.
X : Es cada una de las variables exógenas o explicativas y
que son consideradas como las causas que crean
transformaciones en la variable endógena.
B : Son los parámetros cuyo valor desconozco y voy a estimar.
A través de la estimación de los parámetros obtengo una
cuantificación de las relaciones existentes entre la Y y cada
una de las X.
U: Perturbación aleatoria que recoge el efecto conjunto de
otras variables no directamente explicitadas en el modelo,
23
cuyo efecto individual sobre la endógena no resulta
relevante.
i: Es el subíndice que hace referencia a las diversas
observaciones para las cuales se establece su validez. Según
el tipo de valores con los que estemos trabajando, el
subíndice hará referencia a distintos momentos del tiempo
(series temporales: las cotizaciones en bolsa diarias, los
índices de predio al consumo mensuales, los datos anuales del
PIB de un país, etc.) o a distintas unidades económicas
(series de corte transversal: consumo de diferentes familias,
inversión de distintas empresas, paro en diferentes
provincias, etc.).
Ejemplos de modelos econométricos
Los modelos econométricos se utilizan para la resolución de

problemas de contenido económico muy variado. Como ejemplo
supongamos los siguientes casos:
Nivel micro
Una empresa quiere explicar la demanda de sus productos
en función del precio de los mismos y los gastos en
publicidad.
A una consultora se le encarga estudiar el
comportamiento de las horas extraordinarias trabajadas
por las empleadas femeninas de una empresa. Utiliza como
variables explicativas: Salario por hora no
extraordinaria, salario por hora extraordinaria, número
de hijos.
Se desea analizar el consumo de manzanas en función del
precio de las manzanas, del consumo de peras y de la
renta disponible.
Una agencia inmobiliaria desea estudiar el precio de la
vivienda en función de superficie útil.
Consumo de café en función de renta, precios del café,
precios de la leche.
Consumo de tabaco en función de ventas de las empresas y
de gastos en publicidad.
Nivel macro
La función de consumo de un país se especificó en
función de la renta disponible y el número de ocupados.
Se quieren analizar las exportaciones de un país en
función de la producción de bienes, del nivel de renta
de los exportadores y del tipo de cambio real.

24
Importancia de los parámetros en el modelo básico de
regresión lineal
La principal utilidad que tienen los parámetros es la de

cuantificar las relaciones que existen entre las variables
explicativas y la variable endógena. Así:
El parámetro que corresponde al término constante debe
ser interpretado como el valor que toma la variable
endógena cuando el resto de variables explicativas valen
cero. Por ejemplo, en una función de consumo, aunque
éste depende de la renta y de otras variables, cuando
todas ellas valen cero el individuo realiza un consumo
para sobrevivir, lo que es conocido como “autoconsumo”.
Ese valor queda recogido en el modelo básico de
regresión lineal a través del parámetro que corresponde
al término constante.
El resto de parámetros que acompañan a las variables
explicativas me miden la relación entre estas y la
variable endógena a través de su signo y su cuantía. El
signo me mide si la relación entre las variables es
directa o inversa (si a medida que la explicativa
incrementa también lo hace la endógena o viceversa). La
cuantía sirve para medir que variable explicativa, de
todas las explicitadas en el modelo, es más importante
para explicar el comportamiento de la endógena, de tal
manera que si todas las variables están medidas en las
mismas unidades de medida, la variable más importante
será la que tenga un mayor valor de su parámetro.
Por tanto, el análisis de los parámetros estimados me permite
conocer la estructura económica del fenómeno que estamos
analizando, entendiendo por estructura el patrón de
comportamiento de acuerdo con el cual se desarrolla una
acción. De este modelo, en el que se trata de explicar la
evolución del consumo en función de la renta y de los tipos
de interés, la estructura económica quedará definida como
incrementos de consumo a medida que incrementa la renta y
reducciones de consumo a medida que incrementan los tipos de
interés.
Ahora bien, una vez estimado el modelo, admitimos que la
estructura permanece constante para todo el periodo de
estimación. Esto es, que los parámetros son los mismos para
toda la muestra y que las relaciones permanecen constantes
para todo el periodo analizado. Es por ello, que los
parámetros no van acompañados de un subíndice en la expresión
matemática del modelo básico de regresión lineal.

25
Sin embargo, la estructura o relaciones entre las variables
pueden variar en el periodo analizado, lo que implicaría
cambios en los valores de los parámetros. Los valores de los
parámetros cambian cuando:
Se incorpora una nueva variable al modelo. Ya que como
en economía todo está relacionado entre sí, la inclusión
de una nueva variable explicativa modifica las
relaciones existentes entre las variables explicativas,
y por tanto las relaciones existentes entre éstas y la
variable endógena. Así, si dos variables explicativas
están muy relacionadas entre sí, estarán explicando lo
mismo del comportamiento de la endógena y al incluirlas
juntas en el modelo su aportación a la evolución de la
endógena se repartirá, mientras que si sólo
incorporásemos una de ellas toda ella acumularía el
peso importante en el análisis de la endógena por lo que
el valor de su parámetro sería superior que en el caso
anterior.
Se modifica el periodo muestral. Ya que la inclusión de
nuevos años en el análisis implica incluir también
nuevos factores explicativos de la variable endógena o
una modificación en los pesos en que las variables
explicativas participan en el comportamiento de la
endógena.
Se produce un cambio estructural en el sistema económico
que estoy analizando. Así, en un mismo periodo se puede
haber producido un cambio económico importante que
implique una modificación radical de las relaciones
existentes entre las variables. Por ejemplo: la
aprobación del ALCA antes del tiempo inicialmente
programado puede implicar que el peso de las
exportaciones en el crecimiento del PIB es mayor que
durante los años anteriores a la aprobación del tratado
de libre comercio, lo que modificaría las cuantías de
los parámetros; en países que han cambiado de un sistema
económico socialista a uno capitalista implica un cambio
radical en las relaciones económicas (antes tenía más
peso el sector público y ahora las relaciones de libre
mercado); el cambio que se produce en los hábitos de
consumo con el transcurso de los años; la aparición de
las tarjetas como medio de pago supone un cambio también
en los hábitos de consumo.
Utilidades de los modelos econométricos

26
Su utilidad se encuentra principalmente en la resolución de
problemas de economía en general (macro) o de dirección de
empresas (micro).
Análisis estructural: Cuantificación de las relaciones
que entre el periodo analizado ha existido entre las
variables implicadas, a través del conocimiento del
signo y valor de los parámetros estimados. Es decir,
sirve para conocer como incide en la endógena
variaciones de las variables explicativas.
Predicción: Dados unos valores a futuro para las
variables explicativas, y conociendo la expresión
matemática que relaciona las variables explicativas y la
variable endógena, es posible predecir los valores que
tomará a futuro la variable objeto de estudio.
Simulación o evaluación de políticas: Efectos que tienen
sobre la endógena diferentes estrategias que se planteen
de las variables explicativas. Por ejemplo si analizamos
las ventas de una empresa en función de los precios del
producto y del nivel de gasto realizado en publicidad,
podríamos estar interesados en analizar cuanto
incrementarían las unidades vendidas si se mantienen los
precios fijos y se incrementa el gasto en publicidad en
un porcentaje determinado.
Clasificación de los modelos econométricos
En función de la aleatoriedad
En primer lugar debemos tener claro lo que entendemos por
variable aleatoria: aquella debida al azar (por ejemplo, una
variable que mida los resultados obtenidos de lanzar una
moneda al aire) frente a una variable no aleatoria que es
aquella variable conocida que no se debe al azar (por
ejemplo, la medición de la edad entre un grupo de
individuos).
Todo modelo econométrico se caracteriza por la aleatoriedad
frente a los modelos deterministas.
Mientras que un modelo determinista existen relaciones
exactas entre las variables del modelo, y es por ello que
tienen como principal carencia la de no analizar relaciones
de causalidad. Son modelos de “caja negra”, en los que se
parte de uno o varios inputs y a través de ciertas
transformaciones (que no se explicitan en el modelo) se
conoce el comportamiento del output. Sin embargo, los modelos
econométricos son modelos aleatorios o estocásticos, en los
cuales las relaciones no son exactas, ya que siempre existe
27
un componente aleatoria que dejo fuera de la explicación de
la variable endógena, que es lo que se conoce como
perturbación aleatoria. Ese componente aleatorio se debe a la
propia especificación del modelo que me impide incluir todas
las variables que afectan a la endógena, errores en la
medición de las variables, etc.
Así, cuando veíamos como pasar de un modelo económico a un
modelo econométrico partíamos de:
PIB = CP + GP + I + X – M
Y llegábamos a:
PIB = a + b *renta + c *ti + d *renta ALCA + u
Mientras que el primero se trata de una identidad contable,
en el segundo existe un componente aleatorio que queda
expresado a través de la perturbación aleatoria que recoge
todos aquellos factores que no quedan explicitados en el
modelo y que se deben al azar. La gran diferencia entre ambos
modelos es que mientras que el primero únicamente analiza
cambios en el PIB como consecuencia de cambios en sus
componentes, en el segundo estoy analizando exactamente las
causas que generan cambios en el comportamiento del PIB, por
lo tanto solo el segundo (el econométrico) sirve para
analizar relaciones de causalidad entre variables económicas.
Según el tipo de datos de las variables utilizadas en el
modelo:
Series temporales: Los datos pueden corresponder a los
valores de una variable en el tiempo. Estos pueden tener
frecuencia, diaria, semanal, mensual o anual. Así
podemos analizar las cotizaciones en bolsa diarias, los
índices de predio al consumo mensuales, los datos
anuales del PIB de un país, etc.
Series de corte transversal: Los valores corresponden a
distintos sujetos para un mismo momento del tiempo. En
este caso se trataría de series del tipo de consumo de
diferentes familias, inversión de distintas empresas,
paro en diferentes provincias, etc.
Según el momento del tiempo al que hacen referencia se

distingue entre:
Modelos estáticos: Cuando el subíndice i hace referencia
al mismo momento del tiempo o al mismo individuo

28
económico tanto para la endógena como para todas las
explicativas.
Modelos dinámicos: Cuando están involucradas las
variables en diferentes puntos del tiempo. Así, si
estamos analizando la variable endógena consumo,
utilizaremos como variable explicativa la renta de ese
mismo periodo, pero también podríamos utilizar la renta
del año pasado, ya que mis decisiones de compra las
tomaré en función de lo que pude ahorrar el año pasado.
Al incluir variables en distintos momentos del tiempo
podemos hablar de modelos dinámicos.
Según el número de variables endógenas que se desee explicar:
Modelos uniecuacionales: Únicamente existe una variable
endógena.
Modelos multiecuacionales: Existen varias variables
endógenas que deseamos explicar, algunas de las cuales
pueden ser a su vez variables explicativas de otras
ecuaciones.
Según la transformación de los datos que se realice:
Modelo en niveles: Las variables aparecen expresadas en
unidades de medida.
Modelo en tasas de variación: Las variables aparecen
expresadas como incrementos.
Cuando una variable la expreso en vez de en niveles en
incrementos estoy eliminando la tendencia. Al introducir
las variables en niveles puedo encontrar un mayor
número de variables explicativas buenas, ya que es más
fácil encontrar variables explicativas que tengan la
misma tendencia que la endógena. Pero eso no significa
que esas variables sean las que realmente son causas
explicativas de los cambios de la endógena. Por ello, al
eliminar la tendencia de las variables exigimos más al
modelo, es decir, tenemos en cuenta las variables que
son realmente “causa”.
Modelo en logaritmos: El modelo básico de regresión
lineal permite únicamente trabajar con relaciones
lineales. Pero no todas las variables tienen porque
estar expresadas a través de una relación lineal. Cuando
estimamos un modelo únicamente con una variable endógena
y una explicativa lo que tratamos es de encontrar la
línea que mejor nos recoja la información suministrada
por ambas variables.

29
Es por ello que la inclusión de las variables en logaritmos
nos permite linealizar las relaciones para poder estimar el
modelo. La justificación a esto se encuentra en la siguiente
demostración:
Y = a * xb
Log (y) = log (a * xb)
Log (y) = log (a) + log (xb)
Log (y) = log (a) + b*log (x)
Y con esta transformación hemos conseguido linealizar la
estimación.
Fases para la elaboración de un modelo econométrico
Las principales etapas que hay que cubrir en un modelo

econométrico se pueden resumir en las cuatro siguientes:
Especificación:
Selección del tema objeto de análisis: Este puede ser del
campo de la economía, la gestión de empresas e incluso temas
sociales no estrictamente económicos.
Selección de las variables explicativas más importantes, la
cual se realiza a través del análisis de los antecedentes
económicos. Empleando las teorías económicas, podemos
encontrar aquellas variables que a nivel general influyen de
una manera importante sobre la variable endógena.
Análisis de los antecedentes econométricos: Búsqueda de
modelos similares a la materia objeto de análisis en libros y
revistas sobre econometría. Propio conocimiento del
investigador.
Búsqueda y depuración de datos. Es necesaria la obtención de
datos suficientes, homogéneos y actualizados.
Estimación: Consiste en el cálculo del valor de los
parámetros a través de la ayuda de un programa informático
(SPSS, Eviews, RATS…)
Y = βo+β
β1X1+β
β2X2+U
βo+^β
^Y = ^β β1X1+^β
β2X2
En la expresión estimada no existe el componente de la
perturbación aleatoria, ya que una vez que estimamos el valor
de la endógena estimado se convierte en una combinación
lineal exacta de las variables explicativas que he utilizado
al realizar la estimación. La estimación de la perturbación
aleatoria será el error que cometo con mi modelo al estimar,
que incluirá precisamente las variables que dejo fuera de la

30
explicación (aquellas que tienen poca importancia sobre la
variable que trato de analizar).
Validación: A través de la interpretación de los resultados
analizaremos la bondad del modelo. De tal manera que si el
modelo no es bueno para explicar a la variable endógena
deberemos perfeccionarlo a través de:
Una re-especificación de las variables explicativas, es
decir, es posible que haya olvidado incluir alguna
variable importante por lo cual el modelo me esté dando
un grado de error elevado.
Una nueva búsqueda de los datos utilizados, ya que si no
son los correctos pueden estar añadiendo un componente
errático a la estimación.
Esta tarea puede repetirse en la práctica un número
elevado de veces.
Utilización: Para realizar:
Análisis estructural: cuantificar las relaciones entre las X
y la Y.
Predicción: anticipar los valores a futuro de la Y
Simulación: efectos sobre Y de distintas estrategias de las
X.
Tipología de variables y datos en la modelación

econométrica
Se entiende por variable al concepto económico que queremos

analizar.
Normalmente utilizaremos variables cuantitativas, es decir,
aquellas cuyos valores vienen expresados de forma numérica
(escalares).
Sin embargo, también existe la posibilidad de incluir en el
modelo econométrico información cualitativa, siempre que la
información cualitativa pueda expresarse de forma
cuantitativa. Dentro de este tipo de variables conviene
conocer las siguientes posibilidades que se le pueden
presentar al económetra:
Variables proxies: Son variables aproximadas a la
variables objeto de análisis. Por ejemplo, si quiero
utilizar una variable que mida el nivel cultural de un
país (variable cualitativa) puedo utilizar como variable
proxy el número de bibliotecas existentes en un país,
que si bien no recoge el concepto exacto que yo quiero
medir, si se aproxima al mismo.
Variables ficticias o dummy: Estas variables toman
únicamente (en principio) dos valores arbitrarios según

31
se de o no cierta cualidad en un fenómeno. Habitualmente
a la variable ficticia se le asigna el valor 1 si ocurre
un determinado fenómeno y 0 en caso contrario. Estas
variables pueden ser de dos tipos:
Ficticia de intervalo: Por ejemplo si estoy analizando
la variable exportaciones en Colombia desde 1970 hasta
el año 2000, hay un hecho importante que es la caída de
la banda cambiaria que debo recoger a través de la
utilización de la variable ficticia.
Ficticia de escalón: Por ejemplo si está analizando el
crecimiento económico de un país en el que en un año
determinado hubo un acontecimiento meteorológico que
tuvo una repercusión negativa sobre la economía, al
tratarse éste un dato casual (y no equilibrado con el
resto de valores que toma la serie) debo introducir en
el modelo este tipo de información para que la tenga en
cuenta en la estimación y cometa un menor error.
Las variables ficticias se pueden incluir tanto en
modelos temporales como en modelos de corte transversal.
Por ejemplo, si analizamos la venta de coches a nivel
provincial, podemos incluir una variable ficticia que
valga 0 cuando la provincia no tiene metro y 1 cuando si
que lo tiene.
Variables definidas por su pertenencia o no a un grupo:
Si tenemos una variable cualitativa que nos define la
pertenencia o no de un país a un grupo (por ejemplo
renta alta, media y baja) podremos introducir esta
variable cualitativa en el modelo codificándola, es
decir expresando sus valores en números de tal forma que
podemos asociar cada nivel de renta con un valor
numérico arbitrario (por ejemplo 1: renta baja; 2: renta
media; y 3: renta alta).
Se entiende por datos, los diferentes valores que toma una
variable.
Los datos pueden corresponder a los valores de una variable
en el tiempo (serie temporal), o a valores para diferentes
sujetos en un momento dado (datos de corte transversal).
Por otro lado, las formas alternativas en que un modelo puede
venir expresado, obliga frecuentemente a transformaciones de
los datos originales (tasas de crecimiento, diferencias,
logaritmos) o incluso a un cierto tratamiento previo de los
mismos (eliminación de tendencia,
eliminación de estacionalidad, etc...)

32
Con la información disponible, el económetra deberá elaborar
una base de datos de tal manera que:
Años Individuos Variable 1 Variable 2 Variable 3
Individuos
1990 1 Datos Datos Datos

1991 2 Datos Datos Datos
……. ……. Datos Datos Datos
2000 N Datos Datos Datos
Los datos que formen la base de datos han de ser:

Suficientes: Como mínimo para poder realizar la
estimación, el número de observaciones debe ser igual al
número de parámetros que queremos estimar. Sin embargo
si no se cumplen unos requisitos mínimos, aunque
teóricamente se puede realizar la estimación, ésta no
será fiable. Esos requisitos mínimos requieren
aproximadamente para un modelo en el que se incluyen
cuatro variables explicativas 20 observaciones.
Homogéneos: Los datos deben estar expresados de una
forma homogénea, esto quiere decir que todos deben ir en
niveles o en tasas de variación o en logaritmos. Además,
cuando trabajemos con variables en precios constantes
todos deben referirse al mismo año base. La homogeneidad
de las variables también hace referencia al hecho de que
todas deben o no ir corregidas de determinados efectos
que se dan en la economía como la tendencia o la
estacionalidad. Con todos estos procesos nos
aseguraremos una mayor fiabilidad y coherencia en la
estimación del modelo.
Actuales: La falta de actualidad en los datos impide
realizar un análisis completo del fenómeno económico, ya
que éste se referirá únicamente al periodo muestral
utilizado en la estimación.
REGRESIÓN LINEAL SIMPLE
En este apartado de la investigación, presentaremos el caso

en el que el valor medio de una variable Y se relaciona con
otra variable X., esto es, con observaciones simultáneas
acerca de Y y de X, utilizar la información de las mediciones
de X para estimar el valor medio de Y, ó predecir valores
particulares de Y para valores asignados de X. Esta relación

33
se puede representar por medio de un modelo matemático que
exprese la relación funcional entre Y y X, dada por Y= f (X)
.
Ejemplos donde se está interesado en desarrollar un modelo
para expresar la relación entre dos variables son:
1) Un gerente de ventas puede estar interesado en relacionar
la cantidad demandada de un bien producido (Y) con el precio
del mismo (X).
2) El gerente de producción de una planta puede estar
interesado en relacionar los costos de producción de un
producto (Y) con la cantidad producida (X).
En muchas situaciones prácticas una variable Y puede estar
relacionada con una o más variables predictoras X´s, como por
ejemplo:
3) Un ingeniero químico puede estar interesado en la cantidad
de hidrógeno que se pierde de la muestra de un metal en
particular cuando se almacena. En este caso puede haber dos
datos, el tiempo de almacenamiento en horas (X1), y la
temperatura de almacenamiento en grados centígrados (X2).
4) El gerente de una planta manufacturera podría querer
relacionar la producción de un producto (Y) con cierto número
de variables del proceso de elaboración (X´s).
Algunas causas por las que investigadores o economistas,
entre otros, necesitan especificar una relación entre dos o
más variables podrían ser:
1) Predecir Y a partir de un conjunto de observaciones dadas
de X
2) Determinar el efecto de la variable independiente X sobre
la variable dependiente Y
3) Confirmar, rechazar o sugerir relaciones teóricas.
Recordemos que el término “modelo de regresión” se utiliza
para describir cualquier tipo de modelo cuyos parámetros son
estimados a partir de un conjunto de datos. Estos modelos
tienen una gran variedad de formas y grados de complejidad.
La relación más simple que se puede pensar para relacionar
estas variables es la relación lineal. En el caso de tener
una sola variable predictora el modelo se denomina de
regresión lineal simple y esta dado por Y = α + β X, donde α y
β son parámetros desconocidos que indican la ordenada al
origen y la pendiente. En el caso de tener más variables
predictoras el modelo se denomina modelo de regresión
múltiple y está dado por Y = β0+ββ1X1+…+β
βpXp.

34
MODELO DE REGRESIÓN LINEAL SIMPLE:
Adaptado de:
www.uesiglo21.edu.ar/pdfs%20dpto%20economia/
microeconomia_Mirta_Santana/UNIDAD06.pdf
Supóngase que en una ciudad determinada se quiere desarrollar

un modelo para predecir el precio de venta de las casas de
esa ciudad, en base al valor estimado de la misma.
En este caso la variable a predecir o independiente Y estría
dada por el Precio de Venta, y la variable predictora o
dependiente X sería el Valor estimado. Para encontrar el
modelo se toma una muestra de 30 casas de esa ciudad y se
registran el precio de venta y el valor estimado para cada
una de ellas:
OBSERVACIÓN VALOR PRECIO DE OBSERVACIÒN VALOR PRECIO DE
ESTIMADO VENTA ESTIMADO VENTA
1 78.17 94.1 16 84.36 106.7
2 80.24 101.9 17 72.94 81.5
3 74.03 88.65 18 86.5 94.5
4 86.31 115.5 19 66.28 69
5 75.22 87.5 20 79.74 96.9
6 65.54 72 21 72.78 86.5
7 72.43 91.5 22 77.9 97.9
8 85.61 113.9 23 74.31 83
9 60.8 69.34 24 79.85 97.3
10 81.88 96.9 25 84.76 100.8
11 79.11 96 26 81.61 97.9
12 59.93 61.9 27 94.92 90.5
13 75.27 93 28 79.82 97
14 85.88 109.5 29 77.96 92
15 76.64 93.75 30 79.07 95.9
Con los datos se realiza un diagrama de dispersión (abajo) en

donde se observa que a mayor valor estimado de ventas mayor
es el precio que se vende la casa, por lo que podríamos
pensar en un modelo lineal.

35
Diagrama de dispersión de los valores estimados de venta y
los precios de venta de 30 casas de una localidad.
Los valores de la muestra se pueden representar como ((xj, yj)
j=1,2,…..,30), en donde xj representa el valor estimado de la
casa j e yj el precio de venta de la casa j. No se espera que
todas las casas con un valor estimado dado se vendan al mismo
precio, unas serán vendidas a un precio más alto otras a uno
más bajo. Esto es, si se tomaran muestras adicionales para
los mismos valores de X se esperaría que los valores de Y
varíen, es decir, el valor de yj en el par (xj, yj), es un
valor de alguna variable aleatoria Yj . Por conveniencia se
define Y/x como la variable aleatoria Y correspondiente al
valor fijo x. Su media y su varianza están dados por µY/x y
σ2Y/x respectivamente. Si X=xj , entonces Y /xi representa la
variable Yi con media µY/xi y varianza σ2Y/xi.
Si se piensa en un modelo lineal de la forma α + β X , se
espera que los valores observados estén agrupados alrededor
de esa línea. Dependiendo de cuan disperso estén los datos
respecto de la media podríamos decidir si el modelo planteado
es el adecuado.
El término regresión lineal implica que µY/x está linealmente
relacionada con X por la ecuación de regresión lineal
poblacional
Donde
36
Y : variable aleatoria independiente y observable
X : variable no aleatoria dependiente y observable.
También conocida como variable predictora
E: error o perturbación aleatoria
α y β son parámetros que deben estimarse a partir de los
datos
Si (xj, yj) con j= 1,2,….,n observaciones de las variables X
e Y yj= α+ β xj+ εj se satisface para cada observación.
Si αˆ y βˆ son las estimaciones de α y β, entonces
modelo de regresión lineal simple estimado.
La estimación del error está dada por , se llama

residuo y describe el error del ajuste del modelo en el punto
i de datos.
Supuestos básicos para el modelo de regresión lineal simple:
El modelo de regresión lineal simple tiene supuestos básicos
que deben ser verificados, para asegurar que el mecanismo de
obtención de las estimaciones de los parámetros sea adecuada.
Estos supuestos básicos están dados por:
Este supuesto se conoce

con el nombre de
Homocedasticidad.
Consecuencias:
Bajo estos supuestos se tiene que:

37
Los parámetros del modelo son α, β, σu2, y son desconocidos y
por lo tanto hay que estimarlos. En las secciones siguientes
se presentarán primero una estimación puntual de los
parámetros, luego una por intervalos de confianza y
finalmente se desarrollará el método de tests de hipótesis.
Estimación puntual de los parámetros
Hay diferentes métodos de estimación puntual; el adoptado

dependerá de los supuestos que se establezcan a cerca de los
residuos ei. Se busca que la recta de regresión esté lo más
próxima a la nube de puntos representada en un gráfico de
dispersión, definiendo lo que se entiende por próximo. Es
decir especificando si se minimizan las distancias
horizontales, verticales, perpendiculares o la suma de las
distancias absolutas entre el valor observado y el estimado
por la recta, como se puede observar en la Figura de abajo:

38
Presentaremos el método de mínimos cuadrados y el de máxima
verosimilitud para obtener las estimaciones puntuales de los
parámetros del modelo.
Método de Mínimos Cuadrados:
Es un método que minimiza la suma de cuadrados de las
distancias verticales, es decir, .

Este método consiste en elegir α^ y β^ como estimadores de α
y β tal que sea mínima.
Derivando con respecto a los parámetros se tiene:

39
Estas ecuaciones son conocidas como las ecuaciones normales
mínimo-cuadráticas. Resolviendo este sistema de ecuaciones,
se obtiene:
De la estimación de α se sigue que el punto , pertenece

a la recta de regresión
estimada.
Los datos de los valores estimados de venta y los precios de
venta de 30 casas que se muestran a continuación, fueron
procesados en SPSS obteniendo los siguientes resultados:
De donde se sigue que el valor estimado de α es –36.866, y el

valor estimado de β es 1.679, por lo que el modelo de
regresión lineal simple estimado está dado por

40
El diagrama de dispersión con la línea de regresión se puede
observar en la figura siguiente:
Propiedades de los estimadores por Mínimos Cuadrados:
Los estimadores por mínimos cuadrados tienen ciertas

propiedades interesantes, son funciones lineales, insesgados
y de varianza mínima.
1) Son funciones lineales de las observaciones reales de Y
si
además

41
Análogamente
2) Valor esperado de los estimadores
trabajando en forma similar se tiene que
Por lo tanto los estimadores por mínimos cuadrados son

insesgados.
3) Varianza de los estimadores:
Para el caso del estimador de β se tiene que
análogamente para el estimador de α

42
Los estimadores tienen la propiedad de ser óptimos, o sea,
son de varianza mínima.
Esto puede demostrarse obteniendo directamente los
estimadores lineales insesgados óptimos y ver que coinciden
con los de mínimos cuadrados.
Bajo los tres supuestos los estimadores por mínimos cuadrados
son los mejores estimadores lineales insesgados.
Hasta ahora no se ha dicho nada respecto de la distribución
de probabilidades de los residuos, salvo que su media es
cero, su varianza constante y sus covarianzas nulas. Si
además se supone que los residuos tienen una distribución
Normal, o sea, entonces:

Podremos obtener estimadores de los parámetros por el
método de máxima verosimilitud.
Podremos construir los intervalos de confianza de los
estimadores.
Podremos realizar test a cerca de los parámetros del
modelo.
Método de Máxima Verosimilitud:
El método de máxima verosimilitud consiste en maximizar la
función de verosimilitud.
Esta función se obtiene encontrando la distribución conjunta
de la muestra, que en el caso de tener una muestra aleatoria
e independiente se obtiene multiplicando las distribuciones
marginales.
En el caso de regresión se busca estimar α y β y se tiene una
muestra aleatoria independiente y con distribución conocida
bajo los 4 supuestos antes mencionados. Con el fin de
conseguir estos estimadores, debemos obtener la función de
verosimilitud de las observaciones de la muestra y
maximizarlas con respecto a los parámetros desconocidos.

43
La muestra está compuesta de las observaciones de las n
variables Y j, que se distribuyen normalmente con media α+ βX
j y una varianza igual a σ u, además son independientes.
2
Luego de hacer los respectivos pasos algebraicos la función L

de verosimilitud está dada por:
en donde aparecen tres parámetros desconocidos α, β y σ2u.

derivando parcialmente respecto a ellos, igualando a cero y
simplificando se obtienen las siguientes ecuaciones:
Las dos primeras ecuaciones son las ecuaciones normales

mínimo-cuadráticas ya obtenidas. Esto significa que los
estimadores máximo-verosímiles de α y β son iguales a los
estimadores por mínimos cuadrados.
La tercera ecuación da la estimación por máxima verosimilitud
da la varianza de los residuos. Reemplazando ~α ~β se
obtiene que el estimador de la varianza de los residuos está
dado por . Este es un estimador sesgado de la

varianza. El estimador insesgado resulta de dividir la suma
de los cuadrados de los errores en (n-2) y se denota por Se2.
Concluyendo entonces, tenemos que bajo los supuestos del
modelo de regresión lineal normal, los estimadores por
mínimos cuadrados de los parámetros de regresión equivalen a
los mejores estimadores lineales insesgados y a los
estimadores por máxima verosimilitud.
Distribución de los parámetros α y β estimados

44
Considerando el modelo de regresión lineal simple normal, es
decir considerando los tres supuestos básicos más el de
normalidad, las distribuciones de los estimadores están dadas
por :
1) Cuanto mayor sea la varianza de los errores, serán mayores

las varianzas de los estimadores.
2) Cuanto mayor sea la dispersión de los valores de la
variables explicativa X, menores serán las varianzas de los
estimadores.
3) Si todos los valores de X fuesen iguales ambas varianzas
serían infinitas.
4) La varianza del estimador de α es mínimo cuando la media
de la variable explicativa es cero.
Los estimadores de las varianzas están dados por:
donde
es la estimación de la varianza de los errores.
Intervalos de confianza para los parámetros
En la construcción de los intervalos de confianza vamos a

considerar dos casos: uno donde la varianza de los errores es
desconocida y otro donde es conocida. Aquí se considera el
modelo de regresión lineal simple normal.

45
Caso donde la varianza de los errores es desconocida:
Ya sabemos que la distribución de los estimadores es Normal
con media constante y varianza finita, por lo tanto la forma
estandarizada se distribuye como normal con media 0 y
varianza 1, esto es:
Por otra parte los errores tienen una distribución normal y

por lo tanto elevados al cuadrado tienen una distribución
chi- cuadrado, dada por:
se puede mostrar que
tienen una distribución chi-cuadrado. Como el cociente de una

normal estándar sobre una chi-cuadrado es una t, se tiene que
De una manera similar se obtiene:
Así, se pueden efectuar las siguientes especificaciones

probabilísticas

46
En donde los t’s indican los valores del estadístico t con
(n-2) grados de libertad que delimita λ/2 del área de la
distribución t en cada extremo.
A partir de estas afirmaciones se pueden construir los
intervalos de confianza para los estimadores . Estos están
dados por:
La probabilidad de que el intervalo de confianza así

especificado incluya el verdadero valor del parámetro de
regresión es (1-λ), y recibe el nombre de nivel de confianza.
Volviendo al ejemplo de los precios de ventas de casa se
tiene que los intervalos de confianza de las estimaciones de
α y β están dados por:
Caso en el que la varianza de los errores es conocida:

El procedimiento es el mismo solo que se trabaja con las
varianzas conocidas y por lo tanto no se utiliza la
distribución t de student sino la distribución Normal.
Los intervalos vienen dados por:
Predicción de un valor de Y para un valor dado de X
La ecuación de regresión estimada , basada en los

datos observados, se utiliza para predecir el valor de y para
valores determinados de x. En el caso del ejemplo, podríamos
estar interesados en predecir un valor de venta de una casa
determinada basada en el valor estimado de la misma. Es decir
queremos utilizar la ecuación de predicción, obtenida a
partir de las 30 mediciones en la tabla antes vista, para
predecir el precio de venta de una nueva casa seleccionada de
47
la población. Si el valor estimado de esta nueva casa es x0,
entonces se predice el precio correspondiente de venta yo por
medio de:
El verdadero valor de y0 está dado por
donde e0 es el término de error. Por lo tanto el error de la

predicción es
Tomando esperanza en ambos miembros de esta ecuación , y por

las propiedades de los estimadores de los parámetros se
obtiene que , con lo que el estimador de la

predicción es insesgado.
La varianza del error de la predicción está dada por:
La varianza es mayor cuando el valor de x0 se aleja de la

media de las n observaciones de X.
Cuando n es muy grande, el segundo y el tercer término de la
expresión entre corchetes son pequeños y la varianza del
error de la predicción se acercará a σ2 . Podemos utilizar
estos resultados para establecer un intervalo de confianza de
la predicción de y0 para un valor dado de x0. El intervalo de
predicción del 100(1-α)% estará dado por:
donde t α/2 proviene de una distribución t con (n-2) grados de

libertad..
Predicción de un valor esperado
Un problema práctico muy importante puede ser encontrar la
estimación del valor medio de y para un valor dado de x. Si
48
la ganancia de una corporación, y, está relacionada
linealmente con los gastos de la publicidad, x, la
corporación desearía estimar la ganancia media para un gasto
dado. De igual forma, en el ejemplo de las casas, se desearía
estimar el precio de venta promedio de una casa para un valor
estimado determinado.
En este caso tenemos que dado x0 el interés se centra en
predecir E(y0) y no y0.
La estimación de estará dada por
que es igual a y0 que consideramos

anteriormente. Aunque la predicción es la misma, el error de
la predicción no es el mismo, como así tampoco la varianza.
El error de la predicción en este caso está dado por
idéntico al de pero sin el término de error. La

varianza está dada por
Si la varianza de los errores no es conocida, entonces se

estima por S2.
Un intervalo del 100(1-α)% de confianza para la predicción
del valor esperado está dado por:
donde nuevamente t α/2 proviene de una distribución t con (n-

2) grados de libertad. Obsérvese que el ancho del intervalo
de confianza de E(y/x=x0) es menor que el ancho del intervalo
de predicción de y0.
Nota: El término E(y/x) es una media, un parámetro de una
población de valores y, y y es una variable aleatoria que
oscila alrededor de E(y/x) . El valor medio de y cuando x=x0
es muy diferente de un valor de y escogido al azar del
conjunto de todos los valores y para los cuales x=x0. Siempre
49
se estima el valor de un parámetro y se predice el valor de
una variable
aleatoria.
Descomposición de la variación muestral de Y:
En esta parte de la investigación, se presentarán dos medidas

de bondad del ajuste, el error estándar del estimador y el
coeficiente de determinación. El estudio de estas medidas es
más fácil si se piensa que la variación del análisis de
regresión está compuesta por dos componentes de variabilidad,
uno conocido como la variabilidad explicada por la regresión
y el otro por la variabilidad no explicada.
En la figura abajo se puede observar que la diferencia entre
y conocida como la desviación total, se puede escribir
como la suma de llamada desviación no explicada;
llamada desviación explicada.
Resumiendo se tiene que:
O lo que es lo mismo
**
Ya que los dos términos de la ecuación ** son independientes
se sigue que:
El primer miembro de esta relación se llama variación total o

suma total de cuadrados (STC). El primer término de la
derecha es la variación explicada o suma de cuadrados de la
50
regresión (SCR); y el último término es la variación no
explicada o la suma de cuadrados de los errores (SCE).
La ventaja de descomponer la variación total en estas dos

componentes es que se puede hablar de la bondad del ajuste en
términos de la magnitud SCE. Por ejemplo, si la recta se
ajusta perfectamente a los datos se tendrá que SCE=0, y por
lo general cuando el ajuste de la
recta no es perfecto SCE≠0.
Error estándar de la estimación:
Es una de las medidas más útiles del análisis de regresión y
está definido por:
El estadístico muestral Se es la desviación de los errores ei

respecto de la regresión muestral. El cuadrado de Se es una
estimador insesgado de la varianza de los errores respecto de
la regresión poblacional.
El valor del error estándar puede interpretarse de manera
análoga a la interpretación del desvío estándar de los
valores de una variable con respecto a su media. Es decir,
admitiendo los supuestos básicos más el de normalidad,
aproximadamente el 68% de las observaciones estarán dentro de
±1Se unidades respecto a la recta de regresión, 95% estarán
dentro de ±2Se unidades, y 99% estarán dentro de ±3Se
unidades.
Coeficiente de determinación
La segunda medida de la bondad del ajuste que sirve para
interpretar la cantidad relativa de la variación que ha sido
explicada por la recta de regresión muestral, se conoce con
el nombre de coeficiente de determinación y se representa por
r2. Es la proporción de la varianza de Y que puede atribuirse
a la variación de X.
o bien

51
r2 es una medida que se utiliza corrientemente para
describir hasta que punto la recta de regresión de la
muestra se ajusta a los datos observados.
r2 no puede ser negativo ni mayor que uno, es decir 0
r2 1
r2 = 0 ocurre cuando la suma de los cuadrados de los
errores es igual a la suma total de cuadrados, es decir
cuando la línea de regresión es la media de la variable
Y, y la variación explicada es nula. Esto significa que
ninguna parte de la variación de Y esta explicada por la
variación en X
r2 = 1ocurre cuando la suma de los cuadrados de los
errores es cero, o sea cuando cada uno de los errores es
cero, de forma que los puntos en un diagrama de
dispersión se encuntran sobre una líne recta. Es decir
si la línea de regresión se ajusta perfectamente a todos
los puntos muestrales.
valores bajos de r2 pueden deberse a que X es una
variable explicativa deficiente en el sentido de que su
variación no afecta a la variable Y; o que aunque X es
la variable explicativa relevante su influencia sobre Y
es débil comparada con la influencia de los errores; o
que la ecuación de regresión esté mal especificada.
Correlación
En el apartado anterior presentamos la bondad relativa de la
bondad del ajuste r 2 en relación con la regresión entre Y y
X. La fuerza de la relación lineal entre las variables se
puede medir sin estimar la recta de regresión poblacional.
Esto es la suma de los productos de las
desviaciones respecto de sus medias, es decir
. Esta medida por lo general no es un buen

indicador de la fuerza relativa de la relación entre dos
variables, ya que, por un lado se puede incrementar su valor
arbitrariamente añadiendo nuevas observaciones, y por otro
lado resulta influenciada por las unidades de medidas de las
variables. Por consiguiente se define una medida corregida ,
estandarizada, dada por:

52
que es el coeficiente de correlación de Pearson y mide el
grado de asociación (lineal).
En la primera figura del gráfico de la parte inferior,
podemos observar que cuando aumenta el valor de X, también
aumenta el valor de Y, mientras que en la figura 2 cuando
aumenta el valor de X, disminuye el de Y. En el primer caso
se dice que hay una correlación o asociación positiva y en el
segundo una correlación o asociación negativa. Las tres
últimas figuras muestran casos de ausencia de correlación,
donde un aumento o disminución de X no implica un aumento o
disminución de Y.
Los posibles valores de r oscilan entre –1 y +1, en donde +1

corresponde a una correlación positiva perfecta y
gráficamente corresponde a que todas las observaciones se
encuentran sobre una línea recta como el gráfico 1 de la
Figura a continuación. Un valor r = -1 corresponde a una
correlación negativa perfecta y gráficamente corresponde a
que todas las observaciones se encuentran sobre una línea
recta como el gráfico 2 de la misma figura.

53
**Ejemplos de diagramas de dispersión que muestran una correlación lineal
perfecta.
Una correlación de 0 (o sea r = 0) significa que no hay

relación lineal entre las dos variables. Existe una
correspondencia entre la cifra del coeficiente de correlación
y cuán dispersas están o no las observaciones alrededor de
una línea recta. Cuando la correlación se aproxima a 0, la
forma del gráfico de dispersión es más o menos circular, como
se observa en el gráfico 3 de la figura inmediatamente
después a la anterior o tiene la forma de los gráfico 4 y 5
de la misma figura. Otra situación en donde el coeficiente de
correlación es cero o cercano a cero, es cuando las variables
están relacionadas pero no de forma lineal sino cuadrática
como el caso de la figura siguiente, o cúbica entre otras.
Conforme el valor de la relación se aproxima a +1 o –1, la

forma se vuelve más elíptica como los gráficos 1 y 2 de la
Figura 3 hacia atrás, hasta que, en +1 o –1, las

54
observaciones quedan directamente sobre la línea recta
(Figura 2 hacia atrás).
Con respecto al ejemplo de las casas se tiene que:
El coeficiente de correlación de Pearson r=0.938, lo que
indica que el precio de venta de las casas esta
fuertemente asociado y de forma lineal con el valor de
estimación de las mismas.
El coeficiente de determinación es r2= 0.88 lo que dice
que el 88% de la variación que hay en los precios de
venta de las casas esta explicada por la variación en
los valores estimados de las mismas.
Test de hipótesis acerca de los parámetros
En las secciones anteriores presentamos una forma de estimar

la mejor recta de regresión que expresa la relación ente Y y
X, y discutimos las medidas de la fuerza de la relación
lineal.
No hemos presentado, sin embargo, ninguna regla o
procedimiento para determinar si el conocimiento de la
variable independiente X resulta útil para predecir los
valores de Y. Si se supone que β=0, entonces la regresión
estimada es una constante y por lo tanto los valores de X no
sirven para predecir Y. Si β no es 0 todos los valores de X
son necesarios para la predicción de Y.
Test acerca de la pendiente
Bajo los supuestos del modelo de regresión lineal Normal, la
relación entre X e Y viene dada por la dependencia lineal del
valor medio de Yj respecto de Xj, es decir por .

Por lo tanto la afirmación de que no existe una relación
entre estas variables debe interpretarse en el sentido de que
el valor esperado de Yj no es linealmente dependiente de Xj
Pero esto es lo mismo que decir que β = 0
La hipótesis nula a testar es:
Para contrastar H0 se usa la prueba t. Es muy parecida a la de

la media poblacional, puesto que en este caso el test
contrasta también una media (β). El estadístico de prueba se
puede obtener de los estimadores por mínimos cuadrados, que
bajo los supuestos poseen todas las propiedades óptimas.
55
Caso de varianza conocida:
El estadístico de prueba está dado por y que
bajo Ho es que sigue distribuyendo Normal con

media cero y varianza 1.
La región de rechazo está dada por
Caso en que la varianza es desconocida:
En este caso el estadístico de prueba está dado por
Bajo Ho el estadístico tiene la forma

Las regiones de rechazo de los test están presentadas en

términos de los puntos críticos, los que deben ser comparados
con los valores de tabla. En muchos casos, el software en sus
salidas entrega los valores de p value, por lo que es más
fácil comparar los resultados. En esta investigación, SPSS
nos brindará las herramientas necesarias para la estimación.
En el caso del ejemplo se tiene que los valores de los
parámetros son significativamente diferentes de 0 ya que el
p-value asociado a cada uno de ellos es p<0.0001.
Prueba F
Existe otra forma de testar la hipótesis de que el parámetro
de linealidad es cero en la recta de regresión, utilizando
una metodología que involucra las medidas de variación ya

56
planteadas aquí, es decir, la variación explicada por la
regresión y la no explicada por la regresión.
Recordemos que la variación total estaba relacionada con la
variación explicada y no explicada por SCT=SCE+SCR. Si la
hipótesis nula es cierta entonces la variación de Y entre una
observación y otra no se verá afectada por los cambios en X,
esto es SCR sería cero en la población, es decir:
Además esto significa que STC y SCE son iguales. Por lo tanto
si no hay una relación lineal entre X e Y SCR/SCE sería
distinto de cero solamente a consecuencia del muestreo.
Como bajo los supuestos del modelo de regresión lineal
normal, el parámetro de linealidad tiene una distribución
normal, puede demostrarse que es el cociente de

dos variables independientes chi-cuadrados, cada una de las
cuales está dividida por sus grados de libertad y por
consiguiente
tiene una distribución F con 1 y n-2 grados de libertad.

Esta contrastación y la proporcionada por la distribución t

son equivalentes en el sentido en que ambas dan la misma
respuesta siempre que el nivel de significación y los datos
muestrales sean los mismos.
REGRESIÓN LINEAL MULTIPLE
En la sección anterior se plantearon los conceptos de

regresión lineal simple y correlación, con el fin de estimar
el valor medio de y, o predecir un valor de y utilizando la
información contenida en una variable independiente o
predictora x. En esta sección extenderemos esta idea al caso
en que existan más de una variable predictora, y
presentaremos los conceptos de regresión lineal múltiple cuyo

57
objetivo es estimar el valor medio de y y/o predecir valores
particulares de y, basado en la información de k variables
independientes o predictoras x’s.
Supongamos que se desea relacionar el consumo percápita de
alimentos (y) con el precio de los alimentos (x1) y el
ingreso de los consumidores (x2). Así se utilizarían la
información obtenida a partir de y, x1, y x2 para obtener la
ecuación de predicción, la que a su vez, sería utilizada para
pronosticar el consumo percápita de alimentos, según un
precio determinado de los alimentos y según un ingreso de
consumidores determinado.
Planteamiento del modelo
En muchas aplicaciones prácticas generalmente existe más de

una variable independiente que ayude a explicar la
variabilidad de una variable dependiente considerada de
interés. Esto es, suponiendo que tenemos k variables
independientes o explicativas, y que el modelo poblacional
que relaciona esta variables está dado por el modelo de
regresión lineal poblacional siguiente:
donde
i: indica uno de los valores de la población para cada
variable
α: es la ordenada al origen
βj: es la pendiente de la relación lineal entre y y xj
εj: término de error
Los supuestos del modelo están dados por :
Los cuatro primeros supuestos son necesarios para demostrar

que el método de mínimos cuadrados proporciona estimadores de
los parámetros del modelo insesgados y de varianza mínima
58
dentro de la clase de estimadores lineales insesgados. El
supuesto número cinco es necesario para realizar pruebas de
significancia y para construir los intervalos de confianza de
los parámetros.
En el modelo de regresión múltiple, además de los cinco
supuestos ya expuestos, se deben cumplir dos condiciones más
para obtener los estimadores por mínimos cuadrados, a saber:
Condición 1: ninguna de las variables independientes es
combinación lineal exacta de las otras. Esto es, supóngase
que se tiene:
**
y que 3x1 + x2=9 de donde x2=9-x1 reemplazando en ** se tiene
que
y por lo tanto se estima y y no los

parámetros por separado.
Condición 2: El número de observaciones (n) debe exceder por

lo menos en dos al numero (k) de variables independientes, es
decir se debe cumplir que n ≥ k + 2.
Al igual que en el caso de regresión lineal simple, la media
poblacional de la variable dependiente está dada por la
ecuación de regresión lineal múltiple poblacional siguiente:
Los coeficientes se llaman coeficientes de regresión parcial,

e indican la influencia parcial de cada variable
independiente sobre y, cuando se mantiene constante la
influencia de las otras variables independientes.
Para estimar los parámetros del modelo de regresión lineal
poblacional, se utiliza la información de una muestra de n
observaciones de las k variables independientes y de y. Se
quiere encontrar la recta de regresión múltiple muestral que
ajuste mejor a esos datos, y usar los coeficientes de esa
ecuación como estimadores de los parámetros de la línea de
regresión múltiple poblacional.
Estimaciones por Mínimos Cuadrados

59
Las estimaciones por mínimos cuadrados se obtienen, al igual
que en regresión lineal simple, minimizando la suma de los
cuadrados de los errores, es decir se busca encontrar los
estimadores de α y βi con i =1,2,..., k tal que
sea mínima.
El procedimiento es el mismo que el planteado en el caso de
la regresión lineal simple, sólo que aquí se obtiene un
conjunto de (k+1) ecuaciones normales, que se resuelven
simultáneamente para obtener las (k+1) estimaciones. La
resolución de estas ecuaciones no es particularmente difícil
pero requiere de muchas operaciones matemáticas que no serán
desarrolladas en este módulo. En la práctica se emplean
programas computacionales para obtener estas estimaciones.
En el caso de dos variables predictoras 2 1 x y x los
estimadores por mínimos cuadrados del modelo de regresión
lineal múltiple
están dadas por
donde
Ejemplo: Supongamos que estamos interesados en explicar o

predecir los cambios en los niveles de inversión conjunta de
un grupo de empresas. Las variables a considerar son X1:
índice de precio de 500 acciones de las empresas, y X2: es la
utilidad retenida de las empresas (en miles de millones).
Estamos interesados en relacionar el índice de precios de las
500 acciones y el nivel de inversiones de un trimestre con la
inversión en el trimestre siguiente. El modelo que se plantea

60
es y los datos están en la siguiente
tabla:
INVERSIÓN INDICE NIVEL INVERSION INDICE NIVEL

62.3 398.4 16.2 84.3 581.8 16.2
71.3 452.6 17.4 85.1 707.1 16.4
70.3 509.8 14.8 90.8 776.6 20.4
68.5 485.4 14.6 97.9 875.3 20.5
57.3 445.7 8.2 108.7 873.4 26.1
68.8 539.8 14.9 122.4 943.7 29
72.2 662.8 15.1 114 830.6 24.6
76 620 14.3 123 907.5 27.8
64.3 632.2 10.9 126.2 905.3 23.3
77.9 703 16 137 927.4 21.6
Procesamos los datos en SPSS, realizando primero una

regresión simple entre los valores de la inversión y la
variable X1, los resultados están en el siguiente cuadro:
En este caso el valor estimado de la pendiente es 0,123 y el

valor de la variación no explicada en este caso dio de 1901.
Cuando se introduce en el modelo la variable X2 los resultados
cambian como se observa en el cuadro siguiente:
En esta tabla se puede observar que el valor del coeficiente

de la variable índice cambio de 0,123 a 0,0786. Esto es un
cambio de 10 puntos en el índice de precios de las acciones
en el trimestre anterior esta ahora asociado con un
incremento anual de la inversión de solo $0,79 miles de
millones, en vez de un incremento de $1,23 miles de millones.
61
Este coeficiente mide el efecto parcial que los cambios en
los precios de las acciones en el último trimestre tienen
sobre la inversión, considerando que se hubiese mantenido
constante la utilidad retenida en el trimestre anterior.
De igual modo el valor del coeficiente de la variable
utilidad, 1,798, representa la influencia parcial de las
utilidades retenidas sobre la inversión, cuando se mantiene
constante el índice de precios de las acciones.
En este caso la variabilidad no explicada resultó 1264.
Por consiguiente cuando se introducen variables en los
modelos se producen cambios en los coeficientes de las
variables previamente incluidas, queda explicada una mayor
parte de la variabilidad de y, y además los valores de los
estadísticos t y F también cambian.
Medidas de Bondad del Ajuste:
Al igual que en regresión simple aquí se necesita medidas que

indiquen hasta que punto se ajusta la ecuación de regresión
múltiple a los datos observados. Se presentarán el error
estándar de la estimación, coeficiente de determinación
correlación y de múltiple y parciales.
Error estándar de la estimación:
El error estándar de la estimación para la regresión múltiple
está definido por:
Coeficiente de determinación múltiple:

El coeficiente de determinación múltiple R2 es el cociente de
la variación explicada por la regresión respecto de la
variación total. Se acostumbra usar como notación para este
coeficiente la siguiente , donde la variable

dependiente aparece antes del punto y las k independientes
después de él.
Indica la proporción de la variación total en y que ha sido

explicada por la ecuación de regresión.
Coeficiente de correlación múltiple:

62
Este coeficiente mide el grado de asociación entre una
variable y y un grupo de variables x1,x2,.......xk , y puede
interpretarse del mismo modo que el coeficiente r ya que r no
es otra cosa que el coeficiente de correlación simple entre
los valores muestrales de y y las estimaciones de estos
valores proporcionados por la ecuación de regresión múltiple.
El coeficiente R no toma valores menores que cero.
Los valores de estas medidas de bondad del ajuste para el
ejemplo están dadas en el siguiente cuadro:
El error estándar en este caso es de $8,68 miles de millones,

que comparado con el encontrado en la regresión simple en
donde no se incluye la utilidad, es menor ya que en ese caso
el error estándar era de $10,3 millones. (este valor se
obtiene de la salida del programa SPSS, esto puede ser
verificado).
Por su parte el coeficiente de determinación múltiple resultó
dar 0,89, lo que significa que el 89% de variación en la
inversión esta explicada por la relación lineal entre la
inversión, los precios de las acciones y las utilidades
retenidas. El valor de este coeficiente en el caso de la
regresión simple fue de 0,835, por lo que la inclusión de la
variable utilidad nos permite explicar un 5,5% más de la
variabilidad de las inversiones.
No debemos confundirnos en el hecho de pensar que la variable
índice sea mejor predictora que la variable utilidad ya que
si se hubiese realizado la regresión simple con la variable
utilidad esta explicaría más la variabilidad de las
inversiones que el índice.
Coeficiente de correlación parcial:
El grado de asociación entre y y una variable explicativa,
eliminando el efecto lineal de todas las otras variables
explicativas está dado por el coeficiente de correlación
parcial. Mide la fuerza de la relación entre y y una sola
variable independiente, considerando la cantidad en que se
63
reduce la variación explicada al incluir esta variable en la
ecuación de regresión. Esta correlación se denota por
donde la variables antes del punto son aquellas cuya

correlación está midiéndose, y la o las variables después del
punto son aquellas cuya influencia se mantiene constante.
Como antes esta cantidad elevada la cuadrado es el
coeficiente de determinación parcial que mide la proporción
adicional de la variable no explicada en y que está explicada
por la variable a la que no se mantiene constante.
En el caso del ejemplo el coeficiente de correlación parcial
entre la inversión y las utilidades retenidas, manteniendo
constantes los precios de las acciones, fue de 0,579 (Tabla
2 hacia atrás).
Considerando el caso en el que existan tres variables,
tendríamos que:
mide la proporción de la varianza de y que

explicada por xi
mide la proporción de la varianza de y que

explican x1, x2 y x3 en forma conjunta
son los coeficientes de

determinación parciales que miden cuanto de la
variabilidad de y está explicada por x i después de
incluir x j en la regresión.
o son los coeficientes de

determinación parciales que miden cuanto de la
variabilidad de y esta explicada por xi después de
incluir xj y xr en la regresión.
Inferencia acerca de los parámetros del modelo de

regresión múltiple
En el modelo de regresión múltiple estamos interesados en

conocer si los parámetros βi son significativamente diferentes
de cero. El procedimiento a utilizar es similar al de
regresión simple por medio de tests de hipótesis.
Aquí la hipótesis nula está dada por

64
Significa que la variable xi no tiene una relación lineal
significativa con y cuando se mantiene constante el efecto de
las otras variables independientes.
Bajo los supuestos de que los errores son independientes e
idénticamente distribuidos con una distribución normal con
media cero y varianza constante y finita, el estadístico del
test tiene una distribución t de student con (n-k-1) grados
de libertad. Los programas computacionales entregan los
valores del estadístico t para cada uno de los parámetros
conjuntamente con el p-value. Sobre la base de estos valores
se toma la decisión de rechazar o no la hipótesis nula.
En nuestro ejemplo, podemos ver que los coeficientes de las
variables son significativamente diferentes de cero mientras
que las constantes no.
Al igual que en regresión lineal simple, se puede testar la
hipótesis de que todos los coeficientes sean iguales a cero,
es decir se puede testar la hipótesis nula siguiente:
Contra la alternativa de que al menos uno de los coeficientes

sea diferente de cero.
En otras palabras H0 indica que ninguna de las variables
independientes influye en y, es decir, que el modelo de
regresión planteado no es el adecuado. Rechazar la hipótesis
nula indicaría que al menos uno de los parámetros es útil
para explicar la variación de y, pero no se sabe cuál.
Para realizar este test usamos la metodología del análisis de
la varianza, ya visto en una sección anterior. Los resultados
para nuestro ejemplo se encuentran en la siguiente tabla:
El valor de F = 68,764 es mayor que el valor crítico de tabla

con 2 y 17 grados de libertad al nivel de 1% (6,11), de modo
que se llega a la conclusión de que hay evidencia suficiente
en los datos para rechazar la hipótesis nula de que no existe
relación lineal. Es decir que con la evidencia de estos datos
65
se puede decir que los precios de las acciones y la
utilidades retenidas tienen una asociación lineal
significativa con la inversión. Este resultado se confirma
con el valor del p-value (última columna de la tabla).
Predicción
Considerando el modelo de regresión que planteamos al inicio

de esta sección, el interés se centra en predecir el valor de
y0, en base a los valores de x10, x20,........., xk0, y por lo
tanto:
El error de predicción estará dado por

La esperanza y la varianza de están dadas por
Para calcular la varianza de necesitamos conocer las
varianzas y covarianzas de todos los
Incumplimiento de los supuestos
En esta sección de la investigación, presentaremos brevemente

los problemas que surgen cuando los supuestos del modelo de
regresión múltiple no se cumplen. Los problemas que
plantearemos aquí son de Multicolinealidad,
Heterocedasticidad, detección de Correlación serial o
Autocorrelación de los residuos.
Multicolinealidad:
Este problema surge cuando no se cumple la condición 1
expuesta al inicio de esta sección, que señala que ninguna
de las variables independientes puede ser una combinación
lineal exacta de las otras variables independientes.
Si las variables independientes están perfectamente
relacionadas entre sí en forma lineal, se dice que son
linealmente dependientes . En estos casos no se pueden
obtener estimaciones de los coeficientes de la ecuación de
regresión
En la práctica rara vez se encuentran casos de dependencia
perfecta ya que los errores de muestreo y de medición son

66
inevitables. Sin embargo, hablamos de un problema de
multicolinealidad cuando dos o mas variables independientes
están altamente correlacionadas entre sí, o cuando hay bajas
correlaciones de a dos pero altas entre tres o más.
Es posible detectar estas correlaciones con el coeficiente de
correlación múltiple pero considerando una regresión de una
de las variables independientes respecto de las otras, esto
es Ri que es el coeficiente de correlación múltiple de xi y
las (k-1) variables independientes restantes. En consecuencia
se pueden determinar k Ri uno para cada variable
independiente.
Si uno o más de estos es aproximadamente igual al coeficiente
de correlación múltiple , entonces se dice que existe

un problema de multicolinealidad.
Ejemplo: Supongamos que tenemos una regresión lineal
múltiple de k variables independientes y que el coeficiente
de correlación múltiple resultó en , queremos

corroborar que no hay efecto de multicolinealidad.
Para verificar la multicolinealidad se podrían seguir los dos
pasos siguientes:
1) calcular todos los coeficientes de correlación entre dos
variables independientes, es decir y observar si
alguno de ellos esta próximo a 1. En este caso se encuentran
estimaciones imprecisas.
2) calcular , y si alguna de estas correlaciones es

tan grande como 0,8, entonces hay se estaría hablando de un
problema de multicolinealidad.
Los efectos de la multicolinealidad llevan a que los errores
estándares de los coeficientes sean elevados, es decir
tienden a ser mayor de lo que serían si no hubiera
multicolinealidad. Como consecuencia el valor del estadístico
t en el test de hipótesis de significación de los βi es más
pequeño de lo que debería ser, y por lo tanto, es posible
llegar a la conclusión errónea de que la variable
independiente xi no es importante en el modelo.
Una manera de corregir la multicolinealidad es eliminando del
modelo la variable independiente que esté más seriamente
involucrada en la multicolinealidad, con el inconveniente de
que el modelo resultante no represente correctamente la
relación poblacional de interés. Otra manera sería tratar de

67
reemplazar la variable multicolineal por otra menos colineal
pero sin alterar el contenido teórico del modelo.
Heterocedasticidad:
Cuando el supuesto de que los errores tienen varianza
constante no se cumple, se habla de un problema de
heterocedasticidad. En este caso los estimadores por mínimos
cuadrados no son eficientes dentro de los estimadores
lineales insesgados, es decir que habrá otro estimador con
menor varianza.
La heterocedasticidad significa que la varianza de los
errores no es constante, sino que cambia.
Para detectar un problema de heterocedasticidad, conviene
realizar un gráfico de los errores de con sus
correspondientes residuos . En el gráfico siguiente
se presentan tres situaciones: En el gráfico a) se tiene un
problema de varianza positiva, donde a medida que aumenta
aumenta el error. En el gráfico b) se presenta un problema de
varianza variable, en donde para algunos valores de la
varianza es pequeña y para otros es grande. En el gráfico c)
se observa que los residuos no varían para los distintos
valores de , entonces se podría decir que en este caso se
cumple el supuesto de varianza constante.
Representación de los residuos contra y estimado para detectar

heterocedasticidad.
Si pensamos que la varianza de ε tiene relación con la
magnitud de alguna variable independiente particular, tal
como x j =tiempo, entonces podemos representar los errores
observados contra los valores de la variable tiempo y no
contra los valores de y estimado. En el caso de regresión
simple se utiliza el gráfico de los valores de los residuos o
los residuos estandarizados (eje vertical), contra los
68
valores de la varible predictora (eje horizontal) y observar
si hay diferencias importantes en la variabilidad de los
residuos para diferentes valores de X. Se espera que los
residuos estén equitativamente distribuidos por arriba y por
debajo de 0 (media de los residuos) para diferentes valores
de X. Un caso en donde el supuesto de homocedasticidad no se
cumple, es en el caso en donde a medida que aumenta el valor
de X aumenta la variabilidad de los errores.
Cuando se utilizan datos de economía medidos a lo largo del
tiempo, casi siempre se cumple el supuesto de
homocedasticidad, salvo en situaciones en donde se producen
cambios estructurales importantes que afecten las
observaciones, como por ejemplo, una ley de hiperinflación o
desastres naturales.
Cuando se utilizan datos de un estudio de corte transversal,
o sea en un dado tiempo, como por ejemplo producción en
diversas firmas en un año es donde se encuentra con
frecuencia que los errores están correlacionados. Una fuente
de variación podría estar dada por los tamaños de las firmas
consideradas en el estudio.
Existen algunas pruebas para detectar la heterocedasticidad
como la de razón de verosimilitud, la de Goldfield y Quant,
la de Breush y Pogan.
Como consecuencia de la heterosedasticidad se tiene que:
1) los estimadores de mínimos cuadrados siguen siendo
insesgados pero no eficientes
2) los estimadores de las varianzas son sesgados, lo que
invalida las pruebas de significancia
Las soluciones a este problema son tales que dependen de
ciertas suposiciones de la varianza de los errores. La
metodología para encontrar los estimadores en presencia de
hetereosedasticidad se denomina método de mínimos cuadrados
generalizados y el método de máxima verosimilitud.
Autocorrelación:
El problema a estudiar ahora es aquel que se presenta cuando

los términos de error en el modelo de regresión no son
independientes.
La falta de independencia puede presentarse en datos de
estudios de corte transversal o en datos en el tiempo. En el
primer caso supongamos que se tiene interés en estudiar el
consumo de familias en diferentes barrios o zonas
geográficas. Se puede pensar que dentro de la misma zona o
barrio los errores en el modelo de estimar el consumo estén

69
correlacionados, debido por ejemplo al hecho de que los
vecinos quieren mantener un mismo nivel de consumo. En este
caso se habla de correlación espacial.
Una manera de considerar las causas que producen correlación
es por medio de variables indicadoras, tema que no será
desarrollado en este apartado. Para ayuda adicional, podemos
remitirnos al capítulo 8 del libro de Maddala.
En el caso de datos en el tiempo (series de tiempo), la
correlación de los residuos recibe el nombre de
autocorrelación o correlación serial y es la que
presentaremos brevemente aquí.
El término de error en el tiempo t et está correlacionado con
los términos de error et+1.et+2,.....,et-1,et-2,... La
correlación entre et y et-k se conoce como autocorrelación de
orden k, y se denota por ρk, así la correlación entre et y et-1
es la autocorrelación de orden 1 y se denota por ρ1. En el
caso en que tengamos n observaciones existe (n-1) de estas
autocorrelaciones, que es la que se considera con mayor
frecuencia.
Una medida de la autocorrelación de primer orden puede estar
dada por el coeficiente de correlación entre et y et-k denotado
por retet-1, pueden representarse los valores de et y et-k en
un diagrama de dispersión con el fin de visualizar la forma
de la nube de puntos.
En la figura siguiente se presentan tres casos:
a) Autocorrelación positiva: cuando los puntos se encuentran
predominantemente en el primer y tercer cuadrante, lo que
significa que los residuos sucesivos tienden a tener el mismo
signo.
b) Autocorrelación negativa: cuando la mayor parte de los
puntos están en el segundo y cuarto cuadrante, y por lo tanto
los residuos consecutivos tienden a tener signos opuestos.
c) Ausencia de autocorrelación: cuando los puntos se
extienden sobre los
cuatro cuadrantes.
Además del diagrama de dispersión, existe una prueba llamada
la prueba de Durbin-Watson, que se utiliza para detectar los
problemas de autocorrelación en los residuos. Esta prueba
será presentada en la siguiente sección.

70
Representación de los residuos sucesivos.
Prueba de Durbin-Watson:
Como ya se mencionó en la sección anterior esta prueba es
útil para detectar problemas de autocorrelación de primer
orden en los residuos. El modelo más sencillo que relaciona
los errores es el modelo lineal, en el que los errores
poblacionales εt y ε t−1 tienen una correlación ρ. Una
estimación de esta correlación estará dada por la correlación
entre los residuos de mínimos cuadrados e t y e t−1.
Las hipótesis nula y alternativa que se plantean en esta
prueba son
H0: los residuos no están correlacionados
H1: existe autocorrelación de primer orden entre los
residuos.
La hipótesis nula se puede pensar como H 0: ρ= 0
El estadístico del test esta dado por
Cuando el tamaño de muestra es grande y por lo
tanto el estadístico .
Los posibles valores que puede tomar d están entre 0 y 4,
como se muestra a continuación:

71
Si d es próximo a 0 o a 4 entonces los residuos están
correlacionados.
La distribución muestral del estadístico d depende de los
valores de las variables independientes, y por lo tanto no
esta tabulada. Durbin y Watson calcularon los límites
superior dU e inferior dL para los niveles de significancia de
d. Los valores de los límites estan tabulados y en el libro
de GSM los puntos de significancia estan tabulados para ρ=0
contra ρ>0 . Si d > 2 y se desea probar ρ=0 contra ρ< 0,
entonces se considera 4−d y se utiliza la tabla como si se
probara ρ=0 contra ρ>0.
La regla del test está dada por:
El valor esperado de d cuando ρ =0 esta dado aproximadamente

por
Donde k es el número de parámetros estimados de la regresión

incluyendo la constante, y n es el tamaño de la muestra.
Nótese que la estadística d tiene un sesgo hacia arriba a
partir de 2 aún cuando ρ=0.
Comentarios adicionales:
1) este test prueba solo las correlaciones seriales de primer
orden
2) no es concluyente si el valor calculado de d se encuentra
entre dL y dU
En el caso del ejemplo de las inversiones tenemos que el
valor del estadístico de Durbin-Watson fue de 0,784. Los
valores de los límites dL y dU son 0,86 y 1,27
respectivamente para un nivel de 1%, con lo que el valor
encontrado con los datos está por debajo del límite inferior
y por consiguiente llegaríamos a la conclusión de que existe
una autocorrelación positiva.

72
En SPSS, la mayoría de los cálculos estadísticos que se
pueden realizar están basados en el proceso de sintaxis.
Para especificar los procesos que se pueden realizar mediante
el editor de datos, solo hablaremos de las Pruebas de
Hipótesis, las cuales envuelven además algunos otros temas
estadísticos como los intervalos de confianza y las medidas
de tendencia central.
ESTADÍSTICA DESCRIPTIVA
Siempre que vamos a realizar un análisis estadístico de una

serie de datos, es aconsejable realizar previamente una
Estadística Descriptiva de las variables, ya sea para obtener
información sobre las mismas, o simplemente para chequear
posibles errores. Algunas de las posibilidades para realizar
estadística descriptiva con SPSS son:
Análisis de Frecuencias
73
Análisis Exploratorio
Tablas
Análisis de Frecuencias
El procedimiento Frecuencias nos permite obtener una
descripción de la distribución de una variable con:
Tablas de Frecuencias
Histogramas y Gráficos de Barras
Cálculo de Percentiles, Medidas de Tendencia Central y
de Dispersión
Para ejecutar tal procedimiento debemos seleccionar en el
menú Analizar, la opción Estadísticos Descriptivos y el botón
Frecuencias, entonces se abre el cuadro de diálogo:
con los campos:

Variables: Recoge las variables a analizar.
Mostrar tablas de frecuencias: Opción activada por defecto
En esta ventana aparecen además tres botones:
Estadísticos. Abre un cuadro para solicitar los
estadísticos descriptivos básicos de las variables
numéricas elegidas.
Valores Percentiles: Cuartiles, Puntos de corte para
dividir el conjunto total de datos en un número
específico de grupos iguales, Percentiles.
Tendencia Central: Media, Mediana, Moda, y Suma de los
datos.
Dispersión: Desviación Típica, Varianza, Rango, Máximo,
Mínimo y Error típico de la Media.
Distribución: Coeficientes de Asimetría y Curtosis.

74
Para variables continuas, los cálculos se pueden hacer con
los puntos medios.
Gráficos. Este botón abre un cuadro con las
alternativas:
-Ninguno: Por defecto está activo este campo.
-Gráficos de Barras: Propios de variables
discretas.
-Gráficos de Sectores: Tanto para variables
discretas como continuas.
-Histogramas: Adecuados para variables continuas.
Sobre éste se puede superponer la función de
densidad de la normal.
El sistema nos permite realizar la representación con
frecuencias o con porcentajes.
Formato. Permite la modificación del formato de la
tabla de frecuencias. Entre las posibilidades que
muestra están:
Permite ordenar de forma ascendente o descendente, según

los valores o las frecuencias.
Permite mostrar los resultados individuales del análisis
de varias variables juntos para compararlos, o el total
de cada variable junto.
Análisis Exploratorio
El procedimiento Explorar nos ofrece las siguientes
posibilidades:
Representar gráficamente los datos,
Examinar visualmente las distribuciones para varios
grupos de datos y
Realizar pruebas Normalidad y Homogeneidad sobre los
mismos.

75
Para elegirlo debemos seleccionar en el menú Analizar, la
opción Estadísticos Descriptivos: Explorar. Entonces se abre
un cuadro con los siguientes campos:
Dependientes: Aquí introducimos la/s variable/s

cuantitativa/s de la/s que se solicitan los
gráficos y estadísticos.
Factores: Recoge la variable que divide en grupos
la muestra.
Etiquetar los casos mediante: Su utiliza para
etiquetar aquellos valores atípicos en los Diagrama
de Caja. La variable puede ser numérica o carácter.
Y los botones:
Gráficos: Abre una ventana para seleccionar el gráfico a
representar. Las alternativas de gráficos son:
-Diagramas de Caja. Controla la presentación
de los Diagrama de Cajas cuando existe más de
una variable dependiente.
-Niveles de los factores juntos: Genera una
representación para cada variable dependiente,
y en cada una de ellas se muestran diagramas
de caja para cada grupo que define el factor.
-Dependientes juntas: Genera una
representación para cada grupo definido por el
factor, y en cada una de ellas, se muestran
juntos los diagramas de caja de cada variable
dependiente.
-Descriptivos. Gráficos de tallo y hoja e
Histogramas.
-Gráficos con Pruebas de Normalidad: Muestra
dos gráficos; el primero representa los
valores correspondientes a una distribución
Normal mediante una recta y los puntos son las
76
observaciones de los sujetos; el segundo es un
gráfico de probabilidad sin tendencia, que
recoge las desviaciones de los sujetos
respecto a la recta normal. Calcula también
los Estadísticos de Kolmogorov-Smirnov y de
Shapiro-Wilk, los cuales son empleados para
muestras con menos de 50 observaciones.
-Dispersión por Nivel con Prueba de Levene:
Representa los diagrama de dispersión por
nivel si se selecciona algún factor. Además
muestra con éstos la recta de regresión.
También realiza la prueba de Levene sobre la
homogeneidad de varianzas. Si los datos están
transformados la prueba es con las
transformaciones.
Estadísticos: abre un cuadro donde podemos solicitar:
-Descriptivos: Muestra ciertas medidas de
Tendencia Central (media, mediana, media
recortada)
-De Dispersión: que permiten observar como
están distribuidos los datos. (errores
típicos, varianza, desviación típica, mínimo,
máximo, rango, rango intercuartílico) y de la
forma de la Distribución (coeficientes de
asimetría y curtosis).
-Intervalo de confianza para la media: Por
defecto, aparece al nivel de confianza del
95%, aunque se puede especificar cualquier
otro.
-Estimadores robustos centrales: Estos se
diferencian de las medidas de tendencia
central en las ponderaciones que se aplican a
los datos. Entre ellos están: M de Huber,
estimador en onda de Andrew, el estimador
biponderado de Tuckey, etc.
-Valores atípicos: Muestra los cinco valores
mayores y menores, junto con las etiquetas.
-Percentiles: Muestra los Percentiles más
comúnmente utilizados: P5, P10, P25, P50, P75,
P90, y P95.
Opciones: Este botón sirve para controlar el tratamiento
de los valores perdidos. Las alternativas que nos
presenta son:
-Excluir casos según lista: Para excluir de
todos los análisis los valores perdidos.

77
-Excluir casos según pareja: Para excluir los
perdidos de las variables que intervienen en
ese grupo y no en otros.
Tablas
Tablas básicas.
El procedimiento Tablas Básicas nos permite construir

tablas que muestran estadísticos de clasificación cruzados y
de subgrupos. Para elegirlo seleccionamos en el Menú
Analizar, la opción Tablas, el botón Tablas Básicas. Entonces
se abre un cuadro con los siguientes campos:
Resumir: se recogen las variables llamadas variables
resumen para las que se calculan los estadísticos
dentro de cada subgrupo. Con todas las variables de la
tabla se emplean los mismos estadísticos (defecto:
media). Si no se selecciona variable resumen se
muestran las frecuencias.
-Hacia abajo: Se introducen la/s variable/s que
aparecen por filas.
-A través: Recoge la/s variable/s que irán en las
columnas.
Tablas distintas: Las variables de esta lista
subdividen la tabla en capas de manera que sólo podemos
ver una capa de la tabla cada vez. Dentro de esta
opción tenemos:
-Todas las combinaciones (anidadas):
-Cada una por separado (apiladas):
También aparecen una serie de botones:
Estadísticos: Tras este botón se esconde el siguiente
cuadro:

78
Con las siguientes opciones:
Estadísticos: Ofrece una lista de los estadísticos
entre los que se encuentran: frecuencias, % por filas,
% por columnas, estadísticos de tendencia central, de
variabilidad, percentiles, sumas, porcentajes, etc.
Estadísticos de casilla: Estos se seleccionan de la
lista anterior y los muestra la tabla.
Formato y Etiqueta: Para elegir el ancho, el número de
decimales, y una etiqueta para cada estadístico. Este
incluye formatos de decimales, de porcentaje, y de
moneda preestablecidos.
Ordenación por el recuento en la casilla: Reorganiza
las casillas dentro de cada fila, columna o capa en
función de las frecuencias.
El botón Diseño abre este otro cuadro:
Con las alternativas:

Etiquetas de las variables resumidas: Permite
dimensionar las etiquetas de las variables resumen.
Etiquetas de los estadísticos: Para seleccionar la
dimensión de las etiquetas de los estadísticos.
Grupos en la dimensión de la variable resumida: Aquí se
puede elegir entre anidar las variables resumen bajo
cada categoría de la variable agrupación o al revés.
Etiquetar los grupos sólo con las etiquetas de valor:
Elimina las etiquetas de las variable agrupación. Las
categorías se siguen identificando por las etiquetas de
valor o los propios valores.
Opciones: Este botón sirve para controlar el
tratamiento de los valores perdidos
79
Tablas de Frecuencias
Este procedimiento es aconsejable para los casos de análisis
con una serie de variables que tienen todas las mismas
categorías de respuesta. Para elegirlos se selecciona en el
menú Analizar, la opción Tablas: Tablas de Frecuencias. Se
abre entonces un cuadro de diálogo con:
Frecuencias para: Recoge las variables con igual categoría, y
de las que se va a calcular su frecuencia.
En cada tabla: Se introduce aquí la variable de
agrupamiento de las variables anteriores. Permite
dividir la tabla en columnas dentro de cada tabla.
Tablas distintas: Permite introducir otra dimensión de
agrupamiento, en capas. Sólo se muestra una capa cada
vez. Al igual que en el procedimiento anterior, si hay
varias variables de agrupamiento se pueden apilar o
anidar.
También dispone de una serie de botones.
Estimación y Contraste de Hipótesis: El SPSS nos
permite realizar comparaciones de medias, tanto para
muestras independientes como para muestras
dependientes. También permite comparar la media de una
variable con un valor determinado.
Tales procedimientos se encuentran en el submenú Comparar
Medias:
Medias.

80
El procedimiento Medias calcula las medias y estadísticos
univariados (desviación estándar, varianza, suma y número de
individuos) para uno o más grupos de sujetos.
También permite realizar un Análisis de la Varianza de un
factor, pruebas de linealidad del modelo y calcular la eta.
Para ello seleccionamos, como podíamos ver anteriormente, el
menú Analizar, la opción Comparar Medias: Medias. Entonces se
despliega un cuadro con las opciones:
Dependientes: Se introducen las variables de las que se
quiere recoger la media.
Independientes: Aquí se recogen aquellas variables que
sirven para definir los grupos de sujetos. Estas
variables se pueden especificar en distintas capas, y
cada capa contener más de una variable.
Además presenta un botón:
Opciones: Este botón abre otra ventana donde podemos
seleccionar otros estadísticos : media, mediana, error
típico de la media, mínimo, máximo, rango, desviación
típica, varianza, curtosis, asimetría, etc. También
nos muestra estadísticos de resumen para cada variable
a través de las categorías. Dentro de opciones también
se tiene la posibilidad de realizar un análisis de la
varianza y calcular la eta y eta cuadrado para cada
variable independiente de la primera capa. Activando
Tabla de Anova y eta
La eta cuadrado es la proporción de la varianza de la
variable dependiente que es explicada por la diferencia
entre los grupos. Razón de la suma de cuadrados entre
grupos y la suma de cuadrados totales.
Además, activando Contrastes de linealidad podemos calcular
el R y R2 que miden la bondad del ajuste.
Comparación con una Media Empírica.

Este procedimiento sirve para contrastar si la media
poblacional de una variable difiere significativamente de una
media prefijada. Para seleccionarlo procedemos eligiendo, en
el menú Analizar, Comparar Medias, la opción Prueba T- para
una Muestra. Tras esta operación, aparece una ventana con:
Contrastar Variables: Este campo recoge las variables
cuya media se quiere comparar con el valor prefijado.
Valor de prueba: Se introduce el valor específico con
el que se compara.

81
Y el botón Opciones; el cual Abre otra ventana donde se
especifica el nivel de confianza para construir el intervalo
de confianza para la media, y se indica como tratar los
valores perdidos:
Excluir casos según análisis: no incluyen en el
análisis los casos con valores perdidos en la variable
analizada.
Excluir casos según lista: no se incluyen en el
análisis los casos con valores perdidos en alguna de
las variables del campo Contrastar Variables.
Este procedimiento se utiliza para comparar las medias de dos

poblaciones normales e independientes. Para ejecutarlo,
seleccionamos, también en el menú Analizar, la opción Prueba
T para muestras independientes, la cual esta dentro del
submenú Comparar Medias. Entonces, se abre el cuadro de
diálogo que contiene los siguientes campos:
Contrastar Variables: recoge las variables sobre las que

se va a contrastar si hay o no diferencias de grupos.
Variable de agrupación: se introduce la variable que
define los dos grupos de sujetos sobre los que se
estudian las diferencias. Una vez se recoge se pulsa en
Definir grupos y se introducen los dos valores que
definen los grupos, o el valor de corte para separar en
dos grupos.
También nos muestra el botón Opciones el cual abre otra
ventana donde especificamos el nivel de confianza para
construir el intervalo de confianza para la media, e
indicamos cómo tratar los valores perdidos.
82
Prueba de Levene de Homogeneidad de Varianzas
Uno de los pasos previos a la comprobación de si existen
diferencias entre las medias de varias muestras es determinar
si las varianzas difieren. SPSS utiliza la Prueba de Levene
para tal comprobación. Los siguientes son los pasos para su
cálculo:
Calcular la diferencia (en valor absoluto) entre cada
valor y la media de su grupo:
Dij = X ij − X j
con Xij puntuación del sujeto i del grupo j; y la media del

grupo j.
Calcular la media de las diferencias de cada grupo:
Dij
Dj = i
nj
donde nj es el tamaño del grupo j.

k nj
Calcular la media total de las diferencias:D
ij
j =1 i =1
Dt =
donde N es el número total de datos. N
Calcular la suma de cuadrados dentro de cada grupo:
k nj
SCint ra = ( Dij − D j ) 2
j =1 i =1
Calcular la suma de cuadrados entre grupos:
k
SCint er = n j ( D j − Dt ) 2
j =1
Calcular los grados de libertad:

G.L.(inter) = k-1 siendo k el número de grupos
G.L.(intra) = k
(n j − 1) = N − k
j =1
Calcular la media cuadrática entre grupos:

SCint er
MCint er =
k −1
83
Calcular la media cuadrática dentro de los grupos:
SC
MCint ra = int ra
N −k
Calcular la F de Fisher-Snedecor:
MCint er
F=
MCint ra
Como se puede apreciar, este es un procedimiento muy complejo

y tedioso, el cual se ve facilitado en la correcta
utilización de los estadísticos avanzados y las funciones de
SPSS.
Comparación de muestras dependientes.
En este procedimiento
comparamos las medias
de dos poblaciones
normales dependientes
(las mismas medidas
bajo circunstancias
distintas o datos
relacionados). El
procedimiento se elige
con el menú Analizar,
la opción Prueba T para muestras relacionadas de la opción
Comparar Medias.
La ventana que se abre muestra:
Variables relacionadas: este campo recoge los pares de
variables que se van a comparar. Se marcan con el curso
de la lista que muestra el SPSS y se llevan a este campo
pulsando en el botón con un triángulo a la derecha.
Y el botón Opciones: este campo tiene la misma utilidad
que en los procedimientos anteriores.
ANÁLISIS DE VARIANZA
Anova de un factor.

84
Este procedimiento es una generalización del contraste de
medias para dos o más muestras independientes, cuya
clasificación viene dada por la variable independiente.
Consiste en estudiar si la variable llamada factor influye
sobre la variable respuesta, y la forma de hacerlo es
analizando como varían los datos. Para seleccionarlo elegimos
también en el menú Analizar: Comparar medias la opción Anova
de un Factor. Entonces se abre un cuadro con los campos:
Dependientes: Recoge la variable respuesta a analizar.
Factor: Se introduce la variable de clasificación, que
ha de ser categórica.
Además de estos campos están los botones:
-Contrastes: Este botón nos abre un cuadro que permite
averiguar si los valores promedio de la variable
respuesta siguen alguna tendencia: lineal, cuadrática,
cúbica, o de grado 4 ó 5. Además de poder realizar
cualquier comparación a priori entre las medias de la
variable respuesta para los niveles del factor que se
elijan. Permite hasta 10 contrastes con 50 coeficientes
cada uno de ellos.
-Post Hoc: Con este botón abrimos un cuadro de diálogo
que permite averiguar que medias de los diferentes grupos
difieren entre sí, mediante varias pruebas a posteriori
diferentes.
-Opciones: Da paso a otra ventana, donde muestra una
serie de estadísticos descriptivos para cada grupo de la
muestra o nivel del factor.
Al ejecutar Anova de un factor, SPSS realiza el test de
Levene para la homogeneidad de varianzas entre los grupos,
muestra un gráfico de medias de cada grupo e indica la forma
de tratar los valores perdidos.

85
Para una mayor claridad frente a este tema, utilizaremos dos
ejemplos, el primero más sencillo que el segundo, bajo los
cuales pretendemos cubrir tanto la regresión lineal simple
como la múltiple, repasando todos los conceptos vistos en el
marco teórico.
En cualquier modelo teórico que tenga que ver con datos
estadísticos, es necesario como primer paso hacer un análisis
descriptivo, con el fin de establecer las características de
los mismos y el tipo de variables que se manejan.
En nuestro caso, el análisis de regresión y correlación
implica que trabajamos con variables dependientes e
independientes de tipo escalar y así lo entiende SPSS.
Caso 1:
Modelo con variables sencillas:
PIB, GASTO, INVERSIÓN, EXPORTACIONES E IMPORTACIONES.
Son 58 registros, para los cuales haremos en primer lugar un
análisis descriptivo.
Estadísticos descriptivos
Estadístico Error típico
N Mínimo Máximo Media Desv. típ. Asimetría Curtosis Asimetría Curtosis
PIB 58 3478,00 4737955 324751,8 781999,6 4,250 20,123 ,314 ,618
G 58 59,80 7292450 412543,2 1211752 4,228 19,951 ,314 ,618
I 58 -1,44 32,56 15,4764 9,01746 ,066 -1,130 ,314 ,618
X 58 1461,04 538476,00 83792,75 115147,9 2,008 4,161 ,314 ,618
M 58 1048,71 167090,00 44919,44 42615,21 ,761 -,411 ,314 ,618
N válido (según lista) 58
para el análisis de regresión, es necesario que los residuos

de las variables cumplan unos supuestos, en este caso,
asumiremos que se cumplen y después corregiremos si se
presentan fallas en el modelo debido a esta asunción.
Lo primero que haremos aquí,
Correlaciones
es revisar si existe
PIB G correlación entre el PIB y
PIB Correlación de Pearson 1 ,975**
el Gasto. Después crearemos
Sig. (bilateral) . ,000
Suma de cuadrados y
un modelo de regresión
3,5E+13 5,3E+13
productos cruzados lineal simple.
Covarianza 6,1E+11 9,2E+11
N 58 58
G Correlación de Pearson ,975** 1
Sig. (bilateral) ,000
UNIVERSIDAD .
NACIONAL COLOMBIA
Suma de cuadrados y 86
FACULTAD
5,3E+13 DE CIENCIAS
8,4E+13 ECONÓMICAS
productos cruzados UNIDAD DE INFORMÁTICA
Covarianza 9,2E+11 1,5E+12
N 58 58
**. La correlación es significativa al nivel 0,01
(bilateral).
Utilizando la herramienta de correlaciones divariadas de SPSS
encontramos que:
El coeficiente de correlación de Pearson que se encuentra
entre - y , presenta un valor de 0.975, lo que implica una
alta correlación positiva. Esto podemos observarlo mediante
un gráfico de dispersión.
4000000,00
Sin embargo, revisando el

gráfico, no pareciera que los
3000000,00
datos formaran una línea
perfecta de correlación; sin
PIB
2000000,00 embargo si se encuentran muy

juntos, lo que indica el valor
1000000,00
de la correlación de Pearson.
El paso siguiente es plantear
un modelo de regresión simple para
0,00
el Pib explicado en términos del
0,00 2500000,00 5000000,00 7500000,00
gasto público.
G
Modelo de regresión lineal simple:
PIB=Bo+ B1G+E
Resumen del modelob
Estadísticos de cambio
R cuadrado Error típ. de la Cambio en Sig. del Durbin-W
Modelo R R cuadrado corregida estimación R cuadrado Cambio en F gl1 gl2 cambio en F atson
1 ,975a ,950 ,949 176824,53150 ,950 1058,815 1 56 ,000 ,770
a. Variables predictoras: (Constante), G
b. Variable dependiente: PIB
En primer lugar tenemos el resumen del modelo, el cual arroja

un valor para el R cuadrado de 0.95, el cual representa un
amplio ajuste de la variable dependiente por la variable
independiente. Por lo que el modelo es “exitoso” al menos en
este sentido. Sin embargo, observamos un valor de DurbIn-
Watson de 0.77, el cual al estar más cercano a cero que a

87
dos, implica correlación de los errores, lo que viola uno de
los supuestos.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 3,311E+13 1 3,31E+13 1058,815 ,000a
Residual 1,751E+12 56 3,13E+10
Total 3,486E+13 57
a. Variables predictoras: (Constante), G
el ANOVA anterior, es una prueba que se realiza sobre el

valor de los Betas, para tratar de comprobar si son iguales a
cero, por lo que no habría una regresión. En este caso, la
significancia arroja un valor de 0.000 que es menor a 0.05,
por lo cual a un nivel de confianza del 95% rechazamos la
hipótesis nula sobre la cual se afirmaba que los Betas eran
iguales a cero.
Coeficientesa
Modelo
1
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para Estadísticos de
estandarizados os B al 95% Correlaciones colinealidad
Límite
B Error típ. Beta t Sig. Límite inferior superior Orden cero Parcial Semiparcial Tolerancia FIV
(Constante)65291,514 24549,234 2,660 ,010 16113,489 114469,5
G ,629 ,019 ,975 32,539 ,000 ,590 ,668 ,975 ,975 ,975 1,000 1,000
a. Variable dependiente: PIB
Los coeficientes del modelo, me indican que el intercepto, en

este caso βo, posee un valor de 65291.514, por lo cual una
alta variación de la variable dependiente PIB, está explicada
por razones diferentes al Gasto, que posee un coeficiente de
0.629, el cual nos indica que cuando este aumenta en una
unidad, el producto interno bruto se incrementa en un 62.9%,
lo cual es un valor considerable.
En esta tabla también podemos apreciar el intervalo de
confianza para cada uno de los Betas, bajo los cuales
pretendemos inferir frente al valor poblacional con un nivel
de confianza del 95%.
Para este modelo de regresión, podemos incluir más variables,
con el fin de buscar una mayor precisión en los resultados.
Esto es lo que se conoce como modelo de regresión lineal
múltiple.

88
Regresión Lineal Múltiple:
En este caso el modelo queda: PIB= βο+β1G+β2I+β3X+β4M+ε

Realizando el procedimiento en SPSS obtenemos.
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Método
1 a
M, I, G, X . Introducir
a. Todas las variables solicitadas introducidas
Hemos realizado un modelo con las variables anteriormente

nombradas, dado que el método es la introducción, no se ha
eliminado ninguna.
b
Resumen del modelo
1 ,983a ,965 ,963150644,74598 ,965 370,740 4 53 ,000 1,285
a. Variables predictoras: (Constante), M, I, G, X
el valor de R cuadrado para esta estimación aumenta, por lo

que inferimos un mayor ajuste de los datos. A su vez, el
valor del Durbin-Watson aumenta, disminuyendo el problema de
correlación en los errores.
ANOVAb
Suma de Media
1 Regresión 3,365E+13 4 8,41E+12 370,740 ,000a
Residual 1,203E+12 53 2,27E+10
Total 3,486E+13 57
el valor de significancia para este ANOVA es 0.000 por lo que

rechazamos la hipótesis nula de que los coeficientes de la
regresión son iguales a cero.

89
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 20248,397 41800,143 ,484 ,630 -63592,074 104088,9
G ,623 ,026 ,965 24,382 ,000 ,571 ,674
I -225,113 2835,104 -,003 -,079 ,937 -5911,610 5461,385
X 1,094 ,321 ,161 3,414 ,001 ,451 1,737
M -,902 1,162 -,049 -,777 ,441 -3,232 1,428
el análisis de los coeficientes me muestra la importancia de

cada una de las variables en la explicación del
comportamiento (variabilidad) de la variable dependiente. En
este caso, el valor de Bo se reduce, lo que muestra una mayor
explicación de las otras variables con respecto a lo visto en
el modelo de regresión simple donde el valor era mucho más
alto.
Sin embargo, hay algunas observaciones que sería importante
hacer. Por ejemplo, el valor negativo de la inversión (I),
contrario a lo que podríamos pensar; pues un aumento de la
inversión acá me disminuye el producto interno bruto.
Entonces cabría revisar la variable.
El otro aspecto es la influencia negativa de las
importaciones en el PIB, lo que es mucho más coherente ya que
esto afecta directamente la cuenta corriente de la balanza de
pagos, la cual es un componente importante del PIB.
En los intervalos de confianza para los betas, observamos una
gran amplitud, y en algunos casos, que contienen el valor de
cero, lo que nos podría llevar a pensar que el coeficiente
podría tomar este valor; contrario al resultado del ANOVA.
Pero en este caso, para la prueba de significancia individual
vemos que el valor de la significancia para la constante, B2
y B4 es mayor a 0.05 por lo que aceptaríamos la hipótesis
nula de un coeficiente igual a cero.
Para tratar de corregir este modelo, podríamos utilizar otro
método de regresión, como por ejemplo pasos sucesivos o hacia
atrás.
Miremos por ejemplo lo que pasa si lo hacemos mediante este
último.

90
Variables introducidas/eliminadasb
Variables Variables Nos presenta tres modelos.

Modelo introducidas eliminadas Método Dado que el método es hacia
1 a
M, I, G, X . Introducir
atrás, lo primero que SPSS
2 Hacia
atrás
hace es incluir todas las
(criterio: variables e ir excluyendo
. I Prob. de después las manos
F para significativas hasta
eliminar
>= ,100).
encontrar el modelo más
3 Hacia
coherente. Como lo podemos
atrás ver aquí, en el modelo dos
(criterio: excluyó la inversión, de la
. M Prob. de que ya teníamos
F para
eliminar
conocimiento sobre un
>= ,100). comportamiento extraño, la
a. Todas las variables solicitadas introducidas siguiente fue la de
importaciones, que también
presentaba valores
atípicos.
En el siguiente paso, SPSS me calcula un resumen para cada

uno de los escenarios del modelo.
d
Resumen del modelo
1 ,983a ,965 ,963150644,74598 ,965 370,740 4 53 ,000
2 ,983b ,965 ,964149252,24548 ,000 ,006 1 53 ,937
3 ,982c ,965 ,964148865,24719 ,000 ,715 1 54 ,401 1,199
b. Variables predictoras: (Constante), M, G, X
c. Variables predictoras: (Constante), G, X
d. Variable dependiente: PIB
el valor de durbin-watson para todos los modelos es el mismo,

pero el r cuadrado varía del modelo 2 al 3 aunque no
significativamente; por lo que este modelo es válido. Además
un coeficiente de 0.982 es bastante exitoso para un modelo de
regresión.
En el cuadro siguiente, veremos el valor de los coeficientes
(betas) para cada uno de los escenarios de la regresión. El
escenario uno, es idéntico al que ya conocíamos en el modelo

91
anterior. En el escenario 2, se excluye el parámetro I, sin
embargo vemos que el modelo no se comporta aún como
desearíamos gracias al valor de la significancia para M, que
me indica un gran riesgo de que esta sea igual a cero, por lo
que no valdría la pena incluirla dentro del modelo.
En el escenario tres, el programa se da cuenta de esto y me
excluye la variable, ajustando de nuevo todos los datos.
Vemos que es un modelo mejor y más coherente, por lo que se
comprueba que en econometría no siempre más variables indican
un mejor ajuste.
a
Coeficientes
Coeficientes
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 20248,397 41800,143 ,484 ,630 -63592,074 104088,9
G ,623 ,026 ,965 24,382 ,000 ,571 ,674
I -225,113 2835,104 -,003 -,079 ,937 -5911,610 5461,385
X 1,094 ,321 ,161 3,414 ,001 ,451 1,737
M -,902 1,162 -,049 -,777 ,441 -3,232 1,428
2 (Constante) 18082,689 31382,310 ,576 ,567 -44835,055 81000,433
G ,622 ,025 ,965 24,610 ,000 ,572 ,673
X 1,093 ,317 ,161 3,445 ,001 ,457 1,730
M -,930 1,099 -,051 -,846 ,401 -3,133 1,274
3 (Constante) 1488,385 24427,223 ,061 ,952 -47464,863 50441,633
G ,607 ,017 ,940 35,899 ,000 ,573 ,640
X ,871 ,178 ,128 4,900 ,000 ,515 1,228
Finalmente, vemos el cuadro con las variables excluidas para

cada caso. En él se reflejan las razones por las cuales SPSS
no las toma en cuenta: miremos por ejemplo los valores de
significancia para t, todos son mayores a 0.05 y en un gran
nivel, por lo que es imposible rechazar la hipótesis nula.
Variables excluidasc
Estadísticos
de
Correlación colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
2 I -,003a -,079 ,937 -,011 ,609
3 I -,010b -,326 ,746 -,044 ,668
M -,051b -,846 ,401 -,114 ,178
a. Variables predictoras en el modelo: (Constante), M, G, X
b. Variables predictoras en el modelo: (Constante), G, X
c. Variable dependiente: PIB
Caso 2

92
En este caso, poseemos una base de datos de ejemplo, que trae
SPSS, en la cual tenemos datos laborales para la población de
Estados Unidos. Nuestro objetivo es construir un modelo en el
cual expliquemos el salario actual de los norteamericanos a
través de diferentes factores.
Las variables involucradas son:
Salario actual
Salario inicial
Edad
Experiencia laboral
Nivel educativo
Tipo de trabajo
Género
El primer paso a seguir es obtener los estadísticos
descriptivos para las variables.
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Asimetría Curtosis

Estadístico Estadístico Estadístico Estadístico Estadístico Estadístico Error típico Estadístico Error típico
Current salary 474 6300 54000 13767,83 6830,265 2,125 ,112 5,378 ,224
Age of employee 474 23,00 64,50 37,1861 11,78724 ,864 ,112 -,562 ,224
Work experience 474 ,00 39,67 7,9886 8,71541 1,510 ,112 1,696 ,224
Beginning salary 474 3600 31992 6806,43 3148,255 2,853 ,112 12,390 ,224
Educational level 474 8 21 13,49 2,885 -,114 ,112 -,265 ,224
N válido (según lista) 474
Tenemos un total de 474 registros, agrupados por variables

para cada una de los cuales de muestran los principales
estadísticos de comportamiento. Lo que haremos a
continuación, es suponer que los datos se comportan de manera
normal y recurriremos a realizar el modelo de regresión.
Para ello utilizaremos el método Hacia atrás de SPSS,
tratando de llegar al mejor
modelo posible. Variables introducidas/eliminadasb
Como variable explicada o Variables Variables

Modelo introducidas eliminadas Método
dependiente estableceremos el 1 Work
salario actual (salnow) y como experience,
Beginning
variables explicativas o salary, . Introducir
independientes tendremos Salario Educational
level, Ageaof
inicial (salbeg), Nivel educativo employee
(edlevel), Edad (age), 2 Hacia
atrás
Experiencia laboral (work). (criterio:
Age of
El primer cuadro en el visor de .
employee
Prob. de
F para
resultados, es el que nos muestra eliminar
que por el método Hacia atrás, se >= ,100).
establecieron dos modelos, el a. Todas las variables solicitadas introducidas
primero con todas las variables b. Variable dependiente: Current salary

93
incluidas y el segundo, sin las variables menos
significativas.
como podemos apreciar en el cuadro anterior, por el método

utilizado, en el modelo 2 eliminó la variable edad, por
considerarla poco significativa de acuerdo con los resultados
de la prueba F.
Resumen del modeloc
1 ,896a ,803 ,801 3047,415 ,803 476,786 4 469 ,000
2 ,895b ,802 ,800 3052,771 -,001 2,653 1 469 ,104 1,994
a. Variables predictoras: (Constante), Work experience, Beginning salary, Educational level, Age of employee
b. Variables predictoras: (Constante), Work experience, Beginning salary, Educational level
c. Variable dependiente: Current salary
En el resumen del modelo podemos ver un buen comportamiento

de las variables gracias a su valor r y r cuadrado, el cual
es de 0.803 en el primer modelo y 0.802 en el segundo,
presentándose una variación de -0.01 en este valor, el cual
no es muy alto, por lo que se demuestra que la variable era
poco significativa para este modelo.
Igualmente, vemos un valor de 1.994 para el estadístico de
durbin-watson, un valor bastante cercano a 2 que me dice que
mis errores no están correlacionados, es decir, se cumple
este supuesto básico para el modelo.
ANOVAc
Suma de Media
1 Regresión 1,771E+10 4 4,43E+09 476,786 ,000a
Residual 4,355E+09 469 9286737,8
Total 2,207E+10 473
2 Regresión 1,769E+10 3 5,90E+09 632,605 ,000b
Residual 4,380E+09 470 9319408,2
Total 2,207E+10 473
a. Variables predictoras: (Constante), Work experience, Beginning salary,
Educational level, Age of employee
b. Variables predictoras: (Constante), Work experience, Beginning salary,
Educational level
c. Variable dependiente: Current salary
En la anterior prueba F, debemos fijarnos sobre todo en la

significancia, dado que es < a 0.05 podemos rechazar Ho y

94
pensar que si existe un modelo lineal para el salario actual
de los estadounidenses.
a
Coeficientes
Coeficientes
estandarizados os B al 95% Correlaciones
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior Orden cero Parcial Semiparcial
1 (Constante) -363,338 1026,807 -,354 ,724 -2381,050 1654,375
Beginning salary 1,750 ,060 ,807 29,270 ,000 1,633 1,868 ,880 ,804 ,600
Educational level282,162 67,774 ,119 4,163 ,000 148,983 415,340 ,661 ,189 ,085
Age of employee-32,901 20,198 -,057 -1,629 ,104 -72,589 6,788 -,146 -,075 -,033
Work experience-45,555 27,450 -,058 -1,660 ,098 -99,494 8,385 -,097 -,076 -,034
2 (Constante) -1464,582 774,204 -1,892 ,059 -2985,912 56,748
Beginning salary 1,749 ,060 ,806 29,198 ,000 1,631 1,866 ,880 ,803 ,600
Educational level294,379 67,476 ,124 4,363 ,000 161,787 426,972 ,661 ,197 ,090
Work experience-80,304 17,305 -,102 -4,641 ,000 -114,309 -46,300 -,097 -,209 -,095
a. Variable dependiente: Current salary
Tenemos los betas para cada uno de los modelos, en efecto de

acuerdo con lo anterior y pos sugerencia de SPSS el mejor
modelo es el segundo ya que posee un buen valor para R
cuadrado además de que al menos uno de los parámetros es
diferente de cero, cumpliéndose la linealidad.
Variables excluidasb
Estadísticos
de
Correlación colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
2 Age of employee -,057a -1,629 ,104 -,075 ,346
a. Variables predictoras en el modelo: (Constante), Work experience, Beginning salary,
Educational level
b. Variable dependiente: Current salary
Aquí se muestra un resumen de las

Histograma variables excluidas, en este caso
edad del empleado, debido a sus
Variable dependiente: Current salary
160
características.
Gráfico P-P normal de regresión Residuo tipificado
A continuación se muestran
140
Variable dependiente: Current salary algunos gráficos que nos pueden
1201,0
ayudar a interpretar y juzgar los
100 resultados:
80 ,8 En el histograma que tenemos a la
60 izquierda por ejemplo, vemos la
distribución de los datos para la
Frecuencia
Prob acum esperada
40
,5 Desv. típ. = 1,00
20 Media = 0,00
variable dependiente salario
N = 474,00
0 UNIVERSIDAD NACIONAL COLOMBIA
,3 95
-4
-3 0
-2 0
-1 0
0, 0
1,
2,
3,
4,
5,
6,
00
00
00
00
00
00
00
,0
,0
,0
,0
0,0Regresión Residuo tipificado
0,0 ,3 ,5 ,8 1,0
Prob acum observada

actual, la curva de probabilidad normal, da una muestra de
que tan desajustados están los datos con respecto a esta
distribución. De no ser por algunos valores atípicos,
podríamos pensar que los datos siguen una distribución
normal, lo cual puede ser cierto ya que además se trata de un
número amplio de datos que por el teorema del límite central
se pueden normalizar.
En este gráfico, la línea verde de 45 grados, representa la

igualdad entre la probabilidad acumulada esperada y la
observada; la línea roja me muestra el comportamiento real de
los datos, mientras más próximas sean estas dos líneas, mejor
es el ajuste del modelo y más pequeño el tamaño de los
errores con lo que se logran mejores predicciones. Para este
caso particular, vemos un comportamiento no muy lejano entre
una y otra, por lo que se considera una buena regresión.
Gráfico de regresión parcial Gráfico de regresión parcial

Variable dependiente: Current salary Variable dependiente: Current salary
40000 30000
30000 20000
20000 10000
10000 0
Current salary
Current salary
0 -10000
-10000 -20000
-10000 0 10000 20000 30000 -20 -10 0 10 20 30 40
Beginning salary Work experience
Gráfico de regresión parcial

Variable dependiente: Current salary
20000
10000
0
Current salary

-10000 96
-20000
-10 -8 -6 -4 -2 0 2 4 6 8
Educational level
Estos gráficos de regresión parcial me enfrentan la variable
dependiente con cada una de las variables independientes, de
forma tal que podemos observar el comportamiento de cada uno
de los puntos y su correlación; es útil en el análisis
cualitativo de las variables.
Para realizar un análisis cuantitativo tendríamos que sacar
los análisis de correlación bivariantes como se muestra a
continuación.
Correlaciones
Beginning Work Educational

Current salary salary experience level
Current salary Correlación de Pearson 1 ,880** -,097* ,661**
Sig. (bilateral) . ,000 ,034 ,000
N 474 474 474 474
Beginning salary Correlación de Pearson ,880** 1 ,045 ,633**
Sig. (bilateral) ,000 . ,327 ,000
N 474 474 474 474
Work experience Correlación de Pearson -,097* ,045 1 -,252**
Sig. (bilateral) ,034 ,327 . ,000
N 474 474 474 474
Educational level Correlación de Pearson ,661** ,633** -,252** 1
Sig. (bilateral) ,000 ,000 ,000 .
N 474 474 474 474
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
El coeficiente de correlación de Pearson se encuentra entre -

1 y 1 como ya lo hemos visto. En este caso y como también se
puede apreciar en la gráfica, el mayor coeficiente de

97
correlación se encuentra entre salario actual y salario
inicial y es de 0.880, lo que implica un alto valor
explicativo por parte del salario inicial de un trabajador en
su carrera laboral sobre el que recibe hoy en día.
Los asteriscos implican niveles distintos de significancia
para cada una de las correlaciones.
Proceso de regresión en SPSS11.5
Una vez hemos introducido los datos en el editor, debemos

comprobar en la vista de variables, que aquellas involucradas
en el modelo de regresión sean de tipo escalar. Ya que si no
es así, no se podrán utilizar las técnicas de regresión
comunes.
Antes de estimar cualquier modelo, debemos tener bien claro

cuales son las variables a involucrar y cuáles son sus
características principales para saber si cumplen o no con
los supuestos, por esta razón es necesario hacer primero un
análisis descriptivo1 de las variables.
En el caso en que queramos realizar una regresión simple,
sería bueno primero realizar un análisis de correlación.
Correlación en SPSS:
En el menú Analizar, Correlaciones, Divariadas, se encuentra

esta opción, la cual me despliega un cuadro de diálogo en el
que se incluyen las variables.
1
Este procedimiento se encuentra en la parte estadística de esta guía.
98
Si damos clic en el botón de opciones podemos señalar
estadísticos y exclusión de valores perdidos para el
análisis.
Dando clic en Continuar y

después en Aceptar, obtenemos
nuestro análisis de
correlación, en el visor de
resultados.
Regresión:
Para realizar un
análisis de regresión,
es necesario haber
establecido la
variable independiente
en función de las
independientes.
Después, vamos al menú
Analizar, Regresión, Lineal y desplegamos la ventana
principal de esta opción:

99
En esta casilla
UNIDAD DE INFORMÁTICA se incluye la
Aquí se incluyen
MÉTODO EXPLICACIÓN
INTRODUCIR Procedimiento para la selección de
variables en las que todas las variables se
introducen en un primer paso.
PASOS SUCESIVOS En cada paso se introduce la variable
independiente que no esté ya incluida y que
tenga la probabilidad para F más pequeña,
si esa probabilidad es suficientemente
pequeña. Las variables ya introducidas en
la ecuación de regresión se eliminan de
ella si su probabilidad para F llega a ser
suficientemente grande. El método culmina
cuando ya no hay más variables candidatas a
ser incluidas o eliminadas.
ELIMINAR Procedimiento para la selección de
variables en la que todas las variables de
un bloque se eliminan en un solo paso.
HACIA ATRÁS Procedimiento de selección de variables en
el que se introducen todas las variables en
la ecuación y después se van excluyendo una
tras otra. Aquella variable que tenga la
menor correlación parcial con la variable
dependiente será la primera considerada
para la exclusión. Si satisface el criterio
100
de eliminación, será eliminada. Tras haber
excluido la primera variable, se pondrá a
prueba aquella variable, de las que queden
en la ecuación, que presente una
correlación parcial más pequeña. El
procedimiento termina cuando ya no quedan
en la ecuación variables que satisfagan el
criterio de exclusión.
HACIA DELANTE Procedimiento de selección de variables en
el que estas son introducidas
secuencialmente en el modelo. La primera
variable que se considerará para ser
introducida en el modelo, es aquella que
presenta mayor correlación parcial negativa
o positiva con la variable dependiente.
Dicha variable será introducida en la
ecuación sólo si satisface el criterio de
entrada, si ya entró la primera variable,
se considerará la variable independiente
que no esté en la ecuación y cuya
correlación parcial sea la mayor. El
procedimiento termina cuando ya no existan
variables que satisfagan el criterio de
entrada.
Dando clic en la
opción GRÁFICOS se
despliega esta
ventana,
la cual:
Igualmente aquí podemos generar

histogramas, gráfico de probabilidad
normal y los gráficos parciales.
Seleccionando la opción GUARDAR
podemos exportar valores relacionados
101
con los residuos a otros archivos, pero esta opción en
realidad es poco utilizada en nuestro caso. Más bien, podemos
emplear el botón de OPCIONES para desplegar una ventana como
la que vemos a la derecha, en la cual, podemos modificar la
probabilidad de F a través de los niveles de significancia
para el alfa. Además desde aquí podemos decidir si incluir o
no la constante en la prueba de regresión y escoger la
modalidad de exclusión para los valores perdidos.
El botón
ESTADÍSTICOS me
arroja a la
ventana que se
encuentra a la
izquierda; en
ella, podemos
El estadístico de seleccionar los
Durbin-Watson estadísticos para
sobre los la regresión
residuos, me entre diferentes
permite opciones y
dependiendo de
las necesidades
del investigador.

102
103
Amplitud de variación: Se considera como el dato mayor menos
el dato menor de todo el conjunto de datos considerados en
toda la muestra, si consideramos a l0 el dato menor de la
muestra y al dato mayor ln entonces la amplitud de variación
estará determinada como:
A = l0 − l n
Amplitud de clase: Se considera la amplitud que deben tener

las clases consideradas para realizar un estudio estadístico.
Para n datos con k clases se determina que la amplitud de
clase es igual a:
k
Amplitud de clase =
A
Carácter estadístico: Es la propiedad que permite clasificar

a los individuos de una población estadística, puede haber de
dos tipos:
Cuantitativos: aquellos datos que se pueden medir o

expresarse mediante un número sin tener que recurrir a
la frecuencia con que ocurren.
Cualitativos: aquellos datos que no se pueden medir.

104
Comparaciones múltiples: Ocurren cuando se realizan múltiples
contrastes de hipótesis con los mismos datos, p.e. en el
análisis de subgrupos donde se realiza un contraste global y
después se repite el análisis para ciertos subgrupos (p.e.
tramos de edad). En esta situación la probabilidad de error
tipo I (error que se comete cuando se rechaza la hipótesis
nula, siendo cierta) aumenta con el número de contrastes. Por
ello, idealmente deberían evitarse, o usar las técnicas
estadísticas apropiadas (p.e. Anova o la corrección de
Bonferroni).
Contraste de hipótesis: Prueba realizada para evaluar la

plausibilidad de una hipótesis dada. El resultado es la
probabilidad (valor p) de obtener el resultado encontrado, u
otro más alejado de la hipótesis, si la hipótesis fuera
cierta. Si esta probabilidad es menor o igual que un valor
predeterminado (nivel de significación ) se rechaza la
hipótesis.
Concordancia: Grado en que un observador, o una prueba

diagnóstica, o un estudio, coincide con otro (concordancia
externa) o consigo mismo en otro momento (concordancia
interna) al observar la misma magnitud.
Datos aleatorios: Es la obtención de datos realizada a partir

de una población a los cuales no se les ha dado ninguna
prioridad.
Dato estadístico: Los datos que se considera participan en el

estudio estadístico se conoce como datos estadísticos, mas
concretamente, se consideran como los valores que se pueden
obtenerse de la observación para formar la muestra.
Diagramas de barras: Se utiliza para representar

datos cualitativos y cuantitativos, con datos de tipo
discreto. En el eje x se representan los datos ordenados en
clases mientras que en el eje y se pueden representar
frecuencias absolutas o relativas.
Distribuciones de frecuencias: Se le conoce con este nombre

al conjunto de clases que aparecen con su frecuencia
correspondiente, generalmente mediante una tabla estadística.
105
Diagrama de sectores: Este tipo de diagramas puede ser de
dos tipo, se puede considerar una figura geométrica en la que
la información se distribuye dentro de la figura como puede
ser una dona o un anillo en el que cada porción dentro de la
figura representa la información porcentual del total de
datos. La segunda opción es la utilización de pasteles en los
que una porción del pastel determinada por sectores
individuales la información para ese sector especifico.
Error estándar: Estadístico que indica el grado de

incertidumbre con el que una estimación obtenida en una
muestra se acerca al verdadero valor en la población.
Estadística: Es una ciencia de las matemáticas encargada del

estudio del comportamiento de una población mediante un
análisis cuyo propósito es hacer inferencias a partir de un
subconjunto de datos, llamado muestra, tomados de ella.
Estadística inferencial o inductiva: Sirve extrapolar los

resultados obtenidos en el análisis de los datos y a partir
de ello predecir acerca de la población, con un margen de
confianza conocido. Se apoya fuertemente mediante el cálculo
de probabilidades.
Estadística descriptiva o deductiva: Se construye a partir de

los datos y la inferencia sobre la población no se puede
realizar, al menos con una confianza determinada, la
representación de la información obtenida de los datos se
representa mediante el uso de unos cuantos parámetros,
tablas y algunas graficas planteadas de tal forma que den
importancia los mismos datos a través de parámetros que
caractericen la distribución.
Estadístico: Es el término que se utiliza para designar al

profesional que se dedica al análisis de la información
estadística, al que en ocasiones también se le conoce como
estadígrafo.
Estadígrafo: Es el término utilizado para designar a la

persona dedicada a las tareas propias de la estadística,
aunque en ocasiones también es frecuente que se utilice para
designar a la variable que define una distribución
106
estadística, de esta forma es común escuchar el término
estadígrafo de prueba. Estandarización: Método estadístico
para comparar tasas de dos grupos con potenciales factores de
confusión . Típicamente se estandariza por edad y sexo.
Estimador: Medida resumen calculada en una muestra, p.e.

media, riesgo, riesgo relativo, etc. Los estimadores se usan
para hacer inferencias sobre la población. Deberían ir
acompañados de su correspondiente error estándar
Estimación ajustada: Opuesto a estimación "cruda". Cuando se

encuentran diferencias entre las estimaciones de algún
parámetro en dos grupos con diferentes factores de riesgo, no
es fácil interpretar esas diferencias. Se denomina estimación
ajustada a la realizada teniendo en cuenta esos factores. Los
habituales son estratificación, estandarización y modelos de
regresión.
Estratificación: Procedimiento para calcular estimaciones o

realizar contrastes de hipótesis, para cada nivel, o estrato,
de una variable categórica y después calcular una estimación
global para todos los estratos. El método más usado es el de
Mantel-Haenszel.
Estudio caso-control (ECC): Es un diseño de estudio en el que

se seleccionan dos grupos de individuos, uno tiene el
resultado de interés (casos) y el otro no lo tiene
(controles) y se observa "hacia atrás" si hay diferencia en
la exposición.
Estudio crossecional o transversal: Es un diseño de estudio

en el que se observa en un punto o intervalo temporal a una
población definida. Exposición y resultado son observados
simultáneamente.
Estudio de cohorte: Es un diseño de estudio en el que se

seleccionan dos grupos (cohortes) de individuos, uno tiene la
exposición de interés y el otro no y se les sigue en el
tiempo para observar diferencias en el resultado de interés.
Estudio ecológico: Es un diseño de estudio en el que se

observan datos agregados de una población, en un punto o
intervalo temporal para investigar la relación entre una
exposición y un resultado.

107
Exactitud: De una prueba diagnóstica: grado en que sus
resultados coinciden con un patrón de referencia claro y
objetivo.
Experimento aleatorio: Experimento en el que existen

diferencias de una muestra a otra, cuyas muestras pese a ser
de una misma población son diferentes.
Factor de riesgo: Factor relacionado con el riesgo de que

ocurra un evento
Frecuencia absoluta f(xi): Se determina como el número de

veces que se repite un dato xi.
Frecuencia absoluta acumulada Fi: Para un determinado valor

se considera como la frecuencia de cada dato xi mas la suma
de los valores anteriores a dicha suma.
Frecuencia relativa hi: Es el cociente fi /N , donde N es el

número total de datos.
Frecuencia relativa acumulada Hi: Es el cociente Fi /N .
Histogramas: Los histogramas de frecuencias son gráficas que

representan un conjunto de datos que se emplean para
representar informes de una variable cuantitativa. En el eje
horizontal o de las abscisas se representan los valores
tomados por la variable, en el caso de que los valores
considerados sean continuos la forma de representar los
valores es mediante intervalos de un mismo tamaño llamados
clases. En el eje vertical se representan los valores de las
frecuencias de los datos. Las barras que se levantan sobre la
horizontal y hasta una altura que representa la frecuencia.
Un punto importante en el manejo de la información bajo el
uso de histogramas es el hecho de poder comparar, bajo un
proceso en control, que a medida que se crecen las clase
tiene aproximadamente la forma de una campana centrada, es la

108
de una de las distribuciones mas importantes conocidas como
frecuencia normal o gaussiana.
Homogeneidad: Significa "similaridad". Se dice que unos

estudios son homogéneos si sus resultados no varían entre sí
más de lo que puede esperarse por azar. Lo opuesto a
homogeneidad es heterogeneidad.
Inferencia: Término utilizado para indicar la predicción

hecha acerca de una población.
Intervalo de confianza (IC): Es el intervalo dentro del que

se encuentra la verdadera magnitud del efecto (nunca conocida
exactamente) con un grado prefijado de seguridad, suponiendo
que el estudio sea válido. A menudo se habla de "intervalo de
confianza al 95%" (o "límites de confianza al 95%"). Quiere
decir que dentro de ese intervalo se encontraría el verdadero
valor en el 95% los casos.
Modelo de regresión: Modelo estadístico de dependencia entre

una variable resultado (variable dependiente) y varias
variables predictoras (variables independientes). Se puede
usar bien para predecir la variable resultado, o bien para
estimar la relación entre la variable resultado y otra
controlando por potenciales variables de confusión.
Muestra:: Grupo de individuos elegidos de un grupo más amplio

(población) de acuerdo a un criterio preestablecido. Los
métodos estadísticos asumen que las muestras son aleatorias.
Muestra aleatoria: Muestra elegida de tal modo que todos los

individuos de la población tienen la misma probabilidad des
ser elegidos y son elegidos independientemente.

109
Población: Es conjunto de elementos que tiene características
comunes, al menos una. Por ejemplo, una población es el grupo
de estudiantes de un país. En el caso particular de la
estadística la población constituye el objeto de estudio, es
decir, la población es el conjunto de individuos o entes que
constituyen el objeto de estudio sobre el que se desea
predecir un comportamiento a partir del estudio.
Precisión: Grado en que un instrumento de medida o un

estadístico produce los mismos resultados al aplicarse sobre
la misma magnitud (instrumentos) o población (estadísticos).
La precisión de un estadístico se estima por el intervalo de
confianza .
Promedio de datos: Es la cantidad que se obtiene al sumar el

conjunto de datos que intervienen en la muestra entre el
total de datos, este también es conocido como media
aritmética o simplemente media y se calcula como:
xi
x=
n
Polígono de frecuencias: Representaciones gráficas

alternativas al histograma de frecuencias. Estos se
construyen a partir de los puntos medios de cada clase. La
utilización de los puntos medios o marcas de clase son
llevados al escenario gráfico mediante la utilización de los
polígonos de frecuencias. Se construye uniendo los puntos
medios de cada clase localizados en las tapas superiores de
los rectángulos utilizados en los histogramas de las
gráficas. Su utilidad se hace necesaria cuando desean
destacarse las variables de tendencia central, como son
media, modas y medianas.
Pictogramas: El pictograma consiste en la utilización de

símbolos para representar un conjunto de datos.

110
Recorrido de una distribución: Es la diferencia que existe
entre el valor máximo del conjunto de datos y su valor
mínimo.
Riesgo: Probabilidad de ocurrencia de un evento dado. Se

estima por la proporción de individuos en los que se observa
el evento. Si en un grupo de 100 individuos se observan 15
eventos, el riesgo estimado es 0,15 o 15%.
Sesgo: Es la desviación sistemática entre el resultado

obtenido y el verdadero valor, debido a la forma en que se
hizo el estudio.
Significación estadística : Modo habitual de referirse al

resultado de un contraste de hipótesis. Se dice que un
contraste es estadísticamente significativo cuando su "valor
p" es menor que un valor predeterminado (y arbitrario),
habitualmente 0,05. Hay que notar que la significación
estadística depende de la variabilidad de la medida y del
tamaño muestral. Para muestras grandes, diferencias pequeñas
pueden ser significativas. En el extremo, si se estudiara
toda la población, cualquier diferencia distinta de 0 sería
significativa.
Tamaño de muestra: El número de elementos que intervienen

dentro de la elección de la muestra extraída de una
población.
Variables nominales: Son aquellas variables que son descritas

por algunas características de sus integrantes.

111
Variables cuasicuantitativas: Son variables nominales que a
pesar de ello se pueden ordenar entre sí, un ejemplo de ellas
lo logran representar los valores que pueden tomar los
corredores en una competencia, en la forma en que llegan a
la meta, primer lugar, segundo lugar, etc.
Variables cualitativas: Son aquellas variables que como su

nombre lo indica están relacionadas con sus características
exteriores.
Variables cuantitativas: Estas variables son caracterizadas

por alguna información numérica que se le puede asociar a los
individuos de la una población. Esta caracterización puede
ser clasificada en discreta y continua.
Variables cuantitativas discretas: Son aquellas cuyo valor

esta determinado por valores enteros.
Variables cuantitativas continuas: Son aquellas cuyo valor
esta determinado por valores reales, generalmente esas
variables pueden tomar toda una gama de valores dentro de la
recta real.
Variables aleatorias continuas: Permiten una infinidad de
valores al azar dentro de un intervalo, considerándose
variables continuas precisamente por la posibilidad de poder
tomar cualquier valor dentro de una infinidad de valores.
Variables aleatorias discretas: Las variables cuya
naturaleza toma un número finito de valores enteros, tales
como: los estudiantes de la escuela de medicina de una
universidad, los alumnos reprobados en la materia de
matemáticas, el número de peces en un estanque, el número de
cursos que un estudiante debe cursar para graduarse,
etcétera. El conjunto de valores que podría de tomar una
variable aleatoria discreta puede ser finita o infinita
numerable.

112
Sin lugar a dudas, SPSS 11.5 es una herramienta esencial en
los análisis estadísticos y econométricos ya sea a nivel
empresarial, gubernamental, en el ámbito macro o micro.
Además presenta un fácil manejo a través de un entorno de
ventanas que le ayudan al usuario hacia una familiarización
más rápida con el programa.
En el nivel estadístico, SPSS hace una clara distinción entre
variables, ya que de ello dependen los diferentes análisis ,
señalando en cada caso los errores que se cometen al intentar
realizar análisis con variables inapropiadas. De esta forma,
el programa no sólo constituye una herramienta post- muestra
sino que también es útil en la escogencia y preparación de
los datos. Obviamente esto aplica también para las
regresiones econométricas.
SPSS 11.5 permite un entorno gráfica más detallado y amigable
para el usuario lo que mejora la calidad de los informes y
análisis.
Para manejar la herramienta en la parte Estadística y
Econométrica que es a la que se dedica este manual, es
necesario entender los conceptos básicos de probabilidad y
correlación lineal además de un repaso básico de las
funciones principales del programa, vistas por supuesto ene.
Curso básico de SPSS. Sin embargo, no es necesario éste
último como prerrequisito para acceder a este nivel.
Para terminar, pensamos que a través del manejo óptimo del
programa; es casi inevitable el mejorar nuestra formación
académica y ponernos a la vanguardia en formación
profesional.

113
ACUÑA, Edgar, “Regresión Lineal Múltiple”,Capítulo 2.
Archivo PDF “Introducción al
CAMACHO ROSALES, J.: “Estadística con SPSS para

Windows”, Madrid, Ra-Ma,1998.
ISAUTA VINACUA, B (1997): “Análisis estadístico con SPSS

para Windows” Mc Graw Hill, Madrid.
Medina, Eva: “Modelos Econométrico E Información

Estadística”, Febrero 2002
PÉREZ MORALES, Germán; JIMÉNEZ TORIBIO, Ramón:

“Introducción a SPSS”, Universidad de Huelva, España.
SPSS, Procesamiento y Manejo Básico de Datos”, Archivo

en PDF.

114
www.spss.com
www.statsofting.com
www.etsii.upm.es/ingor/estadistica/
docencia/apuntes/tema11.pdf
www.monografías.com
cca.uprm.edu/agronomia/profesores/base/rmacchiavelli/
extra/agro6600/conferencia22.htm
www.economia.ufm.edu.gt/catedraticos/ jhcole/regresion.pdf

115

SPSS 11.5 guía estadística y econométrica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

SPSS 11.5 guía estadística y econométrica

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS ECONÓMICAS

Coordinadores: Mauricio Vergara Bravo

Analista de Sistemas: Peter Fonseca Buitrago

Programador: Álvaro Enrique Palacios Villamil

Trabajo presentado por:

UNIVERSIDAD NACIONAL COLOMBIA

UNIVERSIDAD NACIONAL COLOMBIA

UNIVERSIDAD NACIONAL COLOMBIA

UNIVERSIDAD NACIONAL COLOMBIA

En esta parte se pretende hacer un pequeño repaso de algunos

Las distribuciones de frecuencias son una herramienta que

Siendo X los distintos valores que puede tomar la

UNIVERSIDAD NACIONAL COLOMBIA

Medidas de tendencia central:

Estas medidas, también conocidas como medidas descriptivas

a) Media aritmética: se calcula multiplicando cada valor por

(X1 * n1)+(X2 * n2)+(X3 * n3)+...+(Xn-1 * nn-1)+(Xn * nn)

b) Media geométrica: se eleva cada valor al número de veces

Según el tipo de datos que se analice será más apropiado

UNIVERSIDAD NACIONAL COLOMBIA

Mediana: es el valor de la serie de datos que se sitúa

Moda es el valor que más se repite en la muestra.

Estudia la distribución de los valores de la serie,

UNIVERSIDAD NACIONAL COLOMBIA

La probabilidad es un área muy importante para el análisis

UNIVERSIDAD NACIONAL COLOMBIA

Relación entre sucesos (Propiedades de las

UNIVERSIDAD NACIONAL COLOMBIA

Uno de los métodos más utilizados es aplicando la Regla de

P(A) = Casos favorables / casos posibles

Por ejemplo, calcular la Probabilidad de que al lanzar un

UNIVERSIDAD NACIONAL COLOMBIA

UNIVERSIDAD NACIONAL COLOMBIA

La estadística inferencial consiste en analizar y deducir

Las distribuciones de muestreo son herramientas muy útiles

UNIVERSIDAD NACIONAL COLOMBIA

Las distribuciones de muestreo mas comúnmente utilizadas son

ESTIMADOR PARAMETRO CONDICIONES DISTRIBUCION ASOCIADA

También podemos emplear otras pruebas para identificar como

La Prueba de Kolomogorov-Smirnov sirve para comprobar si la

Los intervalos de confianza son una herramienta muy útil en

Aunque también se puede realizar empleando el sesgo del

Si el sesgo es = 0 el estimador es insesgado.

b) Eficiencia: Se tienen dos estimadores, llamados T1 y T2,

Eficiencia Relativa = V(T1)

c) Concentración: Mide la proximidad del estimador al

UNIVERSIDAD NACIONAL COLOMBIA

Para esto se emplea un conocido límite llamado la desigualdad

Si el límite es igual a uno, el estimador es consistente, o

Existen además otras propiedades muy importantes de los

Podemos mencionar también métodos de encontrar estimadores,

Estimación por intervalo: es aquella estimación en que,

En la estimación por intervalo es necesario tener en cuenta

Los intervalos de confianza para sus respectivos estimadores

ESTIMADOR PARAMETRO INTERVALO DE CONFIANZA

p1-p2 p1-p2 (p1-p2±Z1- /2( P1(1-

Una hipótesis estadística es una asunción relativa a una o

UNIVERSIDAD NACIONAL COLOMBIA

La hipótesis formulada con intención de rechazarla se llama

La situación se puede esquematizar de la siguiente manera:

H0 rechazada Error tipo I Decisión

H0 no Decisión Error tipo II