Ejemplo de Análisis de Regresión Múltiple

ANÁLISIS MULTIVARIANTE DE DATOS SOCIALES
CURSO 2022-23
EJEMPLO DE ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
FASE 1. OBJETIVOS
1. Objetivos: ¿cuáles son los objetivos de la aplicación del análisis de regresión?
El objetivo último del presente ejemplo es ofrecer una explicación del hecho de que existan impor-
tantes diferencias en el gasto farmacéutico en diferentes lugares de España. En concreto, se trata de
determinar qué variables sociodemográficas pueden ofrecer una explicación adecuada de las dife-
rencias en el gasto farmacéutico de las provincias españolas. A partir de ahí, se trata de ofrecer un
pronóstico sobre la medida en que variará el gasto farmacéutico en función de un conjunto lo más
limitado posible de variables pronosticadoras que tienen que ver tanto con características demográ-
ficas como económicas.
FASE 2. DISEÑO
1. Tamaño de la muestra: ¿la muestra es adecuada para la aplicación del análisis de regresión?
Se han tomado como unidad de análisis cada una de las 50 provincias españolas, además de las
ciudades autónomas de Ceuta y Melilla. En principio, no deberían existir problemas de significación
estadística a partir del hecho de que sólo se cuenta con 52 casos. Es probable que si los coeficientes
de correlación fueran bajos en las variables consideradas sea poco probable encontrar niveles de
significación suficientemente bajos. No obstante, el hecho de que se trate de toda la población y no
de una muestra de casos evita cualquier interpretación en términos de extrapolación de los resul-
tados.
2. Definición de las variables: ¿cuál es la variable criterio y cuáles las variables pronosticadoras?
La variable que se trata de explicar en este ejemplo es el gasto farmacéutico de seguridad social por
habitante en número de euros, tal y como lo define el INE, en el año 2010. El gasto farmacéutico
medio de las provincias españolas fue de 291 euros por habitante, como puede verse en la Tabla 1.
Pero la desviación típica (52 euros por habitante) pone de relieve que existen importantes diferen-
cias entre las diversas provincias españolas a este respecto. Si la distribución para esta variable fuera
normal, semejante valor de desviación significaría que el 95 por ciento de los casos se encontrarían
1
Tabla 1. Estadísticos descriptivos.
Media Desviación típ. N

Gasto farmacéutico de seguridad social por hab. (en €) 291,4933 52,26479 52
Crecimiento natural de la población (por 1.000 hab.) ,9021 4,03992 52
Inmigrantes procedentes del extranjero por 1.000 hab. 8,5867 3,77395 52
Tasa bruta de fecundidad 4,1579 ,77981 52
PIB a precios de mercado (€ por habitante) 2007 22126,6579 4413,65593 52
Tasa de actividad 57,6371 4,47970 52
Beneficiarios de pensiones de jubilación por cada 100 h. 12,5523 3,67288 52
Fuente: SPSS a partir de datos del INE. Enero de 2014.
en una banda de fluctuación que va desde los 187 a los 396 euros, esto es, un rango de variación de
209 euros. Es precisamente este importante rango de variación el que se trata de explicar.
Para ofrecer una explicación adecuada de estas diferencias entre provincias, se han tomado en
cuenta una serie limitada de variables económicas y demográficas que se entiende que puedan estar
claramente relacionadas con la variable que se trata de explicar, el gasto farmacéutico. En primer
lugar, se ha supuesto que las diferencias en el gasto farmacéutico están relacionadas con diferencias
en variables demográficas básicas como el crecimiento natural de la población, la fecundidad o la
tasa de inmigración. La suposición de partida es que las provincias con un mayor gasto farmacéu-
tico presentarán un perfil de recesión demográfica, esto es, un bajo crecimiento natural de la pobla-
ción, una baja fecundidad y una baja tasa de inmigración. Por esta razón, se ha supuesto que existirá
una tendencia a que las provincias con un mayor gasto farmacéutico serán también aquellas que
presenten un menor crecimiento natural de la población por cada 1000 habitantes, una menor tasa
bruta de fecundidad y un menor número de inmigrantes procedentes del extranjero por cada 1000
habitantes.
En segundo lugar, también se ha supuesto que un mayor gasto farmacéutico está relacionado con
una peor situación económica relativa de las provincias afectadas. Como indicadores particulares de
esa peor situación se han tomado en cuenta el nivel de riqueza, la tasa de actividad y el número
relativo de jubilados. Se ha supuesto que aquellas provincias con un mayor gasto farmacéutico tam-
bién tenderán a ser aquellas que son más pobres, tienen una menor tasa de actividad y un mayor
número de beneficiarios de pensiones de jubilación. Por esta razón, se han tomado en consideración
el PIB per cápita (en euros por habitante), la tasa de actividad y el número de beneficiarios de
pensiones de jubilación por cada 100 habitantes.
Todas y cada una de las variables utilizadas han sido relativizadas en función de la población,
como es preceptivo cuando la unidad de análisis son entidades con tamaños poblacionales muy
diferentes. Además, todas las variables se han obtenido a partir de los datos oficiales que ofrece el
INE para el año 2010, con la única excepción del PIB per cápita, variable que el INE tan sólo ofrece
desagregada por provincia hasta el año 2007.
2
FASE 3. SUPUESTOS
1. Linealidad: ¿es lineal la distribución de los residuos para la relación entre la variable criterio
y cada una de las variables pronosticadoras?
La correcta interpretación de los coeficientes propios del análisis de regresión requiere que los resi-
duos, la diferencia entre el valor real de cada caso y el valor que le pronostica la recta de regresión,
cumplan con cuatro condiciones o supuestos previos. En primer lugar, los residuos deberían distri-
buirse de forma lineal en el espacio bidimensional conjunto en un gráfico de dispersión que forman
la variable criterio en el eje y y cada una de las variables pronosticadoras en el eje x. En este ejemplo,
se muestra mediante sendos diagramas de dispersión la relación entre el gasto farmacéutico de las
provincias españolas y el PIB per cápita y el número de beneficiarios de pensiones de jubilación,
que son las dos variables que se han seleccionado para ofrecer una explicación adecuada de la varia-
ble criterio.
La distribución de los residuos en la relación entre el gasto farmacéutico y el PIB per cápita es
fuertemente lineal, como puede observarse en la Figura 1. Existe una tendencia clara a que aquellas
provincias que tienen un PIB per cápita alto, esto es, superior a la media, tengan también un menor
gasto farmacéutico, esto es, inferior a la media. Del mismo modo, casi todas las provincias que
tienen un menor PIB per cápita, presentan un gasto farmacéutico superior a la media. Además, la
posición particular de cada provincia en el espacio bidimensional que trazan ambas variables
presenta un cierto ajuste a la recta de regresión, de modo que casi todas las provincias se sitúan
Figura 1. Gráfico de regresión parcial entre el PIB per cápita y el gasto farmacéutico de seguridad social por
habitante.
__
Fuente: SPSS a partir de datos del INE, enero de 2014.
3
Figura 2. Gráfico de regresión parcial entre el número de beneficiarios de pensiones de jubilación por cada 100
habitantes y el gasto farmacéutico de seguridad social por habitante.
__
en ese espacio a una relativamente corta distancia de la recta de regresión, es decir, presentan un
residuo más bien pequeño.
La relación entre el número de beneficiarios de pensiones de jubilación y el gasto farmacéutico

pone de manifiesto que existe una fuerte relación lineal entre ambas variables, de modo que casi
todos los casos se encuentran muy cerca de la posición relativa de la recta de regresión. De este
modo, existe una fuerte tendencia a que las provincias con un elevado número relativo de beneficia-
rios de pensiones de jubilación sean también aquellas que tienen un mayor gasto farmacéutico por
habitante. En conclusión, se cumple bastante bien el supuesto de linealidad en la distribución biva-
riante de los residuos en el modelo de regresión seleccionado.
2. Normalidad: ¿los residuos se distribuyen de forma normal?
La distribución de los residuos por encima y por debajo de la recta de regresión se aproxima clara-
mente a la forma de la distribución normal. En el histograma de la Figura 3 se pone de manifiesto
que a derecha y a izquierda del valor residual 0, esto es, de la recta de regresión, existe una distribu-
ción simétrica y mesocúrtica. Es decir, la dispersión de los casos por encima de la recta de regresión
se distribuye de forma simétrica a la que existe por debajo de esa recta, así como la concentración de
los casos alrededor de ella ni se encuentra muy concentrada ni muy dispersa. El histograma mues-
tra un encaje bastante adecuado entre la longitud de las barras verticales y la posición de la curva
normal.
4
Figura 3. Histograma de distribución de los residuos tipificados.
Histograma
Variable dependiente: Gasto farmaceútico de seguridad social

por habitante (en euros)
6
Frecuencia
Media =-2,05E-15
Desviación típica
=0,98
0 N =52
-3 -2 -1 0 1 2 3
Regresión Residuo tipificado
Figura 4. Gráfico de probabilidad normal de los residuos tipificados.
5
Ese ajuste a la normalidad es aún más evidente en el gráfico de probabilidad normal que se re-
presenta en la Figura 4. En él, la sucesión de puntos muestra un encaje casi perfecto entre la proba-
bilidad acumulada observada y la que se esperaría bajo el supuesto de normalidad de la distribu-
ción. La posición de los puntos que representan cada uno de los casos se ajusta considerablemente a
la diagonal que reproduce la posición de la curva normal y, en consecuencia, habrá que concluir
que se cumple de forma bastante fiel el supuesto de normalidad en la distribución de los residuos.
3. Homoscedasticidad: ¿la distribución de los residuos es homoscedástica, esto es, se distribuye

de forma constante a lo largo de la recta de regresión?
En el análisis de regresión no sólo basta con que los residuos se distribuyan de forma normal por
encima y por debajo de la recta de regresión. Además, es necesario que la varianza se distribuya de
forma normal para diferentes valores de la variable dependiente. Es decir, no sólo se trata de que la
distribución de los residuos sea normal en términos generales, sino que también lo sea para dife-
rentes valores pronosticados, es decir, que sea homoscedástica. En la Figura 5 se representan los
diferentes valores pronosticados tipificados en el eje de x y el valor de los residuos tipificados en el
eje y. De este modo, la recta de regresión coincide con el valor 0 en ese eje de abscisas. Por encima y
por debajo de ese valor de y se distribuirán cada uno de los casos de acuerdo con el valor que les
pronostica la recta de regresión y el valor de sus correspondientes residuos. Para que se cumpla el
supuesto de homoscedasticidad la nube de puntos en ese gráfico de dispersión deberá presentar
rangos de variación similares a lo largo de esa línea horizontal.
Figura 5. Gráfico de dispersión de los residuos tipificados.
__
6
En términos generales, puede decirse que esto es precisamente lo que ocurre en el ejemplo que
aquí se desarrolla, en particular respecto de los valores pronosticados centrales. Allí donde el valor
pronosticado se sitúa a una desviación típica del valor medio, la dispersión de los residuos es simi-
lar por encima y por debajo de la recta de regresión, lo cual señala la presencia de una distribución
claramente homoscedástica. Sin embargo, no ocurre lo mismo cuando se analiza la dispersión que
se encuentra por debajo y por encima de una desviación típica del valor pronosticado promedio.
Para los valores inferiores a una desviación típica en el eje de x, la dispersión es algo diferente por
encima y por debajo de la recta de regresión, lo que indicaría una distribución heteroscedástica.
Algo similar ocurre con las provincias que presentan un elevado valor pronosticado.
A pesar de todo, hay que advertir que en cualquiera de ambos casos se trata de un número muy
limitado de provincias (como ocurre con los casos excepcionales de Lugo y Ourense) y que, en
consecuencia, la heteroscedasticidad no deja de tener un carácter casi excepcional. En conclusión,
con las mencionadas salvedades, puede afirmarse que, para la mayor parte de las provincias, la
distribución de los residuos es más bien homoscedástica y que, por tanto, se cumple el supuesto de
distribución normal de los residuos a lo largo del rango de valores pronosticados.
4. Independencia de los residuos: ¿los residuos están auto-correlacionados?
El cuarto y último supuesto que es necesario que se cumpla en un análisis de regresión es que los
residuos no se encuentren auto-correlacionados, esto es, que no respondan a un sesgo sistemático o,
en otros términos, que no respondan a una lógica de formación que no haya sido tomada en consi-
deración en el análisis. Un buen modo de valorar si se produce esta situación o no consiste en
valorar el estadístico de Durbin-Watson. Si los residuos no se encuentran auto-correlacionados, el
coeficiente DW se encontrará cerca del valor 2. Si estuvieran correlacionados en sentido inverso, ese
coeficiente tendería a ser 0 y si se produjera la situación contraria, es decir, que estuvieran correla-
cionados en sentido directo, entonces el valor del coeficiente podría llegar a estar cerca de 4. Como
una regla rápida de decisión, se entiende que en un caso concreto se cumple el supuesto de inde-
pendencia de los residuos si el valor del coeficiente DW se sitúa en algún punto entre el valor 1,5 y
2,5. Así ocurre en este ejemplo. Como puede comprobarse en la Tabla 9, con un coeficiente DW de
1,84 puede afirmarse que los residuos tan sólo están levemente auto-correlacionados en sentido
inverso, pero que ese valor de auto-correlación es tan limitado que puede afirmarse que se cumple
el supuesto de independencia de los residuos en este caso.
Tabla 2. Coeficiente de Durbin-Watson de independencia de los residuos.
Durbin-Watson
1,843
7
FASE 4. EXTRACCIÓN
1. Método de selección de variables: ¿qué método de selección de variables se ha utilizado?
En la medida en que no se parte de un modelo teórico previo sobre la explicación del gasto farma-
céutico en función de otras variables demográficas y económicas, el planteamiento del análisis es
claramente exploratorio. Como se trata de explorar posibles explicaciones de las diferencias en una
variable métrica como el gasto farmacéutico, entonces el método de selección de variables adecuado
es el de pasos sucesivos. La ventaja de este procedimiento es que permite obtener diversos modelos
de regresión, esto es, diferentes combinaciones lineales de variables independientes. De este modo,
es posible distinguir con nitidez entre diferentes combinaciones de variables pronosticadoras y las
ventajas e inconvenientes de cada una de ellas. Esto permite asegurar que la selección final de un
particular modelo de regresión responde a la vez a los dos criterios fundamentales: en primer lugar,
encontrar aquella combinación que maximice el valor del coeficiente de determinación y, en segun-
do lugar, que emplee el menor número posible de variables independientes.
En el método de selección por pasos se han establecido los criterios habituales de entrada y de
salida de variables pronosticadoras. La probabilidad de F que se ha establecido para la entrada de
nuevas variables en los sucesivos modelos de regresión corresponde a un nivel de significación
≤0,05 y el criterio de salida consiste en una probabilidad de F conjunta de ≤0,10, lo que corresponde
a valores de F de 3,84 y de 2,71 respectivamente.
A partir de esos criterios, se han generado cuatro modelos de regresión con combinaciones parti-
culares de variables pronosticadoras, como puede verse en la Tabla 2. Como se deduce de la aplica-
ción del método de pasos sucesivos, el primer modelo sólo contiene una variable independiente, el
crecimiento natural de la población, debido a que es la variable individual que presenta la corre-
lación más elevada. La matriz de correlaciones que representa la Tabla 3 señala que la correlación
Tabla 3. Variables introducidas y eliminadas en diferentes modelos de regresión mediante el procedimiento de

pasos sucesivos.
Modelo Variables introducidas Variables eliminadas Método

1 Por pasos (criterio: Prob. de F
Crecimiento natural de la
. para entrar <= ,050, Prob. de F
población (por 1.000 habitantes)
para salir >= ,100).
PIB a precios de mercado (€ por
habitante) 2007
3 Beneficiarios de pensiones de Por pasos (criterio: Prob. de F
jubilación por cada 100 . para entrar <= ,050, Prob. de F
habitantes para salir >= ,100).
población (por 1.000 habitantes)
a Variable dependiente: Gasto farmacéutico de seguridad social por habitante (en euros).
8
Tabla 4. Matriz de correlaciones de las variables originales.
Crecimien- Benefi-
to natural Inmigran- PIB a ciarios de
de la tes proce- precios de pensiones
población dentes del Tasa bruta mercado (€ de
(por 1.000 extranjero de por h.) Tasa de jubilación
h.) por 1.000 h. fecundidad 2007 actividad por 100 h.
Gasto farmacéutico de
-,798** -,533** -,662** -,425** -,650** ,720**
seguridad social por h. (en €)
,542** ,872** ,173 ,645** -,856**
población (por 1.000 h.)
Inmigrantes procedentes del
,507** ,447** ,600** -,364**
extranjero por 1.000 h.
Tasa bruta de fecundidad ,252* ,401** -,616**
PIB a precios de mercado (€

,440** ,104
por h.) 2007
Tasa de actividad -,532**
N=52. * = p< 0,05; ** = p< 0,01. En negrita las correlaciones no significativas. Fuente: SPSS a partir de datos del INE, enero
de 2014.
más elevada para el gasto farmacéutico, la variable criterio, corresponde a la variable relativa al
crecimiento natural de la población (-0,789). Esa correlación indica que existe una fuerte tendencia a
que las provincias que presentan un elevado gasto farmacéutico sean también aquellas en las que
existe un menor crecimiento vegetativo de la población, esto es, un balance más negativo entre la
natalidad y la mortalidad. El gasto farmacéutico es claramente contrario al crecimiento de la pobla-
ción.
Un segundo modelo de regresión añade al crecimiento natural de la población el PIB a precios de

mercado por habitante. La combinación lineal de ambas variables debería aumentar de forma im-
portante el valor del coeficiente de determinación en tanto en cuanto el PIB por habitante presenta
una correlación media con la variable criterio (-0,425) y claramente baja con el crecimiento natural
de la población (0,173).
El tercer modelo de regresión sigue también el procedimiento hacia adelante al añadir a las ante-
riores una tercera variable pronosticadora, el número de beneficiarios de pensiones de jubilación
por cada 100 habitantes. Es de esperar que se incluya esta última variable en la medida en que es la
que en segundo lugar presenta una correlación más elevada con el gasto farmacéutico (0,720).
A pesar de ello, la alta correlación que existe entre dos de las variables pronosticadoras, el creci-
miento natural de la población y el número de beneficiarios de pensiones de jubilación (-0,856),
lleva a que en un cuarto modelo de regresión se haya eliminado la primera variable introducida, el
crecimiento natural de la población. De este modo, el último modelo de regresión incluye aquellas
dos variables que se introdujeron en los modelos segundo y tercero, esto es, el PIB por habitante y el
número de beneficiarios de pensiones de jubilación por cada 100 habitantes.
9
2. Significación estadística: ¿cuál es la significación estadística de los modelos de regresión?
Para valorar la significación estadística de los modelos de regresión hay que evaluar el análisis de
varianza de dos grupos en cada uno de esos modelos, como se muestra en la Tabla 4. El primer
grupo de valores, la suma de cuadrados de la regresión, viene dado por los valores pronosticados
por la aplicación del criterio de mínimos cuadrados ordinarios (ordinary least square, OLS) y depende
del número de variables que se han empleado para el pronóstico en cada uno de los modelos. El
segundo grupo de valores, la suma de cuadrados residuales, viene dado por el valor de los residuos
al aplicar ese mismo criterio de mínimos cuadrados.
El cálculo de las medias cuadráticas de cada uno de los modelos determina un valor de F al que
le corresponde un determinado nivel de significación. Ese valor de F va disminuyendo conforme
aumenta el número de variables pronosticadoras utilizado, por esa razón es mayor en el modelo 4
que en cualquiera de los anteriores, con la sola excepción del primero. La hipótesis nula de esta
prueba F consiste en que el pronóstico que ofrece cada uno de los modelos no está más ajustado al
valor real de los casos en la variable criterio que el pronóstico que se obtendría al azar. Niveles de
significación como los que se encuentran en todos los modelos indican que existe un 100% de con-
fianza en que la decisión de rechazar la hipótesis nula sea la correcta. De este modo, la predicción
de cualquiera de los modelos de regresión es significativamente más ajustado al valor real de gasto
farmacéutico de las provincias españolas que cualquier pronóstico que se obtuviera al azar.
Tabla 5. Análisis de la varianza de diversos modelos de regresión.
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 88756,592 1 88756,592 87,781 ,000(a)
Residual 50555,422 50 1011,108
Total 139312,014 51
2 Regresión 100629,764 2 50314,882 63,735 ,000(b)
Residual 38682,250 49 789,434
Total 139312,014 51
3 Regresión 109242,477 3 36414,159 58,128 ,000(c)
Residual 30069,537 48 626,449
Total 139312,014 51
4 Regresión 107556,830 2 53778,415 82,983 ,000(d)
Residual 31755,184 49 648,065
Total 139312,014 51
a Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes)
b Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes), PIB a precios de mercado
(€ por habitante) 2007
c Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes), PIB a precios de mercado
(€ por habitante) 2007, Beneficiarios de pensiones de jubilación por cada 100 habitantes
d Variables predictoras: (Constante), PIB a precios de mercado (€ por habitante) 2007, Beneficiarios de pensiones de
jubilación por cada 100 habitantes
e Variable dependiente: Gasto farmacéutico de seguridad social por habitante (en euros)
10
3. Capacidad predictiva: ¿en qué medida las variables pronosticadoras predicen la variable cri-
terio en cada uno de los modelos de regresión?
Es claro que cualquiera de los modelos de regresión es mejor pronosticador del gasto farmacéutico
que el azar, pero, ¿en qué medida cada uno de ellos sirve para explicar las diferencias en el gasto
farmacéutico de las provincias españolas? La respuesta se encuentra en la Tabla 5. El primer modelo
de regresión selecciona la variable que presenta un coeficiente de correlación individual más eleva-
do en relación con la variable criterio. Su cuadrado puede interpretarse como la proporción de la
varianza que el modelo de regresión explica de la variable dependiente. En este caso, el crecimiento
natural de la población explica el 63 por ciento de la varianza, esto es, una parte muy importante de
las diferencias provinciales en su gasto farmacéutico. De este modo, la mejor explicación individual
del hecho de que existan diferencias en el gasto farmacéutico entre las provincias españolas se debe
al retroceso en el crecimiento vegetativo de la población. Las diferencias en el gasto farmacéutico
responden, en primer lugar, al proceso de recesión demográfica que sufren una parte importante de
las provincias españolas.
Un segundo modelo de regresión ofrece una explicación que es significativamente más ajustada,
como pone de relieve el nivel de significación del cambio en el valor de F en la Tabla 5. Si se combi-
nan linealmente el crecimiento natural de la población y el PIB por habitante, entonces se alcanza un
coeficiente múltiple de correlación tan alto como 0,850, lo que implica una proporción de varianza
explicada que se sitúa en 0,722. De este modo, la combinación lineal del crecimiento natural de la
población y el PIB per cápita llega a explicar casi tres cuartas partes de las diferencias provinciales
en el gasto farmacéutico, lo cual es un nivel de explicación muy elevado. El hecho de que el paso del
primer modelo al segundo haya aumentado en 8,5 puntos porcentuales la varianza explicada puede
justificar que se elija este segundo modelo frente al primero, pese a añadir una variable más.
Tabla 6. Capacidad predictiva de diversos modelos de regresión.
Estadísticos de cambio
R Error Sig. del
Mo- R cuadrado típico de la Cambio en R Cambio cambio
delo R cuadrado corregida estimación cuadrado en F gl1 gl2 en F
1 ,798(a) ,637 ,630 31,79793 ,637 87,781 1 50 ,000
2 ,850(b) ,722 ,711 28,09686 ,085 15,040 1 49 ,000
3 ,886(c) ,784 ,771 25,02896 ,062 13,748 1 48 ,001
4 ,879(d) ,772 ,763 25,45712 -,012 2,691 1 48 ,107
a Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes)
b Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes), PIB a precios de mercado
c Variables predictoras: (Constante), Crecimiento natural de la población (por 1.000 habitantes), PIB a precios de mercado
(€ por habitante) 2007, Beneficiarios de pensiones de jubilación por cada 100 habitantes
d Variables predictoras: (Constante), PIB a precios de mercado (€ por habitante) 2007, Beneficiarios de pensiones de
jubilación por cada 100 habitantes
e Variable dependiente: Gasto farmacéutico de seguridad social por habitante (en euros)
11
El tercer modelo de regresión ofrece la mayor capacidad explicativa del gasto farmacéutico, pero
utiliza más variables que cualquiera del resto de los modelos. La combinación lineal del crecimiento
natural de la población, el PIB por habitante y el número de beneficiarios de pensiones de jubilación
consigue explicar el 78 por ciento de la varianza, lo cual implica una enorme capacidad explicativa.
No obstante, tan sólo son 6 puntos porcentuales más que el segundo modelo, que no toma en cuenta
la variable relativa a las pensiones de jubilación. De este modo, añadir una variable más tan sólo ha
supuesto pasar de una capacidad explicativa del 72 al 78 por ciento. A pesar de que el cambio en F
es significativo, habría que considerar seriamente si no sería mejor simplemente quedarse con el se-
gundo modelo.
Una versión mejorada del segundo modelo lo constituye el cuarto. Como el segundo, también
emplea sólo dos variables y, de ese modo, resulta ser altamente parsimonioso. Pero lo más relevante
es que aumenta en 5 puntos porcentuales la capacidad explicativa del segundo modelo y sólo redu-
ce en un punto porcentual la capacidad explicativa del tercer modelo. Con tan sólo dos variables se
alcanza una proporción de varianza explicada elevadísima (0,77). De este modo, más de tres cuartas
partes de las diferencias provinciales en el gasto farmacéutico de seguridad social pueden explicarse
simplemente a partir de las diferencias provinciales en el PIB por habitante y en el número relativo
de beneficiarios de pensiones de jubilación. En términos probabilísticos, la posibilidad de actuar
sobre el PIB por habitante y sobre el número de pensiones de jubilación tiene un 77 por ciento de
probabilidades de modificar el gasto farmacéutico de seguridad social.
Otro modo de valorar la capacidad explicativa de los diferentes modelos de regresión consiste en
comparar el error promedio que se comete al utilizar las variables independientes como pronostica-
doras y el error que se comete al utilizar la media como predictora, es decir, comparar el valor que
adquiere el error típico de la estimación con la desviación típica. Si se emplea la media como pro-
nóstico el error promedio que se comete llega a ser de 52 euros, como puede observarse en el valor
de la desviación típica en la Tabla 1. Si se emplea la variable del modelo 1 entonces el error típico,
promedio, se reduce hasta los 32 euros, lo cual es una reducción considerable. Mayor aún es la
reducción en el error típico en los modelos tercero y cuarto, en los que llega a ser menor de la mitad
de la desviación típica (25 euros).
4. Selección del modelo de regresión: ¿cuál es el modelo de regresión más adecuado para expli-
car la variable criterio?
Los dos criterios fundamentales a la hora de elegir el modelo de regresión más adecuado es que se
alcance una elevada capacidad explicativa a la vez que se utilicen el menor número posible de
variables explicativas. Si se toma en cuenta sólo el primer criterio, habría que seleccionar el tercer
modelo en tanto que es la combinación de variables que aumenta al máximo el valor del coeficiente
de determinación y reduce en mayor medida el valor del error típico de la estimación. Sin embargo,
si se toma en cuenta el segundo criterio, resulta que el tercer modelo es el menos económico dado
que utiliza el mayor número de variables pronosticadoras. Este segundo criterio llevaría a seleccio-
12
nar el primer modelo, dado que alcanza un considerable nivel explicativo usando solamente una
única variable.
A pesar de esto, parece que pasar de un 63 por ciento como capacidad explicativa del primer
modelo a un 77 por ciento del cuarto modelo con dos variables independientes es un paso que clara-
mente merece la pena. De este modo, la solución óptima, que equilibra en sus justos términos los
dos criterios de decisión, es claramente elegir el cuarto modelo, a la vez altamente explicativo y
económico. Eso llevaría a rechazar tanto el primer modelo, por no ser suficientemente explicativo en
comparación con los demás, como la tercera combinación, que utiliza demasiadas variables sin ofre-
cer una capacidad explicativa muy superior a la de otros modelos más parsimoniosos.
FASE 5. INTERPRETACIÓN
1. Interpretación de los coeficientes de regresión: ¿en qué medida cambian los valores de la
variable dependiente por cada variación unitaria de las variables independientes?
El valor que adquieran los coeficientes de regresión indican la naturaleza de la variación conjunta
de los valores de la variable criterio y de las variables pronosticadoras. El valor de la constante seña-
la el valor que adquirirá la variable criterio en el hipotético caso de que exista un caso con un valor
cero en la variable pronosticadora. El valor del coeficiente de regresión (b) indica la variación que
sufre la variable criterio para cada variación unitaria en la variable independiente.
Como puede observarse en la Tabla 6, en el primer modelo de regresión resultará que una
provincia en la que exista un nulo crecimiento natural de la población, entonces habrá un gasto
farmacéutico de seguridad social de 301 euros por habitante. Si esa provincia experimentara un
crecimiento natural de la población de un punto, entonces vería reducir en 10 euros su gasto farma-
céutico por habitante.
El segundo modelo presenta un valor de la constante de 378 euros, lo que correspondería a una
provincia que puntuara cero tanto en su crecimiento natural de la población como en su PIB por
habitante. En ese modelo, aumentar en un punto el crecimiento de la población implicaría disminuir
en 10 euros el gasto farmacéutico por habitante, así como aumentar en 1000 euros el PIB per cápita
implicará, de promedio, una reducción del gasto farmacéutico de 4 euros.
Por su parte, el tercer modelo de regresión señala que, con un punto de partida de 311 euros, el
aumento en un punto en el crecimiento natural de la población implicaría una reducción del gasto
farmacéutico de 3 euros y 20 céntimos, que el crecimiento en 1000 euros en el PIB por habitante
supone 5 euros de reducción del ese gasto y que añadir un nuevo beneficiario al ejército de pensio-
nistas de jubilación implica aumentar en 7 euros y 88 céntimos el gasto de farmacia de la seguridad
social.
En el cuarto modelo, el seleccionado, una hipotética provincia que tenga 0 euros como PIB per
cápita y ningún beneficiario de pensiones de jubilación, entonces le correspondería un gasto farma-
céutico de 286 euros. El error típico de la constante es de 21 euros, con lo cual su rango de fluctua-
13
Tabla 7. Coeficientes de regresión de diversos modelos de regresión.
Coefic, Intervalo de
Coeficientes no estanda- confianza para B
estandarizados rizados al 95%
Mo- Límite Límite
delo B Error típ. Beta t Sig. inferior superior
1 (Constante) 300,809 4,520 66,546 ,000 291,729 309,888
-10,326 1,102 -,798 -9,369 ,000 -12,540 -8,113
2 (Constante) 377,870 20,268 18,644 ,000 337,140 418,600
-9,664 ,989 -,747 -9,775 ,000 -11,651 -7,677
PIB a precios de mercado
-,004 ,001 -,296 -3,878 ,000 -,005 -,002
3 (Constante) 310,800 25,557 12,161 ,000 259,414 362,186
-3,203 1,953 -,248 -1,640 ,107 -7,129 ,723
-,005 ,001 -,440 -5,619 ,000 -,007 -,003
Beneficiarios de
pensiones de jubilación 7,887 2,127 ,554 3,708 ,001 3,610 12,163
por cada 100 habitantes
4 (Constante) 286,010 20,963 13,644 ,000 243,884 328,135
-,006 ,001 -,506 -7,379 ,000 -,008 -,004
Beneficiarios de
pensiones de jubilación 11,001 ,976 ,773 11,273 ,000 9,040 12,962
por cada 100 habitantes
ción con un intervalo de confianza del 95% (2 errores típicos), va desde los 244 a los 328 euros. Los
valores del coeficiente de regresión sin tipificar ponen de manifiesto que un incremento en 1000
euros en el PIB per cápita implica disminuir en 6 euros el gasto farmacéutico, mientras que un
aumento en un beneficiario de pensiones de jubilación por cada 100 habitantes implica un incre-
mento del gasto farmacéutico de 11 euros. Estos coeficientes representan la variación promedio,
pero tomando en cuenta el error típico correspondiente resulta que el valor de los coeficientes de
regresión fluctúa entre los 8 y los 4 euros respecto de un aumento de 1000 euros en el PIB per cápita
y los 9 y 13 euros respecto de cada beneficiario de pensiones de jubilación por cada 100 habitantes.
Los resultados de la prueba t para cada uno de esos coeficientes pone de relieve que todos ellos
son estadísticamente significativos. Este resultado implica que, si se estuviese hablando de una
muestra de provincias, entonces encontraríamos en la población de la que se hubiera extraído esa
muestra coeficientes de regresión similares a los que se han encontrado para la muestra de casos
que se ha utilizado.
14
2. Efectos de colinealidad: ¿cuál es la importancia relativa de cada una de las variables pronosti-
cadoras en la explicación de la variable criterio?
Uno de los problemas interpretativos que puede aparecer en el análisis de regresión múltiple con-
siste en determinar cuál es, en verdad, la capacidad explicativa de cada una de las variables inde-
pendientes en un modelo de regresión que cuenta con varias de ellas. Por supuesto que este proble-
ma interpretativo no aparece en el análisis de regresión simple y, por eso mismo, tampoco aparece
en el primer modelo de regresión obtenido. Pero, en los sucesivos modelos de regresión existe la
dificultad de determinar en qué medida las variables pronosticadoras están correlacionadas entre sí
y, en consecuencia, ven reducida su capacidad explicativa conjunta sobre la variable criterio.
Como pone de manifiesto la Tabla 7, el segundo modelo de regresión presenta escasos efectos de
colinealidad entre el crecimiento natural de la población y el PIB por habitante. De hecho, existe
poca diferencia entre los coeficientes de correlación de orden cero y parcial, así como el coeficiente
de tolerancia y el factor de inflación de la varianza están bastante cercanos a 1. Todos esos coeficien-
tes señalan una bajísima colinealidad entre las variables pronosticadoras del modelo segundo, como
también es claro a partir del bajo coeficiente de correlación (0,173) que existe entre el crecimiento de
la población y el PIB por habitante, tal y como se observa en la Tabla 2, una correlación que ni si-
quiera es estadísticamente significativa.
La razón fundamental por la cual el tercer modelo no es adecuado para explicar el gasto farma-
céutico por habitante se debe a la presencia de fortísimos efectos de multicolinealidad entre las
Tabla 8. Estadísticos de colinealidad de diversos modelos de regresión.
Estadísticos de
Correlaciones colinealidad
Mo- De orden
delo cero Parcial Semiparcial Tolerancia FIV
1 Crecimiento natural de la
-,798 -,798 -,798 1,000 1,000
-,798 -,813 -,736 ,970 1,031
-,425 -,485 -,292 ,970 1,031
por habitante) 2007
-,798 -,230 -,110 ,197 5,066
-,425 -,630 -,377 ,732 1,367
por habitante) 2007
Beneficiarios de pensiones de
,720 ,472 ,249 ,201 4,969
jubilación por cada 100 hab.
4 PIB a precios de mercado (€
-,425 -,726 -,503 ,989 1,011
por habitante) 2007
Beneficiarios de pensiones de
,720 ,850 ,769 ,989 1,011
jubilación por cada 100 hab.
15
variables pronosticadoras implicadas. Añadir al segundo modelo el número de beneficiarios de
pensiones de jubilación apenas supone aumentar el coeficiente de determinación en mucho menos
de lo que cabría pensar. Ese resultado es producto de la altísima correlación que existe entre la nue-
va variable añadida en el modelo tercero y otra que ya existía en el modelo segundo. Como puede
comprobarse en la Tabla 3, la correlación entre el crecimiento natural de la población y el número
de beneficiarios de pensiones de jubilación es altísimo (-0,856), lo cual supone que existe una fuerte
tendencia a que el aumento vegetativo de la población sea contrario al crecimiento del número de
jubilados, como parece evidente en buena lógica.
La presencia de estos efectos de colinealidad entre esas dos variables en el tercer modelo, lleva a
que se plantee un cuarto modelo de regresión en el que se elimine la variable introducida en el
primer modelo. En ese cuarto y último modelo de regresión, los efectos de colinealidad han desa-
parecido casi por completo debido a la escasa correlación que existe entre el PIB per cápita y el
número de beneficiarios de pensiones de jubilación (0,104), como aparece en la Tabla 3. Esa baja
correlación conduce a que los estadísticos de colinealidad del modelo cuarto, como son el coeficien-
te de tolerancia y el factor de inflación de la varianza, se encuentren muy cerca del valor 1. De este
modo, el efecto explicativo conjunto de ambas variables sobre la variable criterio es similar al que
cabría esperar a partir de la simple suma de la capacidad explicativa de cada una de ellas.
3. Observaciones influyentes: ¿qué casos pueden considerarse como observaciones influyentes?
Una simple inspección de cuáles son los casos que se apartan en mayor medida de la recta de regre-
sión en el modelo seleccionado, el cuarto, pone de manifiesto que son Granada y Valencia candida-
tos a formar parte del grupo de observaciones influyentes, como se recoge en la Tabla 8. Granada
cuenta con un gasto farmacéutico bastante inferior (más de dos desviaciones típicas menos) al que
cabría esperar en función de su PIB por habitante y su número de beneficiarios de pensiones de
jubilación. Valencia se encuentra en la situación contraria, esto es, tiene un gasto farmacéutico por
habitante bastante superior al que cabría esperar en función de las variables pronosticadoras.
Sin embargo, es dudoso que cualquiera de estos dos casos sean en sí mismos observaciones influ-
yentes por el simple hecho de que sean los valores extremos de la distribución. Para comprobar qué
casos son observaciones influyentes es preferible recurrir a los gráficos de regresión parcial que apa-
recen a continuación (véanse las Figuras 1 y 2).
Tabla 9. Diagnóstico de casos extremos.
Gasto
farmacéutico de
seguridad social Valor
Número de caso Provincia Residuo tip. por h. (en euros) pronosticado Residuo bruto
21 Granada -2,017 254,92 306,2782 -51,35816
49 Valencia 2,223 339,06 282,4587 56,60135
16
En la relación entre el PIB por habitante y el gasto farmacéutico (Figura 1) se pone de manifiesto
que la posición relativa de Guipúzcoa y Álava tienen un peso más importante que los demás casos a
la hora de determinar la posición de la recta de regresión. Si esos casos, que claramente caen fuera
del rango de variación de los demás casos, no existieran la recta de regresión muy posiblemente se
ajustaría mejor a la posición de casos como Badajoz o Valencia y la pendiente que trazaría sería más
pronunciada.
Si se toma en cuenta la relación entre el número de beneficiarios de pensiones de jubilación y el

gasto farmacéutico por habitante (como aparece en la Figura 2), las provincias de Ourense y Lugo
destacan de los demás casos por su posición relativa en el margen superior derecha del gráfico,
claramente apartados del conjunto de los demás casos. La posición relativa de esas dos provincias
tiene un considerable impacto sobre la posición particular de la recta de regresión, de modo que esa
recta se aparta de forma particular de casos como Valencia.
CONCLUSIÓN
El propósito de partida de este ejemplo consistía en tratar de explicar las diferencias en el gasto
farmacéutico en las provincias españolas. Se supuso que la importante variabilidad que presenta ese
gasto en diferentes provincias venía dado por un conjunto de características demográficas que
retrataban un contexto de recesión demográfica caracterizado por un bajo crecimiento natural de la
población, una escasa fecundidad y una baja proporción de población inmigrante de origen extran-
jero. El punto de partida del análisis que aquí se ha presentado, la matriz de correlaciones, pone de
manifiesto que esa situación demográfica está claramente relacionada con un aumento del gasto
farmacéutico, como demuestra el hecho de que ese gasto esté correlacionado, ante todo, con un
menor crecimiento vegetativo de la población.
Sin embargo, la búsqueda de una explicación parsimoniosa ha llevado a constatar que más que
las variables demográficas son las variables de carácter económico las que explican de forma más
adecuada las diferencias en el gasto farmacéutico de las provincias españolas. En particular, una
situación de escaso dinamismo económico, caracterizado por un bajo PIB per cápita, una menor tasa
de actividad y un mayor número de beneficiarios de pensiones de jubilación, parece estar particu-
larmente bien relacionado con un mayor gasto farmacéutico. Más en concreto, se ha alcanzado un
elevadísimo nivel explicativo simplemente empleando dos de las variables económicas que se han
tomado en cuenta: el PIB por habitante y el número relativo de beneficiarios de pensiones de jubila-
ción.
A partir de este resultado, no es descabellado plantear que toda política de contención del gasto
farmacéutico parece que debería tomar en consideración el importante poder explicativo que sobre
él tienen la riqueza económica y los sistemas de jubilación. De hecho, se ha constatado que, de pro-
medio, un crecimiento de 1000 euros en el PIB por habitante implica una reducción anual media del
gasto farmacéutico que asciende a 6 euros por habitante. Asimismo, se ha probado que añadir un
nuevo pensionista al sistema de protección de la jubilación implica un aumento del gasto farmacéu-
17
tico por habitante de 11 euros al año. Así, el crecimiento económico y un control más estricto del
acceso a la jubilación parecen ser factores que favorecen la contención del gasto farmacéutico de
seguridad social de forma relevante.
Prof. Alberto Cotillo Pereira
Febrero de 2023
18

Ejemplo de Análisis de Regresión Múltiple

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ejemplo de Análisis de Regresión Múltiple

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS MULTIVARIANTE DE DATOS SOCIALES

EJEMPLO DE ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

1. Objetivos: ¿cuáles son los objetivos de la aplicación del análisis de regresión?

Media Desviación típ. N

Fuente: SPSS a partir de datos del INE. Enero de 2014.

La relación entre el número de beneficiarios de pensiones de jubilación y el gasto farmacéutico

2. Normalidad: ¿los residuos se distribuyen de forma normal?

Variable dependiente: Gasto farmaceútico de seguridad social

Figura 4. Gráfico de probabilidad normal de los residuos tipificados.

Fuente: SPSS a partir de datos del INE, enero de 2014.

3. Homoscedasticidad: ¿la distribución de los residuos es homoscedástica, esto es, se distribuye

Figura 5. Gráfico de dispersión de los residuos tipificados.

4. Independencia de los residuos: ¿los residuos están auto-correlacionados?

Tabla 2. Coeficiente de Durbin-Watson de independencia de los residuos.

1. Método de selección de variables: ¿qué método de selección de variables se ha utilizado?

Tabla 3. Variables introducidas y eliminadas en diferentes modelos de regresión mediante el procedimiento de

Modelo Variables introducidas Variables eliminadas Método

Tasa bruta de fecundidad ,252* ,401** -,616**

PIB a precios de mercado (€

Tasa de actividad -,532**

Un segundo modelo de regresión añade al crecimiento natural de la población el PIB a precios de

Tabla 5. Análisis de la varianza de diversos modelos de regresión.

Tabla 6. Capacidad predictiva de diversos modelos de regresión.

Tabla 8. Estadísticos de colinealidad de diversos modelos de regresión.

3. Observaciones influyentes: ¿qué casos pueden considerarse como observaciones influyentes?

Tabla 9. Diagnóstico de casos extremos.

Si se toma en cuenta la relación entre el número de beneficiarios de pensiones de jubilación y el

Prof. Alberto Cotillo Pereira

También podría gustarte

Tasa bruta de fecundidad ,252* ,401 -,616