Documentos de Académico
Documentos de Profesional
Documentos de Cultura
\
|
|
|
.
|
\
|
|
|
.
|
\
|
|
|
.
|
\
|
|
|
.
|
\
|
|
|
.
|
\
|
= =
= = = =
= = = =
q q p p Y X
XY
XY
n y n x n x n x
n y n x n y x
S S
S
r
1 j
2
1 j
.j j .j
2
j
1 i
2
1 i
i. i i.
2
i
q
1 j
.j j
p
1 i
i. i
p
1 i
q
1 j
ij j i
N N
N
Debe tenerse en cuenta que el coeficiente de correlacin de Pearson requiere que la
variable sea continua, medida en una escala al menos de intervalo y que la relacin sea
lineal. Este coeficiente tiene un funcionamiento ptimo cuando se cumplen los supuestos
de normalidad, en caso contrario la idoneidad en su aplicacin disminuye ya que el valor p
(significacin) se construye bajo supuesto de normalidad.
Las correlaciones son medidas de asociacin lineal. Esto significa que dos variables
pueden estar perfectamente relacionadas, pero si la relacin no es lineal, el coeficiente de
correlacin no es un estadstico adecuado para medir su asociacin.
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
44
6.3. Coeficiente de correlacin parcial de Pearson
Mientras que el coeficiente de correlacin lineal de Pearson describe la relacin lineal
existente entre dos variables, el coeficiente de correlacin parcial describe esta relacin
lineal entre dos variables pero controlando los efectos de una o ms variables adicionales,
es decir, eliminando el efecto de esas variables adicionales. Para ello se procede a
calcularlo de forma recursiva partiendo de los niveles de orden ms bajos a los ms altos.
El coeficiente de correlacin parcial de Pearson entre las variables "x" e "y", eliminando el
efecto de "w" se determina como:
) 1 )( 1 (
2 2
wy wx
wy wx xy
w xy
r r
r r r
r
=
El coeficiente de correlacin parcial de Pearson entre las variables "x" e "y", eliminando el
efecto de "w" y de "z" se determina como:
) 1 )( 1 (
2
w yz w xz
w yz w xz w xy
wz xy
r r
r r r
r
=
6.4. Ejemplo de correlacin lineal de Pearson
Se dispone de los datos de tasa de nacimiento y del porcentaje de personas dedicadas a
la agricultura en doce pases. Utilizaremos el fichero de excel Fic_06_01.xls para el
anlisis.
Pais
tasa de
nacimiento
%
agricultura
J apn 9,47 5
Grecia 9,72 12
URRSS 9,8 12,3
Polonia 10,78 16,1
Yugoslavia 12,12 12
Francia 12,15 4,1
Taiwan 12,64 8
China 13,14 49
Irlanda 14,47 8
India 22,32 60
Malasia 23,07 14,5
Filipinas 25,31 36
Figura 59. Tabla de datos fichero Fic_06_01.xls
Se desea realizar conocer la posible existencia de relacin lineal entre las dos variables.
Seguiremos los pasos necesarios en R para alcanzar este objetivo.
6.4.a. Operaciones previas de datos en R. Importacin de datos
Entre las posibilidades de utilizacin de ficheros, consideraremos que los datos han sido
recogidos y almacenados en una tabla de Excel.
En primer lugar procederemos a importar el fichero desde excel Fic_06_01.xls para
realizar los anlisis necesarios en R. Arrancaremos R y utilizaremos el RCommander (ver
manual de R).
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
45
Figura 60. Importacin de datos en EXCEL (I)
Daremos el nombre NacAgr a la nueva base de datos:
Figura 61. Importacin de datos en EXCEL (II)
Buscamos el fichero excel que queremos importar, seleccionndolo:
Figura 62. Importacin de datos en EXCEL (III)
Esto es equivalente a escribir en la ventana de instrucciones:
names(NacAgr) <- make.names(names(NacAgr))
Se produce un aviso en la importacin:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
46
AVISO: NacAgr contains non-standard variable names:
These have been changed to:
tasa.de.nacimiento, X..agricultura
Figura 63. Aviso en la importacin de datos en EXCEL
Si pulsamos en el botn de Editar conjunto de datos podemos comprobar si la
importacin se ha realizado correctamente:
Figura 64. Edicin de datos
Comprobamos que los nombres de las variables han cambiado:
Figura 65. Editor de datos
Si hacemos doble click con el ratn sobre el nombre de la variable tasa.de.nacimiento en
la siguiente ventana podremos cambiar el nombre de la variable:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
47
Figura 66. Cambio de nombre de variable (I)
Sustituimos el nombre de la variable tasa.de.nacimiento por tasanacimiento, pulsando la
tecla de retorno (intro) al finalizar.
Figura 67. Cambio de nombre de variable (II)
Repetimos el proceso para todas las variables:
Figura 68. Cambio de nombre de variable (III)
6.4.b. Operaciones previas de datos en R. Almacenar datos
Una vez finalizado el proceso de importacin, almacenaremos el fichero importado en
formato R. Para ello guardaremos el conjunto de datos activos (en nuestro caso solamente
tenemos un fichero de datos NacAgr) con el nombre NacAgr.rda.
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
48
Figura 69. Guardar datos activos
6.4.c. Operaciones previas de datos en R. Cargar datos
Una vez almacenados los datos en formato R, podrn ser recuperados en cualquier
momento sin necesidad de realizar de nuevo la importacin. Para ello pulsaremos Datos\
Cargar conjunto de datos, y buscaremos el fichero en formato R que deseamos cargar.
Figura 70. Cargar datos en formato R
6.4.d. Representacin grfica de dispersin
La obtencin de grficas de dispersin (tambin denominadas grficos X-Y) puede
realizarse mediante programacin o bien utilizando el mdulo RCommander.
Si optamos por utilizar el RCommander, pulsaremos Grficas\ Grfica XY :
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
49
Figura 71. Grfico X-Y (I)
Seleccionaremos las dos variables que deseamos representar:
Figura 72. Grfico X-Y (II)
El resultado se muestra a continuacin:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
50
Figura 73. Grfico X-Y (III)
Otra posibilidad que proporciona ms informacin es la utilizacin del grfico de dispersin.
Para ello, pulsaremos Grficas\ Diagrama de dispersin:
Figura 74. Grfico de dispersin (I)
Inicialmente seleccionaremos las dos variables que se desean representar:
agricultura
t
a
s
a
n
a
c
i
m
i
e
n
t
o
1
0
1
5
2
0
2
5
10 20 30 40 50 60
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
51
Figura 75. Grfico de dispersin (II)
El resultado con las opciones bsicas del grfico de dispersin es el mismo que el de los
grficos X-Y:
Figura 76. Grfico de dispersin (III)
Entre las opciones que pueden ayudar en la interpretacin de los resultados encontramos
la representacin de los diagramas de caja (box-plot) para cada una de las variables, as
como la representacin de una lnea obtenida por mnimos cuadrados (anlisis de
regresin lineal simple).
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agricultura
t
a
s
a
n
a
c
i
m
i
e
n
t
o
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
52
Figura 77. Grfico de dispersin (IV)
El resultado se muestra a continuacin:
Figura 78. Grfico de dispersin (V)
Para copiar los grficos obtenidos posicionaremos el cursor sobre el grfico y utilizando el
botn derecho del ratn lo copiaremos como metafichero:
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agricultura
t
a
s
a
n
a
c
i
m
i
e
n
t
o
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
53
Figura 79. Copiar grfico al portapapeles
El grfico estar en el portapapeles. Para pegarlo en nuestro procesador de textos
utilizaremos la opcin de pegar. Otra posibilidad es la de guardar el grfico en un fichero
e importarlo posteriormente con el procesador de textos.
Podemos tambin representar en el grfico cada individuo (cada punto). Para ello habr
que seleccionar Identificar observaciones:
Figura 80. Identificacin de individuos en diagrama de dispersin (I)
El programa nos informa que para activar el identificador de un punto nos posicionemos
sobre ese punto y pulsemos el botn izquierdo del ratn:
Figura 81. Identificacin de individuos en diagrama de dispersin (II)
En la siguiente figura podemos observar cmo cada caso o individuo aparece indicado con
el nmero de lnea correspondiente en la base de datos:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
54
Figura 82. Identificacin de individuos en diagrama de dispersin (III)
En el caso de que deseemos que en vez de los puntos aparezca el identificador del pas
(el nombre del pas, por ejemplo), deberemos definir previamente qu columna
corresponde al identificador. Para ello, pulsaremos Datos\ Conjunto de datos activo\
Establecer nombres de casos:
Figura 83. Establecer nombres de casos (I)
Figura 84. Establecer nombres de casos (II)
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agricultura
t
a
s
a
n
a
c
i
m
ie
n
t
o
1
2
3
4
5
6
7
8
9
10
11
12
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
55
Figura 85. Identificacin de individuos en diagrama de dispersin (IV)
6.4.e. Correlacin lineal de Pearson
Una vez cargado el fichero con los datos, pulsaremos Estadsticos\ Resmenes\ Matriz de
correlaciones
Figura 86. Obtencin de la matriz de correlacines (I)
A continuacin procederemos a la seleccin de variables. Si se seleccionan ms de dos
variables se obtendr una matriz que mostrar todas las combinaciones con las
correlaciones. La seleccin de p-valor pareado proporcionar el valor p correspondiente
al coeficiente seleccionado para el nmero de casos o individuos analizados, en nuestro
caso doce pases.
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agricultura
t
a
s
a
n
a
c
i
m
i
e
n
t
o
J apn
Grecia
URRSS
Polonia
Yugoslavia
Francia
Taiwan
China
Irlanda
India
Malasia
Filipinas
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
56
Figura 87. Obtencin de la matriz de correlacines (II)
El proceso realizado a travs de las ventanas de RCommander es equivalente a escribir en
la ventana de instrucciones:
library(Hmisc, pos=4)
rcorr.adjust(NacAgr[,c("agricultura","tasanacimiento")], type="pearson")
Los resultados indican una correlacin positiva entre las dos variables de +0.56 y un valor
p de +0.0562. Para un nivel de significacin de alfa 0.05 (error Tipo I, prueba bilateral), el
valor p obtenido (0.0562) es mayor que alfa (0.05), por lo que no rechazaremos la hiptesis
nula de que la correlacin lineal de Pearson es cero. Expresado de otra forma, no
rechazamos la hiptesis nula de que la correlacin lineal existente de +0.56 sea
estadsticamente diferente de cero, no rechazamos que haya podido producirse por causas
aleatorias.
agr i cul t ur a t asanaci mi ent o
agr i cul t ur a 1. 00 0. 56
t asanaci mi ent o 0. 56 1. 00
n= 12
agr i cul t ur a t asanaci mi ent o
agr i cul t ur a 0. 0562
t asanaci mi ent o 0. 0562
Adj ust ed p- val ues ( Hol m' s met hod)
agr i cul t ur a t asanaci mi ent o
agr i cul t ur a 0. 0562
t asanaci mi ent o 0. 0562
Figura 88. Resultados del coeficiente de correlacin lineal de Pearson
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
57
REGRESIN LINEAL SIMPLE
En el estudio bidimensional de dos variables, frecuentemente consideramos la posibilidad
de que la relacin entre la variable dependiente (explicada) y una variable independiente
(explicativa) sea lineal. Generalmente esta consideracin permite el buen funcionamiento
de un modelo de regresin mltiple, a pesar de que las relaciones no sean estrictamente
lineales. En el caso de tener un modelo con tan slo una variable independiente la
Dentro del estudio de la linealidad entre variables, comenzaremos con las
representaciones grficas, cuantificando numricamente esta relacin con el coeficiente de
correlacin lineal de Pearson y finalmente la utilizacin del coeficiente de correlacin
parcial.
El anlisis de regresin lineal simple es el caso ms sencillo de anlisis de regresin y
parte de la determinacin de una variable dependiente a partir del conocimiento de una
variable independiente de la forma:
n i x y
i i i
,..., 2 , 1 = + + =
La obtencin de los parmetros generalmente se realiza utilizando mnimos cuadrados
ordinarios, buscando que los valores de alfa y beta minimicen los residuos al cuadrado.
Para ello, partimos de la definicin de una funcin de densidad de las perturbaciones
aleatorias:
( )
)
=
2
2
2
1
2
2
1
) (
i
e f
i
Teniendo en cuenta que las perturbaciones son independientes entre s, la funcin de
densidad conjunta de las n perturbaciones se define como el producto de las n funciones
de densidad:
= =
=
n
i
n n
i
n
i
i
e f L
1
2
1
2
1
2
2
2
1
) (
En la funcin de regresin lineal simple:
n i x y
i i i
,..., 2 , 1 = + + =
Se despeja el error: n i x y
i i i
,..., 2 , 1 = =
Sustituyendo el error en la funcin de densidad conjunta obtenemos:
= =
=
n
i
x y
n n
i
n
i
i i
e f L
1
) (
2
1
2
1
2
2
2
1
) (
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
58
Aplicando logaritmos neperianos a la funcin:
( ) ( )
(
(
(
= =
=
n
i
x y
n
n
i
n
i
i i
e Ln f Ln L Ln
1
) (
2
1
2 /
2 2 /
1
2
2
2 ) (
=
=
n
i
i i
x y Ln
n
Ln
n
L Ln
1
2
2
2
) (
2
1
) (
2
) 2 (
2
Y derivando la expresin respecto de alfa, beta e igualando a cero se obtiene:
= = =
= =
n
i
i i
n
i
i i
x y x y
L Ln
1 1
2
0 ) ( 0 ) (
2
1
= = =
= =
n
i
i i i
n
i
i i i
x x y x x y
L Ln
1 1
2
0 ) )( ( 0 ) )( (
2
1
A partir de las dos ecuaciones normales anteriores y despejando en ellas se determinan
los valores de beta y alfa:
2
x
xy
S
S
= , y x y =
Derivando respecto a la varianza de las perturbaciones e igualando a cero:
( )
= = + =
= =
n
i
i i
n
i
i i
x y x y
n n L Ln
1
2 2
1
2
2
2
2 2
) ( 0 ) (
2
2
Luego:
2 2
) (
n x y
i i
=
Por lo que ( ) ( )
= =
= =
n
i
i
n
i
i i
e
n
x y
n
1
2
1
2 2
1 1
Pero este estimador es sesgado, sustituyndose por ( )
=
n
i
i
e
n
1
2 2
2
1
De esta forma, es posible construir la funcin de regresin lineal que relaciona las dos
variables: X Y + = .
7.1. Fases en el anlisis de regresin lineal simple
En primer lugar hay que indicar que una fase previa a todo anlisis de regresin debiera
ser la representacin grfica de las variables para determinar si existe o no linealidad para
las relaciones entre la variable dependiente y cada una de las independientes, as como el
estudio de las correlaciones lineales entre ellas. Suelen establecerse las siguientes fases
dentro de un anlisis de regresin:
1. Anlisis grfico y de las correlaciones lineales
2. Bondad global del modelo
3. Anlisis relacionados con la variable independiente
4. Anlisis relacionados con la variable dependiente. Valores pronosticados
5. Anlisis de los residuos
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
59
6. Estadsticos de influencia, "leverage" o apalancamiento. Casos atpicos
7. Autocorrelacin
A continuacin desarrollaremos las tres primeras fases.
7.2. Anlisis de las correlaciones
Una vez realizada la representacin grfica es posible obtener los estadsticos descriptivos
y la matriz de correlaciones con el fin de detectar si existe relacin y en caso afirmativo si
es lineal. La correlacin entre la variable dependiente y la independiente en un anlisis de
regresin lineal simple, evidentemente, debe ser grande. Hay que tener en cuenta que el
nivel de significacin depende del tamao muestral, por lo que podemos encontrar que
correlaciones bajas pero con un tamao muestral grande sean significativas, mientras que
correlaciones mayores no lo sean si el tamao muestral es pequeo.
No obstante, es recomendable realizar la representacin grfica a pesar de haber
comprobado la existencia de relacin lineal.
7.3. Bondad global del modelo
La bondad global del modelo indica el grado con el que la variable independiente puede
predecir a la variable dependiente. Este anlisis es posible efectuarlo a partir del estudio
de diversos estadsticos. En primer lugar, a partir de la F de Snedecor-Fisher (cociente
entre la media cuadrtica explicada por la regresin y la no explicada o residual) y su valor
p asociado:
ANOVA(b)
Modelo Suma de cuadrados gl Media cuadrtica F Sig.
1
Regresin 35877,712 1 35877,712 63,840 ,000(a)
Residual 7305,888 13 561,991
Total 43183,600 14
a Variables predictoras: (Constante), X
b Variable dependiente: Y
Figura 89. ANOVA en el anlisis de regresin
Se busca dividir la varianza total de la variable dependiente en dos partes: la varianza
explicada por la regresin y la varianza residual. De esta forma, la suma de cuadrados
totales es igual a la suma de cuadrados de la regresin ms la residual. Teniendo en
cuenta que la varianza de la variable dependiente es constante e independiente del
modelo que hayamos elegido, el objetivo se centra en conseguir un modelo que,
lgicamente, tenga una suma de cuadrados explicada (de la regresin) grande y una suma
de cuadrados residual (errores) pequea. Para la tabla anterior la suma de cuadrados
totales se descompone de la siguiente forma:
Suma de cuadrados totales (43183,6) =
Suma de cuadrados regresin (35877,712) +Suma de cuadrados residuales (7305,888)
La suma de cuadrados total del modelo es igual a la varianza de la variable
dependiente por (N-1). Por lo tanto, la suma de cuadrados total es independiente del
modelo construido. Se define como:
( )
2 '
2
1
Y N Y Y Y Y TOTAL SC
N
i
i
= =
=
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
60
La suma de cuadrados explicada por la regresin se define como
( )
2 '
2
1
Y N Y Y Y Y SCRegr
N
i
i
= =
=
, o tambin como
2 2
) 1 (
y
S N R SCRegr =
Cuanto mayor sea la suma de cuadrados explicada por la regresin mejor ser la bondad
del modelo. Se observa en la tabla que el valor del coeficiente de determinacin R
2
, que se
definir a continuacin, es de 0,831, N el nmero de observaciones (15). La varianza de la
variable dependiente es de 3084,543 obtenida a partir de los estadsticos descriptivos en la
siguiente tabla:
Estadsticos descriptivos
Media Varianza Desviacin tp. N
Y 176,40 3084,543 55,54 15
X 66,60 310,4 17,62 15
Figura 90. Estadsticos descriptivos en el Anlisis de Regresin
Por lo que la suma de los cuadrados explicada por la regresin ser igual a:
7 , 35877 543 , 3084 ) 1 15 ( 830817 , 0 = = SCRegr . Se considera que el modelo tiene un
grado de libertad, ya que hay una variable independiente en el mismo.
La suma de cuadrados no explicada por la regresin se define como
( )
2
1
=
=
N
i
i i
Y Y SCErr , o bien,
2 2
) 1 )( 1 (
y
S N R SCErr = con N-1 grados de libertad.
Para el ejemplo de la tabla 886 , 7305 543 , 3084 ) 1 15 )( 830817 , 0 1 ( = = SCErr
Los grados de libertad totales son 14 (15 observaciones 1). Por lo tanto, los grados
residuales de la regresin sern 14 grados de libertad totales 1 =13 grados de libertad.
Evidentemente, cuanto mayor sea la suma de cuadrados no explicada por la regresin
peor ser la bondad del modelo.
Medias cuadrticas
Frecuentemente el anlisis de la parte explicada y sin explicar de los distintos modelos no
se realiza sobre las sumas de cuadrados ya que los modelos pueden tener grados de
libertad distintos en funcin del nmero de variables que intervengan. Por ello suelen
utilizarse las medias cuadrticas que consideran ambos aspectos.
Las medias cuadrticas se definen como la suma de cuadrados entre los grados de
libertad: gl SC = MC , obteniendo dos medias cuadrticas, una para la regresin
(explicada) y otra residual (sin explicar).
As, por ejemplo, podemos calcular la media cuadrtica residual de la regresin de la tabla
anterior:
7 , 35877
1
7 , 35877
= = MCRegr y 991 , 561
13
888 , 7305
= = MCErr
F de Snedecor-Fisher
La F de Snedecor se define como el cociente entre MC regresin y la MC residuos:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
61
) 1 1 , 1 ( ~
2) - (N (errores)/ residual Cuadrados Suma
)/1 (explicada regresin Cuadrados Suma
MCErr
MCRegr
F = = N F
) 1 1 15 , 1 ( ~ 840 , 63
13 / 7305,888
)/1 (explicada regresin Cuadrados Suma
561,991
35877,12
F = = = F
Cuanto mayor sea la F el ajuste ser mejor. Valdr cero cuando la MC regresin sea cero,
es decir, cuando la variable independiente no pueda explicar nada de la dependiente.
Como la interpretacin de la F depende de los grados de libertad es ms aconsejable el
anlisis del valor p asociado a la F. En el caso de la tabla, el valor p es igual a cero, por lo
que la bondad global del modelo es buena, se produce el rechazo de la hiptesis nula de
que la relacin entre la variable dependiente e independiente se deba a causas aleatorias.
Expresado de otra forma, se rechaza la hiptesis nula de que la F sea igual a cero.
El coeficiente de determinacin R
2
Se define el coeficiente de determinacin como el porcentaje de la varianza de la variable
dependiente que es explicado por la independiente. Se define como la varianza explicada
entre la varianza total:
2
y
2
y
2
S
S
= R o bien:
total cuadrados de Suma
regresin la por explicada cuadrados de Suma
2
= R
Esta expresin es equivalente para el caso lineal a definir el coeficiente de determinacin
como:
TOTAL SC
SCErr
1
2
= R
Por lo tanto, tambin es posible estudiar la bondad global del modelo a partir del
coeficiente de determinacin, que es el cuadrado del coeficiente de correlacin mltiple. En
la tabla la R
2
(0,831) es igual a 0,911 al cuadrado.
Evidentemente, los lmites del coeficiente de determinacin se encuentran en cero y uno.
Si el coeficiente toma un valor de cero la suma de cuadrados explicada por la regresin es
nula, es decir, la variable independiente explica el cero por ciento de la variable
dependiente. En el caso extremo de que el coeficiente tome valor de uno, la suma de
cuadrados explicada por la regresin es igual a la suma de cuadrados total, es decir, el
cien por cien de la variable dependiente es explicado por la variable independiente.
Una vez determinadas las predicciones de la funcin lineal se obtuvo que la varianza de
los pronsticos es de 2562,694 (varianza explicada). Al ser la varianza de la variable
original igual a 3084,543 es posible obtener R
2
como:
830817 , 0
543 , 3084
694 , 2562
S
S
2
y
2
y
2
= = = R o bien como:
830817 , 0
6 , 43183
712 , 35877
total cuadrados de Suma
regresin la por explicada cuadrados de Suma
2
= = = R
830818 , 0
43183,6
7305,888
1
TOTAL SC
SCErr
1
2
= = = R
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
62
R
2
ajustada o corregida
Se define la R cuadrado ajustada, tambin denominada como corregida:
1
) 1 (
2
2 2
=
p N
R p
R ajustada R
En esta frmula R
2
es el coeficiente de determinacin, N el nmero de observaciones o
individuos y p el nmero de variables independientes en el modelo, en el caso de regresin
lineal es igual a uno.
Es muy importante la interpretacin que hay que dar a la R cuadrado ajustada, ya que este
coeficiente tiene un doble objetivo:
- Busca ponderar positivamente la existencia de un elevado nmero de observaciones (o
negativamente un nmero bajo) como se puede observar en el denominador. Si N es
grande la R cuadrado ajustada tiende a ser igual que la R cuadrado. A medida que la N es
ms pequea las diferencias tienden a ser mayores para igualdad de valores de p.
- Tambin busca ponderar negativamente la inclusin de un nmero excesivo de variables
en el modelo. En un anlisis de regresin se persigue cumplir el principio de parsimonia, es
decir, obtener una varianza explicada lo ms grande posible utilizando el mnimo nmero
de variables independientes en el modelo. De esta forma, la inclusin de una variable
independiente ms en el modelo que no explique nada ms de la variable dependiente
supone que R
2
permanece constante, mientras que la R
2
ajustada disminuye. Es posible
que incluso aumentando R
2
, la R
2
ajustada disminuya. As, la R
2
ajustada se convierte en
un instrumento para la evaluacin de las variables que deben encontrarse en el modelo.
En el caso de la regresin lineal simple este problema slo se plantea para una variable.
Por lo tanto en nuestro ejemplo:
818 , 0
1 1 15
) 831 , 0 1 ( 1
831 , 0
1
) 1 (
2
2 2
=
=
p N
R p
R ajustada R
El error estndar de la prediccin, tambin denominado error tpico, se define como:
ajustada R Sy Estndar Error
2
1 =
Cuanto peor sea el ajuste menor ser la R cuadrado ajustada y por lo tanto el error
estndar ser mayor. En nuestro caso el Error estndar ser:
71 , 23 818 , 0 * 1
2
= = Sy ajustada R Sy ; siendo S
y
=55,54
7.4. Anlisis relacionados con la variable independiente
Una vez obtenido un modelo de regresin que ajuste de forma adecuada o suficiente
segn la bondad del ajuste global, se debe a continuacin contrastar la validez de los
estimadores o coeficientes.
El coeficiente no estandarizado B
Indica los parmetros de la funcin de regresin. En este caso de regresin lineal simple la
ecuacin de regresin tomar la forma:
Y =-14,965 +2,873 X
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
63
En el modelo de regresin lineal simple el coeficiente no estandarizado de la variable X
denominado B1 es la pendiente de la recta, luego:
2
1
x
S
Sxy
B = y la constante X B Y B
1 0
=
La hiptesis nula que se contrastar es que el coeficiente es igual a cero. Si se rechaza la
hiptesis nula podemos considerar que el coeficiente es estadsticamente diferente de cero
y por lo tanto adecuado para intervenir en el modelo. El valor p (Sig.) es igual a cero para
la variable independiente, luego es estadsticamente diferente de cero. En el caso de la
constante el valor p es igual a 0,555 por lo que esta constante no es estadsticamente
diferente de cero, luego no es adecuada para formar parte del modelo, lo que se traduce
en muchos casos en una mala prediccin.
El error tpico de B se calcula como:
( )
2
1
X
B
S p N
=
, siendo
2
X
S la varianza de la variable independiente y la desviacin
tpica poblacional que se estima a partir de:
( )
Error del Cuadrtica Media
1 1
2
1
1 0
=
=
=
=
p N
SCError
p N
x B B y
N
i
i i
Teniendo en cuenta que en el caso de regresin lineal simple el nmero de variables
independientes (p) es igual a uno, las expresiones quedaran:
( )
2
1
1
X
B
S N
=
, y
( )
Error del Cuadrtica Media
2 2
2
1
1 0
=
=
=
N
SCError
N
x B B y
N
i
i i
En nuestro ejemplo
( )
991 , 561
13
888 , 7305
2 1
2
1
1 0
2
= =
=
=
=
N
SCError
p N
x B B y
N
i
i i
( )
360 , 0
62 , 17 1 15
991 , 561
2
1
=
=
B
A mayores errores tpicos del coeficiente le corresponden mayores variabilidades del
mismo, es decir, un intervalo de confianza para el coeficiente tambin ms grande.
El coeficiente estandarizado (Beta) se obtiene como:
Sy
Sx
B BETA
i
i i
=
El coeficiente Beta nos permite una primera aproximacin al conocimiento de la
importancia de cada variable independiente en el modelo, ya que las B pueden estar
medidas en diferentes unidades. De esta forma, tipificando la variable dependiente gasto
(zgasto), se puede establecer la ecuacin de regresin tipificada:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
64
zgasto=0,887 zX, siendo zX la variable tipificada de X. En el ejemplo estudiado se puede
calcular el coeficiente de Beta para la variable independiente como:
11 9 , 0
54 , 55
62 , 17
873 , 2
1 1
= = =
Sy
Sx
B BETA
El valor de t de Student
Se obtiene con el cociente entre Bi y el error estndar de Bi de la siguiente forma:
i
i
i
SEB
B
t =
La interpretacin de la t se realiza a partir del valor p asociado. En nuestro caso la t de la
variable X (7,990) es significativa, se rechaza la hiptesis nula (valor p igual a cero) y por lo
tanto la variable X es vlida para nuestro modelo. Sin embargo la constante no es
significativa (t igual a -,605 y valor p igual a 0,109). Tambin es posible establecer la
relacin:
CAMBIO F Student de t
i i
=
Intervalo de confianza
Los programas informticos suelen ofrecer el intervalo de confianza al 95% para los
coeficientes, donde puede observarse la gran variabilidad en este caso de la constante, lo
que implica que no es adecuada para el modelo lineal. El intervalo de confianza se calcula
como:
p N B
t B
, 025 . 0 1 1
En nuestro ejemplo, 160 , 2
13 , 025 . 0
= t , luego
096 , 2 160 , 2 360 , 0 873 , 2
, 025 . 0 1 1
= =
p N B
t B
650 , 3 160 , 2 360 , 0 873 , 2
1 , 025 . 0 1 1
= + = +
p N B
t B
36 , 68 160 , 2 720 , 24 965 , 14
2 , 025 . 0 0 0
= =
N B
t B
43 , 38 160 , 2 720 , 24 965 , 14
2 , 025 . 0 0 0
= + = +
N B
t B
El intervalo para B1 es [+2,096 ; 3,650], constatndose que el valor de cero no se
encuentra dentro del intervalo, es decir, que B
1
es significativamente distinto de cero, y por
lo tanto la variable independiente es adecuada para el anlisis de regresin.
Por el contrario, la constante tiene un valor de 14,965 que se encuentra dentro del
intervalo [-64,36 ; 38,43], luego no es significativamente distinta de cero y no es adecuada
en el modelo.
Anlisis de los signos
Una de las comprobaciones que deben hacerse sobre las variables independientes hace
referencia al signo de los coeficientes. El signo de una variable independiente debe ser
compatible con la naturaleza de la variable, por ejemplo, no puede haber signo negativo en
una variable que no puede tomar esos valores ni tampoco puede tener un signo que
indique el sentido contrario a la relacin con la variable dependiente, si la relacin entre
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
65
ambas es positiva no tiene sentido que el coeficiente sea negativo. En el caso del anlisis
de regresin lineal simple el signo del coeficiente en la regresin es el mismo que el
obtenido para el anlisis de correlacin lineal de Pearson, pero en el caso de regresin
lineal mltiple podemos encontrar signos distintos para la misma variable.
7.5. Ejemplo anlisis de regresin lineal simple en R
Utilizaremos el fichero de excel Fic_06_01.xls que hemos analizado en el apartado 3, en
el que se dispone de los datos de tasa de nacimiento y del porcentaje de personas
dedicadas a la agricultura en doce pases. Dentro de las siete fases sealadas en el
anlisis de regresin lineal simple, la primera (Anlisis grfico y de las correlaciones
lineales) ya fue realizada anteriormente.
El objetivo es la construccin de una funcin de regresin lineal simple de la forma
X Y + = , en la que Y es la variable que se quiere predecir (en nuestro caso la tasas
de nacimiento) a partir del conocimiento de X (porcentaje de agricultura).
Figura 91. Anlisis de regresin lineal simple en R
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
66
A continuacin aparecer una ventana en la que se seleccionarn las variables.
Figura 92. Seleccin de variables en Anlisis de regresin lineal simple en R
En la parte superior daremos un nombre al modelo que vamos a construir. Esta fase es
importante, porque posteriormente podremos recuperar informacin que R no proporciona
directamente por defecto. Como variable explicada (Y) elegimos la tasa de nacimiento y
como variable explicativa (X) seleccionamos la agricultura.
Pulsando el botn de aceptar, R enviar los principales resultados a la ventana de
resultados de RCommander.
La funcin completa en R para realizar modelos de regresin lineales se define como:
lm (formula, data, subset, weights, na.action, method ="qr", model =T, x =F, y =F,
qr =T, singular.ok =T, contrasts =NULL, offset, ...)
Los principales argumentos que se utilizan en la funcin son:
formula: Definicin del modelo que se quiere construir. Para el caso de regresin
lineal simple la expresin es lm(y ~x). Para el caso en el que se desee forzar a que
la regresin pase por el origen (constante igual a cero), la expresin ser igual a
lm(y ~0+x).
weights: Un vector de pesos que puede ser utilizado si la ponderacin de cada caso
es diferente. Por defecto todos los casos tienen el mismo peso.
na.action: Especificacin de lo que debe hacer la funcin lm() cuando encuentre
datos ausentes o no disponibles del tipo NaN.
method: Mtodo a usar en el modelo para elegir variables independientes. En el
caso de regresin lineal simple tan solo hay una variable independiente, por lo que
no procede especificar esta opcin.
En trminos generales, la construccin de la funcin x y + = se definira como lm(y~x).
El procedimiento realizado grficamente es equivalente a dos instrucciones:
ModelLin <- lm(tasanacimiento~agricultura, data=NacAgr)
summary(ModelLin)
Los resultados se muestran a continuacin:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
67
Resi dual s:
Mi n 1Q Medi an 3Q Max
- 6. 532 - 3. 247 - 0. 506 1. 033 9. 401
Coef f i ci ent s:
Est i mat e St d. Er r or t val ue Pr ( >| t | )
( I nt er cept ) 11. 14595 2. 12960 5. 234 0. 000382 ***
agr i cul t ur a 0. 17400 0. 08061 2. 159 0. 056242 .
- - -
Si gni f . codes: 0 ' ***' 0. 001 ' **' 0. 01 ' *' 0. 05 ' . ' 0. 1 ' ' 1
Resi dual st andar d er r or : 4. 9 on 10 degr ees of f r eedom
Mul t i pl e R- squar ed: 0. 3179, Adj ust ed R- squar ed: 0. 2496
F- st at i st i c: 4. 66 on 1 and 10 DF, p- val ue: 0. 05624
Resul t ados del anl i si s de r egr esi n l i neal si mpl e en R ( I )
Figura 93. Resultados del Anlisis de regresin lineal simple en R (I). Bondad global del modelo
En cualquier momento se puede recuperar esta informacin tecleando en la ventana de
instrucciones:
coef(ModelLin)
print(ModelLin)
7.5.a. Bondad global del modelo
De los resultados obtenidos en R se obtiene la La F de Snedecor (F-Statistic) y que se
define como el cociente entre MC regresin (con un grado de libertad porque hay
solamente una variable independiente) y la MC residuos (con 10 grados de libertad que se
calculan como el nmero de casos 12 menos el nmero de grados de libertad del modelo o
variables independientes que en nuestro caso es igual a uno y menos uno). La F es igual a
4.66 con un valor p igual a 0.05624, por lo que la bondad global del modelo no es buena,
ya que no se produce el rechazo de la hiptesis nula de que la relacin entre la variable
dependiente e independiente se deba a causas aleatorias. Expresado de otra forma, no se
rechaza la hiptesis nula de que la F sea igual a cero.
Se define el coeficiente de determinacin R
2
definido como el porcentaje de la varianza de
la variable dependiente que es explicado por la independiente es igual a 0.3179, es decir
que la variabe independiente (agricultura) no llega a explicar el 32% de la variable
dependiente (tasa de nacimiento). La R
2
ajustada es igual a 0.2496, es decir, un porcentaje
bajo a la hora de la explicacin de la variable dependiente.
Para obtener la tabla del anlisis de la varianza con las de cuadrados deberemos escribir
en la ventana de instrucciones:
anova(ModelLin)
El resultado se muestra a continuacin:
Anal ysi s of Var i ance Tabl e
Response: t asanaci mi ent o
Df SumSq Mean Sq F val ue Pr ( >F)
agr i cul t ur a 1 111. 87 111. 867 4. 6596 0. 05624 .
Resi dual s 10 240. 08 24. 008
- - -
Si gni f . codes: 0 ' ***' 0. 001 ' **' 0. 01 ' *' 0. 05 ' . ' 0. 1 ' ' 1
Figura 94. Resultados del Anlisis de regresin lineal simple en R (II). Bondad global del modelo
7.5.b. Anlisis relacionados con la variable independiente
La funcin de regresin lineal simple X Y + = , siendo Y la tasa de nacimiento y X la
agricultura puede escribirse utilizando los coeficientes obtenidos como:
X Y 174 . 0 14595 . 11 + =
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
68
Coef f i ci ent s:
Est i mat e St d. Er r or t val ue Pr ( >| t | )
( I nt er cept ) 11. 14595 2. 12960 5. 234 0. 000382 ***
agr i cul t ur a 0. 17400 0. 08061 2. 159 0. 056242 .
- - -
Si gni f . codes: 0 ' ***' 0. 001 ' **' 0. 01 ' *' 0. 05 ' . ' 0. 1 ' ' 1
Figura 95. Resultados del anlisis de regresin lineal simple en R (III). Variable independiente
R nos muestra el error tpico de los coeficientes
i
SEB , as como el valor de la t de Student
i i i
SEB B t = . Se obtiene un valor t para cada coeficiente.
La interpretacin de la t se realiza a partir del valor p asociado. En nuestro caso la t de la
constante (11.14595) toma un valor de 5.234 y un valor p de 0.000382, por lo que es
significativa, se rechaza la hiptesis nula (valor p igual a cero) y por lo tanto la constante es
vlida en nuestro modelo. En referencia al valor de la pendiente o coeficiente de la variable
independiente que toma un valor de 0.174 alcanza un valor para la t de 2.159 y un valor p
de 0.056242 que es mayor que un error Tipo I de 0.05, por lo que no es significativamente
diferente de cero y tendremos que rechazar este modelo como vlido.
Por lo tanto, no se rechaza la hiptesis nula para el coeficiente de la variable
independiente H
0
: = 0.
El intervalo de confianza de los coeficientes de la variable independiente pueden obtenerse
tecleando en la ventana de instrucciones:
confint(ModelLin)
2. 5 % 97. 5 %
( I nt er cept ) 6. 400913680 15. 8909948
agr i cul t ur a - 0. 005604835 0. 3536095
Figura 96. Resultados del Anlisis de regresin lineal simple en R (III). Intervalos de confianza coeficientes
7.5.c. Valores pronosticados
Para obtener los valores pronosticados de la funcin obtenida X Y 174 . 0 14595 . 11 + = ,
escribiremos en la ventana de instrucciones:
predict(ModelLin)
El resultado se muestra a continuacin:
J apn Gr eci a URRSS Pol oni a Yugosl avi a Fr anci a Tai wan
12. 01597 13. 23398 13. 28618 13. 94739 13. 23398 11. 85936 12. 53797
Chi na I r l anda I ndi a Mal asi a Fi l i pi nas
19. 67207 12. 53797 21. 58609 13. 66899 17. 41004
Figura 97. Resultados del Anlisis de regresin lineal simple en R (IV). Valores pronosticados
Se pueden guardar los valores pronosticados en una nueva variable que denominaremos
ajustados, escribiendo en la ventana de instrucciones:
ajustados =fitted(ModelLin).
7.5.d. Residuos
Se puede obtener los residuos definidos como el valor observado menos el valor terico
tecleando en la ventana de instrucciones:
residuals(ModelLin)
El resultado se muestra a continuacin:
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
69
J apn Gr eci a URRSS Pol oni a Yugosl avi a Fr anci a Tai wan
- 2. 5459658 - 3. 5139820 - 3. 4861827 - 3. 1673915 - 1. 1139820 0. 2906363 0. 1020272
Chi na I r l anda I ndi a Mal asi a Fi l i pi nas
- 6. 5320678 1. 9320272 0. 7339068 9. 4010122 7. 8999624
Figura 98. Resultados del Anlisis de regresin lineal simple en R (V). Residuos
Frecuentemente necesitaremos guardar estos residuos como si fuera una nueva variable
para comprobar hiptesis como la normalidad. Para ello escribiremos en la ventana de
instrucciones:
residuos =resid(ModelLin).
Para comprobar que los residuos han sido almacenados tecleamos print(residuos).
7.5.e. Grficos
Para realizar grficos bidimensionales se utilizar la instruccin plot, especificando las dos
variables que se desean representar.
Por ejemplo, para representar los valores pronosticados y los residuos, escribiremos en la
ventana de instrucciones:
ajustados =fitted(ModelLin)
residuos =residuals(ModelLin)
plot(ajustados, residuos)
Figura 99. Grfico valores pronosticados - residuos
Para obtener la representacin de los valores originales:
12 14 16 18 20
-
5
0
5
1
0
ajustados
r
e
s
i
d
u
o
s
Manual de Lenguaje R (I). Enero 2012. Ramn lvarez Esteban
70
agric <-NacAgr$agricultura
nacim <-NacAgr$tasanacimiento
plot(agric, nacim)
Figura 100. Grfico valores originales
Si deseamos representar conjuntamente los datos originales con la lnea de regresin
escribiremos en la ventana de instrucciones:
agric <-NacAgr$agricultura
nacim <-NacAgr$tasanacimiento
plot(agric, nacim)
abline(ModelLin)
Para obtener ayuda sobre la funcionalidad del anlisis de regresin lineal en R es posible
teclear en la ventana de instrucciones:
?lm
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agric
n
a
c
i
m
10 20 30 40 50 60
1
0
1
5
2
0
2
5
agric
n
a
c
i
m